CN108958970A

CN108958970A - 一种数据恢复方法、服务器和计算机可读介质

Info

Publication number: CN108958970A
Application number: CN201810535633.0A
Authority: CN
Inventors: 金朴堃; 杨潇
Original assignee: New H3C Technologies Co Ltd
Current assignee: New H3C Technologies Co Ltd
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2018-12-07
Anticipated expiration: 2038-05-29
Also published as: CN108958970B

Abstract

本发明提供了一种数据恢复方法、装置、服务器和计算机可读介质，涉及计算机的技术领域，该方法包括：在第一OSD确定出自身处于数据落后状态之后，基于Ceph集群中的目标PG所对应的OSD发生变化的各个历史阶段时期确定OSD序列；在OSD序列中查找目标OSD，其中，目标OSD中关系图OSD Map的版本值与Ceph集群监控器中关系图OSD Map的版本值相同；如果查找到目标OSD，则在OSD序列中选择权威OSD，并基于权威OSD对待恢复OSD进行数据恢复操作，本申请缓解了通过现有的数据恢复方法对Ceph集群进行数据恢复时由于错误的选择权威OSD导致的数据恢复异常的技术问题。

Description

一种数据恢复方法、服务器和计算机可读介质

技术领域

本发明涉及计算机的技术领域，尤其是涉及一种数据恢复方法、服务器和计算机可读介质。

背景技术

随着信息技术的飞速发展，信息数据量也是爆炸式增长。为了安全灵活可靠的对上述大量信息数据进行存储，分布式存储系统Ceph就是一个能很好解决以上问题的开源分布式存储系统。作为一个面向大规模的分布式存储系统，Ceph存储集群可以在节点失效时候正常提供对外业务服务，这得益于Ceph中归置组(Placement Group，简称PG)组件。PG是Ceph中的逻辑存储单元，当有数据存储到集群中时，数据会被划分成若干对象，第一次采用哈希hash算法先将对象映射到PG上，然后再采用crush算法将PG映射到OSD(ObjectStorage Device，对象存储设备)上，这样数据就会被写到对应的OSD上。

Ceph集群可以应付一定程度的节点异常情况。在写数据时，Ceph集群会采用副本技术或者是纠删码技术来存储数据。但是，Ceph集群在运行中不可避免地会出现设备节点异常的情况，会导致PG的各个副本间的数据存在不一致的情况，这样就会进行数据的恢复工作。Ceph集群依靠PG来进行数据的恢复操作，可以有效应对部分节点异常情况，从而保证集群数据存储的可靠性。

但是，在Ceph集群运行中，某些情况下会错误地选择版本落后的节点OSD作为权威OSD构建出落后的权威PG log(也即，PG日志)，这样就会导致Ceph集群数据以错误的PG log为参考来进行恢复，从而导致Ceph集群数据异常，无法对外正常提供存储业务服务。

发明内容

有鉴于此，本发明的目的在于提供一种数据恢复方法、装置、服务器和计算机可读介质，以缓解了通过现有的数据恢复方法对Ceph集群进行数据恢复时由于错误的选择权威OSD导致的数据恢复异常的技术问题。

第一方面，本发明实施例提供了一种数据恢复方法，所述方法包括：在第一OSD确定出自身处于数据落后状态之后，基于Ceph集群中的目标PG所对应的OSD发生变化的各个历史阶段时期确定OSD序列；所述数据落后状态表示与第二OSD相比，第一OSD中存储的目标PG的副本落后于第二OSD中存储的目标PG的副本，第一OSD和第二OSD均为目标PG所对应的OSD，所述OSD序列中的OSD用于存储所述目标PG的副本，且在Ceph集群中处于标准工作状态；在所述OSD序列中查找目标OSD，其中，所述目标OSD中关系图OSD Map的版本值与所述Ceph集群监控器中关系图OSD Map的版本值相同；如果查找到所述目标OSD，则在所述OSD序列中选择权威OSD，并基于所述权威OSD对待恢复OSD进行数据恢复操作。

进一步地，在所述OSD序列中查找目标OSD之前，所述方法还包括：判断所述OSD序列中OSD的数量是否为多个；如果判断出所述OSD序列中OSD的数量是为多个，则判断所述OSD序列中是否存在所述目标OSD；其中，如果判断出OSD序列中存在所述目标OSD，则在所述OSD序列中选择权威OSD，并基于所述权威OSD对待恢复OSD进行数据恢复操作。

进一步地，如果判断出所述OSD序列中的OSD的数量为一个，所述方法还包括：在检测到新的OSD加入到所述OSD序列中之后，则执行判断所述OSD序列中是否存在所述目标OSD的步骤；其中，如果判断出OSD序列中包括所述目标OSD，则在所述OSD序列中选择权威OSD，并基于所述权威OSD对待恢复OSD进行数据恢复操作。

进一步地，如果在所述OSD序列中未查找到所述目标OSD，所述方法还包括：周期性获取所述目标PG在各个历史阶段时期内所对应的OSD，直至检测到存在目标OSD时，将检测到的所述目标OSD的标识信息添加至所述OSD序列中，并执行在所述OSD序列中选择权威OSD的步骤。

进一步地，在所述OSD序列中选择权威OSD，并基于所述权威OSD对待恢复OSD进行数据恢复操作包括：确定所述权威OSD的日志信息，其中，所述日志信息中包括所述目标PG的全部操作信息；基于所述权威OSD的日志信息确定待恢复数据，并在所述待恢复OSD中执行待恢复数据的恢复操作。

第二方面，本发明实施例提供了另一种数据恢复方法，所述方法包括：在检测到故障OSD恢复到正常运行之后，对所述故障OSD进行预隔离处理，以使预隔离处理之后的所述故障OSD处于停止工作模式；在检测到激活指令之后，按照上述所述的数据恢复方法对所述故障OSD进行数据恢复，其中，所述激活指令为激活处于停止工作模式的故障OSD。

进一步地，所述激活指令为所述Ceph集群中的监控器在检测到所述Ceph集群满足数据恢复条件的情况下，向所述故障OSD发送的所述激活指令。

第三方面，本发明实施例提供了一种服务器，所述服务器为设置有Ceph集群中对象存储设备OSD的服务器，所述服务器包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面和第二方面所述的方法。

第四方面，本发明实施例提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行上述第一方面和第二方面所述的方法。

在本实施例中，通过OSD Map定义了健康OSD和非健康OSD，如果某个OSD被确定为非健康OSD，那么该OSD有很大可能处于数据落后的状态，而健康OSD未处于数据落后状态。因此，在本实施例中，通过在OSD序列中包括健康OSD(即，目标OSD)的情况下，在OSD序列中选择权威OSD的方式，能够避免出现处于数据落后状态的OSD被选择为权威OSD的情况，从而有效防止由于错误权威OSD以及错误权威日志信息的选取而导致的数据恢复错误的情况，以缓解通过现有的数据恢复方法对Ceph集群进行数据恢复时由于错误的选择权威OSD导致的数据恢复异常的技术问题，从而实现了防止Ceph集群中节点异常的情况下对权威OSD以及权威日志的错误选举的发生。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种可选的数据恢复方法的流程图；

图2是根据本发明实施例的第一种可选的数据恢复方法的流程图

图3是根据本发明实施例的第二种可选的数据恢复方法的流程图

图4是根据本发明实施例的第三种可选的数据恢复方法的流程图；

图5是根据本发明实施例的第四种可选的数据恢复方法的流程图；

图6是根据本发明实施例的另一种数据恢复方法的流程图；

图7是根据本发明实施例的另一种可选地数据恢复方法的流程图；

图8是根据本发明实施例的一种数据恢复装置的示意图；

图9是根据本发明实施例的另一种数据恢复装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Ceph集群在运行中不可避免地会出现节点出现异常的情况，这就会导致PG所对应的对象的各个副本间出现数据不一致的情况，此时，就会进行数据的恢复工作。Ceph集群依靠PG来进行数据的恢复操作，其中，数据恢复是使从副本完成达成一致的状态。数据的恢复操作可以有效应对当部分节点异常情况，保证集群数据存储的可靠性。下面具体描述该数据恢复操作。

例如，Ceph集群中的逻辑组织单元PG(例如，PG1.0)所对应的对象以三副本存储方式存储在OSD.0(即Primary OSD)，OSD.1(即Secondary OSD)和OSD.2(即Tertiary OSD)中。其中，三副本包括：一个主副本和两个从副本。

如果集群监控器Monitor感知到OSD.0异常下线，则Monitor计算与该OSD.0具有映射关系的全部PG(假设只有PG1.0)，并主动向集群中与PG1.0具有映射关系的OSD发送通知消息，通知信息为OSD.0处于异常下线。

当OSD.0掉线之后，PG1.0所对应对象的副本数未达到规定的数量。此时，标记PG1.0为降级(degraded)状态。如果在规定时间内OSD.0恢复上线并通知Monitor，Monitor收到OSD.0的上线通知后会判断出OSD.0是Ceph集群中旧有的OSD，此时PG分配按原来的分布继续使用，Monitor会向PG1.0所映射的OSD发送通知消息，以通知该OSD.0恢复上线的情况。

如果OSD.0用来存储PG1.0所对应某一对象的主副本，则OSD.0在离线时，主副本的角色临时由其他节点中的从副本代替。在OSD.0重新上线后，会主动去查询PG1.0所对应对象的从副本的PG元数据。收到回复后，OSD.0进行比较会发现自己处于落后状态，并就将收到的信息合并出最新最权威的PG log，同时建立Missing结构列表标记过时数据，权威PGlog建立完成后，标记PG1.0由peering(等待互联)状态变换为Active(活动)状态。之后，按照权威PG log进行数据的恢复操作。

如果OSD.0用来存储所对应某一对象的从副本，那么在从副本所在的OSD重新上线后会响应主副本所在OSD节点发送的查询请求，并回复自己已经过时的PG log和元数据。主副本所在OSD节点在收到后该PG log和元数据之后，就会知道该从副本处于落后状态，此时，主副本所在OSD节点同样也会建立Missing结构列表标记过时数据。

如上所述，Ceph集群依靠自身的恢复模块设计能逐步进行数据的恢复，让所有副本达到一致的状态。

但是，在实际生产的环境中出现的异常情况往往会比较复杂，一些异常情况下甚至会导致集群数据无法恢复，无法对外提供存储服务。

例如，在一个Ceph集群中，包括3个节点，且该集群中PG以3副本方式进行存储。在本实施例中，节点可以是机架，机房和服务器，本实施例中不做限定。在上述3个节点中，设置有OSD，例如OSD.1位于节点1中，OSD.2位于节点2中、OSD.3位于节点3中。如果3个OSD中的OSD.3突发故障，OSD.1和OSD.2仍是正常状态，Ceph集群此时仍不断有存储IO操作。因为Ceph集群仍能在两个OSD的情况下对外提供存储服务，故异常的OSD.3并没有立马去进行修复，也即Ceph集群一直以2节点和2副本的状态运行。在Ceph集群运行若干天后，Ceph集群中节点出现故障，并批量重启，之前故障的OSD.3也重新上线，并重新加入到Ceph集群。假设，过段时间后OSD.1和OSD.2故障掉线，在相关技术中，要求选择的权威OSD为Up且in状态的OSD，由此，OSD.3会被选择为权威OSD，并且OSD.1和OSD.2在重新上线之后，将会进行数据恢复的操作。具体地，待节点OSD.1和节点OSD.2上线后，OSD.3作为权威OSD会发送本地的PG_info给OSD.1和OSD.2，OSD.1和OSD.2会发现自己本地的PG log与权威PG log相差太大，Ceph集群以OSD.3的旧版本数据来恢复PG，就导致集群数据恢复错误，最终就可能导致OSD震荡，集群出现Unfound丢失数据的状态，集群存储业务就无法正常对外提供。

在Ceph集群peering过程后，在数据恢复过程中找不到对象正确版本所在的OSD，数据无法恢复，则标记对象为Unfound。

针对上述问题，在本实施例中，提出了一种数据恢复方法，该方法能够有效避免数据恢复错误的情况，以缓解通过现有的数据恢复方法对Ceph集群进行数据恢复时由于错误的选择权威OSD导致的数据恢复异常的技术问题，从而实现了防止Ceph集群中节点异常的情况下对权威OSD以及权威日志的错误选举的现象发生。下面将结合具体实施例介绍该数据恢复方法。

根据本发明实施例，提供了一种数据恢复的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种数据恢复方法的流程图。如图1所示，该方法包括如下步骤：

步骤S102，在第一OSD确定出自身处于落后状态之后，基于Ceph集群中的目标PG所对应的OSD发生变化的各个历史阶段时期确定OSD序列；所述数据落后状态表示与第二OSD相比，第一OSD中存储的目标PG的副本落后于第二OSD中存储的目标PG的副本，第一OSD和第二OSD均为目标PG所对应的OSD，所述OSD序列中的OSD为用于存储所述目标PG的副本的OSD，且在Ceph集群中处于标准工作状态；

在本实施例中，目标PG所对应的OSD发生变化的各个历史阶段时期又可以称为Past interval，interval是一个OSD Map版本值epoch的序列，在这个interval内，可能存在多个epoch，但是PG所对应的OSD成员却不会改变。如果PG所对应的OSD成员发生变化，则会形成new interval，current是当前的序列，past是指过去的interval。第二OSD为除了第一OSD以外，目标PG所对应的OSD。

在本实施例中，OSD序列又可以称为Prior OSD。OSD序列中的OSD为用于存储目标PG的副本的OSD，且在Ceph集群中处于标准工作状态，其中，标准工作状态是指OSD处于Up且in的状态。Up且in状态为OSD的一种标准工作状态，表示OSD正常运行，且承载至少一个PG的数据。

对于任意一个OSD，共有四种可能的状态：

Up且in：说明该OSD正常运行，且已经承载至少一个PG的数据。这是一个OSD的标准工作状态；

Up且out：说明该OSD正常运行，但并未承载任何PG，其中也没有数据。一个新的OSD刚刚被加入Ceph集群后，便会处于这一状态。而一个出现故障的OSD被修复后，重新加入Ceph集群时，也是处于这一状态；

Down且in：说明该OSD发生异常，但仍然承载着至少一个PG，其中仍然存储着数据。这种状态下的OSD刚刚被发现存在异常，可能仍能恢复正常，也可能会彻底无法工作；

Down且out：说明该OSD已经彻底发生故障，且已经不再承载任何PG。

如果PG为PG1.0，那么OSD序列中包括的OSD满足以下条件：用于存储PG1.0所对应对象的主从副本，且该OSD处于标准工作状态。其中，用于存储PG1.0的主从副本可以理解为该OSD为PG1.0所对应的acting set集合中的OSD。

一般情况下，每个PG会对应两个集合，分别为：acting set和Up set。其中，actingset就是一个PG对应的副本所在的OSD列表；Up set是某一个PG map历史版本的actingset。在大多数情况下，acting set和Up set是一致的，除非出现了PG temp。PG temp是一个临时的acting set。PG map是由Monitor维护的所有PG的状态。

例如，某个PG的acting set是[OSD.0,OSD.1,OSD.2]，当OSD.0异常掉线后，变为[OSD.3,OSD.1,OSD.2]。由于，此时OSD.3还是空的，因此它无法提供数据服务。所以OSD.3还需要等待数据恢复过程结束。此时，可以向监控器申请一个临时的acting set比如[OSD.1,OSD.2,OSD.3]。临时的acting set表示此时将由OSD.1作为主OSD提供数据服务。数据恢复过程结束后，该临时acting set会被丢弃，重新由OSD.3作为主OSD提供服务。

步骤S104，在所述OSD序列中查找目标OSD，其中，所述目标OSD中关系图OSD Map的版本值与所述Ceph集群监控器中关系图OSD Map的版本值相同；

在本实施例中，目标OSD又可以称为健康OSD，与此相对的，集群中的OSD还包括不健康OSD。

当Ceph集群中的节点出现硬盘故障或者阵列卡故障时，此时，节点的OSD处于离线状态。此时，对于存储设备处于离线状态的节点来说，集群监控器Monitor所持有的OSD Map的版本与该节点本地OSD所持有的OSD Map的版本就会存在差异，即节点本地存储的OSDMap版本会落后于集群监控器Monitor持有的OSD Map的版本。因此，在本实施例中，定义节点本地OSD存储的OSD Map的版本落后于Monitor持有的OSD Map的版本的OSD称为“不健康OSD”。与此相对的就是节点本地OSD存储的OSD Map的版本和Monitor持有的OSD Map的版本一致的就称为“健康OSD”。

步骤S106，如果查找到所述目标OSD，则在所述OSD序列中选择权威OSD，并基于所述权威OSD对待恢复OSD进行数据恢复操作。

在本实施例中，如果在Prior OSD中查找到健康的OSD，则在OSD序列中选择权威OSD，并基于权威OSD对待恢复OSD进行数据恢复操作。

需要说明的是，在本实施例中，在Ceph集群进行数据恢复的过程中，涉及多个PG，但对于任意一个PG(例如，目标PG)，在数据恢复过程中选择出来的权威OSD应该是一个。但是对于目标PG来说，目标PG的权威OSD还有可能是其他PG的非权威OSD。在本实施例中，仅以一个PG(目标PG)为例进行说明，涉及其他PG的数据恢复过程与涉及目标PG的数据恢复过程相同，此处不再赘述。

在本实施例中，触发Ceph集群进行数据恢复的场景包括以下几种：

场景一、OSD短暂离线后，其数据版本落后于集群中的其他OSD，此时，需要对该短暂离线的OSD进行数据恢复；

场景二、OSD永久异常，那么此时会有替代该OSD角色的OSD开始工作，新OSD也是没有对应信息的，所以需要进行数据恢复。

在一个可选的实施例中，如果在所述OSD序列中未查找到所述目标OSD，在上述步骤S102-S106所描述的实施例的基础上，若在OSD序列中未查找到目标OSD，如图2所示，该方法还包括如下步骤：

步骤S201，周期性获取所述目标PG在各个历史阶段时期内所对应的OSD；直至检测到存在目标OSD时执行步骤S202；

步骤S202，将检测到的所述目标OSD的标识信息添加至所述OSD序列中，并执行在所述OSD序列中选择权威OSD的步骤。

在本实施例中，在第一OSD确定出自身处于数据落后状态之后，首先，确定目标PG所对应的OSD发生变化的各个历史阶段时期Past interval。然后，基于各个历史阶段时期Past interval确定用于执行数据恢复的OSD序列Prior OSD。其中，确定OSD序列Prior OSD的过程如上述步骤S102所述，此处不再赘述。接下来，在OSD序列Prior OSD中查找目标OSD(即，健康OSD)。

如果在OSD序列Prior OSD中查找到健康OSD，则在OSD序列Prior OSD中选择权威OSD，并基于权威OSD对待恢复OSD进行数据恢复操作。如果在OSD序列Prior OSD中未查找到健康OSD，则周期性的继续在目标PG在各个历史阶段时期内所对应的OSD中检测目标OSD(健康OSD)，直至检测到存在目标OSD时，将该健康OSD添加至OSD序列中。在将该健康OSD添加至OSD序列中之后，就可以返回继续执行步骤S106，即在OSD序列中选择权威OSD，并基于权威OSD对待恢复OSD进行数据恢复操作。

通过上述描述可知，在数据恢复时需要选择权威OSD。在本实施例中，首先获取目标PG在各个历史阶段时期Past interval内所对应的OSD，进而，根据这些OSD构建OSD序列Prior OSD；然后，在OSD序列Prior OSD中包含健康OSD的情况下，从OSD序列中选择权威OSD。

需要说明的是，如果承载目标PG的所有OSD都出现异常，那么就会导致数据的丢失，该情况不在本实施例的考虑范围内。本实施例针对的是一个PG所对应的部分OSD失效后数据恢复的情况。这样在选出的每个PG的Prior OSD的集合中可能会有健康OSD和不健康OSD。

如果在Prior OSD的集合中没有健康OSD，则数据恢复不再往下进行，即不会选择出权威OSD。此时会周期性的反复探测Past interval内的健康OSD，如果发现健康OSD，则会将该健康OSD的标识信息加入到Prior OSD的集合中。因为健康OSD在权威OSD选举中一定会较不健康OSD胜出，故就不会错误地选举到不健康OSD作为权威OSD，从而避免了不健康OSD记录的错误的权威PG log(权威OSD的日志信息)。

综上，在本实施例中，能够有效避免数据恢复错误的情况，以缓解通过现有的数据恢复方法对Ceph集群进行数据恢复时由于错误的选择权威OSD导致的数据恢复异常的技术问题，从而实现了防止Ceph集群中节点异常的情况下对权威OSD以及权威日志的错误选举的发生。

在一个可选的实施例中，如图3所示，该方法包括如下步骤：

步骤S102，在第一OSD确定出自身处于数据落后状态之后，基于Ceph集群中的目标PG所对应的OSD发生变化的各个历史阶段时期确定OSD序列；所述数据落后状态表示与第二OSD相比，第一OSD中存储的目标PG的副本落后于第二OSD中存储的目标PG的副本，第一OSD和第二OSD均为目标PG所对应的OSD，所述OSD序列中的OSD为用于存储所述目标PG的副本的OSD，且在Ceph集群中处于标准工作状态；

步骤S301，判断所述OSD序列中OSD的数量是否为多个；如果判断出所述OSD序列中OSD的数量是为多个，则执行步骤S303；否则执行步骤S302；

步骤S302，检测是否有新的OSD加入到OSD序列中，其中，在检测到新的OSD加入到所述OSD序列中之后，则执行步骤S303；

步骤S303，判断所述OSD序列中是否存在所述目标OSD；如果存在，则执行步骤S104和步骤S106，否则执行上述实施例中的步骤S201和步骤S202。

针对单节点完全脱离Ceph集群，且Monitor通信也是异常的情况下，Monitor中的OSD Map版本值可能与节点本地的OSD Map版本值相同，即此时不太好判断出非健康OSD的身份。因此，要求在构成Prior OSD的集合中不能只有一个节点的OSD，若是只有一个节点的OSD则要求停止探测该PG在各个历史阶段时期内所对应的OSD，直至有新的节点OSD加入该Prior OSD为止，然后才会向下进行。

由此，本实施例中通过步骤S303判断OSD序列中OSD的数量是否为多个；如果判断出OSD序列中OSD的数量是多个，则判断OSD序列中是否包括健康OSD；如果判断出OSD序列中OSD的数量是一个，则在检测到新的OSD加入到OSD序列中之后，执行判断OSD序列中是否包括健康OSD的步骤。

如果判断出包括健康OSD，则在OSD序列中选择权威OSD，并基于权威OSD对待恢复OSD进行数据恢复操作。如果判断出不包括健康OSD，则执行上述实施例中步骤S201和步骤S202所示的方法，此处不再赘述。

在一个可选的实施方式中，如图4所示，步骤S106，在所述OSD序列中选择权威OSD，并基于所述权威OSD对待恢复OSD进行数据恢复操作包括如下步骤：

步骤S401，确定所述权威OSD的日志信息，其中，所述日志信息中包括所述目标PG的全部操作信息；

步骤S402，基于所述权威OSD的日志信息确定所述待恢复数据，并在所述待恢复OSD中执行待恢复数据的恢复操作。

在本实施例中，在确定出权威OSD之后，就可以确定权威OSD的日志信息，即权威log。在确定出权威OSD的日志信息之后，就可以基于权威OSD的日志信息确定待恢复数据，并在待恢复OSD中执行待恢复数据的恢复操作。

具体地，在确定出权威OSD的日志信息之后，可以基于权威OSD的日志信息生成Missing结构，Missing结构为非权威OSD从权威OSD中获取权威OSD的日志信息和Missing信息，并合成待恢复的对象object(也即，待恢复数据)。

需要说明的是，在本实施例中，非权威OSD和权威OSD是相对于目标PG而言的。由于一个OSD会承载很多PG。因此，相对于目标PG而言的非权威OSD，对于其他PG而言，还可能是权威OSD；以及相对于目标PG而言的权威OSD，对于其他PG而言，还可能是非权威OSD。

在生成Missing结构之后，就可以确定待恢复OSD所缺失的且需要恢复的待恢复数据(也即，待恢复对象object)。在确定出待恢复OSD的待恢复对象object之后，就可以确定待恢复对象object可以从哪些OSD上进行拷贝。之后，就可以切换目标PG的peering(等待互联)状态为Active状态，并触发数据的恢复操作。当Ceph完成peering过程，PG将会变Active状态，其中，Active状态意味着PG中的数据变的可用，Primary PG将可以执行读写操作。peering过程是指Ceph集群中PG出现各副本间数据不一致的现象，在数据恢复前确定权威OSD和权威日志信息，以及形成本地Missing结构的阶段就是peering过程。

如图5所示的另一种可选的数据恢复方法的流程图，如图5所示，该方法包括如下步骤：

步骤S501，确定目标PG所对应的OSD发生变化的各个历史阶段时期；

步骤S502，基于各个历史阶段时期Past interval确定用于执行数据恢复的OSD序列Prior OSD；

如果PG为PG1.0，那么OSD序列中包括的OSD满足以下条件：用于存储PG1.0的主从副本，且该OSD处于标准工作状态。其中，用于存储PG1.0的主从副本可以理解为该OSD为该PG1.0所对应的acting set集合中的OSD。

步骤S503，判断OSD序列Prior OSD中OSD的数量是否为多个；如果判断出是，则执行步骤S505，否则，否则执行步骤S504；

步骤S504，检测是否有新的OSD加入到OSD序列Prior OSD中，其中，在检测到新的OSD加入到OSD序列Prior OSD中之后，则执行步骤S505；

步骤S505，判断OSD序列Prior OSD中是否包括目标OSD；如果包括，则执行步骤S508，否则执行上述实施例中的步骤S506和步骤S507；

步骤S506，周期性的获取所述目标PG在各个历史阶段时期内所对应的OSD；直至检测到存在目标OSD时，执行步骤S507；

步骤S507，将目标OSD的标识信息添加至OSD序列中，并返回执行步骤S503；

通过上述步骤S503至步骤S507的描述可知，通过上述描述可知，在本实施例中，要求在OSD序列Prior OSD中包含不止一个OSD，且OSD序列Prior OSD中包含健康OSD。这是因为对于单节点完全脱离Ceph集群，且Monitor通信也是异常的情况下，Monitor中的OSD Map可能与本地OSD Map版本吻合，即此时不太好判断出非健康节点的身份。因此，要求在构成Prior OSD的集合中不能只有一个节点的OSD，若是只有一个节点的OSD则要求停止在该阶段反复探测该PG对应的其他节点OSD的情况，直至有新的节点OSD加入该Prior OSD为止，然后才会向下进行。

步骤S508，在OSD序列选择权威OSD；

步骤S509，确定权威OSD的日志信息，其中，日志信息中包括目标PG的全部操作信息；

步骤S510，基于权威OSD的日志信息生成Missing结构，Missing结构为非权威OSD从权威OSD中获取权威OSD的日志信息和Missing信息，并合成待恢复的对象object(也即，待恢复数据)；

步骤S511，确定待恢复OSD所缺失的且需要恢复待恢复数据；

步骤S512，确定待恢复对象object可以从哪些OSD上进行待恢复数据的获取；

步骤S513，切换目标PG的状态由peering状态为Active状态，并触发数据的恢复操作。

具体地，通过步骤S508至步骤S513可知，在确定出权威OSD的日志信息之后，可以基于权威OSD的日志信息生成Missing结构，Missing结构为非权威OSD从权威OSD中获取权威OSD的日志信息和Missing信息，并合成待恢复的对象object(也即，待恢复数据)。在生成Missing结构之后，就可以确定待恢复OSD所缺失的且需要恢复待恢复数据(也即，待恢复对象object)。在确定出待恢复OSD的待恢复对象object之后，就可以确定待恢复对象object可以从权威哪些OSD上进行拷贝。之后，就可以切换目标PG的状态为Active状态，并触发数据的恢复操作。其中，Active状态意味着PG中的数据变得可用，Primary PG将可以执行读写操作。peering过程是指Ceph集群中PG出现各副本间数据不一致的现象，在数据恢复前确定权威OSD和权威日志信息，以及形成本地Missing结构的阶段就是peering过程。

为了保证数据恢复的正常进行，就一定要保证在数据恢复前得到的权威OSD和权威log是完整且正确的。在Ceph集群节点都正常的情况下，正确地进行权威OSD的选举是没有问题的，但恰恰就在一些情况下，却错误的选举出权威OSD和权威log，最终导致Ceph集群存储数据异常和功能异常。基于此，本实施例中，对OSD赋予了新的角色状态判断，利用OSDMap信息比较确认出健康OSD与非健康OSD。在数据恢复时候，对于peering的OSD集合进行合理限制，防止错误权威OSD以及错误权威PG log的选出而导致集群数据异常。

图6是根据本发明实施例的一种数据恢复方法的流程图。如图6所示，该方法包括如下步骤：

步骤S602，在检测到故障OSD恢复到正常运行之后，对所述故障OSD进行预隔离处理，以使预隔离处理之后的所述故障OSD处于停止工作模式；

其中，步骤S602所指的正常运行指的是上面的实施例中所述的Up且out状态。

步骤S604，在检测到激活指令之后，可以按照上述图1至图5中任一所述的数据恢复方法对故障OSD进行数据恢复，其中，所述激活指令为激活处于停止工作模式的故障OSD。

具体地，当Ceph集群中的一个节点因为故障离开Ceph集群之后，该节点中的OSD会因为没有和其他节点的OSD交互心跳报文而处于down状态，其中，down状态表示OSD处于非正常运行状态。当该节点再加入Ceph集群时，为了避免该落后节点可能导致的数据恢复错误。在本实施例中，也可以对这样的节点设置预隔离处理，以使预隔离处理之后的节点处于OSD Down状态或者进入“维护模式”。这样就不会出现落后的OSD被选举到Prior OSD的集合中去了。系统管理员可以根据Ceph集群状态来选择是否激活该OSD或者解除该OSD的预隔离处理，让其能正常参与到集群的数据恢复活动中去。优选地，Ceph集群可以根据判断自身状态是否满足恢复条件来决定是否重新接受该节点的加入和恢复。当判断出满足恢复条件时，则向该节点发送激活指令。

在本实施例中，步骤S602和步骤S604所描述的方法可以应用在该故障OSD所在的节点中。具体地，故障OSD启动恢复是指故障OSD在离开Ceph集群之后，又准备要重新加入到该Ceph集群中。

在一个可选的实施方式中，可以在故障OSD的启动恢复的程序中添加限制条件，以控制该故障OSD处于停止工作模式，也即，一直处于OSD Down状态。

此时，如果管理员通过对Ceph集群状态的判断，确定出可以允许故障OSD重新加入到Ceph集群中时，通过集群监控器Monitor向故障OSD发送激活指令。故障OSD在获取到激活指令之后，就可以按照上述图1至图5中任一所述的数据恢复方法对故障OSD进行数据恢复。

在另一个可选的实施方式中，集群监控器Monitor可以对重新加入到Ceph集群中的故障OSD进行标记，比如，标记该故障OSD为Down状态，以控制该故障OSD处于停止工作模式。

集群监控器Monitor还可以根据Ceph集群的状态是否发生激活指令，如果集群监控器Monitor根据Ceph集群的状态确定出可以允许故障OSD重新加入到Ceph集群中时，则向故障OSD发送激活指令。故障OSD在获取到激活指令之后，就可以按照上述图1至图5中任一所述的数据恢复方法对故障OSD进行数据恢复。

综上所述，激活指令为Ceph集群中的监控器在检测到Ceph集群满足数据恢复条件的情况下，向故障OSD发送的所述激活指令。

通过上述描述可知，在本实施例中，当因为故障离开Ceph集群的节点又重新请求加入该Ceph集群时，对该故障OSD进行预隔离处理，以防止落后节点影响Ceph集群数据。在本实施例中，还可以根据Ceph集群状态来自动激活和恢复落后节点(即，上述故障OSD所在节点)，这样有效避免了落后节点加入后数据恢复异常的状况。

如图7所示的另一种可选的数据恢复方法的流程图，如图7所示，该方法包括如下步骤：

步骤S701，在检测到故障OSD恢复到正常运行之后，对所述故障OSD进行预隔离处理，以使预隔离处理之后的所述故障OSD处于停止工作模式；

其中，可以通过在故障OSD的启动恢复程序中添加限制条件，来控制该故障OSD处于OSD Down状态或者控制该故障OSD进入维护模式。还可以根据集群监控器Monitor来对该故障OSD进行标记，来控制该故障OSD处于OSD Down状态或者控制该故障OSD进入维护模式。

步骤S702，判断故障OSD所在节点是否向Ceph集群中的其他节点发送连接请求；如果判断出是，则执行步骤S703，否则继续执行步骤S702；

步骤S703，建立故障OSD所在节点与其他节点之间的通信连接，该其他节点为故障OSD所在节点在Ceph集群中搜索的节点；

步骤S704，判断通信连接是否成功；如果成功，则执行步骤S705；否则继续执行步骤S703；

步骤S705，判断Ceph集群的状态是否满足恢复条件；如果判断出是，则执行步骤S706，否则执行步骤S705；

步骤S706，激活故障OSD，以使该故障OSD参与到数据恢复的过程中。

本发明实施例还提供了一种数据恢复装置，该数据恢复装置主要用于执行本发明实施例上述图1至图5中所提供的数据恢复方法，以下对本发明实施例提供的数据恢复装置做具体介绍。

图8是根据本发明实施例的一种数据恢复装置的示意图，如图8所示，该数据恢复装置主要包括确定单元10，查找单元20和数据恢复单元30，其中：

确定单元10，用于在第一OSD确定出自身处于数据落后状态之后，基于Ceph集群中的目标PG所对应的OSD发生变化的各个历史阶段时期确定OSD序列；所述数据落后状态表示与第二OSD相比，第一OSD中存储的目标PG的副本落后于第二OSD中存储的目标PG的副本，第一OSD和第二OSD均为目标PG所对应的OSD，所述OSD序列中的OSD用于存储所述目标PG的副本，且在Ceph集群中处于标准工作状态；

查找单元20，用于在所述OSD序列中查找目标OSD，其中，所述目标OSD中关系图OSDMap的版本值与所述Ceph集群监控器中关系图OSD Map的版本值相同；

数据恢复单元30，用于如果查找到所述目标OSD，则在所述OSD序列中选择权威OSD，并基于所述权威OSD对待恢复OSD进行数据恢复操作。

可选地，该装置还用于：在所述OSD序列中查找目标OSD之前，判断所述OSD序列中OSD的数量是否为多个；如果判断出所述OSD序列中OSD的数量是为多个，则判断所述OSD序列中是否存在所述目标OSD；其中，如果判断出OSD序列中存在所述目标OSD，则在所述OSD序列中选择权威OSD，并基于所述权威OSD对待恢复OSD进行数据恢复操作。

可选地，该装置还用于：在判断出所述OSD序列中的OSD的数量为一个的情况下，且在检测到新的OSD加入到所述OSD序列中之后，则执行判断所述OSD序列中是否存在所述目标OSD的步骤；其中，如果判断出OSD序列中包括所述目标OSD，则在所述OSD序列中选择权威OSD，并基于所述权威OSD对待恢复OSD进行数据恢复操作。

可选地，该装置还用于：如果在所述OSD序列中未查找到所述目标OSD，则周期性获取所述目标PG在各个历史阶段时期内所对应的OSD，直至检测到存在目标OSD时，将检测到的所述目标OSD的标识信息添加至所述OSD序列中，并执行在所述OSD序列中选择权威OSD的步骤。

可选地，数据恢复单元用于：确定所述权威OSD的日志信息，其中，所述日志信息中包括所述目标PG的全部操作信息；基于所述权威OSD的日志信息确定所述待恢复数据，并在所述待恢复OSD中执行待恢复数据的恢复操作。

本发明实施例还提供了另一种数据恢复装置，该数据恢复装置主要用于执行本发明实施例上述图6和图7所提供的数据恢复方法，以下对本发明实施例提供的数据恢复装置做具体介绍。

图9是根据本发明实施例的一种数据恢复装置的示意图，如图9所示，该数据恢复装置主要包括预隔离单元40和数据恢复单元50，其中：

预隔离单元40，用于在检测到故障OSD恢复到正常运行之后，对所述故障OSD进行预隔离处理，以使预隔离处理之后的所述故障OSD处于停止工作模式；

数据恢复单元50，用于在检测到激活指令之后，按照上述图1至图5中所提供的数据恢复方法对所述故障OSD进行数据恢复，其中，所述激活指令为激活处于停止工作模式的故障OSD。

在本实施例中，当因为故障离开Ceph集群的节点又重新请求加入该Ceph集群时，对该故障OSD进行预隔离处理，以防止落后节点影响Ceph集群数据。在本实施例中，还可以根据Ceph集群状态来自动激活和恢复落后节点(即，上述故障OSD所在节点)，这样有效避免了落后节点加入后数据恢复异常的状况。

可选地，所述激活指令为所述Ceph集群中的监控器在检测到所述Ceph集群满足数据恢复条件的情况下，向所述故障OSD发送的所述激活指令。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

在另一个实施例中，还提供了一种服务器，所述服务器为设置有Ceph集群中对象存储设备OSD的服务器，所述服务器包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法实施例中所描述的方法。

在另一个实施例中，还提供了具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行上述方法实施例中所述的方法。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据恢复方法，其特征在于，包括：

在第一OSD确定出自身处于数据落后状态之后，基于Ceph集群中的目标PG所对应的OSD发生变化的各个历史阶段时期确定OSD序列；所述数据落后状态表示与第二OSD相比，第一OSD中存储的目标PG的副本落后于第二OSD中存储的目标PG的副本，第一OSD和第二OSD均为目标PG所对应的OSD，所述OSD序列中的OSD用于存储所述目标PG的副本，且在Ceph集群中处于标准工作状态；

在所述OSD序列中查找目标OSD，其中，所述目标OSD中关系图OSD Map的版本值与所述Ceph集群监控器中关系图OSD Map的版本值相同；

如果查找到所述目标OSD，则在所述OSD序列中选择权威OSD，并基于所述权威OSD对待恢复OSD进行数据恢复操作。

2.根据权利要求1所述的方法，其特征在于，在所述OSD序列中查找目标OSD之前，所述方法还包括：

判断所述OSD序列中OSD的数量是否为多个；

如果判断出所述OSD序列中OSD的数量是为多个，则判断所述OSD序列中是否存在所述目标OSD；

其中，如果判断出OSD序列中存在所述目标OSD，则在所述OSD序列中选择权威OSD，并基于所述权威OSD对待恢复OSD进行数据恢复操作。

3.根据权利要求2所述的方法，其特征在于，如果判断出所述OSD序列中的OSD的数量为一个，所述方法还包括：

在检测到新的OSD加入到所述OSD序列中之后，执行判断所述OSD序列中是否存在所述目标OSD的步骤；

其中，如果判断出OSD序列中包括所述目标OSD，则在所述OSD序列中选择权威OSD，并基于所述权威OSD对待恢复OSD进行数据恢复操作。

4.根据权利要求1至3中任一项所述的方法，其特征在于，如果在所述OSD序列中未查找到所述目标OSD，所述方法还包括：

周期性获取所述目标PG在各个历史阶段时期内所对应的OSD，直至检测到存在目标OSD时，将检测到的所述目标OSD的标识信息添加至所述OSD序列中，并执行在所述OSD序列中选择权威OSD的步骤。

5.根据权利要求1至3中任一项所述的方法，其特征在于，在所述OSD序列中选择权威OSD，并基于所述权威OSD对待恢复OSD进行数据恢复操作包括：

确定所述权威OSD的日志信息，其中，所述日志信息中包括所述目标PG的全部操作信息；

基于所述权威OSD的日志信息确定待恢复数据，并在所述待恢复OSD中执行待恢复数据的恢复操作。

6.一种数据恢复方法，其特征在于，所述方法包括：

在检测到故障OSD恢复到正常运行之后，对所述故障OSD进行预隔离处理，以使预隔离处理之后的所述故障OSD处于停止工作模式；

在检测到激活指令之后，按照上述权利要求1至5中任一项所述的数据恢复方法对所述故障OSD进行数据恢复，其中，所述激活指令为激活处于停止工作模式的故障OSD。

7.根据权利要求6所述的方法，其特征在于，所述激活指令为所述Ceph集群中的监控器在检测到所述Ceph集群满足数据恢复条件的情况下，向所述故障OSD发送的所述激活指令。

8.一种服务器，所述服务器为设置有Ceph集群中对象存储设备OSD的服务器，所述服务器包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至5中任一项所述的方法，或者，用于实现上述权利要求6或7所述的方法。

9.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行所述权利要求1至5中任一项所述的方法，或者，用于实现上述权利要求6或7所述的方法。