CN109213637B

CN109213637B - 分布式文件系统集群节点的数据恢复方法、装置及介质

Info

Publication number: CN109213637B
Application number: CN201811333895.5A
Authority: CN
Inventors: 李彦博
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2018-11-09
Filing date: 2018-11-09
Publication date: 2022-03-04
Anticipated expiration: 2038-11-09
Also published as: CN109213637A

Abstract

本申请公开了一种分布式文件系统集群节点的数据恢复方法，包括：当集群节点出现故障时，获取集群节点中的故障OSD；判断故障OSD的数量与集群节点中的OSD总量的比值是否大于或等于预设阈值；若大于或等于，则保持故障OSD的故障状态。相较于现有技术中，当判断出故障OSD之后，则按照预设规则为故障OSD进行数据恢复操作，当存在大量的故障OSD时，需要恢复的数据量很大，从而影响前端业务的读写操作；本方法避免了数据恢复操作占用大量的带宽，进而降低对数据读写操作的影响，因此提高了分布式文件系统的稳定性。本申请还公开了一种分布式文件系统集群节点的数据恢复装置计算机可读存储介质，均具有上述有益效果。

Description

分布式文件系统集群节点的数据恢复方法、装置及介质

技术领域

本发明涉及数据处理领域，特别涉及一种分布式文件系统集群节点的数据恢复方法、装置及计算机可读存储介质。

背景技术

近年来，分布式文件系统(DFS，Distributed File System)因其能够实现集中管理文件共享而受到越来越广泛的应用。在运行分布式文件系统的过程中，集群节点将不可避免地出现故障的情况。现有技术中，当分布式文件系统的集群节点出现故障时，如果在预设时间内该集群节点没有恢复正常工作，则将该集群节点中的故障OSD(Object-basedStorage Device，对象存储设备)设置为out状态，并触发数据恢复的流程，使得这些故障OSD在进行数据恢复之后重新添加至集群中。当集群节点中的故障OSD数量较多时，则为这些故障OSD进行数据恢复时，需要恢复的数据量较大，在这种情况下，由于集群带宽是固定的，在进行数据恢复的过程中将占用大量的带宽，从而减少了前端业务的读写操作能够使用的带宽，导致读写操作卡顿，甚至将导致整个分布式文件系统的死机。

因此，如何降低集群节点的数据恢复操作对分布式文件系统的影响，提高系统的稳定性是本领域技术人员目前需要解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种分布式文件系统集群节点的数据恢复方法，能够降低集群节点的数据恢复操作对分布式文件系统的影响，提高系统的稳定性；本发明的另一目的是提供一种分布式文件系统集群节点的数据恢复装置及计算机可读存储介质，均具有上述有益效果。

为解决上述技术问题，本发明提供一种分布式文件系统集群节点的数据恢复方法，包括：

当集群节点出现故障时，获取所述集群节点中的故障OSD；

判断所述故障OSD的数量与所述集群节点中的OSD总量的比值是否大于或等于预设阈值；

若大于或等于，则保持所述故障OSD的故障状态。

优选地，所述当集群节点出现故障时，获取所述集群节点中的故障OSD具体为：

当集群节点出现故障时，获取所述集群节点中的所述故障OSD并开始计时；

对应的，所述保持所述故障OSD的故障状态具体为：

利用初始计时时间更新所述故障OSD的计时时间以保持所述故障OSD的所述故障状态。

优选地，在所述判断所述故障OSD的数量与所述集群节点中的OSD总量的比值是否大于或等于预设阈值之后，进一步包括：

若小于，则判断所述故障OSD在预设时间阈值内是否开始正常工作；

若否，则复制与所述故障OSD对应的PG中的对象数据；

将所述对象数据存储至所述集群节点中除所述故障OSD之外的其他OSD中。

优选地，在所述判断所述故障OSD是否在预设时间阈值内开始正常工作之后，进一步包括：

若是，则判断与所述故障OSD对应的PG中的对象数据在计时过程中是否发生变化；

若发生变化，则利用增量恢复方法将所述PG中的发生变化的对象数据复制到所述故障OSD中。

优选地，所述判断所述故障OSD的数量与所述集群节点中的OSD总量的比值是否大于预设阈值具体为：

判断所述集群节点中所述故障OSD的数量是否等于所述OSD总量；

若等于，则进入所述保持所述故障OSD的故障状态的步骤。

优选地，在所述保持所述故障OSD的故障状态之后，进一步包括：

为保持所述故障状态的所述故障OSD设置标识信息。

为解决上述技术问题，本发明还提供一种分布式文件系统集群节点的数据恢复装置，包括：

获取模块，用于当集群节点出现故障时，获取所述集群节点中的故障OSD；

判断模块，用于判断所述故障OSD的数量与所述集群节点中的OSD总量的比值是否大于或等于预设阈值；

执行模块，用于若大于或等于，则保持所述故障OSD的故障状态。

为解决上述技术问题，本发明还提供另一种分布式文件系统集群节点的数据恢复装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任一种分布式文件系统集群节点的数据恢复方法的步骤。

为解决上述技术问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种分布式文件系统集群节点的数据恢复方法的步骤。

本发明提供的一种分布式文件系统集群节点的数据恢复方法，相较于现有技术中，当判断出故障OSD之后，则按照预设规则为故障OSD进行数据恢复操作，当存在大量的故障OSD时，需要恢复的数据量很大，从而影响前端业务的读写操作；本方法是在故障OSD的数量与集群节点中的OSD总量的比值大于或等于预设阈值时，保持故障OSD的故障状态，也即保持集群节点的故障状态，从而避免触发进行数据恢复操作，避免了数据恢复操作占用大量的带宽，进而降低对数据读写操作的影响，因此提高了分布式文件系统的稳定性。

为解决上述技术问题，本发明还提供了一种分布式文件系统集群节点的数据恢复装置及计算机可读存储介质，均具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种分布式文件系统集群节点的数据恢复方法的流程图；

图2为本发明实施例提供的另一种分布式文件系统集群节点的数据恢复方法的流程图；

图3为本发明实施例提供的另一种分布式文件系统集群节点的数据恢复方法的流程图；

图4为本发明实施例提供的又一种分布式文件系统集群节点的数据恢复方法的流程图；

图5为本发明实施例提供的一种分布式文件系统集群节点的数据恢复装置的结构图；

图6为本发明实施例提供的另一种分布式文件系统集群节点的数据恢复装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例的核心是提供一种分布式文件系统集群节点的数据恢复方法，能够降低集群节点的数据恢复操作对分布式文件系统的影响，提高系统的稳定性；本发明的另一核心是提供一种分布式文件系统集群节点的数据恢复装置及计算机可读存储介质，均具有上述有益效果。

为了使本领域技术人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

图1为本发明实施例提供的一种分布式文件系统集群节点的数据恢复方法的流程图。如图1所示，一种分布式文件系统集群节点的数据恢复方法包括：

S10：当集群节点出现故障时，获取集群节点中的故障OSD。

在本实施例中，首先判断集群节点是否出现故障，然后在检测出集群节点出现故障时，获取集群节点中的故障OSD。可以理解的是，分布式文件系统存在多个集群节点，多个集群节点共同维护管理文件，并且一个集群节点中有多个OSD。当某个集群节点出现故障时，有时会造成集群节点中所有OSD故障，有时是集群节点中的部分OSD故障，因此需要通过检测，以获取集群节点中的故障OSD。

需要说明的是，造成集群节点故障的情况多种多样，如计算机故障、网络接口故障、网络故障，或者是高峰活动期等，可以通过在集群节点上运行集群服务跟踪集群节点的状态，以判断集群节点是否存在故障。

S20：判断故障OSD的数量与集群节点中的OSD总量的比值是否大于或等于预设阈值；若大于或等于，则执行S30；

S30：保持故障OSD的故障状态。

具体的，先根据S10获取的故障OSD得出故障OSD的数量，然后计算出集群节点中的故障OSD与集群节点中的OSD总数的比值，并将该比值与预设阈值进行比较，通过判断该比值是否大于或等于预设阈值，以确定对故障OSD执行何种操作。需要说明的是，预设阈值一般根据实际操作经验和实际需求进行设置，本实施例对此不做限定。

具体的，当判断故障OSD的数量与集群节点中的OSD总数的比值大于或等于预设阈值时，则执行S30，也即保持故障OSD的故障状态，也即保持集群节点的故障状态。也就是说，在保障集群节点处于故障状态的同时，避免集群节点被踢出分布式文件系统集群，从而避免触发数据恢复操作。

需要说明的是，由于分布式文件系统中存在多个集群节点，且多个集群节点之间存在冗余设置，因此，将该集群节点保持故障状态，该集群节点处于不能被使用的状态，但是此时分布式文件系统依然能够稳定运行。

本发明实施例提供的一种分布式文件系统集群节点的数据恢复方法，相较于现有技术中，当判断出故障OSD之后，则按照预设规则为故障OSD进行数据恢复操作，当存在大量的故障OSD时，需要恢复的数据量很大，从而影响前端业务的读写操作；本方法是在故障OSD的数量与集群节点中的OSD总量的比值大于或等于预设阈值时，保持故障OSD的故障状态，也即保持集群节点的故障状态，从而避免触发进行数据恢复操作，避免了数据恢复操作占用大量的带宽，进而降低对数据读写操作的影响，因此提高了分布式文件系统的稳定性。

图2为本发明实施例提供的另一种分布式文件系统集群节点的数据恢复方法的流程图。如图2所示，在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，S10：当集群节点出现故障时，获取集群节点中的故障OSD具体为：

S11：当集群节点出现故障时，获取集群节点中的故障OSD并开始计时；

对应的，S30：保持故障OSD的故障状态具体为：

S31：利用初始计时时间更新故障OSD的计时时间以保持故障OSD的故障状态。

具体的，在本实施例中，通过预先设置计时器，当检测到集群节点中的故障OSD时，利用计时器开始计时。计时方式可以是以当前时间为初始计时时间开始计时，也可以是以预先设置其他时间作为初始计时时间并开始计时，本实施例对计时方式不做限定。

由于在实际操作中，当OSD出现故障时，若在预设时间内没有恢复正常工作，则将触发数据恢复操作。因此，在本实施例中，当判断故障OSD的数量与集群节点中的OSD总量的比值大于或等于预设阈值时，通过利用初始计时时间更新故障OSD的计时时间，以避免计时时间达到预设时间，从而避免触发数据恢复操作，从而实现保持故障OSD的故障状态的效果。需要说明的是，在其他的实施例中，也可以通过设置其他的计时方式以避免触发数据恢复操作。例如，可以通过设置第一预设时间，且第一预设时间小于预设时间阈值；当计时时间达到第一预设时间时，则触发重新开始计时，以避免达到预设时间阈值而触发数据恢复操作。

可见，本实施例利用初始计时时间更新故障OSD的计时时间以保持故障OSD的故障状态的方法，操作方式简单易行。

图3为本发明实施例提供的另一种分布式文件系统集群节点的数据恢复方法的流程图。如图3所示，在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，在判断故障OSD的数量与集群节点中的OSD总量的比值是否大于或等于预设阈值之后，进一步包括：

S40：若小于，则判断故障OSD在预设时间阈值内是否开始正常工作；

S50：复制与故障OSD对应的PG中的对象数据；

S60：将对象数据存储至集群节点中除故障OSD之外的其他OSD中。

具体的，当判断故障OSD的数量与集群节点中的OSD总量的比值小于预设阈值时，本实施例进一步判断故障OSD是否在预设时间阈值内开始正常工作，若没有开始正常工作，则表示故障OSD属于永久故障。由于故障OSD将使得与故障OSD对应的PG在多个OSD中备份的数据副本不一致，因此需要进行数据恢复，达到所有数据副本一致的状态，因此通过将重新进行PG分布，并在PG分布完成后，触发数据恢复流程。具体的，数据恢复的步骤包括：复制与故障OSD对应的PG中的对象数据；将对象数据存储至集群节点中除故障OSD之外的其他OSD中。也就是说，将与故障OSD对应的PG中的对象数据备份至集群节点中未发生故障的OSD中，以实现PG中的对象数据在各个OSD中的备份副本一致。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，在判断故障OSD是否在预设时间阈值内开始正常工作之后，进一步包括：

S70：若是，则判断与故障OSD对应的PG中的对象数据在计时过程中是否发生变化；

S80：若发生变化，则利用增量恢复方法将PG中的发生变化的对象数据复制到故障OSD中。

具体的，若判断出故障OSD在预设时间阈值内开始正常工作，则表示该故障OSD及时恢复正常，再次添加至集群节点中。作为优选的实施方式，在本实施例中，进一步判断在故障OSD的故障期间，与该故障OSD对应的PG中的对象数据是否发生变化，若发生变化，则表示PG在多个对应的OSD中的备份的数据副本发生变化，而由于故障OSD在故障期间没有及时更新数据副本，因此本实施例通过利用增量恢复方法将PG中发生变化的对象数据复制到故障OSD中，从而实现PG的对象数据在各个OSD上的数据副本的统一，并且尽量减少了需要复制的数据数量，也即尽量减少数据恢复过程中需要占用的带宽，从而降低对分布式文件系统的影响。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，判断故障OSD的数量与集群节点中的OSD总量的比值是否大于预设阈值具体为：

判断集群节点中故障OSD的数量是否等于OSD总量；

若等于，则进入保持故障OSD的故障状态的步骤。

具体的，在本实施例中，是通过判断集群节点中故障OSD的数量是否等于OSD总量，也即判断集群节点中的OSD是否全部处于故障状态，来判断故障OSD的数量与集群节点中的OSD总量的比值是否大于或等于预设阈值，也即当前的预设阈值为1，判断故障OSD的数量与集群节点中的OSD总量的比值是否等于1，从而确定是否执行保持故障OSD的故障状态的步骤。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，在保持故障OSD的故障状态之后，进一步包括：

为保持故障状态的故障OSD设置标识信息。

需要说明的是，在本实施例中，作为优选的实施方式，在保持故障OSD的故障状态之后，进一步为保持故障状态的故障OSD设置标识信息。标识信息可以是文字、符号等信息，只要是能够将故障OSD与其他正常的OSD进行区分即可，本实施例对此不做限定。

可见，本实施例通过设置标识信息，一方面能够便于区分故障OSD和其他正常OSD，便于数据处理操作；另一方面也能够更便于用户更直观地查看各故障OSD在集群节点中的分布情况。

为了使本技术领域的人员更好地理解本申请中的技术方案，下面结合实际应用场景对本申请实施例中的技术方案进行详细说明，具体的，如图4所示，为了使得集群节点在故障OSD的数量与集群节点中的OSD总量的比值大于或等于预设阈值/集群节点宕机之后不触发数据恢复操作，处理流程如下：

S41：当集群节点出现故障时，将故障OSD的状态设置为down状态，并标记OSD状态置为down的时间点；

S42：定时器开始计时，累计故障OSD的状态设置为down状态后持续的时间；

S43：判断故障OSD所属的集群节点中的OSD是否全都处于down状态；

S44：若是，则利用当前时间更新计时器的计时时间，以使得故障OSD保持down状态；

S45：若否，则当持续时间超过5分钟时，将故障OSD状态设置为out，从而触发数据恢复操作。

本实施例提供的分布式文件系统集群节点的数据恢复方法，当集群节点中的OSD未完全处于故障状态时，则进行数据恢复操作；当集群节点中的OSD全都处于故障状态时，则通过设置故障OSD保持故障状态，使得故障集群节点保持故障状态而避免进行数据恢复操作，从而保障了分布式文件系统的稳定性。

上文对于本发明提供的一种分布式文件系统集群节点的数据恢复方法的实施例进行了详细的描述，本发明还提供了一种与该方法对应的分布式文件系统集群节点的数据恢复装置及计算机可读存储介质，由于装置及计算机可读存储介质部分的实施例与方法部分的实施例相互照应，因此装置及计算机可读存储介质部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

图5为本发明实施例提供的一种分布式文件系统集群节点的数据恢复装置的结构图，如图5所示，一种分布式文件系统集群节点的数据恢复装置包括：

获取模块51，用于当集群节点出现故障时，获取集群节点中的故障OSD；

判断模块52，用于判断故障OSD的数量与集群节点中的OSD总量的比值是否大于或等于预设阈值；

执行模块53，用于若大于或等于，则保持故障OSD的故障状态。

本发明实施例提供的分布式文件系统集群节点的数据恢复装置，具有上述分布式文件系统集群节点的数据恢复方法的有益效果。

图6为本发明实施例提供的一种分布式文件系统集群节点的数据恢复装置的结构图，如图6所示，一种分布式文件系统集群节点的数据恢复装置包括：

存储器61，用于存储计算机程序；

处理器62，用于执行计算机程序时实现如上述分布式文件系统集群节点的数据恢复方法的步骤。

为解决上述技术问题，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述分布式文件系统集群节点的数据恢复方法的步骤。

本发明实施例提供的计算机可读存储介质，具有上述分布式文件系统集群节点的数据恢复方法的有益效果。

以上对本发明所提供的分布式文件系统集群节点的数据恢复方法、装置及计算机可读存储介质进行了详细介绍。本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

Claims

1.一种分布式文件系统集群节点的数据恢复方法，其特征在于，包括：

当集群节点出现故障时，获取所述集群节点中的故障OSD并开始计时；

若大于或等于，则保持所述故障OSD的故障状态；

所述保持所述故障OSD的故障状态的过程包括：

当所述故障OSD的计时时间达到第一预设时间，则重新开始计时。

2.根据权利要求1所述的方法，其特征在于，在所述判断所述故障OSD的数量与所述集群节点中的OSD总量的比值是否大于或等于预设阈值之后，进一步包括：

若否，则复制与所述故障OSD对应的PG中的对象数据；

3.根据权利要求2所述的方法，其特征在于，在所述判断所述故障OSD是否在预设时间阈值内开始正常工作之后，进一步包括：

4.根据权利要求2所述的方法，其特征在于，所述判断所述故障OSD的数量与所述集群节点中的OSD总量的比值是否大于预设阈值具体为：

若等于，则进入所述保持所述故障OSD的故障状态的步骤。

5.根据权利要求1至4任一项所述的方法，其特征在于，在所述保持所述故障OSD的故障状态之后，进一步包括：

为保持所述故障状态的所述故障OSD设置标识信息。

6.一种分布式文件系统集群节点的数据恢复装置，其特征在于，包括：

获取模块，用于当集群节点出现故障时，获取所述集群节点中的故障OSD并开始计时；

执行模块，用于若大于或等于，则保持所述故障OSD的故障状态；

所述执行模块具体用于：当所述故障OSD的计时时间达到第一预设时间，则重新开始计时。

7.一种分布式文件系统集群节点的数据恢复装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至5任一项所述的分布式文件系统集群节点的数据恢复方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的分布式文件系统集群节点的数据恢复方法的步骤。