CN110502496B

CN110502496B - 一种分布式文件系统修复方法、系统、终端及存储介质

Info

Publication number: CN110502496B
Application number: CN201910654967.4A
Authority: CN
Inventors: 王庆海
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2022-10-18
Anticipated expiration: 2039-07-19
Also published as: CN110502496A

Abstract

本发明提供一种分布式文件系统修复方法、系统、终端及存储介质，包括：通过Monitor确认集群中有PG处于亚健康状态的持续时间达到预设时间；查找异常PG的故障osd所属主机Host；筛选所述主机Host的正常osd，并将所述正常osd的reweight值调整到最大值。本发明可以在不需要人工干预的情况下消除集群特定异常，使集群恢复正常状态，可以提高小规模集群的容错能力，使集群发生特定异常的时候可以自动识别、自动修复，减少人工维护的成本。

Description

一种分布式文件系统修复方法、系统、终端及存储介质

技术领域

本发明属于存储设备技术领域，具体涉及一种分布式文件系统修复方法、系统、终端及存储介质。

背景技术

分布式文件系统为了数据容灾保护，同一个对象的不同副本都是保存在不同节点上的。由于对象保存在PG(在分布式文件系统中数据是被切分成一个个对象，对象存储在PG中，PG为数据分布的最小单位。)中，所以PG也是多副本的。例如采用三副本存储策略时，同一组对象有三个副本，分别保存在3个PG中，这三个PG又分别分布在三个不同节点的OSD(OSD的主要功能是存储数据、复制数据、平衡数据、恢复数据等，与其它OSD间进行心跳检查等，并将一些变化情况上报给Monitor。一般情况下一块硬盘对应一个OSD，由OSD来对硬盘存储进行管理。)中。PG的不同副本在分布在哪些OSD中是通过CRUSH算法计算出来的。

例如PG id为1.1的PG的三个副本的分布为[3,6,0]，即PG的三个副本分别保存在ID为3,6,0的三个OSD中，其中osd.3的PG副本为主副本，可以称osd.3为主OSD。osd.3，osd.6，osd.0分布在三个不同的节点上。我们将这三个osd称为DEVICE(设备)，将承载这三个osd的节点称为HOST(主机)。假设osd.0的硬盘发生了机械故障(永久故障)，此时PG 1.1的主OSD，即osd.3需要重新选择一个OSD来承载PG的副本。选择的过程为从osd.0所在HOST选择其他OSD来承载PG的副本，假设选择osd.1来替代osd.0，此时PG 1.1的三个副本的分布为[3,6,1]。上面模拟PG一个副本发生故障时重新选择一个OSD来承载PG的副本的过程是依据CRUSH算法进行的。

但是上述副本重新选择方法，如果遇到选不出来的情况，该PG就会一直处在remapped的中间状态，无法恢复到clean状态。此时集群虽然能正常读写，但是集群会处在warning状态，即亚健康状态，如果不及时消除这种异常，那么一旦其他OSD发生永久故障则可能会丢失部分数据。例如，在HOST下OSD数过少时，当遇到缩减OSD的场景时也有可能出现PG一直处在degraded的状态，造成集群处于warning状态。如果多个HOST下的OSD数不统一，其中有一个HOST下的OSD数过少，当创建PG的时候也有可能出现PG一直处在degraded状态，造成集群处于warning状态。上面提到的PG一直处在remapped或者degraded状态是指PG无法完成正常的状态变化，卡在中间状态。这时候集群就会一直处在warning的亚健康状态。

发明内容

针对现有技术的上述不足，本发明提供一种分布式文件系统修复方法、系统、终端及存储介质，以解决上述技术问题。

第一方面，本发明提供一种分布式文件系统修复方法，包括：

通过Monitor确认集群中有PG处于亚健康状态的持续时间达到预设时间；

查找异常PG的故障osd所属主机Host；

筛选所述主机Host的正常osd，并将所述正常osd的reweight值调整到最大值。

进一步的，所述通过Monitor确认集群中有PG处于亚健康状态的持续时间达到预设时间，包括：

通过Monitor的定时器确认集群处在warning状态；

检查所述集群的PG状态，确认有PG处在remapped或者degraded状态且集群中up和in的osd数目一致，开始计时；

确认集群处在recovery和backfill状态，将计时清零；

确认集群发生peering，将计时清零；

确认集群状态变成ok或者error状态，将计时清零。

进一步的，所述查找异常PG的故障osd所属主机Host，包括：

获取所述异常PG的缺失up成员，将缺失up成员作为故障osd；

获取故障osd所属主机Host IP。

进一步的，所述筛选主机Host的正常osd，并将所述正常osd的reweight值调整到最大值，包括：

将所述主机Host的正常osd的reweight值调整到65536；

对经过reweight值调整的osd标注不可再调整的标记；

利用CRUSH算法重新计算异常PG up成员。

第二方面，本发明提供一种分布式文件系统修复系统，包括：

状态检查单元，配置用于通过Monitor确认集群中有PG处于亚健康状态的持续时间达到预设时间；

故障定位单元，配置用于查找异常PG的故障osd所属主机Host；

数值调整单元，配置用于筛选所述主机Host的正常osd，并将所述正常osd的reweight值调整到最大值。

进一步的，所述状态检查单元包括：

集群检查模块，配置用于通过Monitor的定时器确认集群处在warning状态；

计时启动模块，配置用于检查所述集群的PG状态，确认有PG处在remapped或者degraded状态且集群中up和in的osd数目一致，开始计时；

第一清零模块，配置用于确认集群处在recovery和backfill状态，将计时清零；

第二清零模块，配置用于确认集群发生peering，将计时清零；

第三清零模块，配置用于确认集群状态变成ok或者error状态，将计时清零。

进一步的，所述故障定位单元包括：

成员检查模块，配置用于获取所述异常PG的缺失up成员，将缺失up成员作为故障osd；

主机定位模块，配置用于获取故障osd所属主机Host IP。

进一步的，所述数值调整单元包括：

数值调整模块，配置用于将所述主机Host的正常osd的reweight值调整到65536；

调整标记模块，配置用于对经过reweight值调整的osd标注不可再调整的标记；

成员计算模块，配置用于利用CRUSH算法重新计算异常PG up成员。

第三方面，提供一种终端，包括：

处理器、存储器，其中，

该存储器用于存储计算机程序，

该处理器用于从存储器中调用并运行该计算机程序，使得终端执行上述的终端的方法。

第四方面，提供了一种计算机存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

本发明的有益效果在于，

本发明提供的分布式文件系统修复方法、系统、终端及存储介质，通过利用Monitor监控集群状态，并在集群处于亚健康后进一步检查PG，定位故障PG的异常up成员，并通过调整主机Host的正常osd，并将所述正常osd的reweight值，使CRUSH算法能够成功计算出代替异常up成员的osd。本发明可以在不需要人工干预的情况下消除集群特定异常，使集群恢复正常状态，可以提高小规模集群的容错能力，使集群发生特定异常的时候可以自动识别、自动修复，减少人工维护的成本。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的方法的示意性流程图。

图2是本发明一个实施例的系统的示意性框图。

图3为本发明实施例提供的一种终端的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面对本发明中出现的关键术语进行解释。

OSD，Object-based Storage Device对象存储设备；

PG，Placement Group放置组，是用于放置对象的一个载体；

Mon，Monitor集群的监视器守护进程；

Up成员，保存副本的osd，例如PG id为1.1的PG的三个副本的分布为[3,6,0]，即PGid为1.1的PG的三份副本分别分布在osd.3,osd.6，osd.0上，此时PG 1.1的up成员就是[3,6,0]。

图1是本发明一个实施例的方法的示意性流程图。其中，图1执行主体可以为一种分布式文件系统修复系统。

如图1所示，该方法100包括：

步骤110，通过Monitor确认集群中有PG处于亚健康状态的持续时间达到预设时间；

步骤120，查找异常PG的故障osd所属主机Host；

步骤130，筛选所述主机Host的正常osd，并将所述正常osd的reweight值调整到最大值。

可选地，作为本发明一个实施例，所述通过Monitor确认集群中有PG处于亚健康状态的持续时间达到预设时间，包括：

通过Monitor的定时器确认集群处在warning状态；

确认集群处在recovery和backfill状态，将计时清零；

确认集群发生peering，将计时清零；

确认集群状态变成ok或者error状态，将计时清零。

可选地，作为本发明一个实施例，所述查找异常PG的故障osd所属主机Host，包括：

获取所述异常PG的缺失up成员，将缺失up成员作为故障osd；

获取故障osd所属主机Host IP。

可选地，作为本发明一个实施例，进一步的，所述筛选主机Host的正常osd，并将所述正常osd的reweight值调整到最大值，包括：

将所述主机Host的正常osd的reweight值调整到65536；

对经过reweight值调整的osd标注不可再调整的标记；

利用CRUSH算法重新计算异常PG up成员。

为了便于对本发明的理解，下面以本发明分布式文件系统修复方法的原理，结合实施例中对分布式文件系统进行自动修复的过程，对本发明提供的分布式文件系统修复方法做进一步的描述。

具体的，所述分布式文件系统修复方法包括：

S1、通过Monitor确认集群中有PG处于亚健康状态的持续时间达到预设时间。

在Monitor的定时器(周期运行的函数)中检查集群的状态，当集群处在warning状态时开始检查PG状态。当集群有PG处在remapped或者degraded状态时，如果集群没有处在recovery和backfill状态，且集群中up和in的osd数目一致，此时开始计时。

如果发生recovery或者backfill则将计时清零，如果发生peering，则将计时清零，如果集群状态变成ok或者error状态则将计时清零。这是三种计时清零情况。

本实施例将预设时间设置为5分钟，计时达到5分钟后，即有PG在remapped或者degraded状态持续了5分钟，则需要的集群进行修复，进入步骤S2。

S2、查找异常PG的故障osd所属主机Host。

对卡在remapped或degraded状态5分钟的PG逐个检查，检查该PG的up成员，找出up成员中缺少哪个HOST下的osd，例如上文提到的PG id为1.1的PG的三个副本的分布为[3,6,0]，即PG id为1.1的PG的三份副本分别分布在osd.3,osd.6，osd.0上，此时PG 1.1的up成员就是[3,6,0]，当osd.0故障时，此时PG 1.1的up成员为[3,6,NONE]，即此时up成员缺失一个。从记录日志中获取缺失up成员所属主机的IP。

S3、筛选所述主机Host的正常osd，并将所述正常osd的reweight值调整到最大值。

根据步骤S2获取的主机IP，定位到该主机，获取该主机下的正常osd，将正常osd的reweight值调整到最大值65536。osd的reweight值是CRUSH算法计算PG的成员的最重要参数，PG在最开始创建的时候，为了让每个OSD中分布的PG的副本更加均衡，会调整各个osd的reweight值以达到均衡的目的。当某个HOST下的OSD发生永久故障时，当该HOST下的OSD数较少，有一定概率会出现CRUSH算法无法正确计算出PG的新成员，导致PG卡在remapped状态。

记录一下调整过reweight值的osd id，若该osd的reweight值被调整过则不再进行调整。

利用CRUSH算法重新计算异常PG的新成员，计算完成后，集群状态恢复正常，计时清零。

如图2示，该系统200包括：

状态检查单元210，配置用于通过Monitor确认集群中有PG处于亚健康状态的持续时间达到预设时间；

故障定位单元220，配置用于查找异常PG的故障osd所属主机Host；

数值调整单元230，配置用于筛选所述主机Host的正常osd，并将所述正常osd的reweight值调整到最大值。

可选地，作为本发明一个实施例，所述状态检查单元包括：

第二清零模块，配置用于确认集群发生peering，将计时清零；

可选地，作为本发明一个实施例，所述故障定位单元包括：

主机定位模块，配置用于获取故障osd所属主机Host IP。

可选地，作为本发明一个实施例，所述数值调整单元包括：

图3为本发明实施例提供的一种终端系统300的结构示意图，该终端系统300可以用于执行本发明实施例提供的分布式文件系统修复方法。

其中，该终端系统300可以包括：处理器310、存储器320及通信单元330。这些组件通过一条或多条总线进行通信，本领域技术人员可以理解，图中示出的服务器的结构并不构成对本发明的限定，它既可以是总线形结构，也可以是星型结构，还可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中，该存储器320可以用于存储处理器310的执行指令，存储器320可以由任何类型的易失性或非易失性存储终端或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。当存储器320中的执行指令由处理器310执行时，使得终端300能够执行以下上述方法实施例中的部分或全部步骤。

处理器310为存储终端的控制中心，利用各种接口和线路连接整个电子终端的各个部分，通过运行或执行存储在存储器320内的软件程序和/或模块，以及调用存储在存储器内的数据，以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(Integrated Circuit，简称IC)组成，例如可以由单颗封装的IC所组成，也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说，处理器310可以仅包括中央处理器(Central Processing Unit，简称CPU)。在本发明实施方式中，CPU可以是单运算核心，也可以包括多运算核心。

通信单元330，用于建立通信信道，从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。

本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，简称：ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

因此，本发明通过利用Monitor监控集群状态，并在集群处于亚健康后进一步检查PG，定位故障PG的异常up成员，并通过调整主机Host的正常osd，并将所述正常osd的reweight值，使CRUSH算法能够成功计算出代替异常up成员的osd。本发明可以在不需要人工干预的情况下消除集群特定异常，使集群恢复正常状态，可以提高小规模集群的容错能力，使集群发生特定异常的时候可以自动识别、自动修复，减少人工维护的成本，本实施例所能达到的技术效果可以参见上文中的描述，此处不再赘述。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，包括若干指令用以使得一台计算机终端(可以是个人计算机，服务器，或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于终端实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种分布式文件系统修复方法，其特征在于，包括：

查找异常PG的故障osd所属主机Host；

筛选所述主机Host的正常osd，并将所述正常osd的reweight值调整到最大值；

所述通过Monitor确认集群中有PG处于亚健康状态的持续时间达到预设时间，包括：

通过Monitor的定时器确认集群处在warning状态；

确认集群处在recovery和backfill状态，将计时清零；

确认集群发生peering，将计时清零；

确认集群状态变成ok或者error状态，将计时清零。

2.根据权利要求1所述的分布式文件系统修复方法，其特征在于，所述查找异常PG的故障osd所属主机Host，包括：

获取所述异常PG的缺失up成员，将缺失up成员作为故障osd；

获取故障osd所属主机Host IP。

3.根据权利要求1所述的分布式文件系统修复方法，其特征在于，筛选主机Host的正常osd，并将所述正常osd的reweight值调整到最大值，包括：

将所述主机Host的正常osd的reweight值调整到65536；

对经过reweight值调整的osd标注不可再调整的标记；

利用CRUSH算法重新计算异常PG up成员。

4.一种分布式文件系统修复系统，其特征在于，包括：

故障定位单元，配置用于查找异常PG的故障osd所属主机Host；

数值调整单元，配置用于筛选所述主机Host的正常osd，并将所述正常osd的reweight值调整到最大值；

所述状态检查单元包括：

第二清零模块，配置用于确认集群发生peering，将计时清零；

5.根据权利要求4所述的分布式文件系统修复系统，其特征在于，所述故障定位单元包括：

主机定位模块，配置用于获取故障osd所属主机Host IP。

6.根据权利要求4所述的分布式文件系统修复系统，其特征在于，所述数值调整单元包括：

7.一种终端，其特征在于，包括：

处理器；

用于存储处理器的执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-3任一项所述的方法。

8.一种存储有计算机程序的计算机可读存储介质，其特征在于，该程序被处理器执行时实现如权利要求1-3中任一项所述的方法。