CN113126925B

CN113126925B - 一种成员列表确定方法、装置、设备及可读存储介质

Info

Publication number: CN113126925B
Application number: CN202110430910.3A
Authority: CN
Inventors: 李彦博; 孟祥瑞
Original assignee: Shandong Yingxin Computer Technology Co Ltd
Current assignee: Shandong Yingxin Computer Technology Co Ltd
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2022-08-02
Anticipated expiration: 2041-04-21
Also published as: CN113126925A

Abstract

本申请公开了一种成员列表确定方法、装置、设备及可读存储介质，该方法包括：从归置组的当前acting列表中选取新acting成员；从归置组的all_info成员中选取备选acting成员；判断新acting成员是否存在故障域冲突；如果是，则在将故障域冲突对应的新acting成员替换为备选acting成员中符合故障域的备选acting成员后，利用替换后的新acting成员构建新acting列表；如果否，则利用新acting成员构建新acting列表。本申请可保障参与构建新acting列表的新acting成员不存在故障域冲突问题，能够在后续发生故障时，不会因存在故障域冲突而导致集群出错，能够有效保障持续对外提供业务服务。

Description

一种成员列表确定方法、装置、设备及可读存储介质

技术领域

本申请涉及计算机应用技术领域，特别是涉及一种成员列表确定方法、装置、设备及可读存储介质。

背景技术

在分布式存储集群中，OSD(Object-based Storage Device，对象存储设备)的应用非常广泛。为了便于管理，往往会设置PG(Placement Group，归置组)是数据分布的一种逻辑单元。PG的成员列表有两个：up列表(包括UP成员)和对应所有数据副本所在OSD集合的acting列表(包括acting成员)，且通常情况下，up列表与acting列表相同。

在集群运行过程中，如果出现了故障，会触发peering(对等操作)的流程，peering的流程的一个作用就是重新选取PG成员中的up成员和acting成员，通过crush算法来选取up成员，选取acting成员则从当前PG成员中的up成员、acting成员和all_info成员进行选取。由于acting成员和all_info成员本身可能存在故障域冲突，即新选出的acting成员就可能存在故障域冲突。如此，在集群运行过程中，再次触发故障时，就可能因故障域冲突问题造成集群出错(error)，导致客户业务中断。

综上所述，如何有效地解决acting成员选取对应的故障域冲突等问题，是目前本领域技术人员急需解决的技术问题。

发明内容

本申请的目的是提供一种成员列表确定方法、装置、设备及可读存储介质，可以选出不存在故障域冲突的acting成员。

为解决上述技术问题，本申请提供如下技术方案：

一种成员列表确定方法，包括：

从归置组的当前acting列表中选取新acting成员；

从所述归置组的all_info成员中选取备选acting成员；

判断所述新acting成员是否存在故障域冲突；

如果是，则在将故障域冲突对应的新acting成员替换为所述备选acting成员中符合故障域的所述备选acting成员后，利用替换后的新acting成员构建新acting列表；

如果否，则利用所述新acting成员构建所述新acting列表。

优选地，判断所述新acting成员是否存在故障域冲突，包括：

获取各个所述新acting成员的故障域ID；

判断所述故障域ID中是否存在相同的故障域ID；

如果是，则确定所述新acting成员存在故障域冲突，并将相同的故障域ID对应的所述新acting成员确定为所述故障域冲突对应的新acting成员。

优选地，所述将故障域冲突对应的新acting成员替换为所述备选acting成员中符合故障域的所述备选acting成员，包括：

从所述备选acting成员中选择符合故障域的目标备选acting成员；

将所述故障域冲突对应的新acting成员替换为所述目标备选acting成员。

优选地，还包括：

若所述备选acting成员中无所述符合故障域的目标备选acting成员，则直接执行所述利用所述新acting成员构建所述新acting列表的步骤。

优选地，利用所述新acting成员构建所述新acting列表，包括：

从所述归置组的当前up列表中选取所述新acting成员；

利用所述新acting成员构建所述新acting列表。

优选地，从所述归置组的all_info成员中选取备选acting成员，包括：

从所述all_info成员中选取符合acting成员选取条件的所述备选acting成员。

优选地，所述从归置组的当前acting列表中选取新acting成员，包括：

获取故障推送消息，并利用所述故障推送消息确定需要重新确定acting成员的所述归置组；

获取所述归置组的所述当前acting列表；

从所述当前acting列表中选取所述新acting成员。

一种成员列表确定装置，包括：

新acting成员选取模块，用于从归置组的当前acting列表中选取新acting成员；

备选acting成员选取模块，用于从所述归置组的all_info成员中选取备选acting成员；

故障域冲突检测模块，用于判断所述新acting成员是否存在故障域冲突；

故障冲突处理模块，用于如果所述新acting成员存在故障域冲突，则将故障域冲突对应的新acting成员替换为所述备选acting成员中符合故障域的所述备选acting成员；

新acting列表确定模块，用于如果所述新acting成员不存在故障域冲突，则利用所述新acting成员构建所述新acting列表；或，利用替换后的新acting成员构建所述新acting列表。

一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述成员列表确定方法的步骤。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述成员列表确定方法的步骤。

应用本申请实施例所提供的方法，从归置组的当前acting列表中选取新acting成员；从归置组的all_info成员中选取备选acting成员；判断新acting成员是否存在故障域冲突；如果是，则在将故障域冲突对应的新acting成员替换为备选acting成员中符合故障域的备选acting成员后，利用替换后的新acting成员构建新acting列表；如果否，则利用新acting成员构建新acting列表。

在本申请中，首先从归置组的当前acting列表中选取出新acting成员。从归置组的all_info成员中选取备选acting成员。然后，判断新acting成员师傅存在故障域冲突。如果不存在，则可直接基于新acting成员构建新acting列表；如果存在，则将故障域冲突对应的新acting成员替换为备选acting成员中符合故障域的备选acting成员，如此，替换后的新acting成员便不存在故障域冲突问题，继而基于无故障域冲突的新acting成员构建新acting列表，能够在后续发生故障时，不会因存在故障域冲突而导致集群出错，能够有效保障持续对外提供业务服务。

相应地，本申请实施例还提供了与上述成员列表确定方法相对应的成员列表确定装置、设备和可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中一种成员列表确定方法的实施流程图；

图2为本申请实施例中一种成员列表确定装置的结构示意图；

图3为本申请实施例中一种电子设备的结构示意图；

图4为本申请实施例中一种电子设备的具体结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例中一种成员列表确定方法的流程图，该方法包括以下步骤：

S101、从归置组的当前acting列表中选取新acting成员。

其中，acting列表可用acting set表示，acting set中保存是该归置组所有的副本所在OSD的集合，比如acting[0,1,2]，即表示这个归置组的副本保存在OSD.0、OSD.1、OSD.2中，且排在第一位的是OSD.0，即这个OSD.0是归置组的primary副本(初始副本)。

在本实施例中，需要重新选取归置组的acting成员时，可从归置组的当前acting列表中选取新acting成员。具体的，对于具体如何从当前acting列表中选取出新acting成员，可具体参见相关acting成员的选取条件/规则，以及相关的选取流程，出此不再一一赘述。

其中，需要重新选取归置组的acting成员时，可具体对应分布式集群在运行过程中，出现了故障并触发重新选取新acting成员的条件时。

在本申请中的一种具体实施例方式中，步骤S101从归置组的当前acting列表中选取新acting成员，具体包括：

步骤一、获取故障推送消息，并利用故障推送消息确定需要重新确定acting成员的归置组；

步骤二、获取归置组的当前acting列表；

步骤三、从当前acting列表中选取新acting成员。

为便于描述，下面将上述三个步骤结合起来进行说明。

故障触发osdmap(集群所有OSD的集合，包括每个osd的ip&state(state，如up ordown))发生变更，mon将osdmap推送给OSD；OSD收到osdmap后，触发peering流程；主OSD获取到所有参与过这个配置组的所有成员的info信息以便选取新acting成员。

也就是说，基于故障推送消息可以确定出需要重新确acting成员的归置组，然后可以通过获取所有成员的info信息的方式确定出当前acting列表。然后，再从acting列表中选取出符合条件的新acting成员。

S102、从归置组的all_info成员中选取备选acting成员。

其中，all_info成员即曾经和当前属于该归置组的全部成员(包括up成员和all_info成员)。

具体的，步骤S102从归置组的all_info成员中选取备选acting成员，包括：从all_info成员中选取符合acting成员选取条件的备选acting成员。也就是说，预先可以设置好acting成员选取条件，通过筛选或查找等方式便可从all_info成员中选出备选acting成员。

S103、判断新acting成员是否存在故障域冲突。

其中，故障域指集体受故障影响的一组服务器、存储和/或网络连接组件。例如，故障域的一个常见示例是服务器机架，如果架顶式交换机或服务器机架的配电装置出现故障，则该机架中的所有服务器会离线，即使服务器硬件正常。

在执行完步骤S101之后，便可判断新acting成员是否存在故障域冲突。具体的，故障域冲突即指acting成员中存在两个或两个以上的acting成员同属于同一个故障域。也就是说，当同一个故障域发生故障后，会导致至少2个acting成员产生故障，则确定存在故障域冲突。当然，在实际应用中，考虑到故障域出现故障的可能性并不高，因而还可仅在所有的acting成员均对应同一个故障域的情况下，视为存在故障域冲突。

在本申请中的一种具体实施方式中，步骤S1032、判断新acting成员是否存在故障域冲突，包括：

步骤一、获取各个新acting成员的故障域ID；

步骤二、判断故障域ID中是否存在相同的故障域ID；

步骤三、如果是，则确定新acting成员存在故障域冲突，并将相同的故障域ID对应的新acting成员确定为故障域冲突对应的新acting成员。

为便于描述，下面将上述三个步骤结合起来进行说明。

考虑到故障域均有其对应的ID，因而在检测是否存在故障域冲突时，可以仅通过判断各个新acting成员的故障域ID是否存在相同的故障域ID的方式，确定出新acting成员是否存在故障域冲突。具体的，如果新acting成员的故障域ID中存在相同的故障域ID，则确定存在故障域冲突，此时，还可将相同故障域ID对应的新acting成员确定为故障域冲突对应的新acting成员。如此，便可通过故障域ID简化故障域冲突判断。

一般地，当存在相同故障域ID的情况下，则必然存在至少2个新acting成员同属于一个故障域，在确定故障域冲突对应的新acting成员时，可将这同属于月一个故障域的全部新acting成员均确定为故障域冲突对应的新acting成员，也可以保留其中一个新acting成员，而将对应该故障域的其他新acting成员确定为故障域冲突对应的新acting成员。

得到判断结果之后，便可根据具体的判断结果确定后续所需执行的步骤。具体的，如果判断结果为是，则先执行步骤S104，再执行步骤S105；如果判断结果为否，则直接执行步骤S105。

S104、将故障域冲突对应的新acting成员替换为备选acting成员中符合故障域的备选acting成员。

在确定从当前acting列表中选取的acting成员存在故障域冲突之后，便可借助all_info成员对故障域冲突对应的新acting成员进行替换。

也就是说，上述步骤S102仅需在执行步骤S104之前的被执行即可，即步骤S102的具体执行顺序可参照执行了步骤S101便执行，也可以在执行了步骤S103且仅在判断结果为否的情况下，在执行步骤S104之前进行执行。

需要注意的是，在对故障域冲突对应的新acting成员进行替换处理时，需要从备选acting成员中选择出符合故障域的备选acting成员进行替换。从上文可知，备选acting成员本身即为挑选出符合acting成员选取条件的成员，进行替换时，再选符合故障域的，如此便可保障替换后的新acting成员不存在故障域冲突。其中，符合故障域，即指不存在故障域冲突。

在本申请中的一种具体实施方式中，步骤S104将故障域冲突对应的新acting成员替换为备选acting成员中符合故障域的备选acting成员，可具体包括：

步骤一、从备选acting成员中选择符合故障域的目标备选acting成员。

具体的，可以通过遍历等方式，从备选acting成员中选择出符和故障域的目标备选acting成员。即目标备选acting成员步骤S101挑选出的新acting成员无故障域重合情况。

步骤二、将故障域冲突对应的新acting成员替换为目标备选acting成员。

将故障域冲突对应的新acting成员替换为目标备选acting成员，如此，替换后的新acting成员之间便不存在故障域冲突问题。

在将新acting成员中存在故障域冲突的新acting成员进行替换后，便可得到无冲突的新acting成员，接下来可执行步骤S105。

需要注意的是，在实际应用中，若执行步骤S104中发现备选acting成员中没有符和故障域的目标备选acting成员，此时可直接跳过步骤S104，而执行步骤S105，以解决因找不到目标备选acting成员，而导致无法继续后续操作的问题。即，若备选acting成员中无符合故障域的目标备选acting成员，则直接执行利用新acting成员构建新acting列表的步骤。

S105、利用新acting成员构建新acting列表。

具体的，若执行步骤S105之前，执行了步骤S104，则该新acting成员指将具有故障域冲突的新acting成员进行替换处理后，无故障域冲突的新acting成员。

得到新acting成员之后，便可基于新acting成员构建出新acting列表。

优选地，在重新选择acting成员时，还可从当前up列表中选取出符合acting成员选取条件的up成员作为新acting成员。也就是说，步骤S105利用新acting成员构建新acting列表，包括：

步骤一、从归置组的当前up列表中选取新acting成员；

步骤二、利用新acting成员构建新acting列表。

为便于描述，下面将上述两个步骤结合起来进行说明。

考虑到，up成员均是符合故障域的，因而可从up列表中选取出up成员作为新acting成员，并且从up列表中选取出的新acting成员无需进行故障域冲突检测，而直接与通过了故障域冲突检测的新acting成员一并构建新acting列表。

相应于上面的方法实施例，本申请实施例还提供了一种成员列表确定装置，下文描述的成员列表确定装置与上文描述的成员列表确定方法可相互对应参照。

参见图2所示，该装置包括以下模块：

新acting成员选取模块101，用于从归置组的当前acting列表中选取新acting成员；

备选acting成员选取模块102，用于从归置组的all_info成员中选取备选acting成员；

故障域冲突检测模块103，用于判断新acting成员是否存在故障域冲突；

故障冲突处理模块104，用于如果新acting成员存在故障域冲突，则将故障域冲突对应的新acting成员替换为备选acting成员中符合故障域的备选acting成员；

新acting列表确定模块105，用于如果新acting成员不存在故障域冲突，则利用新acting成员构建新acting列表；或，利用替换后的新acting成员构建所述新acting列表。

应用本申请实施例所提供的装置，从归置组的当前acting列表中选取新acting成员；从归置组的all_info成员中选取备选acting成员；判断新acting成员是否存在故障域冲突；如果是，则在将故障域冲突对应的新acting成员替换为备选acting成员中符合故障域的备选acting成员后，利用替换后的新acting成员构建新acting列表；如果否，则利用新acting成员构建新acting列表。

在本申请的一种具体实施方式中，故障域冲突检测模块103，具体用于获取各个新acting成员的故障域ID；判断故障域ID中是否存在相同的故障域ID；如果是，则确定新acting成员存在故障域冲突，并将相同的故障域ID对应的新acting成员确定为故障域冲突对应的新acting成员。

在本申请的一种具体实施方式中，故障冲突处理模块104，具体用于从备选acting成员中选择符合故障域的目标备选acting成员；将故障域冲突对应的新acting成员替换为目标备选acting成员。

在本申请的一种具体实施方式中，还包括：

特殊处理模块，用于若备选acting成员中无符合故障域的目标备选acting成员，则直接执行利用新acting成员构建新acting列表的步骤。

在本申请的一种具体实施方式中，新acting列表确定模块105，具体用于从归置组的当前up列表中选取新acting成员；利用新acting成员构建新acting列表。

在本申请的一种具体实施方式中，备选acting成员选取模块102，具体用于从all_info成员中选取符合acting成员选取条件的备选acting成员。

在本申请的一种具体实施方式中，新acting成员选取模块101，具体用于获取故障推送消息，并利用故障推送消息确定需要重新确定acting成员的归置组；获取归置组的当前acting列表；从当前acting列表中选取新acting成员。

相应于上面的方法实施例，本申请实施例还提供了一种电子设备，下文描述的一种电子设备与上文描述的一种成员列表确定方法可相互对应参照。

参见图3所示，该电子设备包括：

存储器332，用于存储计算机程序；

处理器322，用于执行计算机程序时实现上述方法实施例的成员列表确定方法的步骤。

具体的，请参考图4，图4为本实施例提供的一种电子设备的具体结构示意图，该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)322(例如，一个或一个以上处理器)和存储器332，存储器332存储有一个或一个以上的计算机应用程序342或数据344。其中，存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储器332通信，在电子设备301上执行存储器332中的一系列指令操作。

电子设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。

上文所描述的成员列表确定方法中的步骤可以由电子设备的结构实现。

相应于上面的方法实施例，本申请实施例还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的一种成员列表确定方法可相互对应参照。

一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的成员列表确定方法的步骤。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。

本领域技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

Claims

1.一种成员列表确定方法，其特征在于，包括：

从归置组的当前acting列表中选取新acting成员；

从所述归置组的all_info成员中选取备选acting成员；

判断所述新acting成员是否存在故障域冲突；判断所述新acting成员是否存在故障域冲突，包括：获取各个所述新acting成员的故障域ID；判断所述故障域ID中是否存在相同的故障域ID；如果是，则确定所述新acting成员存在故障域冲突，并将相同的故障域ID对应的所述新acting成员确定为所述故障域冲突对应的新acting成员；

如果否，则利用所述新acting成员构建所述新acting列表。

2.根据权利要求1所述的成员列表确定方法，其特征在于，所述将故障域冲突对应的新acting成员替换为所述备选acting成员中符合故障域的所述备选acting成员，包括：

3.根据权利要求2所述的成员列表确定方法，其特征在于，还包括：

4.根据权利要求1所述的成员列表确定方法，其特征在于，利用所述新acting成员构建所述新acting列表，包括：

从所述归置组的当前up列表中选取所述新acting成员；

利用所述新acting成员构建所述新acting列表。

5.根据权利要求1所述的成员列表确定方法，其特征在于，从所述归置组的all_info成员中选取备选acting成员，包括：

6.根据权利要求1所述的成员列表确定方法，其特征在于，所述从归置组的当前acting列表中选取新acting成员，包括：

获取所述归置组的所述当前acting列表；

从所述当前acting列表中选取所述新acting成员。

7.一种成员列表确定装置，其特征在于，包括：

故障域冲突检测模块，用于判断所述新acting成员是否存在故障域冲突；判断所述新acting成员是否存在故障域冲突，包括：获取各个所述新acting成员的故障域ID；判断所述故障域ID中是否存在相同的故障域ID；如果是，则确定所述新acting成员存在故障域冲突，并将相同的故障域ID对应的所述新acting成员确定为所述故障域冲突对应的新acting成员；

8.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述成员列表确定方法的步骤。

9.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述成员列表确定方法的步骤。