CN113722393A

CN113722393A - 分布式平台的控制方法、装置及电子设备

Info

Publication number: CN113722393A
Application number: CN202110620745.8A
Authority: CN
Inventors: 胡建; 李瑞远; 王棚; 鲍捷
Original assignee: Jingdong City Beijing Digital Technology Co Ltd
Current assignee: Jingdong City Beijing Digital Technology Co Ltd
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-11-30

Abstract

本申请提出一种分布式平台的控制方法、装置及电子设备，属于计算机应用技术领域。其中，该分布式平台的控制方法包括：获取分布式平台中包括的节点数量N，其中，N为大于或等于1的正整数；确定待存储数据对应的最小副本数量M，其中，M为大于或等于2的正整数；根据节点数量N及最小副本数量M，确定分布式平台中的主节点数量；根据主节点数量及最小副本数量M，确定分布式平台中的主节点及每个主节点对应的备节点。由此，通过这种分布式平台的控制方法，在保证分布式平台中的数据均存在副本的同时，提高数据分片的数量，从而不仅可以防止数据丢失，提高了系统的稳定性和可用性，而且充分利用了平台的软硬件资源，提升了服务效率。

Description

分布式平台的控制方法、装置及电子设备

技术领域

本申请涉及计算机应用技术领域，尤其涉及一种分布式平台的控制方法、装置及电子设备。

背景技术

分布式平台通常包括主从架构分布式平台与多主架构分布式平台。对于多主架构分布式平台(如ClickHouse、MongoDB等)，集群中的每个节点的角色对等，客户端访问任意一个节点都能得到相同的响应效果。由于在多主架构分布式平台中，所有的节点功能相同，因此多主架构天然规避了单点故障问题，非常适合用于多数据中心、异地多活的场景。

相关技术中，对分布式平台中的机器资源进行合理部署，才能在充分利用机器资源的同时，提高系统的稳定性。对于只设置副本集的部署方式，能够提高了数据的安全性，防止数据丢失；但是随着数据量的增大，每个节点都存储全量数据容易导致服务宕机，且系统的存储容量受限于单机容量。对于只设置分片的部署方式，将数据进行水平切分，并基于一定的规则分配至不同的节点进行存储和查询，提升了服务效率，但是如果其中一个节点宕机的话，该节点上的数据分片会丢失，无法保障数据安全。

发明内容

本申请提出的分布式平台的控制方法、装置、电子设备及存储介质，用于解决相关技术中，现有的分布式平台部署方式，无法充分利用软硬件资源，导致服务效率和稳定性较差的问题。

本申请一方面实施例提出的分布式平台的控制方法，包括：获取所述分布式平台中包括的节点数量N，其中，N为大于或等于1的正整数；确定待存储数据对应的最小副本数量M，其中，M为大于或等于2的正整数；根据所述节点数量N及所述最小副本数量M，确定所述分布式平台中的主节点数量；根据所述主节点数量及所述最小副本数量M，确定所述分布式平台中的主节点及每个所述主节点对应的备节点。

本申请另一方面实施例提出的分布式平台的控制装置，包括：第一获取模块，用于获取所述分布式平台中包括的节点数量N，其中，N为大于或等于1的正整数；第一确定模块，用于确定待存储数据对应的最小副本数量M，其中，M为大于或等于2的正整数；第二确定模块，用于根据所述节点数量N及所述最小副本数量M，确定所述分布式平台中的主节点数量；第三确定模块，用于根据所述主节点数量及所述最小副本数量M，确定所述分布式平台中的主节点及每个所述主节点对应的备节点。

本申请再一方面实施例提出的电子设备，其包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如前所述的分布式平台的控制方法。

本申请又一方面实施例提出的计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如前所述的分布式平台的控制方法。

本申请实施例提供的分布式平台的控制方法、装置、电子设备及计算机可读存储介质，通过根据分布式平台中包括的节点数量N与待存储数据对应的最小副本数量M，确定分布式平台中的主节点数量，进而根据主节点数量及最小副本数量M，确定分布式平台中的主节点及每个主节点对应的备节点。由此，通过根据分布式平台中的节点数量与待存储数据需要的最小副本数量，合理部署分布式平台中的主节点与备节点，以在保证分布式平台中的数据均存在副本的同时，提高待存储数据对应的数据分片的数量，从而不仅可以防止数据丢失，提高了系统的稳定性和可用性，而且充分利用了平台的软硬件资源，提升了服务效率。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例所提供的一种分布式平台的控制方法的流程示意图；

图2为本申请实施例所提供的另一种分布式平台的控制方法的流程示意图；

图3为本申请实施例所提供的再一种分布式平台的控制方法的流程示意图；

图4为本申请实施例提供的一种分布式平台的控制装置的结构示意图；

图5为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的要素。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

本申请实施例针对相关技术中，现有的分布式平台部署方式，无法充分利用软硬件资源，导致服务效率和稳定性较差的问题，提出一种分布式平台的控制方法。

本申请实施例提供的分布式平台的控制方法，通过根据分布式平台中包括的节点数量N与待存储数据对应的最小副本数量M，确定分布式平台中的主节点数量，进而根据主节点数量及最小副本数量M，确定分布式平台中的主节点及每个主节点对应的备节点。由此，通过根据分布式平台中的节点数量与待存储数据需要的最小副本数量，合理部署分布式平台中的主节点与备节点，以在保证分布式平台中的数据均存在副本的同时，提高待存储数据对应的数据分片的数量，从而不仅可以防止数据丢失，提高了系统的稳定性和可用性，而且充分利用了平台的软硬件资源，提升了服务效率。

下面参考附图对本申请提供的分布式平台的控制方法、装置、电子设备、存储介质及计算机程序进行详细描述。

图1为本申请实施例所提供的一种分布式平台的控制方法的流程示意图。

如图1所示，该分布式平台的控制方法，包括以下步骤：

步骤101，获取分布式平台中包括的节点数量N，其中，N为大于或等于1的正整数。

其中，分布式平台中包括的节点数量，可以是指分布式平台中包括的机器数量。

步骤102，确定待存储数据对应的最小副本数量M，其中，M为大于或等于2的正整数。

其中，数据分片，是指对分布式平台进行计算所需的全量数据进行分片后，生成的子数据。

其中，待存储数据，可以是指当前需要存储至分布式平台的数据。比如，待存储数据可以是分布式平台当前进行计算所需的全量数据。

其中，最小副本数量，是指预期的待存储数据对应的副本数量的最小值。比如，预期待存储数据的副本数量均大于或等于2，则可以确定最小副本数量为2。

需要说明的是，为了充分利用分布式系统中各个节点的软硬件资源，可以对待存储数据进行分片，并将生成的各个数据分片分别存储在不同的节点，以使分布式平台在进行计算时，可以根据所需的数据分片所在的节点，使得多个节点同时参与计算，从而使得分布式系统的计算效率不依赖于单个节点的性能。并且，为了保证分布式系统的数据安全性，防止数据丢失，还可以保证每个数据分片在分布式系统中均存在备份。因此，在本申请实施例中，可以根据对分布式平台中的全量数据进行分片和备份，以同时提升分布式系统的计算效率与可用性。

在本申请实施例中，可以将分布式平台中包括的机器数量确定为分布式平台中包括的节点数量N。并且可以根据实际使用需求或者预设的规则，设定最小副本数量M；或者，还可以获取用户的副本数量设置指令，并对副本数量设置指令进行解析处理，以获取副本数量设置指令中包括的最小副本数量M。

作为一种可能的实现方式，分布式系统中的每个节点可以对应一个实例，以充分利用节点的中央处理器(central processing unit，CPU)资源，从而每个数据分片的一个副本需要占用一个节点，因此在节点数量固定的情况下，数据分片的副本越多，数据分片的数量就越少，从而可以将最小副本数量M设定为较小的值，以使数据分片的数量尽可能的多，进而在保证每个数据分片均存在备份的情况下，尽可能提升分布式平台的计算效率。比如，最小副本数量M可以为2。

需要说明的是，实际使用时，可以根据实际需要及具体的应用场景，设定合适的最小副本数量，本申请实施例对此不做限定。

步骤103，根据节点数量N及最小副本数量M，确定分布式平台中的主节点数量。

其中，主节点数量，可以是指对待存储数据进行分片，生成的数据分片的数量。

在本申请实施例中，获取到分布式平台中的节点数量N与最小副本数量M之后，可以在保证每个数据分片的副本数量大于或等于M的情况下，确定数据分片的最大数量，即主节点数量，以通过每个主节点存储一个数据分片。

进一步的，在节点数量N大于或等于最小副本数量M时，与节点数量N小于最小副本数量M时，可以采用不同的方式确定主节点的数量。

情况一：N小于M

确定主节点数量为1。

作为一种可能的实现方式，若节点数量N小于最小副本数量M，即即使不对分布式平台中的全量数据进行分片，也无法满足使得数据的副本数量大于或等于M，从而可以确定不对全量数据进行分片，即数据分片的数量为1，以使N个节点均用于存储全量数据，以尽可能增大数据的副本数量，从而可以确定主节点的数量为1。

举例来说，节点数量为N＝1，最小副本数量M＝2，则可以确定不对数据进行分片，从而可以确定主节点数量为1，数据分片的副本数量也为1。

情况二：N大于或等于M

在N为M的整数倍的情况下，确定主节点数量为N/M；

在N不是M的整数倍的情况下，确定主节点数量为(N-L)/M+1，其中，L是N/M的余数与M之和。

作为一种可能的实现方式，在N大于M的情况下，可以在保证每个数据分片的副本数量大于或等于M的前提下，尽可能增大数据分片的数量。从而，在N为M整数倍的情况下，可以确定将全量数据分片为N/M个数据分片，以使每个数据分片都可以具有M个副本，即可以确定主节点的数量为N/M。

在N不是M的整数倍的情况下，由于需要尽可能增大数据分片的数量，从而可以以使得尽可能多的数据分片的副本数量为M为原则，确定数据分片的数量，即确定主节点的数量。从而，可以使得1个数据分片的副本数量大于M，且该数据分片的副本数量为L，其中，L为N/M的余数与M之和；并且N-L为M为整数倍，从而剩余的N-L个节点可以为(N-L)/M个数据分片，分别提供M个副本，剩余的N-L个节点中的主节点数量为(N-L)/M，从而可以确定N个节点中所有的主节点数量为(N-L)/M+1。

举例来说，最小副本数量M＝2，假设节点数量N＝2，则可以确定主节点数量为2/2＝1；假设节点数量N＝3，则可以确定主节点数量为(3-3)/2+1＝1；假设节点数量N＝4，则可以确定主节点数量为4/2＝2；假设节点数量N＝5，则可以确定主节点数量为(5-3)/2+1＝2。

步骤104，根据主节点数量及最小副本数量M，确定分布式平台中的主节点及每个主节点对应的备节点。

在本公开实施例中，确定出分布式平台中的主节点数量之后，即可以根据主节点数量，从N个节点中选取相应数量的节点作为主节点，进而根据最小副本数量M，从剩余的节点中确定每个主节点对应的备节点，其中，主节点对应的备节点用于存储该主节点存储的数据分片的备份。

进一步的，在节点数量N大于或等于最小副本数量M时，与节点数量N小于最小副本数量M时，可以采用不同的方式确定分布式平台中的主节点及每个主节点对应的备节点。

情况一：N小于M

将N个节点中的1个节点确定为所述主节点，并将剩余的N-1个节点中确定为主节点对应的备节点。

在本申请实施例中，由于在N小于M的情况下，主节点数量为1，即可以不对全量数据进行分片，从而可以N个节点均可以用于存储全量数据对应的副本，即可以将N个节点中的1个节点确定为主节点，并将剩余的N-1个节点确定为该主节点对应的备节点，从而使得N个节点均用于存储全量数据。

情况二：N大于或等于M

在N为M的整数倍的情况下，将N个节点中的N/M个节点确定为主节点，并将剩余的N-N/M个节点中的每个节点确定为一个主节点对应的备节点，其中，每个主节点对应M-1个备节点；

在N不为M的整数倍的情况下，将所述N个节点中的(N-3)/2+1个节点确定为所述主节点，并从剩余的N-[(N-3)/2+1]个节点中的每个节点确定为一个所述主节点对应备节点，其中，其中(N-3)/2个所述主节点对应M-1个备节点，其中一个所述主节点对应L-1个备节点。

在本申请实施例中，由于在N为M的整数倍时，主节点数量为N/M，从而可以将N个节点中的N/M个节点确定为主节点。并且，为了保证每个数据分片都具有M个副本，从而可以从剩余的N-N/M个节点中，确定每个主节点对应的备节点，其中，每个主节点对应M-1个备节点。

在本申请实施例中，由于在N不是M的整数倍时，主节点数量为(N-3)/2+1，从而可以将N个节点中的(N-3)/2+1个节点确定为主节点。并且，为了保证每个数据分片都具有至少M个副本，从而可以从剩余的N-N/M个节点中，确定每个主节点对应的备节点，其中，其中(N-3)/2个主节点对应M-1个备节点，其中一个主节点对应L-1个备节点。

举例来说，最小副本数量M＝2，假设N＝4，则主节点数量为2，从而可以将其中两个节点确定为主节点，并将剩余两个节点中的1个节点确定为其中1个主节点对应的备节点，以及将剩余两个节点中的另一个节点确定为另外一个主节点对应的备节点；假设N＝5，则主节点数量为2，从而可以将其中两个节点确定为主节点，并将剩余3个节点中的1个节点确定为其中1个主节点对应的备节点，以及将剩余3个节点中的另外两个节点确定为另外一个主节点对应的备节点。

在本申请一种可能的实现形式中，由于不同数据的使用频率、重要性等特征不同，因此不同数据对数据安全性的要求也不同，从而可以根据待存储数据本身的特征确定待存储数据所需的最小副本数量与最佳分片数量，以进一步提升分布式平台主备节点部署的灵活性与通用性。

下面结合图2，对本申请实施例提供的分布式平台的控制方法进行进一步说明。

图2为本申请实施例所提供的另一种分布式平台的控制方法的流程示意图。

如图2所示，该分布式平台的控制方法，包括以下步骤：

步骤201，获取所述分布式平台中包括的节点数量N，其中，N为大于或等于1的正整数。

上述步骤201的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤202，根据待存储数据中的各数据类型、来源和/或使用频次，确定待存储数据对应的最小副本数量M。

其中，待存储数据，可以是在对分布式平台进行初始化时需要存储至分布式平台的初始数据，以使分布式平台可以根据待存储数据正常运行；或者，待存储数据，还可以是在分布式平台使用过程中需要存储至分布式平台的补充数据，以完善分布式平台中的数据与功能。

在本申请实施例中，由于待存储数据包含的数据类型、来源与使用频次等特征，可以反映待存储数据的重要性与数据丢失后的可找回性等，因此，可以根据待存储数据中的数据类型、来源与使用频次等特征，确定待存储数据对应的最小副本数量M，以保证待存储数据的在分布式平台中的可靠性。

作为一种示例，若待存储数据中的各数据类型均为对分布式平台的运行较重要的数据类型，如待存储数据为支持分布式平台底层运行逻辑的数据，则可以将待存储数据对应的最小副本数量M确定为较大的值，以对待存储数据进行多份备份，尽可能保证待存储数据在分布式平台中的可靠性与可用性。若待存储数据中的各数据类型包含较少的对分布式平台的运行较重要的数据类型，则可以将待存储数据对应的最小副本数量M确定为较小的值，以在保证待存储数据存在备份的前提下，尽可能增加待存储数据对应的数据分片数量，从而在保证待存储数据高可用性的同时，进一步提升分布式平台的计算效率。

作为一种示例，若待存储数据的来源为分布式平台可随时访问与获取数据的设备，从而即使分布式平台中用于存储待存储数据中的部分数据的节点全部宕机，分布式平台也可以及时从待存储数据的来源设备中获取到丢失的部分数据，因此待存储数据对应的最小副本数量M对待存储数据的可用性的影响较小，从而可以将待存储数据对应的最小副本数量M确定为较小的值，以节省分布式平台中用于对待存储数据进行备份的节点，进一步提升分布式平台的计算效率。若待存储数据的来源为分布式平台不可访问、不便访问或者无法从中读取数据的设备，如待存储数据是分布式平台的运维人员通过离线方式人工上传的，则可以将待存储数据对应的最小副本数量M确定为较大的值，以尽量保证待存储数据在分布式平台中始终处于可用状态，提升待存储数据的高可用性。

作为一种示例，若待存储数据的使用频次较高，则待存储数据的频繁读取容易导致待存储数据对应的节点宕机，从而可以将待存储数据对应的最小副本数量M确定为较大的值，以保证待存储数据在分布式平台中的高可用性；若待存储数据的使用频次较低，则待存储数据对应的节点宕机的可能性较小，从而可以将待存储数据对应的最小副本数量确定为较小的值，以在保证待存储数据高可用性的同时，进一步提升分布式平台的计算效率。

需要说明的是，实际使用时，可以按照上述示例的原则根据待存储数据中的各数据类型、来源、使用频次中的一种或多种特征，综合确定待存储数据对应的最小副本数量M，本申请实施例对此不做限定。

步骤203，根据待存储数据中的各数据类型、来源和/或使用频次，确定待存储数据对应的第一数据分片数量K，其中，K为大于1的正整数。

在本申请实施例中，由于待存储数据包含的数据类型、来源与使用频次等特征，还可以反映待存储数据的可分离性，因此，可以根据待存储数据中的数据类型、来源与使用频次等特征，确定待存储数据对应的第一数据分片数量K，以在保证待存储数据分片后仍然可用的前提下，提升待存储数据对应的数据分片数量。

作为一种示例，若待存储数据中包含多个数据类型，则可以根据待存储数据中包含的各数据类型，将属于相同数据类型的数据确定为一个数据分片，对待存储数据进行分片。若待存储数据仅包含一个数据类型，或包含的数据类型较少，则可以将属于同一个数据类型的数据进一步划分为多个数据分片，以降低每个数据分片的数据规模，提升数据分片的读取与计算效率，进而提升分布式平台的计算效率。

作为一种示例，若待存储数据对应多个来源，则可以将属于同一个来源的存储数据划分为同一个数据分片。若待存储数据对应一个数据来源，或者对应的来源较少，则可以根据属于同一来源的数据对应的数据类型，将属于同一来源的数据进一步划分为多个数据分片。

作为一种示例，在根据待存储数据的使用频次对待存储数据进行分片时，可以将使用频次相同或相近的数据划分为同一个数据分片；或者，在待存储数据中各数据的使用频次相同时，还可以在待存储数据的使用频次较高时，将待存储数据划分为较多的数据分片，即可以将第一数据分片数量K确定为较大的值，以将待存储数据划分至较多的节点进行存储，以提升待存储数据的读取与计算效率；在待存储数据的使用频次较低时，可以将待存储数据划分为较少的数据分片，即可以将第一数据分片数量K确定为较小的值，以在保证待存储数据读取与计算效率的同时，可以从同一节点中获取到更多的数据，提升数据读取与计算的便捷性。

需要说明的是，实际使用时，可以按照上述示例的原则根据待存储数据中的各数据类型、来源、使用频次中的一种或多种特征，综合确定待存储数据对应的第一数据分片数量K，本申请实施例对此不做限定。

步骤204，在N大于或等于K×M的情况下，确定分布式平台中主节点数量为K个，其中，每个主节点用于存储一个数据分片。

在本申请实施例中，在分布式平台中的节点数量N大于或等于K×M时，则说明在利用根据待存储数据本身的特征确定出的最小副本数量M与第一数据分片数量K，对待存储数据进行备份与分片时，当前分布式平台中的节点数量可以满足该需求，因此可以将分布式平台中主节点数量确定为K个，以使每个主节点可以用于存储一个数据分片。

步骤205，在N小于K×M、且大于或等于M的情况下，根据N与M的商，确定待存储数据对应的第二数据分片数量T及分布式平台中主节点数量T。

在本申请实施例中，在分布式平台中的节点数量N小于K×M、且大于或等于M时，则说明在利用根据待存储数据本身的特征确定出的最小副本数量M与第一数据分片数量K，对待存储数据进行备份与分片时，当前分布式平台中的节点数量无法满足该需求。此时，则可以重新确定待存储数据对应的最小副本数量或数据分片数量，以使对待存储数据的备份与分片可以与分布式平台中的节点数量相适应。

作为一种可能的实现方式，可以保持待存储数据对应的最小副本数量M不变，调整待存储数据对应的数据分片数量。因此，可以根据节点数量N与最小副本数量M的商，确定待存储数据对应的第二数据分片数量T，并将第二数据分片数量T确定为分布式平台中的主节点数量。

可选的，在N为M的整数倍的情况下，确定T＝N/M；在N不是M的整数倍的情况下，确定T＝(N-L)/M+1，其中，L是N/M的余数与M之和。

可选的，在N小于M时，可以确定待存储数据对应的第二数据分片的数量T＝1，不对待存储数据进行分片，即分布式平台中主节点数量为1。

需要说明的是，本实施例中确定T的方式，与上述实施例步骤103中根据节点数量N与最小副本数量M确定主节点数量的方式相同，具体的实现过程及原理可以参照上述实施例的详细描述，此处不再赘述。

作为另一种可能的实现方式，还可以同时调整待存储数据对应的最小副本数量与数据分片数量，以使对待存储数据的备份与分片与分布式平台中的节点数量N相适应。

可选的，作为一种示例，可以在待存储数据对应的最小副本数量M大于或等于2的前提下，同时减小最小副本数量M与数据分片数量，直至节点数量N大于或等于M×T，其中，M为调整后的最小副本数量，T为第二数据分片数量，即调整后的数据分片数量。

可选的，作为一种示例，还可以重新确定最小副本数量M，并根据步骤103的方式根据节点数量N与重新确定的最小副本数量M，重新确定待存储对应的第二数据分片数量T，即分布式平台种的主节点数量T。具体的实现过程及原理可以参照步骤103的详细描述，此处不再赘述。

步骤206，根据主节点数量及所述最小副本数量M，确定分布式平台中的主节点及每个主节点对应的备节点。

上述步骤206的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

本申请实施例提供的分布式平台的控制方法，通过根据根据待存储数据中的各数据类型、来源和/或使用频次，确定待存储数据对应的最小副本数量M与第一数据分片数量K，并在分布式平台中包括的节点数量N大于或等于K×M的情况下，确定分布式平台中主节点数量为K个，其中，每个主节点用于存储一个所述数据分片，以及在N小于K×M、且大于或等于M的情况下，根据N与M的商，确定待存储数据对应的第二数据分片数量T及分布式平台中主节点数量T，进而根据主节点数量及最小副本数量M，确定分布式平台中的主节点及每个主节点对应的备节点。由此，通过根据待存储数据本身的特征确定待存储数据所需的最小副本数量与最佳分片数量，进而根据分布式平台中的节点数量，合理部署分布式平台中的主节点与备节点，从而不仅可以防止数据丢失，提高了系统的稳定性和可用性，充分利用了平台的软硬件资源，提升了服务效率，而且进一步提升了分布式平台主备节点部署的灵活性与通用性。

在本申请一种可能的实现形式中，对分布式平台中的主节点与备节点进行部署之后，可以根据对分布式平台中的全量数据进行分片处理，以将个数据分片分别存储在个主节点与备节点中，以在主节点不可以用时，通过备节点代替主节点进行计算，从而提升了分布式平台的服务效率和数据安全性。

下面结合图3，对本申请实施例提供的分布式平台的控制方法进行进一步说明。

图3为本申请实施例所提供的再一种分布式平台的控制方法的流程示意图。

如图3所示，该分布式平台的控制方法，包括以下步骤：

步骤301，获取分布式平台中包括的节点数量N，其中，N为大于或等于1的正整数。

步骤302，确定待存储数据对应的最小副本数量M，其中，M为大于或等于2的正整数。

步骤303，根据节点数量N及最小副本数量M，确定分布式平台中的主节点数量。

步骤304，根据主节点数量及最小副本数量M，确定分布式平台中的主节点及每个主节点对应的备节点。

上述步骤301-304的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤305，获取待存储数据。

其中，待存储数据，可以是指需要存储在分布式平台中的全量数据。实际使用时，可以根据分布式平台的具体类型，确定待存储数据。

在本申请实施例中，确定出分布式平台中的主节点，以及各主节点分别对应的备节点之后，可以建立节点之间的拓扑关系，从而可以通过节点之间的拓扑关系与节点的标识，确定各主节点对应的备节点。

作为一种可能的实现方式，完成分布式平台的部署之后，可以根据分布式平台进行计算所需的数据以及需要在分布式平台中存储的数据，作为待存储数据，以将待存储数据写入分布式平台中的各个节点。

步骤306，根据主节点数量，对待存储数据进行分片，以生成多个数据分片，其中，数据分片的数量与主节点数量相同。

在本申请实施例中，由于每个主节点可以用于存储一个数据分片，备节点用于对各数据分片进行备份，以完成分布式系统中全量数据的存储与备份，因此可以根据主节点数量对待存储数据进行分片，以生成多个数据分片，并且生成的数据分片的数量与主节点数量相同。

步骤307，在每个主节点及对应的备节点中分别写入一个数据分片。

在本申请实施例中，对待存储数据进行数据分片，以生成多个数据分片之后，可以在每个主节点中写入一个数据分片，并根据节点之间的拓扑关系与主节点标识，确定分别与每个主节点对应的备节点，进而在主节点对应的备节点中写入该主节点存储的数据分片，从而完成对待存储数据的分片的存储与备份。

作为一种可能的实现方式，对各数据分片进行分片存储与备份之后，还可以建立主节点与数据分片之间的映射关系，以在利用分布式平台进行计算的过程中，可以根据主节点与数据分片之间的映射关系，以及计算过程中需要使用的数据分片，调用相应的主节点参与计算。

进一步的，分布式平台在获取到分布式计算请求时，可以根据分布式计算请求所需的数据分片，同时调用多个节点同时进行响应，以提升分布式平台的服务效率。即在本申请实施例一种可能的实现方式中，上述步骤307之后，还可以包括：

获取分布式计算请求；

对分布式计算请求进行解析处理，以确定分布式计算请求对应的各个目标数据分片；

根据主节点与数据分片的映射关系，确定与每个目标数据分片对应的每个目标主节点；

控制每个目标主节点对其对应的目标数据分片进行处理，以获取分布式计算请求的计算结果。

其中，分布式计算请求，可以是任意类型的计算请求。需要说明的是，分布式平台可以处理的分布式计算请求的类型与分布式平台的类型有关。比如，分布式平台为ClickHouse，则分布式计算请求的类型可以为查询请求。

其中，目标数据分片，可以是指分布式平台响应分布式计算请求所需使用的数据分片。

其中，目标主节点，可以是指存储目标数据分片的主节点。

在本申请实施例中，分布式平台在获取到分布式计算请求之后，可以对请求进行解析处理，以确定分布式计算请求对应的各个目标数据分片，进而可以根据各个目标数据分片的标识，以及主节点与数据分片的映射关系，确定存储各个目标数据分片的各个目标主节点。进而，可以控制每个目标主节点分别对各自存储的目标数据分片进行处理，生成分布式计算请求的计算结果，以对分布式计算请求进行响应。

举例来说，分布式平台为ClickHouse，则分布式平台可以将需要存储的全量数据表进行分片，并将分片后的生成的每个数据表分片分别存储在不同的节点中。从而，分布式平台在获取到查询请求时，可以对查询请求进行解析处理，以确定需要找回的各目标数据分别对应的各个目标数据分片，进而存储各目标数据分片的目标主节点可以根据自身存储的数据表分片，查询并召回相应的目标数据，以根据各目标主节点召回的目标数据生成查询请求的查询结果。

进一步的，在对分布式计算请求进行响应时，若存在主节点宕机的情况，可以利用相应的备节点进行响应，以保证分布式平台的可用性。即在本申请实施例一种可能的实现方式中，上述在控制每个目标主节点对其对应的目标数据分片进行处理，以获取分布式计算请求的计算结果之前，还可以包括：

在任一目标主节点当前处于不可用状态时，根据预设的主节点与备节点的映射关系，确定与任一目标主节点对应的目标备节点；

利用目标备节点代替任一目标主节点对其对应的目标数据分片进行处理。

作为一种可能的实现方式，在对分布式计算请求进行响应时，若存在处于不可用状态的目标主节点，则可以根据预设的主节点与备节点的映射关系，即节点间的拓扑关系，确定与该目标主节点对应的目标备节点，以使该目标备节点可以代替该目标主节点对目标数据分片进行处理，以生成相应的计算结果，从而在主节点宕机时，也可以通过备节点可靠响应分布式计算请求，提升了分布式平台的可用性。

进一步的，在对分布式计算请求进行响应时，还可以在主节点的响应效率较低时，便采用备节点进行响应，以进一步提升分布式平台的服务效率与可靠性。即在本申请实施例一种可能的实现方式中，上述在控制每个目标主节点对其对应的目标数据分片进行处理，以获取分布式计算请求的计算结果之前，还可以包括：

在任一目标主节点当前的数据处理速度小于或等于阈值时，根据预设的主节点与备节点的映射关系，确定与任一目标主节点对应的目标备节点；

作为一种可能的实现方式，可以预先设置用于衡量节点的数据处理速度的阈值，从而在对分布式计算请求进行响应时，若存在当前的数据处理速度小于或等于阈值的目标主节点，则可以确定该目标主节点当前的数据处理速度较慢，可能会影响对分布式计算请求的响应效率，从而可以根据预设的主节点与备节点的映射关系，确定与该目标主节点对应的目标备节点，以使该目标备节点可以代替该目标主节点对目标数据分片进行处理，以生成相应的计算结果，从而在主节点的数据处理速度较低时，可以通过备节点快速响应分布式计算请求，进一步提升了分布式平台的服务效率和可靠性。

本申请实施例提供的分布式平台的控制方法，通过根据分布式平台中包括的节点数量N与每个待存储数据对应的最小副本数量M，确定分布式平台中的主节点数量，并根据主节点数量及最小副本数量M，确定分布式平台中的主节点及每个主节点对应的备节点，之后根据主节点数量，对待存储数据进行分片，以生成多个数据分片，进而在每个主节点及对应的备节点中分别写入一个数据分片，以在主节点发生宕机或数据处理效率较低时，采用相应的备节点代替主节点进行响应。由此，通过根据分布式平台中的节点数量与每个数据分片需要的最小副本数量，合理部署分布式平台中的主节点与备节点，以在保证分布式平台中的数据均存在副本的同时，提高数据分片的数量，以在主节点发生宕机或数据处理效率较低时，采用相应的备节点代替主节点进行响应，从而不仅可以防止数据丢失，提高了系统的稳定性和可用性，而且充分利用了平台的软硬件资源，进一步提升了服务效率和可靠性。

为了实现上述实施例，本申请还提出一种分布式平台的控制装置。

图4为本申请实施例提供的一种分布式平台的控制装置的结构示意图。

如图4所示，该分布式平台的控制装置40，包括：

第一获取模块41，用于获取分布式平台中包括的节点数量N，其中，N为大于或等于1的正整数。

第一确定模块42，用于确定待存储数据对应的最小副本数量M，其中，M为大于或等于2的正整数；

第二确定模块43，用于根据节点数量N及最小副本数量M，确定分布式平台中的主节点数量；

第三确定模块44，用于根据主节点数量及最小副本数量M，确定分布式平台中的主节点及每个主节点对应的备节点。

在实际使用时，本申请实施例提供的分布式平台的控制装置，可以被配置在任意电子设备中，以执行前述分布式平台的控制方法。

本申请实施例提供的分布式平台的控制装置，通过根据分布式平台中包括的节点数量N与每个待存储数据对应的最小副本数量M，确定分布式平台中的主节点数量，进而根据主节点数量及最小副本数量M，确定分布式平台中的主节点及每个主节点对应的备节点。由此，通过根据分布式平台中的节点数量与每个待存储数据需要的最小副本数量，合理部署分布式平台中的主节点与备节点，以在保证分布式平台中的数据均存在副本的同时，提高待存储数据对应的数据分片的数量，从而不仅可以防止数据丢失，提高了系统的稳定性和可用性，而且充分利用了平台的软硬件资源，提升了服务效率。

在本申请一种可能的实现形式中，上述第一确定模块42，包括：

第一确定单元，用于根据待存储数据中的各数据类型、来源和/或使用频次，确定待存储数据对应的最小副本数量M。

进一步的，在本申请另一种可能的实现形式中，上述第二确定模块43，包括：

第二确定单元，用于根据待存储数据中的各数据类型、来源和/或使用频次，确定待存储数据对应的第一数据分片数量K，其中，K为大于1的正整数；

第三确定单元，用于在N大于或等于K×M的情况下，确定分布式平台中主节点数量为K个，其中，每个主节点用于存储一个数据分片。

进一步的，在本申请再一种可能的实现形式中，上述第二确定模块43，还包括：

第四确定单元，用于在N小于K×M、且大于或等于M的情况下，根据N与M的商，确定待存储数据对应的第二数据分片数量T及分布式平台中主节点数量T。进一步的，在本申请又一种可能的实现形式中，N小于M，相应的，上述第二确定模块43，包括：

第五确定单元，用于确定主节点数量为1。

进一步的，在本申请又一种可能的实现形式中，上述第三确定模块44，包括：

第六确定单元，用于将N个节点中的1个节点确定为主节点，并将剩余的N-1个节点中确定为主节点对应的备节点。

进一步的，在本申请另一种可能的实现形式中，上述分布式平台的控制装置40，还包括：

第二获取模块，用于获取待存储数据；

分片模块，用于根据主节点数量，对待存储数据进行分片，以生成多个数据分片，其中，数据分片的数量与主节点数量相同；

写入模块，用于在每个主节点及对应的备节点中分别写入一个数据分片。

进一步的，在本申请再一种可能的实现形式中，上述分布式平台的控制装置40，还包括：

第三获取模块，用于获取分布式计算请求；

第四确定模块，用于对分布式计算请求进行解析处理，以确定分布式计算请求对应的各个目标数据分片；

第五确定模块，用于根据主节点与数据分片的映射关系，确定与每个目标数据分片对应的每个目标主节点；

第一处理模块，用于控制每个目标主节点对其对应的目标数据分片进行处理，以获取分布式计算请求的计算结果。

进一步的，在本申请又一种可能的实现形式中，上述分布式平台的控制装置40，还包括：

第六确定模块，用于在任一目标主节点当前处于不可用状态时，根据预设的主节点与备节点的映射关系，确定与任一目标主节点对应的目标备节点；

第二处理模块，用于利用目标备节点代替任一目标主节点对其对应的目标数据分片进行处理。

第七确定模块，用于在任一目标主节点当前的数据处理速度小于或等于阈值时，根据预设的主节点与备节点的映射关系，确定与任一目标主节点对应的目标备节点；

需要说明的是，前述对图1、图2、图3所示的分布式平台的控制方法实施例的解释说明也适用于该实施例的分布式平台的控制装置40，此处不再赘述。

本申请实施例提供的分布式平台的控制装置，通过根据分布式平台中包括的节点数量N与每个待存储数据分片对应的最小副本数量M，确定分布式平台中的主节点数量，并根据主节点数量及最小副本数量M，确定分布式平台中的主节点及每个主节点对应的备节点，之后根据主节点数量，对待存储数据进行分片，以生成多个数据分片，进而在每个主节点及对应的备节点中分别写入一个数据分片，以在主节点发生宕机或数据处理效率较低时，采用相应的备节点代替主节点进行响应。由此，通过根据分布式平台中的节点数量与每个数据分片需要的最小副本数量，合理部署分布式平台中的主节点与备节点，以在保证分布式平台中的数据均存在副本的同时，提高数据分片的数量，以在主节点发生宕机或数据处理效率较低时，采用相应的备节点代替主节点进行响应，从而不仅可以防止数据丢失，提高了系统的稳定性和可用性，而且充分利用了平台的软硬件资源，进一步提升了服务效率和可靠性。

为了实现上述实施例，本申请还提出一种电子设备。

图5为本发明一个实施例的电子设备的结构示意图。

如图5所示，上述电子设备200包括：

存储器210及处理器220，连接不同组件(包括存储器210和处理器220)的总线230，存储器210存储有计算机程序，当处理器220执行所述程序时实现本申请实施例所述的分布式平台的控制方法。

总线230表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备200典型地包括多种电子设备可读介质。这些介质可以是任何能够被电子设备200访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器210还可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)240和/或高速缓存存储器250。电子设备200可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统260可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线230相连。存储器210可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块270的程序/实用工具280，可以存储在例如存储器210中，这样的程序模块270包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块270通常执行本申请所描述的实施例中的功能和/或方法。

电子设备200也可以与一个或多个外部设备290(例如键盘、指向设备、显示器291等)通信，还可与一个或者多个使得用户能与该电子设备200交互的设备通信，和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口292进行。并且，电子设备200还可以通过网络适配器293与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器293通过总线230与电子设备200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器220通过运行存储在存储器210中的程序，从而执行各种功能应用以及数据处理。

需要说明的是，本实施例的电子设备的实施过程和技术原理参见前述对本申请实施例的分布式平台的控制方法的解释说明，此处不再赘述。

本申请实施例提供的电子设备，可以执行如前所述的分布式平台的控制方法，通过根据分布式平台中包括的节点数量N与每个待存储数据对应的最小副本数量M，确定分布式平台中的主节点数量，进而根据主节点数量及最小副本数量M，确定分布式平台中的主节点及每个主节点对应的备节点。由此，通过根据分布式平台中的节点数量与每个待存储数据需要的最小副本数量，合理部署分布式平台中的主节点与备节点，以在保证分布式平台中的数据均存在副本的同时，提高待存储数据对应的数据分片的数量，从而不仅可以防止数据丢失，提高了系统的稳定性和可用性，而且充分利用了平台的软硬件资源，提升了服务效率。

为了实现上述实施例，本申请还提出一种计算机可读存储介质。

其中，该计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，以实现本申请实施例所述的分布式平台的控制方法。

为了实现上述实施例，本申请再一方面实施例提供一种计算机程序，该程序被处理器执行时，以实现本申请实施例所述的分布式平台的控制方法。

一种可选实现形式中，本实施例可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户电子设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种分布式平台的控制方法，其特征在于，包括：

获取所述分布式平台中包括的节点数量N，其中，N为大于或等于1的正整数；

确定待存储数据对应的最小副本数量M，其中，M为大于或等于2的正整数；

根据所述节点数量N及所述最小副本数量M，确定所述分布式平台中的主节点数量；

根据所述主节点数量及所述最小副本数量M，确定所述分布式平台中的主节点及每个所述主节点对应的备节点。

2.如权利要求1所述的方法，其特征在于，所述确定待存储数据对应的最小副本数量M，包括：

根据所述待存储数据中的各数据类型、来源和/或使用频次，确定所述待存储数据对应的最小副本数量M。

3.如权利要求1所述的方法，其特征在于，所述根据所述节点数量N及所述最小副本数量M，确定所述分布式平台中的主节点数量，包括：

根据所述待存储数据中的各数据类型、来源和/或使用频次，确定所述待存储数据对应的第一数据分片数量K，其中，K为大于1的正整数；在N大于或等于K×M的情况下，确定所述分布式平台中主节点数量为K个，其中，每个所述主节点用于存储一个所述数据分片。

4.如权利要求3所述的方法，其特征在于，在所述确定所述待存储数据对应的第一数据分片数量K之后，还包括：

在N小于K×M、且大于或等于M的情况下，根据所述N与M的商，确定所述待存储数据对应的第二数据分片数量T及所述分布式平台中主节点数量T。

5.如权利要求1所述的方法，其特征在于，N小于M，所述根据所述节点数量N及所述最小副本数量M，确定所述分布式平台中的主节点数量，包括：

确定所述主节点数量为1。

6.如权利要求5所述的方法，其特征在于，所述根据所述主节点数量及所述最小副本数量M，确定所述分布式平台中的主节点及所述每个主节点对应的备节点，包括：

将N个所述节点中的1个所述节点确定为所述主节点，并将剩余的N-1个节点中确定为所述主节点对应的备节点。

7.如权利要求1所述的方法，其特征在于，在所述根据所述主节点数量及所述最小副本数量M，确定所述分布式平台中的主节点及所述每个主节点对应的备节点之后，包括：

获取待存储数据；

根据所述主节点数量，对所述待存储数据进行分片，以生成多个数据分片，其中，所述数据分片的数量与所述主节点数量相同；

在每个所述主节点及对应的备节点中分别写入一个所述数据分片。

8.如权利要求7所述的方法，其特征在于，在所述在每个所述主节点及对应的备节点中分别写入一个所述数据分片之后，还包括：

获取分布式计算请求；

对所述分布式计算请求进行解析处理，以确定所述分布式计算请求对应的各个目标数据分片；

根据主节点与数据分片的映射关系，确定与每个所述目标数据分片对应的每个目标主节点；

控制每个所述目标主节点对其对应的目标数据分片进行处理，以获取所述分布式计算请求的计算结果。

9.如权利要求8所述的方法，其特征在于，在所述控制每个所述目标主节点对其对应的目标数据分片进行处理，以获取所述分布式计算请求的计算结果之前，还包括：

在任一目标主节点当前处于不可用状态时，根据预设的主节点与备节点的映射关系，确定与所述任一目标主节点对应的目标备节点；

利用所述目标备节点代替所述任一目标主节点对其对应的目标数据分片进行处理。

10.如权利要求8所述的方法，其特征在于，在所述控制每个所述目标主节点对其对应的目标数据分片进行处理，以获取所述分布式计算请求的计算结果之前，还包括：

在任一目标主节点当前的数据处理速度小于或等于阈值时，根据预设的主节点与备节点的映射关系，确定与所述任一目标主节点对应的目标备节点；

11.一种分布式平台的控制装置，其特征在于，包括：

第一获取模块，用于获取所述分布式平台中包括的节点数量N，其中，N为大于或等于1的正整数；

第一确定模块，用于确定待存储数据对应的最小副本数量M，其中，M为大于或等于2的正整数；

第二确定模块，用于根据所述节点数量N及所述最小副本数量M，确定所述分布式平台中的主节点数量；

第三确定模块，用于根据所述主节点数量及所述最小副本数量M，确定所述分布式平台中的主节点及每个所述主节点对应的备节点。

12.一种电子设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-10中任一所述的分布式平台的控制方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-10中任一所述的分布式平台的控制方法。