CN113923222A

CN113923222A - 数据处理方法及装置

Info

Publication number: CN113923222A
Application number: CN202111513721.9A
Authority: CN
Inventors: 吴泽宇
Original assignee: Yunhe Enmo Beijing Information Technology Co ltd
Current assignee: Yunhe Enmo Beijing Information Technology Co ltd
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-01-11
Anticipated expiration: 2041-12-13
Also published as: CN113923222B

Abstract

本发明公开了一种数据处理方法及装置。其中，该方法包括：通过控制面的管理器检测目标资源池的每个安置组leader节点的分布情况；在安置组的节点的分布情况满足预设的触发条件的情况下，向数据面的目标安置组发送切换leader指令，其中，目标安置组为多个安置组中的任一安置组；通过数据面的目标安置组根据切换指令，将目标安置组的leader节点切换为follower节点，并选取一个follower节点替代对应的leader节点作为主节点。本发明解决了相关技术中在分布式系统中同一个一致性协议集群中某个节点承担过多数量的集群主节点角色，导致分布式系统的数据处理能力受限于单个物理节点的性能，难以满足较大数据处理的需求的技术问题。

Description

数据处理方法及装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种数据处理方法及装置。

背景技术

分布式存储系统很多都使用Raft协议作为底层存储的一致性协议，而Raft协议本身只关注分布式系统数据强一致性，不解决负载均衡问题。在一个Raft group集群中所有的操作请求都转发给leader节点(即主节点)，leader节点将日志发送给follower节点(即从节点)进行同步，因为所有的操作都要交给leader节点处理，如果一个节点上leader节点数量过多，就会成为性能瓶颈。

CRUSH (Controlled Replication Under Scalable Hashing)是一种受控复制的分布式hash算法，用于计算集群中存储数据所需要分散和分布的位置。CRUSH给数据面传递PG视图，一个PG拥有三个副本，每个副本按照PG拓扑信息选择所在的PgOsd。

当用上面两者结合设计的分布式存储系统时，会出现集群中PG leader节点分布不均衡的现象，具体来讲，一个节点上面的PG，大多数都是leader节点，而集群中数据的读写都是从leader节点进行输入输出IO，leader节点过于集中在同一个节点上，势必会导致这个节点负载过高。

造成Leader不均衡的场景和原因有一下几个点：

1.第一个节点启动，它拿到PG视图后可以进行PG选主，因为目前只有一个节点，所以所有PG的leader节点只能选择在当前的cs（client server,客户机/服务器）节点上。

2.如果一个节点掉线，集群会自动维护（寻找新的节点承担掉线节点上follower节点和leader节点的角色）所有在掉线节点上的PG leader节点都要进行重新选主，leader节点重分布后可能会产生leader节点集中在某个物理节点上的现象。

3.一个节点掉线后再上线，这个节点就只能承担follower节点角色（Raft协议），如果在相当长的一段时间内，很多节点都碰到掉线再上线的情况，那么整个集群的leader肯定会集中在少数从未掉线的节点上。

针对以上问题，现有的解决方案主要有以下几种：

1.优先副本（preferred replicas）：如果一个分区有3个副本，且这3个副本的优先级别分别为0,1,2，根据优先副本的概念，0会作为leader。当0节点挂掉时，会启动1这个节点作为leader。当0节点再次启动后，会自动恢复为此节点作为leader。在这种方案中会存在如果掉线节点无法重新上线，则无法应用方案的功能，无法实现leader的重均衡的问题。

2.在leader节点选举过程中依据全局信息判断当前节点上的leader节点分布情况，从而决定是否选择当前节点作为leader节点，满足则成为leader节点，如果条件不满足，则本结点自动回退到follower节点状态，但是这种方案在集群的每一次leader节点选举的过程中，candidates候选节点都要从集群获取leader节点分布的情况来决定是否满足作为leader节点的条件，这样就会增加每次选主节点的时延。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据处理方法及装置，以至少解决相关技术中在分布式系统中同一个一致性协议集群中某个节点承担过多数量的集群主节点角色，导致分布式系统的数据处理能力受限于单个物理节点的性能，难以满足较大数据处理的需求的技术问题。

根据本发明实施例的一个方面，提供了一种数据处理方法，包括：通过控制面的管理器检测目标资源池的多个安置组的节点的分布情况，其中，所述节点包括作为主节点，以及从节点；在目标安置组的节点的分布情况满足预设的触发条件的情况下，向数据面的所述目标安置组发送切换指令，其中，所述目标安置组为所述多个安置组中的任一安置组；通过数据面的所述目标安置组根据所述切换指令，将所述目标安置组的主节点切换为从节点，并选取一个从节点替代对应的所述主节点作为主节点。

可选的，通过控制面的管理器检测目标资源池的多个安置组的节点的分布情况包括；通过计时器控制所述控制面的管理器定时维护所述目标资源池的拓扑视图；通过所述拓扑视图获取所述目标资源池的多个安置组的主节点的分布情况。

可选的，接收对所述计时器的维护时间进行更改的更改指令；响应所述更改指令调用命令行工具提供的与所述更改指令对应的配置指令；将所述配置指令发送给所述计时器，进行维护时间的更改，其中，所述计时器存储在所述安置组的分布式键值数据库中。

可选的，将所述配置指令发送给所述计时器，进行维护时间的更改之后，所述方法还包括：通过所述管理器接收分布式键值数据库的通知信息，其中，所述通知信息为所述命令行工具成功响应所述更改指令后发送的信息，所述通知信息包括更改后的管理器配置；在所述管理器配置与之前的配置不同的情况下，将所述管理器的计时器周期重置为所述计时器修改后的维护时间。

可选的，在所述管理器配置与之前的配置不同的情况下，将所述管理器的计时器周期重置为所述计时器修改后的维护时间之后，所述方法还包括：在所述计时器修改后的维护时间为零的情况下，自动停止通过控制面的管理器检测目标资源池的多个安置组的主节点的分布情况的步骤，直至所述计时器修改后的维护时间不为零的情况下，自动重启通过控制面的管理器检测目标资源池的多个安置组的主节点的分布情况的步骤。

可选的，通过数据面的所述目标安置组根据所述切换指令，将所述目标安置组的主节点切换为从节点，并选取一个从节点替代对应的所述主节点作为主节点包括：响应所述切换指令，在所述目标安置组中选取一个从节点作为候选节点；通过所述候选节点向所述目标安置组中的其他所有节点发起投票请求，其中，所述投票请求包括投票期数；根据所述投票请求确定作为新的主节点的目标从节点，将所述主节点切换为从节点，将所述目标从节点切换为新的主节点，其中，所述目标从节点为所述候选节点或其他从节点之一，所述主节点在接收到所述投票请求后，确定所述投票期数大于自己作为主节点的投票的投票期数，自动降级为从节点。

可选的，所述预设的触发条件为所述目标安置组中的主节点的占比达到预设比例；所述预设比例为多个，多个预设比例分别与所述安置组中的节点数量的多个数量等级对应；其中，所述安置组中的节点数量的数据量等级越高，对应的预设比例越小。

可选的，在目标安置组的节点的分布情况满足预设的触发条件的情况下，向数据面的所述目标安置组发送切换指令包括：通过所述管理器利用所述管理器与数据面服务器之间的已建立通道，将所述切换指令，发送给所述数据面服务器；通过所述数据面服务器将所述切换指令发送给所述目标安置组。

根据本发明实施例的另一方面，还提供了一种数据处理装置，包括：检测模块，用于通过控制面的管理器检测目标资源池的多个安置组的节点的分布情况，其中，所述节点包括主节点，以及从节点；发送模块，用于在目标安置组的节点的分布情况满足预设的触发条件的情况下，向数据面的所述目标安置组发送切换指令，其中，所述目标安置组为所述多个安置组中的任一安置组；切换模块，用于通过数据面的所述目标安置组根据所述切换指令，将所述目标安置组的主节点切换为从节点，并选取一个从节点替代对应的所述主节点作为新的主节点。

根据本发明实施例的另一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述中任意一项所述的数据处理方法。

根据本发明实施例的另一方面，还提供了一种计算机存储介质，所述计算机存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机存储介质所在设备执行上述中任意一项所述的数据处理方法。

在本发明实施例中，通过控制面的管理器检测目标资源池的多个安置组的节点的分布情况，其中，节点包括主节点，以及从节点；在目标安置组的节点的分布情况满足预设的触发条件的情况下，向数据面的目标安置组发送切换指令，其中，目标安置组为多个安置组中的任一安置组；通过数据面的目标安置组根据切换指令，将目标安置组的主节点切换为从节点，并选取一个从节点替代对应的主节点作为新的主节点，利用控制面实现主节点的切换，控制面参与数据面主节点的切换决策，达到了利用主节|点切换实现安置组的主节点均衡分布的目的，从而实现了提高分布式数据处理效率以及增强系统的数据处理能力的技术效果，进而解决了相关技术中在分布式系统中同一个一致性协议集群中某个节点承担过多数量的集群主节点角色，导致分布式系统的数据处理能力受限于单个物理节点的性能，难以满足较大数据处理的需求的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种数据处理方法的流程图；

图2是根据本发明实施方式的控制面处理过程的示意图；

图3是根据本发明实施方式的leader节点切换处理示例的示意图；

图4是根据本发明实施例的一种数据处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面对本实施例出现的专业术语进行解释说明。

CLI：Command-line Interface，命令行工具，用于配置集群配置信息。

Manager：控制器，运行在某个节点上的一个独立进程，负责收集并记录系统运行过程中产生的状态信息，Manager把配置信息保存在配置和状态信息数据库中，CLI给Manager发送配置或者从Manager上获取相关信息展示给用户。

Monitor：监视器，负责维护集群状态，维护整个集群拓扑视图，其他模块向监视器Monitor订阅自己关心的视图信息，发送租约申请。

Raft：一种分布式一致性协议。

CRUSH：Controlled Replication Under Scalable Hashing，是一种受控复制的分布式hash算法。

OSD：Object Storage Device，对象存储设备，可以看作是一个盘。

PG：Placement Group，安置组，一个PG连接三个OSD(三副本)，分别是一个leader节点（即主节点）和两个follower节点（即从节点）。

控制面：分布式存储系统中负责处理用户输入和返回给用户相关信息；负责处理集群运行相关元数据；实时维护数据面运行所需要的集群视图。数据面：集群的后端存储部分，由PG Group组成，也就是很多个PG一起管理集群数据。

Raft Group：Raft 集群，分布式一致性协议集群，用Raft算法来实现一个PG下三个副本（OSD）的一致性，也就是一个leader节点和两个follower节点之间数据的一致，整个分布式存储集群是由很多个PG组成的，那么整个PG Group集群从所使用的算法的角度来讲，就是一个Raft Group集群。

PGOsd：上面提到，一个PG连接三个OSD，那么这个物理的OSD只要在某个PG的管理下，算法上就叫做PGOsd。

PG leader：PG下作为leader节点的这个OSD或者说节点。

PG follower：PG下作为follower节点的这个OSD或者说节点。

Pool：资源池，所有的PG或者OSD都在一个Pool下。

根据本发明实施例，提供了一种数据处理方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种数据处理方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，通过控制面的管理器检测目标资源池的多个安置组的节点的分布情况，其中，节点包括主节点，以及从节点；

步骤S104，在目标安置组的节点的分布情况满足预设的触发条件的情况下，向数据面的目标安置组发送切换指令，其中，目标安置组为多个安置组中的任一安置组；

步骤S106，通过数据面的目标安置组根据切换指令，将目标安置组的主节点切换为从节点，并选取一个从节点替代对应的主节点作为新的主节点。

通过上述步骤，通过控制面的管理器检测目标资源池的多个安置组的节点的分布情况，其中，节点包括主节点，以及从节点；在目标安置组的节点的分布情况满足预设的触发条件的情况下，向数据面的目标安置组发送切换指令，其中，目标安置组为多个安置组中的任一安置组；通过数据面的目标安置组根据切换指令，将目标安置组的主节点切换为从节点，并选取一个从节点替代对应的主节点作为新的主节点，利用控制面实现主节点的切换，控制面参与数据面主节点的切换决策，达到了利用主节点切换实现安置组的主节点重均衡的目的，从而实现了提高分布式数据处理效率以及增强系统的数据处理能力的技术效果，进而解决了相关技术中在分布式系统中同一个一致性协议集群中某个节点承担过多数量的集群主节点角色，导致分布式系统的数据处理能力受限于单个物理节点的性能，难以满足较大数据处理的需求的技术问题。

上述控制面可以对整个安置组进行配置信息配置、资源调度、状态监控等操作。上述控制面可以处理用户输入和返回给用户相关信息，可以处理集群运行相关元数据，上述控制面可以监视安置组的数据库的配置变化，可以对定时器进行配置，可以实时维护整个集群的拓扑视图，可以参与本申请对主节点的决策，控制面可以对整个安置组进行整体的协调控制。上述控制面的管理器还可以检测目标资源池中的多个安置组的节点的分布情况，一个安置组为了保证数据存储的一致性，一个目标安置组一般可以用一台服务设备协调一组服务设备。

上述管理器可以实现多个功能，例如，数据管理，数据监控等，针对不同的功能管理器可以采用一个或多个不同的设备进行执行，例如，数据管理可以通过控制器Manager，可以用于进行数据管理和控制，以及监视器Monitor，可以用于进行数据监控。

上述安置组（即PG: placement group）是分布式存储系统的一个子集群单位，可以包括多个节点，具体包括作为主节点的leader节点，以及作为从节点的follower节点，作为主节点的leader节点可以是这组服务设备的领导者，主要用于处理服务设备的多种服务的节点分配，将不同的服务，例如数据存储分配给leader节点或者不同的follower节点执行，作为从节点的follower节点可以认为是服务设备的跟随者，响应leader节点的分配，执行不同的服务。

上述目标安置组可以认为是含有一组leader节点（即主节点）和follower节点（即从节点）的安置组， leader节点和follower节点可以对OSD(物理磁盘的存储节点)进行的存储、读写等操作，可以认为目标安置组在一组leader节点和follower节点对物理磁盘的存储节点进行的存储、读写操作具有一致性，一个物理存储磁盘可以包含多个leader节点和follower节点，可以认为物理磁盘的存储节点具有一定的负载量，如果负载主节点数据过多可能会造成管理器处理速度下降、容易造成系统崩溃等情况发生，为了避免物理磁盘的存储节点包含leader节点数量过大，目标安置组的leader节点和follower节点可以进行切换，达到主节点均衡的目的。

上述数据面可以具体实现的leader节点与follower节点的切换过程，可以设置作为主节点的leader节点与作为从节点的follower节点的投票期数进行投票，leader节点在接收到投票请求后，确定投票期数大于自己作为主节点的投票的投票期数，自动降级为follower节点。上述数据面还可以定义主节点均衡得触发条件，可以认为安置组中的节点数量的数据量等级越高，对应的预设比例越小。

利用控制面参与主节点分布情况的统计与主节点均衡分布的决策，数据面参与主节点与follower节点具体切换过程的实现，可以针对不同的集群环境定义不同的主节点均衡操作的触发条件，达到了利用主节点切换实现主节点重均衡的目的，实现了提高增强系统的数据处理能力以及分布式系统性能的技术效果。

可选的，通过控制面的管理器检测目标资源池的多个安置组的节点的分布情况包括；通过计时器控制控制面的管理器定时维护目标资源池的拓扑视图；通过拓扑视图获取目标资源池的多个安置组的主节点的分布情况。

上述拓扑视图可以认为是包含主节点，follower节点（即从节点），物理磁盘的存储节点的分布情况的结构图。例如，控制面监视器Monitor本身维护整个集群的拓扑视图，可以方便地对一个pool osd进行leader节点（即主节点）数量的统计。

通过利用监视器Monitor维护整个集群的拓扑视图，达到了快速获取主节点分布情况的目的，实现提高安置组对主节点分布情况的监测效率的技术效果。

可选的，接收对计时器的维护时间进行更改的更改指令；响应更改指令调用命令行工具提供的与更改指令对应的配置指令；将配置指令发送给计时器，进行维护时间的更改，其中，计时器存储在安置组的分布式键值数据库中。

上述计时器可以应用于定时任务中，安置组中作为主节点的leader节点的分布情况的统计过程可以由上述计时器的定时任务完成，可以按照计时器的周期来进行leader节点分布情况的检查，如果第一接地分布情况满足leader节点的切换条件，即leader节点的分布不均衡情况已经达到预设值，则可以由控制面可以向数据面发出切换leader节点的指令，对应的目标安置组的leader节点会切换为follower节点，并选取一个follower节点替代对应的所述leader节点作为主节点。例如，集群leader节点分布情况统计过程可以由计时器的定时任务完成，在监视器Monitor设置可配置的timer计时器，在额外的线程里面可以按照timer计时器周期来进行leader节点分布的检查，如果满足触发条件，那么控制面会向数据面发送切换指令。

需要说明的是，上述计时器持久化的存储在安置组的分布式键值数据库（KV数据库）中，可以由命令行工具CLI提供专门的配置指令来进行修改，修改内容可以是对leader节点分布情况统计的时间间隔，利用定时器的修改达到对安置组维护时间进行更改的目的，上述计时器还可以接收手动控制命令进行更改维护。例如，Timer（计时器）持久化存储在集群的分布式键值数据库中，可以由CLI提供专门的配置指令来进行修改，可以配置interval（间隔时间）设置检查leader节点分布情况的周期，若检查条件满足则触发leader节点重均衡动作，从而自动完成对主节点的分布定时进行检测，若检测到主节点的分布满足触发条件，则进行主节点的重均衡。另外在另一些实施例中，在自动对主节点的分布定时进行检测的同时，可以允许使用手动控制命令来切换leader节点，也即是可以将自动和手动的方式进行结合，提高使用柔性，以适应各种不同的使用场合。

通过命令行工具更改定时器的配置信息，达到了对计时器的定时任务的维护时间进行更改目的，达到了灵活设定主节点重均衡的维护时间的技术效果。

可选的，将配置指令发送给计时器，进行维护时间的更改之后，还包括：通过管理器接收分布式键值数据库的通知信息，其中，通知信息为命令行工具成功响应更改指令后发送的信息，通知信息包括更改后的管理器配置；在管理器配置与之前的配置不同的情况下，将管理器的计时器周期重置为计时器修改后的维护时间。

命令行工具修改存储在分布式键值数据库中的计时器后，分布式键值数据库可以会向将携带更改信息的通知信息发送给控制面的管理器，控制面会对更改后的管理配置与原管理器配置信息进行比对，如果管理的配置信息不同，会将管理器的计时周期修改为计时器修改后的维护时间。如果更改后的管理配置与原管理器配置信息相同，也没有必要去修改维护时间。从而根据需求更改计时器周期，以实现对主节点重均衡的维护时间进行修改，以适应维护时间的修改需求。

可选的，在管理器配置与之前的配置不同的情况下，将管理器的计时器周期重置为计时器修改后的维护时间之后，还包括：在计时器修改后的维护时间为零的情况下，自动停止通过控制面的管理器检测目标资源池的多个安置组的主节点的分布情况的步骤，直至计时器修改后的维护时间不为零的情况下，自动重启通过控制面的管理器检测目标资源池的多个安置组的主节点的分布情况的步骤。

上述计时器修改后的维护时间，可以进行正确性判断，如果计时器修改后的维护时间为零，计时器修改后的维护时间可能存在错误情况的产生，或者认为用户不要自动对主节点的分布情况进行定时监测，此时，需要停止计时器定时操作，自动停止通过控制面的管理器检测目标资源池的多个安置组的主节点的分布情况步骤，可以等待用户的重启或者当计时器修改后的维护时间不为零的情况时，自动重启通过控制面的管理器检测目标资源池的多个安置组的主节点的分布情况的步骤。从而实现根据不同的用户需求，对计时器进行修改，以实现管理器采用不同的操作，对多个安置组的主节点的分布情况采用不同策略进行检测，进而可以适应多种用户需求。

可选的，通过数据面的目标安置组根据切换指令，将目标安置组的主节点切换为从节点，并选取一个从节点替代对应的主节点作为新的主节点包括：响应切换指令，在目标安置组中选取一个从节点作为候选节点；通过候选节点向目标安置组中的其他所有节点发起投票请求，其中，投票请求包括投票期数；根据投票请求确定作为新的主节点的目标从节点，将主节点切换为从节点，将目标从节点切换为新的主节点，其中，目标从节点为候选节点或其他从节点之一，主节点在接收到投票请求后，确定投票期数大于自己作为主节点的投票的投票期数，自动降级为从节点。

上述数据面在接收到控制面发送过来的对目标服务群的leader节点（即主节点）的切换指令后，可以将目标安置组作为主节点的leader节点切换为follower节点（即从节点），上述leader节点与follower节点的切换过程可以根据投票期数来判断是否需要进行切换，可以认为投票期数大者可以被选为主节点，可以在从目标安置组中选择一个作为从节点的follower节点为候选节点，在一些实施例中，安置组在创建后，可以设置一个默认的leader节点，其他节点为follower节点，leader节点并不固定，可以根据各个节点的投票实现对主节点的切换，切换的同时原来的leader节点自动降级为follower节点。

上述投票请求可以由候选节点向目标安置组中的其他所有节点发起一轮投票请求，可以认为在投票请求发出后，目标安置组中的节点的投票期数会进行加1响应，如果leader节点在接收到投票请求后，通过比较确定新一轮的投票期数大于作为主节点的leader节点的投票期数。leader节点会自动降级为follower节点，作为候选节点的follower节点会升级为leader节点。具体的，数据面接收到切换指令后，PG leader节点会通知同PG group中的另外一个follower节点变成candidate(候选节点)，变成candidate的follower节点会发起新一轮投票并且term（即上述投票期数）会在上一轮的基础上加1，原leader节点接收到这个投票请求的时候发现自己的term已经小于了请求的term，于是自动降级为follower节点，以此实现leader节点的切换。

通过投票的方式选取主节点的同时，通过投票期数将主节点自动降级，从而实现主节点与follower节点的切换过程，达到了主节点快速自动切换的目的，实现了提高主节点重均衡的处理效率的技术效果。

可选的，预设的触发条件为目标安置组中的主节点的占比达到预设比例；预设比例为多个，多个预设比例分别与安置组中的节点数量的多个数量等级对应；其中，安置组中的节点数量的数据量等级越高，对应的预设比例越小。

不同安置组可能的拥有的存储环境不同，所以针对不同的安置组应当具有不同的leader节点（即主节点）触发条件，目标安置组中的节点与物理磁盘的存储节点具有多对多的映射关系，一个物理磁盘的存储节点可能分布在多个leader节点上，目标安置组中的节点也可能分布在多个物理磁盘的节点上，所以为了避免一个物理磁盘的存储节点上包含leader节点数据过多造成leader节点分布集中的情况出现，针对不同的安置组，物理磁盘存储节点承载的安置组的节点数量越多，对应的leader节点数据的百分比应当越小。从而尽可能降低各个数据量等级的安置组发生负载的主节点数量过多的情况，也可以尽量实现多个安置组的主节点均衡。

通过对不同安置组设定不同的主节点切换的触发条件，达到了根据安置组的节点数量来分别对其进行是否需要重均衡进行判定，实现对多个数据量等级的安置组主节点进行合适有效的重均衡的目的，实现了扩大本实施例主节点重均衡应用范围的技术效果。

可选的，在目标安置组的节点的分布情况满足预设的触发条件的情况下，向数据面的目标安置组发送切换指令包括：通过管理器利用管理器与数据面服务器之间的已建立通道，将切换指令，发送给数据面服务器；通过数据面服务器将切换指令发送给目标安置组。

控制面的管理器与数据面可以具有信息交互的连接通道，在目标安置组的leader节点的分布情况满足预设的leader节点切换的触发条件情况下，控制面的管理器会向数据面服务器发送leader节点的切换指令，可以认为切换指令信息中包括需要进行切换的安置组位置路径信息，然后通过数据面服务器将切换指令发送给目标安置组，达到目标安置组leader节点均衡分布的目的。

具体的，在本实施例中监视器Monitor作为集群master（管理者），对各个节点上的进程提供租约和视图订阅服务，可以直接复用Chunk server（服务器）和监视器Monitor之间已经建立好的租约连接来传输切换指令，一方面避免额外发起新的连接增加代码复杂度，降低对监视器Monitor带来的额外的负载。另一方面复用租约的连接保证了在心跳正常的情况下发送切换指令，增加了切换成功的概率。

通过管理器与数据面服务器的已建立连接通道的来传输切换指令，避免了为传输切换指令专门创建一个数据连接，从而提高了切换指令的传输速度和传输效率，达到了数据面与控制面之间快速有效的传输切换指令，进行信息交互的目的，实现了提高数据面与控制面数据处理效率的技术效果。

需要说明的是，本申请实施例还提供了一种可选的实施方式，下面对该实施方式进行详细说明。

本实施方式通过控制面根据整个集群视图来监测leader节点（即主节点）分布情况，如果检测到一个节点上的leader节点数量过多，那么由控制面向数据面发起重选leader节点的请求。

本实施方式主要是通过控制面来实现leader节点切换，控制面监视器Monitor组件参与数据面Raft Group的leader节点决策。

机制（控制面）：

图 2是根据本发明实施方式的控制面处理过程的示意图，如图2所示，控制面处理过程如下：

1.控制器Manager运行在某个节点上的一个独立进程，负责收集并记录系统运行过程中产生的状态信息，Manager把配置信息保存在配置和状态信息数据库中，命令行工具CLI给Manager发送配置或者从Manager上获取相关信息展示给用户。

2.Leader节点信息统计在控制面监视器Monitor进行计算，监视器Monitor本身维护整个集群的拓扑视图，可以方便地对一个pool osd进行leader节点数量的统计。

3.集群leader节点分布情况统计过程由定时任务完成，在监视器Monitor设置可配置的timer计时器，在额外的线程里面按照timer周期来进行leader节点分布的检查，如果满足触发条件，则向数据面发送切换指令。

4.Timer计时器持久化存储在集群的分布式键值数据库中，由命令行工具CLI提供专门的配置指令来进行修改，可以配置interval设置检查leader节点分布情况的周期，检查条件满足则触发leader节点重均衡动作，另外允许使用手动控制命令来切换leader节点。

5.设置timer计时器为异步操作，控制面命令行工具CLI执行命令后直接返回成功，由分布式键值数据库来通知监视器Monitor配置的变化，监视器Monitor接到通知判断是否和之前的配置一样，如果不同，则重置timer计时器周期。如果发现timer计时器为0，则暂定timer计时器，停止自动leader节点均衡功能，等待下一次用户重新打开。

6.自动控制针对整个集群而言，不要指定具体的pool，尽量降低对用户的干扰。

机制（数据面）：

图3是根据本发明实施方式的leader节点切换处理示例的示意图，如图3所示，数据面leader节点切换的处理过程如下：

1.接收到指令的PG leader节点会通知同PG group中的另外一个follower节点（即从节点）变成candidate（即候选节点），变成candidate的follower节点会发起新一轮投票并且term会在上一轮的基础上加1，原leader节点接收到这个投票请求的时候发现自己的term已经小于了请求的term，于是自动降级为follower节点，以此实现leader节点的切换。

2.数据面定义leader节点均衡的触发条件，针对不同的pool osd环境，定义不同的触发条件，表1是PG数量与触发条件的关系表，如表1所示，承载PG数量多的，允许的leader节点数量百分比更小。

连接复用：

1.监视器Monitor作为集群master（管理者），对各个节点上的进程提供租约和视图订阅服务，我们直接复用Chunk server（服务器）和监视器Monitor之间已经建立好的租约连接来传输切换指令，一方面避免额外发起新的连接增加代码复杂度，降低对监视器Monitor带来的额外的负载。另一方面复用租约的连接保证了在心跳正常的情况下发送切换指令，增加了切换成功的概率。

命令设计：

1.自动配置模式，设置leader节点均衡检查周期，检查条件满足则触发releader行；

a)zs config set releader <interval>；

2. 手动模式:

a)zs cluster releader；

对整个集群做leader重均衡；

b)zs pool releader <PoolName>；

指定集群中的pool做leader重均衡；

c)zs pg releader <PoolId> <PgID> <LeaderNodeName> <LeaderOsdName>；

指定集群中pool下某个PG需要新选取的leader节点；

d)zs config list [key]；

key是包含leader重均衡在内的所有集群配置的key，可以用来查看当前leader重均衡自动配置模式下设置的interval是多少。

本实施方案可以在集群的PG leader节点不均衡的情况下，自动触发集群PGleader节点重均衡，可以在集群的PG leader节点不均衡的情况下，由管理员手动触发集群PG leader节点重均衡，可以有管理员手动精确控制某一个PG leader节点和follower节点之间的切换，可以针对不同负载下的pool osd提供不同的leader节点重均衡触发条件。

本实施方式由控制面介入Raft Group协议集群的选主逻辑，而不改变Raft协议本身。可以在集群的PG leader节点不均衡的情况下，自动触发集群PG leader节点重均衡。可以手动精确控制某一个PG leader节点和follower节点之间的切换。可以针对不同条件下的pool osd提供不同的leader节点重均衡触发条件。

本实施方式具有以下优点：第一，可以在集群的PG leader节点不均衡的情况下，自动触发集群PG leader节点重均衡；第二，针对不同条件下的pool osd提供不同的leader节点重均衡触发条件；第三，计算都是在控制面进行的，数据面只需要接收leader节点重均衡的目标请求然后直接切换即可，最大程度上降低了数据面负载和延时。

本实施方式只要是在控制面拥有集群拓扑视图的组件（监视器Monitor或其他），就可以用来替代当前方案，这种方式将属于Raft协议内部的leader节点选择的决策和计算交给了控制面来处理。

本实施方式已经经过分布式存储项目的应用，经过测试验证可行性，满足本文描述的具体的功能需求。

图4是根据本发明实施例的一种数据处理装置的示意图，如图4所示，根据本发明实施例的另一方面，还提供了一种数据处理装置，包括：检测模块42，发送模块44和切换模块46，下面对该装置进行详细说明。

检测模块42，用于通过控制面的管理器检测目标资源池的多个安置组的节点的分布情况，其中，节点包括主节点，以及从节点；发送模块44，与上述检测模块42相连，用于在目标安置组的节点的分布情况满足预设的触发条件的情况下，向数据面的目标安置组发送切换指令，其中，目标安置组为多个安置组中的任一安置组；切换模块46，与上述发送模块44相连，用于通过数据面的目标安置组根据切换指令，将目标安置组的主节点切换为从节点，并选取一个从节点替代对应的主节点作为新的主节点。

通过上述装置，通过控制面的管理器检测目标资源池的多个安置组的节点的分布情况，其中，节点包括主节点，以及从节点；在目标安置组的节点的分布情况满足预设的触发条件的情况下，向数据面的目标安置组发送切换指令，其中，目标安置组为多个安置组中的任一安置组；通过数据面的目标安置组根据切换指令，将目标安置组的主节点切换为从节点，并选取一个从节点替代对应的主节点作为新的主节点，利用控制面实现主节点的切换，控制面参与数据面主节点的切换决策，达到了利用主节点切换实现安置组的主节点重均衡的目的，从而实现了提高了分布式数据处理效率以及增强系统的数据处理能力的技术效果，进而解决了相关技术中在分布式系统中同一个一致性协议集群中某个节点承担过多数量的集群主节点角色，导致分布式系统的数据处理能力受限于单个物理节点的性能，难以满足较大数据处理的需求的技术问题。

根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述中任意一项的数据处理方法。

根据本发明实施例的另一方面，还提供了一种计算机存储介质，计算机存储介质包括存储的程序，其中，在程序运行时控制计算机存储介质所在设备执行上述中任意一项的数据处理方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据处理方法，其特征在于，包括：

通过控制面的管理器检测目标资源池的多个安置组的节点的分布情况，其中，所述节点包括主节点，以及从节点；

在目标安置组的节点的分布情况满足预设的触发条件的情况下，向数据面的所述目标安置组发送切换指令，其中，所述目标安置组为所述多个安置组中的任一安置组；

通过数据面的所述目标安置组根据所述切换指令，将所述目标安置组的主节点切换为从节点，并选取一个从节点替代对应的所述主节点作为新的主节点。

2.根据权利要求1所述的方法，其特征在于，通过控制面的管理器检测目标资源池的多个安置组的节点的分布情况包括；

通过计时器控制所述控制面的管理器定时维护所述目标资源池的拓扑视图；

通过所述拓扑视图获取所述目标资源池的多个安置组的主节点的分布情况。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

接收对所述计时器的维护时间进行更改的更改指令；

响应所述更改指令调用命令行工具提供的与所述更改指令对应的配置指令；

将所述配置指令发送给所述计时器，进行维护时间的更改，其中，所述计时器存储在所述安置组的分布式键值数据库中。

4.根据权利要求3所述的方法，其特征在于，将所述配置指令发送给所述计时器，进行维护时间的更改之后，所述方法还包括：

通过所述管理器接收分布式键值数据库的通知信息，其中，所述通知信息为所述命令行工具成功响应所述更改指令后发送的信息，所述通知信息包括更改后的管理器配置；

在所述管理器配置与之前的配置不同的情况下，将所述管理器的计时器周期重置为所述计时器修改后的维护时间。

5.根据权利要求4所述的方法，其特征在于，在所述管理器配置与之前的配置不同的情况下，将所述管理器的计时器周期重置为所述计时器修改后的维护时间之后，所述方法还包括：

在所述计时器修改后的维护时间为零的情况下，自动停止通过控制面的管理器检测目标资源池的多个安置组的主节点的分布情况的步骤，直至所述计时器修改后的维护时间不为零的情况下，自动重启通过控制面的管理器检测目标资源池的多个安置组的主节点的分布情况的步骤。

6.根据权利要求1所述的方法，其特征在于，通过数据面的所述目标安置组根据所述切换指令，将所述目标安置组的主节点切换为从节点，并选取一个从节点替代对应的所述主节点包括：

响应所述切换指令，在所述目标安置组中选取一个从节点作为候选节点；

通过所述候选节点向所述目标安置组中的其他所有节点发起投票请求，其中，所述投票请求包括投票期数；

根据所述投票请求确定作为新的主节点的目标从节点，将所述主节点切换为从节点，将所述目标从节点切换为新的主节点，其中，所述目标从节点为所述候选节点或其他从节点之一，所述主节点在接收到所述投票请求后，确定所述投票期数大于自己作为主节点的投票的投票期数，自动降级为从节点。

7.根据权利要求1所述的方法，其特征在于，所述预设的触发条件为所述目标安置组中的主节点的占比达到预设比例；

所述预设比例为多个，多个预设比例分别与所述安置组中的节点数量的多个数量等级对应；

其中，所述安置组中的节点数量的数据量等级越高，对应的预设比例越小。

8.根据权利要求1所述的方法，其特征在于，在目标安置组的节点的分布情况满足预设的触发条件的情况下，向数据面的所述目标安置组发送切换指令包括：

通过所述管理器利用所述管理器与数据面服务器之间的已建立通道，将所述切换指令，发送给所述数据面服务器；

通过所述数据面服务器将所述切换指令发送给所述目标安置组。

9.一种数据处理装置，其特征在于，包括：

检测模块，用于通过控制面的管理器检测目标资源池的多个安置组的节点的分布情况，其中，所述节点包括主节点，以及从节点；

发送模块，用于在目标安置组的节点的分布情况满足预设的触发条件的情况下，向数据面的所述目标安置组发送切换指令，其中，所述目标安置组为所述多个安置组中的任一安置组；

切换模块，用于通过数据面的所述目标安置组根据所述切换指令，将所述目标安置组的主节点切换为从节点，并选取一个从节点替代对应的所述主节点。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至8中任意一项所述的数据处理方法。

11.一种计算机存储介质，其特征在于，所述计算机存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机存储介质所在设备执行权利要求1至8中任意一项所述的数据处理方法。