CN113535391B

CN113535391B - 跨域大数据平台的分布式集群状态信息管理方法及系统

Info

Publication number: CN113535391B
Application number: CN202110721416.2A
Authority: CN
Inventors: 刘二查; 康金怀
Original assignee: Business Intelligence Of Oriental Nations Corp ltd
Current assignee: Business Intelligence Of Oriental Nations Corp ltd
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2024-04-16
Anticipated expiration: 2041-06-28
Also published as: CN113535391A

Abstract

本发明提供一种用于跨域大数据平台的分布式集群状态信息管理方法、系统及电子设备。该跨域大数据平台的分布式集群状态信息管理方法包括：将跨域大数据平台包括的总部大数据平台和省份大数据平台的各个大数据平台的对外开放节点列表信息备份于各个大数据平台的集群内的Zookeeper服务组件，并缓存一份于本集群的leader节点，集群内的各节点注册为Zookeeper组件的客户端；以及进行省份大数据平台在总部大数据平台的注册，最终完成集群的信息在总部大数据平台内的自动备份和缓存，以完成省份大数据平台的上线操作，并将最新的跨域信息缓存通过RPC向各个在线集群的对外开放节点进行同步通知，其中，总部大数据平台对省份大数据平台的对外开放节点列表保持RPC心跳机制。

Description

跨域大数据平台的分布式集群状态信息管理方法及系统

技术领域

本发明涉及数据处理领域，尤其涉及一种跨域大数据平台的分布式集群状态信息管理方法、系统、电子设备及存储介质。

背景技术

目前现有技术中，像中国联通、中国电信会在各个省份建立大数据平台，然后每天把存储数据的文件通过网络上传到总部的大数据平台，然后在总部做数据稽核、数据分析等业务。在大数据平台的数据稽核、数据分析中，通常会使用分布式系统来完成计算。分布式系统需要根据集群内部多个进程的状态信息，进行协作多个进程的任务，通常能够使用Zookeeper服务组件，来进行分布式任务的协作或者竞争管理。

由于平台之间都是物理隔离和人工沟通，如果其中某平台的集群出现故障，需要人工跨部门通知其他平台，本平台的数据和资源无法获取和使用。当平台集群故障和恢复时，也需要人工跨部门通知其它平台本平台的数据和资源已恢复。因此，数据的存储和计算压力都全部集中总部大数据平台，导致总部的服务器集群建设成本、网络带宽压力、人工运维压力和管理成本等过于集中到总部，而相反省份大数据平台的人力和资源得不到充分的运用。总部和省份平台之间的状态信息的同步都是人工跨部门沟通，灵活性和响应速度都大大降低。此外，Zookeeper服务组件仅仅可针对单一平台内部进行状态信息的同步和任务的协作，对于多个大数据平台之间的任务协作并不能适用。

发明内容

本发明提供一种跨域大数据平台的分布式集群状态信息管理方法、系统、电子设备及存储介质，旨在克服现有技术中的诸多问题，并且实现了整个跨域集群状态信息在平台内部的实时一致性和在平台之间的最终一致性，满足了跨域调度任务下发到各个省份集群，使得数据存储和计算都可以本地化。而且这些信息的自动化同步以及可视化，大大方便了跨部门沟通，灵活性和及时性都得到极大提升。此外，本发明解决了针对单一平台内部进行状态信息的同步和任务的协作，以及针对多个大数据平台之间的任务协作。

具体地，本发明实施例提供了以下技术方案：

第一方面，本发明的实施例提供一种跨域大数据平台的分布式集群状态信息管理方法，包括：

将所述跨域大数据平台包括的总部大数据平台和省份大数据平台的各个大数据平台的对外开放节点列表信息备份于所述各个大数据平台的集群内的Zookeeper服务组件，并缓存且仅缓存一份于本集群的leader节点，所述集群内的各节点注册为所述Zookeeper组件的客户端；以及

进行所述省份大数据平台在所述总部大数据平台的注册，其中所述省份大数据平台的leader节点定期向所述总部大数据平台的集群的所述对外开放节点列表发送注册请求，在所述总部大数据平台收到所述注册请求后，如果确认为允许注册的所述省份大数据平台，并且确认所述省份大数据平台的所述对外开放列表是可用的，则进行数据同步和元数据信息的同步，最终完成所述集群的信息在所述总部大数据平台内的自动备份和缓存，以完成所述省份大数据平台的上线操作，并将最新的跨域信息缓存通过RPC向各个在线集群的对外开放节点进行同步通知，其中，所述总部大数据平台对所述省份大数据平台的所述对外开放节点列表保持RPC心跳机制。

进一步地，该跨域大数据平台的分布式集群状态信息管理方法还包括：

所述进行所述省份大数据平台在所述总部大数据平台的注册，包括：

所述省份大数据平台启动后选举出集群的leader节点，并通过所述RPC向所述总部大数据平台的对外开放节点列表MASTER_ACCESS_LIST发起注册请求；

所述总部大数据平台启动后选举出集群的leader节点，并在接收到所述注册请求后验证所述省份大数据平台的对外开放节点列表SLAVE_ACCESS_LIST的合法性；

回复数据和元数据的同步消息，并向所述省份大数据平台同步所述数据和所述元数据；以及

所述总部大数据平台将所述省份大数据平台的所述SLAVE_ACCESS_LIST信息备份到所述Zookeeper服务组件，并将所述SLAVE_ACCESS_LIST信息缓存且仅缓存一份到本集群的leader节点。

所述将最新的跨域信息缓存通过RPC向各个在线集群的对外开放节点进行同步通知，包括：

在所述总部大数据平台的Leader节点接收到刚刚注册的缓存信息后，向先前已经注册成功的所述省份大数据平台发起远程过程调用RPC通知，通知有新平台注册进来，并通过所述省份大数据平台的所述SLAVE_ACCESS_LIST向各个省份同步更新所述跨域数据平台的最新缓存信息；以及

在所述省份大数据平台的SLAVE_ACCESS_LIST收到所述总部大数据平台发送的所述跨域数据平台的所述最新缓存信息后，将所述最新缓存信息备份到所述Zookeeper服务组件，并缓存且仅缓存一份到本集群的leader节点。

进一步地，该跨域大数据平台的分布式集群状态信息管理方法还包括：所述方法还包括：

注册成功的所述省份大数据平台的Leader节点负责与所述总部大数据平台的MASTER_ACCESS_LIST保持RPC心跳通信，并且进行可视化显示以监测跨域功能正常运行；以及

注册成功的所述总部大数据平台的leader节点负责与所述省份大数据平台的SLAVE_ACCESS_LIST保持RPC心跳通信，并且进行可视化显示，以监测跨域功能正常运行。

所述总部大数据平台通过配置CREATE CLUSTER命令来进行第一动作，所述第一动作用于允许所述省份大数据平台注册到所述总部大数据平台中；

所述总部大数据平台通过配置DROP CLUSTER命令来进行第二动作，所述第二动作用于拒绝所述省份大数据平台注册到所述总部大数据平台中；以及

所述总部大数据平台通过ALTER CLUSTER命令来进行第三动作，所述第三动作用于改变所述省份大数据平台的所述SLAVE_ACCESS_LIST。

所述第一动作、所述第二动作和所述第三动作在所述总部大数据平台的任意节点上执行，并且与所述第一动作、所述第二动作和所述第三动作相关的管理信息被备份到所述Zookeeper服务组件并被缓存且仅缓存一份到本集群的leader节点。

所述总部大数据平台对省份大数据平台的对外开放节点列表都保持RPC心跳机制，包括：

当检测到故障节点心跳异常时，将事件报告zookeeper服务端，将备份信息中的故障节点状态置为不可连接，并广播至全集群。

第二方面，本发明的实施例还提供一种跨域大数据平台的分布式集群状态信息管理系统，包括：

自动备份缓存模块，用于将所述跨域大数据平台包括的总部大数据平台和省份大数据平台的各个大数据平台的对外开放节点列表信息备份于所述各个大数据平台的集群内的Zookeeper服务组件，并缓存且仅缓存一份于本集群的leader节点，所述集群内的各节点注册为所述Zookeeper组件的客户端；以及

自动同步模块，用于进行所述省份大数据平台在所述总部大数据平台的注册，其中所述省份大数据平台的leader节点定期向所述总部大数据平台的集群的所述对外开放节点列表发送注册请求，在所述总部大数据平台收到所述注册请求后，如果确认为允许注册的所述省份大数据平台，并且确认所述省份大数据平台的所述对外开放列表是可用的，则进行数据同步和元数据信息的同步，最终完成所述集群的信息在所述总部大数据平台内的自动备份和缓存，以完成所述省份大数据平台的上线操作，并将最新的跨域信息缓存通过RPC向各个在线集群的对外开放节点进行同步通知，其中，所述总部大数据平台对所述省份大数据平台的所述对外开放节点列表保持RPC心跳机制。

第三方面，本发明的实施例还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述跨域大数据平台的分布式集群状态信息管理方法的步骤。

第四方面，本发明的实施例还提供一种存储介质，包括其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述跨域大数据平台的分布式集群状态信息管理方法的步骤。

由上面技术方案可知，本发明实施例提供的一种跨域大数据平台的分布式集群状态信息管理方法、系统、电子设备及存储介质，旨在克服现有技术中的诸多问题，并且实现了整个跨域集群状态信息在平台内部的实时一致性和在平台之间的最终一致性，满足了跨域调度任务下发到各个省份集群，使得数据存储和计算都可以本地化。而且这些信息的自动化同步以及可视化，大大方便了跨部门沟通，灵活性和及时性都得到极大提升。此外，本发明解决了针对单一平台内部进行状态信息的同步和任务的协作，以及针对多个大数据平台之间的任务协作。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中的跨域大数据平台的架构示意图；

图2为本发明一实施例提供的跨域大数据平台的分布式集群状态信息管理方法的流程图；

图3为本发明一实施例提供的针对省份上线流程和增删改CLUSTER的框架的总部流程示意图；

图4为本发明一实施例提供的集群管理信息后的省份流程示意图；

图5为本发明一实施例提供的用户普通节点通过RPC向本集群leader实时获取缓存的集群管理信息流程示意图；

图6为本发明一实施例提供的跨域大数据平台的分布式集群状态信息管理系统的结构示意图；以及

图7为本发明一实施例提供的电子设备的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明使用的各种术语或短语具有本领域普通技术人员公知的一般含义，即便如此，本发明仍然希望在此对这些术语或短语作更详尽的说明和解释。如果本文涉及的术语和短语有与公知含义不一致的，则以本发明所表述的含义为准；并且如果在本申请中没有定义，则其具有本领域普通技术人员通常理解的含义。

例如，结合图1，一个“逻辑集中、物理分散”的跨地域大数据平台。省份的数据还保存在省份的大数据平台，不需要每天都省份上传到总部的大数据平台。总部分析全国的数据时，只需要将总部用户的计算请求自动跨域调度到各个省份的大数据平台，并自动将结算解雇返回给总部，自动做汇总运算后返回给总部的用户。其中，针对既有的、基于hadoop生态圈的大数据平台，新增加跨域服务组件，包括：任务调度引擎、任务协同服务、元数据、权限管理、监控服务。

然而，由于平台之间都是物理隔离和人工沟通，如果其中某平台的集群出现故障，需要人工跨部门通知其他平台，本平台的数据和资源无法获取和使用。当平台集群故障和恢复时，也需要人工跨部门通知其它平台本平台的数据和资源已恢复。因此，数据的存储和计算压力都全部集中总部大数据平台，导致总部的服务器集群建设成本、网络带宽压力、人工运维压力和管理成本等过于集中到总部，而相反省份大数据平台的人力和资源得不到充分的运用。总部和省份平台之间的状态信息的同步都是人工跨部门沟通，灵活性和响应速度都大大降低。此外，Zookeeper服务组件仅仅可针对单一平台内部进行状态信息的同步和任务的协作，对于多个大数据平台之间的任务协作并不能适用。

此外，跨域大数据平台是包括总部大数据平台及其各个省份大数据平台组成，其中每个大数据平台本身又是一个分布式集群。那么每个分布式集群内部以及分布式集群之间要进行任务调度、任务协同、数据和元数据的同步及分治等跨域功能，则必须要有一套针对这种场景的跨域集群状态信息的管理系统。在任意大数据平台的任意节点作为数据处理的入口节点，调度引擎在执行调度任务时，都需要能获取到特定大数据平台的集群状态信息，并且这些信息在本集群任意节点必须是实时一致的，以保证该集群对于数据的查询实时一致性。在跨域大数据平台初始组建阶段，需要协调每个大数据平台集群的信息，执行数据和元数据的同步和分治时，需要获取到当前所有大数据平台的集群状态信息。

针对于此，第一方面，本发明的一实施例提出一种跨域大数据平台的分布式集群状态信息管理方法，旨在克服现有技术中的诸多问题，旨在克服现有技术中的诸多问题，并且实现了整个跨域集群状态信息在平台内部的实时一致性和在平台之间的最终一致性，满足了跨域调度任务下发到各个省份集群，使得数据存储和计算都可以本地化。而且这些信息的自动化同步以及可视化，大大方便了跨部门沟通，灵活性和及时性都得到极大提升。此外，本发明解决了针对单一平台内部进行状态信息的同步和任务的协作，以及针对多个大数据平台之间的任务协作。

下面结合图2描述本发明的跨域大数据平台的分布式集群状态信息管理方法。

图2为本发明一实施例提供的跨域大数据平台的分布式集群状态信息管理方法的流程图。

在本实施例中，需要说明的是，该跨域大数据平台的分布式集群状态信息管理方法可以包括以下步骤：

S1：将跨域大数据平台包括的总部大数据平台和省份大数据平台的各个大数据平台的对外开放节点列表信息备份于各个大数据平台的集群内的Zookeeper服务组件，并缓存且仅缓存一份于本集群的leader节点，集群内的各节点注册为Zookeeper组件的客户端；以及

S2：进行省份大数据平台在总部大数据平台的注册，其中省份大数据平台的leader节点定期向总部大数据平台的集群的对外开放节点列表发送注册请求，在总部大数据平台收到注册请求后，如果确认为允许注册的省份大数据平台，并且确认省份大数据平台的对外开放列表是可用的，则进行数据同步和元数据信息的同步，最终完成集群的信息在总部大数据平台内的自动备份和缓存，以完成省份大数据平台的上线操作，并将最新的跨域信息缓存通过RPC向各个在线集群的对外开放节点进行同步通知，其中，总部大数据平台对省份大数据平台的对外开放节点列表保持RPC心跳机制。

针对S1，具体地，首先各大数据平台的集群内都部署一套Zookeeper服务器作为集群内部任务协作。集群内的各节点注册为Zookeeper服务器的客户端，监听Zookeeper服务器的多个文件目录的变更，对回调消息做出相应处理。

针对S1，具体地，各个大数据平台在建立跨域场景之初，需要提供对外开放节点列表，用于跨域功能。将总部大数据平台的对外开放节点列表称为MASTER_ACCESS_LIST，将各省份大数据平台的对外开放节点列表称为SLAVE_ACCESS_LIST。并将他们的服务器地址，开放的访问端口，是否可连接等状态信息备份于各自的Zookeeper集群。开放多个节点的作用是保证单个节点故障时，可自动切换至其它可用节点，保证跨域功能的稳定性。

针对S2，在本实施例中，需要说明的是，该跨域大数据平台的分布式集群状态信息管理方法可以包括：进行省份大数据平台在总部大数据平台的注册，包括：省份大数据平台启动后选举出集群的leader节点，并通过RPC向总部大数据平台的对外开放节点列表MASTER_ACCESS_LIST发起注册请求；总部大数据平台启动后选举出集群的leader节点，并在接收到注册请求后验证省份大数据平台的对外开放节点列表SLAVE_ACCESS_LIST的合法性；回复数据和元数据的同步消息，并向省份大数据平台同步数据和元数据；以及总部大数据平台将省份大数据平台的SLAVE_ACCESS_LIST信息备份到Zookeeper服务组件，并将SLAVE_ACCESS_LIST信息缓存且仅缓存一份到本集群的leader节点。

具体地，省份大数据平台启动后，选举出集群的leader节点。该节点将负责定期通过RPC向总部的MASTER_ACCESS_LIST发起注册请求。总部大数据平台启动后，选举出集群的leader节点。总部的MASTER_ACCESS_LIST收到省份的注册信息后，验证其为已知的大数据平台身份，然后验证其SLAVE_ACCESS_LIST合法性后，回复数据和元数据同步消息，并开始向省份同步数据和元数据。同步完成后，总部将该省份及其SLAVE_ACCESS_LIST信息，备份于Zookeeper服务组件，并缓存且仅缓存一份于本集群的leader节点。这样完成了该省份平台在总部的注册流程。

针对S2，在本实施例中，需要说明的是，该跨域大数据平台的分布式集群状态信息管理方法可以包括：将最新的跨域信息缓存通过RPC向各个在线集群的对外开放节点进行同步通知，包括：在总部大数据平台的Leader节点接收到刚刚注册的缓存信息后，向先前已经注册成功的省份大数据平台发起远程过程调用RPC通知，通知有新平台注册进来，并通过省份大数据平台的SLAVE_ACCESS_LIST向各个省份同步更新跨域数据平台的最新缓存信息；以及在省份大数据平台的SLAVE_ACCESS_LIST收到总部大数据平台发送的跨域数据平台的最新缓存信息后，将最新缓存信息备份到Zookeeper服务组件，并缓存且仅缓存一份到本集群的leader节点。

具体地，总部Leader节点收到刚刚注册的缓存信息后，立即向各个已经注册成功的各省份大数据平台发起RPC通知，通知他们有新平台注册进来，并通过各省份的SLAVE_ACCESS_LIST向各个省份同步更新目前跨域各平台的最新的缓存信息。各个省份SLAVE_ACCESS_LIST收到总部发来的最新的各跨域平台的缓存信息，备份于Zookeeper服务组件，并缓存且仅缓存一份于本集群的leader节点。这样完成了该一个省份在整个跨域集群的注册流程。注册成功后，任意平台的任意节点便可以通过RPC实时访问到本平台的leader节点缓存的整个跨域平台的所有集群管理信息（包含了刚刚注册的新省份的SLAVE_ACCESS_LIST信息）。这些信息便用于跨域调度等跨平台的任务功能。

在本实施例中，需要说明的是，该跨域大数据平台的分布式集群状态信息管理方法还可以包括：注册成功的省份大数据平台的Leader节点负责与总部大数据平台的MASTER_ACCESS_LIST保持RPC心跳通信，并且进行可视化显示以监测跨域功能正常运行；以及注册成功的总部大数据平台的leader节点负责与省份大数据平台的SLAVE_ACCESS_LIST保持RPC心跳通信，并且进行可视化显示，以监测跨域功能正常运行。

具体地，将注册成功的省份平台称之为已经在跨域平台上线（未注册的称之为下线平台）。上线的省份平台leader节点负责与总部的MASTER_ACCESS_LIST保持RPC心跳通信，且可以做可视化显示，用于监测跨域功能正常运行。同理，总部的leader节点负责与各个省份平台的SLAVE_ACCESS_LIST保持RPC心跳通信，且可以做可视化显示，用于监测跨域功能正常运行。因此，无论是在省份和总部，都能实时观察到各个平台的MASTER_ACCESS_LIST和SLAVE_ACCESS_LIST的状态，信息得到了精确及时的共享，灵活性和响应速度都得到了显著改善。

在本实施例中，需要说明的是，该跨域大数据平台的分布式集群状态信息管理方法还可以包括：总部大数据平台通过配置CREATE CLUSTER命令来进行第一动作，第一动作用于允许省份大数据平台注册到总部大数据平台中；总部大数据平台通过配置DROPCLUSTER命令来进行第二动作，第二动作用于拒绝省份大数据平台注册到总部大数据平台中；以及总部大数据平台通过ALTER CLUSTER命令来进行第三动作，第三动作用于改变省份大数据平台的SLAVE_ACCESS_LIST。

具体地，为了统一管理，总部可以通过配置CREATE CLUSTER命令来允许省份注册到跨域大数据平台中来（即，第一动作）。

具体地，还可以通过DROP CLUSTER命令来拒绝某省份的注册（即，第二动作）。

具体地，还可以通过ALTER CLUSTER的命令来改变某省份的SLAVE_ACCESS_LIST（即，第三动作）。

在本实施例中，需要说明的是，该跨域大数据平台的分布式集群状态信息管理方法还可以包括：第一动作、第二动作和第三动作在总部大数据平台的任意节点上执行，并且与第一动作、第二动作和第三动作相关的管理信息被备份到Zookeeper服务组件并被缓存且仅缓存一份到本集群的leader节点。

具体地，这些动作都可以在总部集群的任意节点上执行，这些集群管理方面的信息还是会备份于Zookeeper服务组件，并缓存且仅缓存一份于本集群的leader节点。

进一步地，下面结合图3描述针对省份上线流程和增删改CLUSTER的框架的总部流程。

图3为本发明一实施例提供的针对省份上线流程和增删改（create/drop/alter）CLUSTER（即，创建集群白名单配置命令）的框架的总部流程示意图。

具体地，总部Leader节点收到集群管理信息的变更后，立即向各个已经注册成功的各省份大数据平台发起RPC通知，通过各省份的SLAVE_ACCESS_LIST向各个省份同步更新目前跨域各平台的最新的缓存信息。省份SLAVE_ACCESS_LIST收到集群管理信息变更后，将其备份于Zookeeper服务组件，并缓存且仅缓存一份于本集群的leader节点。

进一步地，下面结合图4描述收到集群管理信息后的省份流程。

图4为本发明一实施例提供的集群管理信息后的省份流程示意图。

具体地，基于上述框架，除了ACCESS LIST状态信息，各大数据平台之间还可以共享各平台的集群负载信息等扩展信息，用于更复杂的跨域调度任务。

进一步地，下面结合图5描述用户普通节点通过RPC向本集群leader实时获取缓存的集群管理信息流程（sync RPC getALLDomainClusterInfos）。

图5为本发明一实施例提供的用户普通节点通过RPC向本集群leader实时获取缓存的集群管理信息流程示意图。

为了保障上述框架的稳定性，本发明还提供了各组件的故障和恢复处理机制。

具体地，当MASTER_ACCESS_LIST中的某节点故障时，MASTER_ACCESS_LIST的其他存活节点依然可以继续承担跨域任务。其中，上述MASTER_ACCESS_LIST信息已经备份于zookeeper。由于集群中leader节点为zookeeper的客户端，接收到该消息通知，将故障节点状态置为不可连接，此时利用图3和图4的流程，会将该变更通过RPC广播到省份集群的SLAVE_ACCESS_LIST，并备份于zookeeper，缓存于其leader。这样整个跨域集群的各个节点都能可视化展示到故障节点。此外，该故障节点恢复后，可再次自动触发上述流程，最终整个跨域集群的各个节点都能可视化展示其已经恢复。

具体地，当SLAVE_ACCESS_LIST中的某节点故障时，SLAVE_ACCESS_LIST的其它存活节点依然可以继续承担跨域任务。上述总部的leader节点负责与各个省份平台的SLAVE_ACCESS_LIST保持RPC心跳通信。当检测到该故障节点心跳异常，将该事件EVENT报告zookeeper服务端，将备份信息中的故障节点状态置为不可连接。同样利用图3和图4的流程广播至全集群。此外，该故障节点恢复后，可再次自动触发上述流程，最终整个跨域集群的各个节点都能可视化展示其已经恢复。

具体地，当集群leader节点故障时，集群作为zookeeper的客户端，接收到该消息通知，会通过zookeeper从现存活的节点中选出新的leader节点，新leader会重新从zookeeper服务端获取一份备份的跨域集群管理信息缓存起来。从而又可以重新进行跨域任务协作。Leader切换的时间会很短，但是如果在切换过程中，有新的跨域任务调度需要获取跨域集群管理信息，会在一定的时间内重新尝试获取，一般会尝试获取成功。但如果超时后还没有获取到新leader的缓存信息，则表示该网络出现故障，需要进一步排查。此外，故障leader节点恢复后，不触发leader重选，依然可正常作业。

具体地，当总部zookeeper集群故障时，由于集群内部的集群管理信息还是依赖于zookeeper的，集群作为zookeeper的客户端，接收到该消息后，集群leader不再进行跨域心跳发送，MASTER_ACCESS_LIST收到省份的心跳和注册信息，也返回FAIL信息。此时MASTER_ACCESS_LIST对于省份来说处于下线状态，失去心跳连接的各省份也需要置为掉线状态，整个跨域平台不再进行运作。

具体地，当总部zookeeper集群恢复时，集群收到zookeeper服务端恢复的消息，因为掉线期间可能发生各种操作，所以此时处于掉线各个省份重新发起注册，重新进行数据和元数据的同步等。这个过程参考上线流程，是自动触发的，无需人为干预。

具体地，当省份zookeeper集群故障时，集群各节点作为zookeeper的客户端，接收到该消息后，集群leader不再进行跨域心跳发送，SLAVE_ACCESS_LIST收到省份的心跳信息，也返回FAIL信息。即该集群视为下线处理，无法参与跨域任务。

具体地，总部zookeeper集群恢复时，集群收到zookeeper服务端恢复的消息，因为掉线期间可能发生各种操作，所以此时该省份需重新发起注册，重新进行数据和元数据的同步等。这个过程参考上线流程，是自动触发的，无需人为干预。

综上，作为针对在跨地域大数据平台的场景下，为各个分布式集群提供同步各集群状态信息的一套方法，本发明的一实施例提供的跨域大数据平台的分布式集群状态信息管理方法主要有以下三大关键点：

第一，跨域各集群的状态信息在集群内部的自动备份和缓存机制。所有大数据平台的对外开放节点列表信息（包括服务器地址，开放的访问端口，是否可连接等状态信息）备份于各个集群的Zookeeper服务组件，并缓存且仅缓存一份于本集群的leader节点。当跨域集群中有状态信息发生变化时，对于集群内部来说，都将触发Zookeeper服务备份和leader节点的缓存。集群内任意节点获取缓存是通过RPC向leader节点实时获取一致的缓存，保证集群内信息的实时一致。Leader节点故障时，可以切换leader节点，并从Zookeeper获取备份信息。

第二，跨域各集群的状态信息在集群之间的自动同步机制。总部可通过配置命令的方式添加或者删除允许注册的省份平台白名单，或者修改白名单中省份平台的对外开放列表。省份大数据平台的leader节点定期向总部大数据平台集群的开放节点列表发送注册请求，总部收到注册后，如果是允许注册的省份平台，并且确认其开放列表是可用的，那么进行数据同步和元数据等信息的同步，最终完成该集群的信息在总部内的自动备份和缓存，完成了省份平台的上线操作。并将最新的跨域信息缓存通过RPC向各个在线集群的对外开放节点进行同步通知。

第三，跨域各集群的状态信息在集群之间的高可用机制。总部对省份的对外开放节点列表都保持RPC心跳机制。心跳机制检测到某个开放节点出现故障后，那么可切换至其他备份开放列表进行跨域任务调度等跨域功能。反之省份对总部的开放列表也保持RPC心跳机制。跨域集群的状态信息做成可展示命令，用于及时发现故障并处理。

下面描述本发明一实施例提供的跨域大数据平台的分布式集群状态信息管理方法的应用情况。本发明基于“逻辑集中、物理分布”的1+N架构特征，构建了功能完备的云端集中节点（上文提到的总部集群），并协同3个边缘省份节点（上文提到的省份集群），模拟全网位置信令数据处理及应用场景，利用边缘节点处理能力将大运算量数据（位置信令）就近处理，实现全网资源统一管理、模型统一开发、任务分发及调度等能力全场景落地，充分证明1+N边缘计算架构的可行性。以总部+3个省分（福建、浙江、辽宁）的形式，模拟全网1+N的边缘计算平台生产运营模式。基于本提案提供的，平台内的状态信息的实时一致能力和平台之间的最终一致能力，跨域平台任务协作能力，以及跨域平台状态的可视化能力和跨域平台高可用和高稳定性，构建了1+N跨地域分布式平台架构，开展基于云边协同的统一管控、批流结合、跨数据中心查询、异构适配技术方向验证。

基于同样的发明构思，另一方面，本发明的一实施例提出一种跨域大数据平台的分布式集群状态信息管理系统。

下面结合图6对本发明提供的跨域大数据平台的分布式集群状态信息管理系统进行描述，下文描述的跨域大数据平台的分布式集群状态信息管理系统与上文描述的跨域大数据平台的分布式集群状态信息管理方法可相互对应参照。

图6为本发明一实施例提供的跨域大数据平台的分布式集群状态信息管理系统的结构示意图。

在本实施例中，需要说明的是，该跨域大数据平台的分布式集群状态信息管理系统1包括：自动备份缓存模块10，用于将跨域大数据平台包括的总部大数据平台和省份大数据平台的各个大数据平台的对外开放节点列表信息备份于各个大数据平台的集群内的Zookeeper服务组件，并缓存且仅缓存一份于本集群的leader节点，集群内的各节点注册为Zookeeper组件的客户端；以及自动同步模块201，用于进行省份大数据平台在总部大数据平台的注册，其中省份大数据平台的leader节点定期向总部大数据平台的集群的对外开放节点列表发送注册请求，在总部大数据平台收到注册请求后，如果确认为允许注册的省份大数据平台，并且确认省份大数据平台的对外开放列表是可用的，则进行数据同步和元数据信息的同步，最终完成集群的信息在总部大数据平台内的自动备份和缓存，以完成省份大数据平台的上线操作，并将最新的跨域信息缓存通过RPC向各个在线集群的对外开放节点进行同步通知，其中，总部大数据平台对省份大数据平台的对外开放节点列表保持RPC心跳机制。

由于本发明实施例提供的跨域大数据平台的分布式集群状态信息管理系统可以用于执行上述实施例所述的跨域大数据平台的分布式集群状态信息管理方法，其工作原理和有益效果类似，故此处不再详述，具体内容可参见上述实施例的介绍。

在本实施例中，需要说明的是，本发明实施例的装置中的各个模块可以集成于一体，也可以分离部署。上述模块可以合并为一个模块，也可以进一步拆分成多个子单元。

又一方面，基于相同的发明构思，本发明又一实施例提供了一种电子设备。

图7为本发明一实施例提供的电子设备的示意图。

在本实施例中，需要说明的是，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行跨域大数据平台的分布式集群状态信息管理方法，该方法包括：将跨域大数据平台包括的总部大数据平台和省份大数据平台的各个大数据平台的对外开放节点列表信息备份于各个大数据平台的集群内的Zookeeper服务组件，并缓存且仅缓存一份于本集群的leader节点，集群内的各节点注册为Zookeeper组件的客户端；以及进行省份大数据平台在总部大数据平台的注册，其中省份大数据平台的leader节点定期向总部大数据平台的集群的对外开放节点列表发送注册请求，在总部大数据平台收到注册请求后，如果确认为允许注册的省份大数据平台，并且确认省份大数据平台的对外开放列表是可用的，则进行数据同步和元数据信息的同步，最终完成集群的信息在总部大数据平台内的自动备份和缓存，以完成省份大数据平台的上线操作，并将最新的跨域信息缓存通过RPC向各个在线集群的对外开放节点进行同步通知，其中，总部大数据平台对省份大数据平台的对外开放节点列表保持RPC心跳机制。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行跨域大数据平台的分布式集群状态信息管理方法，该方法包括：将跨域大数据平台包括的总部大数据平台和省份大数据平台的各个大数据平台的对外开放节点列表信息备份于各个大数据平台的集群内的Zookeeper服务组件，并缓存且仅缓存一份于本集群的leader节点，集群内的各节点注册为Zookeeper组件的客户端；以及进行省份大数据平台在总部大数据平台的注册，其中省份大数据平台的leader节点定期向总部大数据平台的集群的对外开放节点列表发送注册请求，在总部大数据平台收到注册请求后，如果确认为允许注册的省份大数据平台，并且确认省份大数据平台的对外开放列表是可用的，则进行数据同步和元数据信息的同步，最终完成集群的信息在总部大数据平台内的自动备份和缓存，以完成省份大数据平台的上线操作，并将最新的跨域信息缓存通过RPC向各个在线集群的对外开放节点进行同步通知，其中，总部大数据平台对省份大数据平台的对外开放节点列表保持RPC心跳机制。

以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

此外，在本发明中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

此外，在本发明中，参考术语“实施例”、“本实施例”、“又一实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种跨域大数据平台的分布式集群状态信息管理方法，其特征在于，包括：

将所述跨域大数据平台包括的总部大数据平台和省份大数据平台的各个大数据平台的对外开放节点列表信息备份于所述各个大数据平台的集群内的Zookeeper服务组件，并缓存且仅缓存一份于本集群的leader节点，所述集群内的各节点注册为所述Zookeeper服务组件的客户端；

进行所述省份大数据平台在所述总部大数据平台的注册，其中所述省份大数据平台的leader节点定期向所述总部大数据平台的集群的所述对外开放节点列表发送注册请求，在所述总部大数据平台收到所述注册请求后，如果确认为允许注册的所述省份大数据平台，并且确认所述省份大数据平台的所述对外开放节点列表是可用的，则进行数据同步和元数据信息的同步，最终完成所述集群的信息在所述总部大数据平台内的自动备份和缓存，以完成所述省份大数据平台的上线操作，并将最新的跨域信息缓存通过RPC向各个在线集群的对外开放节点进行同步通知，其中，所述总部大数据平台对所述省份大数据平台的所述对外开放节点列表保持RPC心跳机制，

所述总部大数据平台将所述省份大数据平台的所述SLAVE_ACCESS_LIST信息备份到所述Zookeeper服务组件，并将所述SLAVE_ACCESS_LIST信息缓存且仅缓存一份到本集群的leader节点，

在所述总部大数据平台的Leader节点接收到刚刚注册的缓存信息后，向先前已经注册成功的所述省份大数据平台发起远程过程调用RPC通知，通知有新平台注册进来，并通过所述省份大数据平台的所述SLAVE_ACCESS_LIST向各个省份同步更新所述跨域大数据平台的最新缓存信息；以及

在所述省份大数据平台的SLAVE_ACCESS_LIST收到所述总部大数据平台发送的所述跨域大数据平台的所述最新缓存信息后，将所述最新缓存信息备份到所述Zookeeper服务组件，并缓存且仅缓存一份到本集群的leader节点。

2.根据权利要求1所述的跨域大数据平台的分布式集群状态信息管理方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的跨域大数据平台的分布式集群状态信息管理方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的跨域大数据平台的分布式集群状态信息管理方法，其特征在于，所述方法还包括：

5.根据权利要求1-4任一项所述的跨域大数据平台的分布式集群状态信息管理方法，其特征在于，所述总部大数据平台对省份大数据平台的对外开放节点列表都保持RPC心跳机制，包括：

6.一种跨域大数据平台的分布式集群状态信息管理系统，其特征在于，所述跨域大数据平台的分布式集群状态信息管理系统执行如权利要求1所述的跨域大数据平台的分布式集群状态信息管理方法。

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5任一项所述的跨域大数据平台的分布式集群状态信息管理方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的跨域大数据平台的分布式集群状态信息管理方法的步骤。