CN109802986A - 设备管理方法、系统、装置及服务器 - Google Patents

设备管理方法、系统、装置及服务器 Download PDF

Info

Publication number
CN109802986A
CN109802986A CN201711164923.0A CN201711164923A CN109802986A CN 109802986 A CN109802986 A CN 109802986A CN 201711164923 A CN201711164923 A CN 201711164923A CN 109802986 A CN109802986 A CN 109802986A
Authority
CN
China
Prior art keywords
cluster
server
coordination service
distributed
main
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711164923.0A
Other languages
English (en)
Other versions
CN109802986B (zh
Inventor
何小康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201711164923.0A priority Critical patent/CN109802986B/zh
Publication of CN109802986A publication Critical patent/CN109802986A/zh
Application granted granted Critical
Publication of CN109802986B publication Critical patent/CN109802986B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明实施例公开了一种设备管理方法、系统、装置及服务器,其中,所述方法包括:当该第一设备管理系统出现故障,或该第一设备管理系统与该第二设备管理系统之间的网络连接出现故障,且确定该主分布式集群系统协调服务集群无法提供决策服务时,从该第二设备管理系统中的第二备分布式集群系统协调服务集群中选取管理服务器,由该第二备分布式集群系统协调服务集群中的管理服务器控制从该第二服务器集群中选取主服务器,并控制该主服务器将该分布式集群系统中的负载分配给该第二服务器集群,可以避免在设备管理系统出现故障时,导致不能提供决策服务的事件发生,可以提高跨机房异地容灾能力。

Description

设备管理方法、系统、装置及服务器
技术领域
本发明涉及计算机技术,尤其涉及一种设备管理方法、系统、装置及服务器。
背景技术
分布式协调服务是一种高性能、高可用,且具有严格的顺序访问控制能力的分布式服务,zookeeper集群系统或ETCD集群系统等可以提供分布式协调服务。为了满足用户的业务需求,通常以跨机房的方式部署zookeeper集群系统,并从集群系统的所有Zookeeper服务器中,选举一个zookeeper服务器作为领导Leader角色用于执行写指令、发起从处理设备中选择主设备(即Master设备)的决议,从而由主设备分配集群系统中的负载(负载可以是指接入的设备或某项任务)。其中,Leader角色选举规则规定:在选举Leader角色时,一个zookeeper服务器只有在收到大于当前集群系统中所有zookeeper服务器配置总数的一半的有效票数时,才能被选举为Leader角色。
在实际应用中,若某个机房发生故障,由于不能保证其他机房的zookeeper服务器的数量大于总的zookeeper服务器的数量,因此其他机房中的zookeeper服务器不能够提供决策服务,也就是说,导致不能从集群系统的所有Zookeeper服务器中,选举一个zookeeper服务器作为领导Leader角色。举例来说,该集群系统部署在两个机房中,分别为机房1和机房2,机房1部署4个zookeeper服务器,机房2中部署3个zookeeper服务器,若机房1出现故障,由于机房2的zookeeper服务器数量小于两个机房的zookeeper服务器总数的一半,因此不能从集群系统的所有Zookeeper服务器中,选举一个zookeeper服务器作为领导Leader角色,导致不能从处理设备中选择出主设备,进而导致集群系统中的负载不能被管理或处理,可见当前的集群系统的跨机房异地容灾能力较差。
发明内容
本发明提供一种设备管理方法、系统、装置及服务器,可通过部署备协调服务器集群,以提高跨机房异地的容灾能力。
第一方面,本发明实施例提供了一种设备管理方法,应用于分布式集群系统,该方法包括:当该第一设备管理系统出现故障,或该第一设备管理系统与该第二设备管理系统之间的网络连接出现故障,且确定该主分布式集群系统协调服务集群无法提供决策服务时,从该第二设备管理系统中的第二备分布式集群系统协调服务集群中选取管理服务器,由该第二备分布式集群系统协调服务集群中的管理服务器控制从该第二服务器集群中选取主服务器,并控制该主服务器将该分布式集群系统中的负载分配给该第二服务器集群。
该技术方案中,当该第一设备管理系统出现故障,或该第一设备管理系统与该第二设备管理系统之间的网络连接出现故障,导致该主分布式集群系统协调服务集群无法提供决策服务时,即无法从该主分布式集群系统协调服务集群中投票选取leader服务器(管理服务器),可以从该第二设备管理系统中的第二备分布式集群系统协调服务集群中选取管理服务器,由该第二备分布式集群系统协调服务集群中的管理服务器控制从该第二服务器集群中选取主服务器,并控制该主服务器将该分布式集群系统中的负载分配给该第二服务器集群,可以避免在设备管理系统出现故障时,导致不能提供决策服务的事件发生,可以提高跨机房异地容灾能力。
作为一种可选的实施方式,向该主分布式集群系统协调服务集群发送心跳探测信息,并接收该主分布式集群系统协调服务集群的回复信息,根据该回复信息判断该主分布式集群系统协调服务集群中是否存在管理服务器,若不存在,则确定该主分布式集群系统协调服务集群无法提供决策服务。
该技术方案中,第二备分布式集群系统协调服务集群可以通过向主分布式集群系统协调服务集群发送心跳探测信息,来判断该主分布式集群系统协调服务集群中是否存在管理服务器,若存在管理服务器,可以确定该主分布式集群系统协调服务集群能够提供决策服务,可以提高判断该主分布式集群系统协调服务集群是否能够提供决策服务的准确性。
作为一种可选的实施方式,若根据所述回复信息确定该主分布式集群系统协调服务集群中存在管理服务器,则切换到由该主分布式集群系统协调服务集群中的管理服务器控制从该第二服务器集群及该第一服务器集群中选取主服务器,并控制该主服务器将该分布式集群系统中的负载分配给该第一服务器集群及该第二服务器集群。
该技术方案中,若第一设备管理系统的故障恢复,或第一设备管理系统与第二设备管理系统的之间的网络连接故障恢复,即根据该回复信息确定该主分布式集群系统协调服务集群中存在管理服务器,可以切换到由该主分布式集群系统协调服务集群提供决策服务,主分布式集群系统协调服务集群与备分布式集群系统协调服务集群可以交替提供决策服务,提高设备管理的灵活性。
作为一种可选的实施方式,获取该主分布式集群系统协调服务集群中的有效服务器的数量,判断该有效服务器的数量是否大于预设阈值,若否,则确定该主分布式集群系统协调服务集群无法提供决策服务。
该技术方案中,第二备分布式集群系统协调服务集群可以根据主分布式集群系统协调服务集群中有效服务器的数量,来判断该主分布式集群系统协调服务集群是否可以提供决策服务,可以提高判断该主分布式集群系统协调服务集群是否能够提供决策服务的效率。
作为一种可选的实施方式,从该中心数据库查找该主分布式集群系统协调服务集群中位于该第二设备管理系统的第一目标服务器,获取该第一目标服务器的数量,将该第一目标服务器的数量确定为该主分布式集群系统协调服务集群的有效服务器的数量。
该技术方案中,上述有效服务器可以是指可以正常工作的主协调服务器,由于第一设备管理系统出现故障,因此第一设备管理系统的主协调服务器不能正常工作,第二备分布式集群系统协调服务集群可以从该中心数据库查找该主分布式集群系统协调服务集群中位于该第二设备管理系统的第一目标服务器(第一目标服务器可以是指主协调服务器),获取该第一目标服务器的数量,将该第一目标服务器的数量确定为该主分布式集群系统协调服务集群的有效服务器的数量,以便可以根据有效服务器的数量判断该主分布式集群系统协调服务集群是否可以提供决策服务。
作为一种可选的实施方式,由该第二备分布式集群系统协调服务集群中的管理服务器向该第二备分布式集群系统协调服务集群中的其他第二目标服务器广播设备管理指令,使该其他第二目标服务器根据该设备管理指令从该第二服务器集群中选取主服务器,由该第二备分布式集群系统协调服务集群中的管理服务器向该主服务器发送分配指令,以控制该主服务器将该分布式集群系统中的负载分配给该第二服务器集群。
该技术方案中,由该第二备分布式集群系统协调服务集群中的管理服务器向该第二备分布式集群系统协调服务集群中的其他第二目标服务器广播设备管理指令(即选举主服务器的决议),使该其他第二目标服务器根据该设备管理指令从该第二服务器集群中选取主服务器,由该第二备分布式集群系统协调服务集群中的管理服务器向该主服务器发送分配指令,以控制该主服务器将该分布式集群系统中的负载分配给该第二服务器集群。可以避免设备管理系统出现故障,该设备管理系统中的负载不能被管理或处理的事件发生,提高跨机房异地容灾能力。
作为一种可选的实施方式,上述分布式集群系统还包括第三设备管理系统,该第一设备管理系统包括第一数据库,该第二设备管理系统包括第二数据库,该第三设备管理系统包括第三数据库,其中,该第一数据库用于记录该第一设备管理系统及该第三设备管理系统的数据信息,该第二数据库用于记录该第一设备管理系统及该第二设备管理系统的数据信息,该第三数据库用于记录该第二设备管理系统及该第三设备管理系统的数据信息;该数据信息用于指示设备管理系统的各个集群之间的对应关系。
该技术方案中,可以采用链式的方式记录各个设备管理系统(即机房)的数据信息,可以避免各个机房的负载多重注册的事件发生,进而,可以节省资源。也就是说,在第一设备管理系统出现故障时,第二备分布式集群系统可以从第二数据库中获取第一设备管理系统中的负载,控制主服务器将第一设备管理系统中的负载分配给第二服务器集群,即第一设备管理系统中的负载可以仅注册在第一设备管理系统及第二设备管理系统中,而不需要将第一设备管理系统中的负载注册到第一设备管理系统、第二设备管理系统及第三设备管理系统中,可以减少注册的次数,从而避免多注册浪费资源。
第二方面,提供了一种设备管理装置,该设备管理装置具有实现上述第一方面或第一方面可能的实现方式中行为的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。该模块可以是软件和/或硬件。
第三方面,提供了一种服务器,该服务器包括:存储器,用于存储一个或多个程序;处理器,用于调用存储在该存储器中的程序,以实现上述第一方面的方法设计中的方案。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被至少一个处理器执行时,可以实现上述第一方面和第一方面各可能的实施方式以及有益效果。
第五方面,本发明实施例提供了一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非易失性计算机可读存储介质,该计算机程序被执行时使计算机实现上述第一方面的方法的步骤,该计算机程序产品解决问题的实施方式以及有益效果可以参见上述第一方面和第一方面各可能的方法的实施方式以及有益效果,重复之处不再赘述。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例中所需要使用的附图进行说明。
图1是本发明实施例提供的一种分布式集群系统的网络构架示意图;
图2是本发明实施例提供的一种设备管理方法的流程示意图;
图3是本发明实施例提供的另一种设备管理方法的流程示意图;
图4是本发明实施例提供的一种设备管理装置的结构示意图;
图5是本发明实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
在实际应用中,若某个机房发生故障,通常不能从集群系统的所有Zookeeper服务器中,选举一个zookeeper服务器作为领导Leader角色,导致不能从处理设备中选择出主设备,进而导致集群系统中的负载不能被管理或处理,可见当前的集群系统的容灾能力较差。基于此本发明提供一种设备管理方法、系统、装置及服务器,可以通过部署备协调服务器集群,在分布式集群系统中任意设备管理系统出现故障时,备协调服务器集群可以对分布式系统的设备进行管理,进而可以对负载进行管理或处理,提高设备管理系统(即跨机房异地)的容灾能力。
本发明可以应用于各个智能视频监控场景(如交通监控或商场监控等)、数据发布与订阅场景、处理批量任务的场景(如处理批量搜索请求或发送批量的通知)等等,本发明对此不做限定。
本发明实施例中的负载可以根据该方案的应用场景不同而不同,如该应用场景是监控场景,负载可以是指接入的监控设备(如摄像机),该应用场景是处理批量搜索请求,负载可以是批量搜索请求拆分成的多个子任务(如生成索引)。
本发明实施例中的主分布式集群系统协调服务集群、第一备分布式集群系统协调服务集群及第二备分布式集群系统协调服务集群可以是指zookeeper节点集群,服务器集群可以是指zookeeper客户端集群,如媒体处理单元(Media Process Unit,MPU)。另外,主分布式集群系统协调服务集群、第一备分布式集群系统协调服务集群或第二备分布式集群系统协调服务集群中管理服务器可以用于发起选举主服务器的决议(即设备管理指令),还用于发起分配负载的分配指令。主服务器用于根据分配指令分配将分布式系统中的负载分配给各个处理服务器。主分布式集群系统协调服务集群、第一备分布式集群系统协调服务集群及第二备分布式集群系统协调服务集群的服务器数量、服务器集群中的处理服务器数量可以根据实际需要配置,本发明对此不限定。
本发明实施例中的选取管理服务器可以是指选取Leader zookeeper服务器,选取主服务器可以是指选取master MPU,设备管理指令可以是指选取master MPU的决议。
为了更好理解本发明实施例提供的一种设备管理方法、系统、装置及设备,下面先描述本发明实施例的分布式集群系统的网络构架。
请参见图1,图1是本发明实施例提供的一种分布式集群系统的网络构架示意图,在图1中所示的分布式集群系统至少包括第一设备管理系统1、第二设备管理系统2、中心数据库10及主分布式集群系统协调服务集群11,第一设备管理系统1包括与第一备分布式集群系统协调服务集群12连接的第一服务器集群14,第二设备管理系统2包括与第二备分布式集群系统协调服务集群13连接的第二服务器集群15,其中,主分布式集群系统协调服务集群11包括多个主协调服务器(图1以8个主协调服务器为例,主协调服务器1到主协调服务器4位于第一设备管理系统1,主协调服务器5到主协调服务器8位于第二设备管理系统2),第一备分布式集群系统协调服务集群12、第二备分布式集群系统协调服务集群13分别可以包括多个备协调服务器(图1以每个备分布式集群系统协调服务集群包括3个备协调服务器为例),第一服务器集群14可以与主分布式集群系统协调服务集群11及第一备分布式集群系统协调服务集群12连接,第二服务器集群可以与主分布式集群系统协调服务集群11及第二备分布式集群系统协调服务集群13连接,第一服务器集群及第二服务器集群可以包括多个处理服务器。基于上述分布式集群系统的网络构架在主分布式集群系统协调服务集群中不能提供决策服务时,备分布式集群系统协调服务集群可以提供决策服务,可以提高系统的容灾能力。
具体的,若第一设备管理系统1出现故障,第二备分布式集群系统协调服务集群13可以通过发送心跳探测信息或获取有效主服务器数量来判断主分布式集群系统协调服务集群11是否能够提供决策服务,若确定主分布式集群系统协调服务集群11无法提供决策服务,第二备分布式集群系统协调服务集群13可以通过投票的方式从第二备分布式集群系统协调服务集群13选取管理服务器,由第二备分布式集群系统协调服务集群13中的管理服务器控制从第二服务器集群15中选取主服务器,并控制主服务器将分布式集群系统中的负载分配给第二服务器集群15。也就是说,在第一设备管理系统1出现故障,且主分布式集群系统协调服务集群11无法提供决策服务时,可以通过第二备分布式集群协调服务集群13提供决策服务,可以避免在第一设备管理系统出现故障,导致不能提供决策服务的事件发生(即导致该系统的业务中断的事件发生),可以提高跨机房异地容灾能力。
需要说明的是,上述通过发送心跳探测信息判断主分布式集群系统协调服务集群是否能够提供决策服务的具体方式包括:第二备分布式集群系统协调服务集群13可以向主分布式集群系统协调服务集群11发送心跳探测信息,并接收主分布式集群系统协调服务集群11的回复信息,根据该回复信息判断该主分布式集群系统协调服务集群11中是否存在管理服务器,若不存在,则确定该主分布式集群系统协调服务集群11无法提供决策服务。
举例来说,第二备分布式集群系统协调服务集群13中的备协调服务器4可以向主分布式集群系统协调服务集群11中的所有主协调服务器发送心跳探测信息,并接收主分布式集群系统协调服务集群11的回复信息,若接收到4个主协调服务器的回复信息,备协调服务器4确定主分布式集群系统协调服务集群11中仅4个主协调服务器能够正常工作,由于正常工作的主协调服务器数量不大于主分布式集群系统协调服务集群11中主协调服务器的总数的一半,备协调服务器4可以确定主分布式集群系统协调服务集群中不存在管理服务器,并将主分布式集群系统协调服务集群中不存在管理服务器的消息发送给第二备分布式集群系统协调服务集群13中的其他备协调服务器,即第二备分布式集群系统协调服务集群13可以根据该回复信息确定该主分布式集群系统协调服务集群11中不存在管理服务器,并确定该主分布式集群系统协调服务集群无法提供决策服务。
再举例来说,第二备分布式集群系统协调服务集群13中的各备协调服务器可以向主分布式集群系统协调服务集群11中的所有主协调服务器发送心跳探测信息,该心跳探测信息用于询问该主分布式集群系统协调服务集群11中是否存在管理服务器,并接收主分布式集群系统协调服务集群11的回复信息,若接收到的回复信息指示该主服务器11中不存在管理服务器,第二备分布式集群系统协调服务集群13可以根据该回复信息确定该主分布式集群系统协调服务集群11中不存在管理服务器,并确定该主分布式集群系统协调服务集群11无法提供决策服务。
需要说明的是,上述通过获取有效主服务器的数量判断主分布式集群系统协调服务集群是否能够提供决策服务的具体方式包括:获取该主分布式集群系统协调服务集群11中的有效服务器的数量,判断该有效服务器的数量是否大于预设阈值,若否,则确定主分布式集群系统协调服务集群11无法提供决策服务。
其中,预设阈值可以是指主分布式集群系统协调服务集群中的主协调服务器数量的一半。
需要说明的是,有效服务器可以是指能够正常工作的主服务器,由于第一设备管理系统1出现故障,则第一设备管理系统中的主协调服务器不能正常工作,只有第二设备管理系统2中的主协调服务器才能正常工作,因此第二备分布式集群系统协调服务集群获取该主分布式集群系统协调服务集群11中的有效服务器的数量的具体方式包括:第二备分布式集群系统协调服务集群可以从中心数据库10中查找主分布式集群系统协调服务集群11中位于第二设备管理系统2的第一目标服务器(第一目标服务器是指图1中的主协调服务器),获取该第一目标服务器的数量,获取到的第一目标服务器的数量为4,第二备分布式集群系统协调服务集群可以确定该主分布式集群系统协调服务集群的有效服务器数量为4个。
需要说明的是,上述第二备分布式集群系统协调服务集群13中的管理服务器控制从第二服务器集群15中选取主服务器,并控制主服务器将分布式集群系统中的负载分配给第二服务器集群15的具体方式包括:由第二备分布式集群系统协调服务集群13中的管理服务器向第二备分布式集群系统协调服务集群13中的其他第二目标服务器(第二目标服务器为备协调服务器)广播设备管理指令,使该其他第二目标服务器根据该设备管理指令从第二服务器集群15中选取主服务器,由第二备分布式集群系统协调服务集群13中的管理服务器向该主服务器发送分配指令,以控制该主服务器将该分布式集群系统中的负载分配给所述第二服务器集群。
需要说明的是,第一设备管理系统1的故障恢复,即第二备分布式集群系统协调服务集群13检测到主分布式集群系统协调服务集群中存在管理服务器时,可以切换到由主分布式集群系统协调服务集群10中的管理服务器发起选举决议(即设备管理指令),通过各个主服务器可以选举从第一服务器集群及第二服务器集群中选取主服务器,控制主服务器对该分布式集群系统的负载分配给第一服务器集群14及第二服务器集群15。也就是说,在设备管理系统故障恢复时,可以由主分布式集群系统协调服务集群提供决策服务,主分布式集群系统协调服务集群与备分布式集群系统协调服务集群可以交替提供决策服务,提高设备管理的灵活性。
另外,在第二设备管理系统2器出现故障,且确定主分布式集群系统协调服务集群11无法提供决策服务器时,由第一备分布式集群系统协调服务集群12提供决策服务,具体实现方式可以参考上述第二备分布式集群系统协调服务集群13实现的方式,重复之处,不再赘述。
在第一设备管理系统1和第二设备管理系统2之间的网络连接出现故障,且确定主分布式集群系统协调服务集群11无法提供决策服务器时,由第一备分布式集群系统协调服务集群12及第二备分布式集群系统协调服务集群13分别提供决策服务,第一备分布式集群系统协调服务集群12提供决策服务的具体实现方式可以参考上述第二备用服务集群13的具体实现方式,重复之处,不再赘述。
需要说明的是,分布式集群系统中的可以包括多个设备管理系统,其设备管理系统的数量可以根据实际应用场景的需要部署,本发明实施例不限定。
需要说明的是,上述中心数据库可以是分布式数据库,可以用于存储全局数据,如主协调服务与机房(机房即为设备管理系统)的对应关系等,该中心数据库可以是跨机房异地部署的数据库。
需要说明的是,上述分布式集群系统还包括第三设备管理系统,该第一设备管理系统包括第一数据库,该第二设备管理系统包括第二数据库,该第三设备管理系统包括第三数据库,其中,该第一数据库用于记录该第一设备管理系统及该第三设备管理系统的数据信息,该第二数据库用于记录该第一设备管理系统及该第二设备管理系统的数据信息,该第三数据库用于记录该第二设备管理系统及该第三设备管理系统的数据信息;该数据信息用于指示设备管理系统的各个集群之间的对应关系。
也就是说,可以采用链式的方式记录各个设备管理系统(即机房)的数据信息,可以避免各个机房的负载多重注册的事件发生,进而,可以节省资源。即在第一设备管理系统出现故障时,第二备分布式集群系统可以从第二数据库中获取第一设备管理系统中的负载,控制主服务器将第一设备管理系统中的负载分配给第二服务器集群,即第一设备管理系统中的负载可以仅注册在第一设备管理系统及第二设备管理系统中,而不需要将第一设备管理系统中的负载注册到第一设备管理系统、第二设备管理系统及第三设备管理系统中,可以减少注册的次数,从而避免多注册浪费资源。
其中,上述该数据信息用于指示设备管理系统的各个集群之间的对应关系,如记录设备管理系统与负载的对应关系,主分布式集群系统协调服务集群中的主协调服务器与设备管理系统之间的对应关系,记录备分布式集群系统协调服务集群与设备管理系统的对应关系等。
其中,上述第一数据库、第二数据库、第三数据库可以动态更新,如,有新的负载加入设备管理系统或有负载被删除时,可以实时更新上述第一数据库、第二数据库、第三数据库。
举例来说,各个机房的数据可以采用链式存储,如,机房1中的数据可以存储到机房2,机房2的数据可以存储到机房3,机房3的数据可以存储到机房1,在机房1出现故障时,机房2可以承载机房1的负载,可见,机房1的负载可以仅注册在机房1和机房2下,从而可以避免机房1的负载必须注册到机房1、机房2、机房3的事件发生,从而避免多注册浪费资源。
需要说明的是,上述分布式集群系统协调服务集群可以部署多级,用于在上级集群出现故障时,下级承载上级的决策服务,如,可以部署第一级分布式集群系统协调服务集群(可以为国家级分布式集群系统协调服务集群)、第二级分布式集群系统协调服务集群(可以为省级分布式集群系统协调服务集群)、第三级分布式集群系统协调服务集群(可以为市级分布式集群系统协调服务集群)等等,本发明实施例对部署的分布式集群系统协调服务集群的级数不限定。
本发明实施例中,在确定主分布式集群系统协调服务集群无法提供决策服务时,可以由备分布式集群系统协调服务集群提供决策服务,即可以从备分布式集群系统协调服务集群中选取管理服务器(管理服务器即leader服务器),由备分布式集群系统协调服务集群中的管理服务器控制从服务器集群中选取主服务器(主服务器即为master客户端),并控制主服务器分配该分布式系统中的负载,可以避免在设备管理系统出现故障时,导致不能提供决策服务的事件发生,可以提高跨机房异地容灾能力。
基于上述对一种分布式集群系统的网络构架的描述,本发明实施提供一种设备管理方法,该方法应用于上述图1所示的分布式集群系统,请参见图2,如图2所示所述方法可以包括:
S201、当该第一设备管理系统出现故障,或该第一设备管理系统与该第二设备管理系统之间的网络连接出现故障,且确定该主分布式集群系统协调服务集群无法提供决策服务时,从该第二设备管理系统中的第二备分布式集群系统协调服务集群中选取管理服务器。
举例来说,如图1所述的分布式集群系统中,当该第一设备管理系统1出现故障,或该第一设备管理系统1与该第二设备管理系统2之间的网络连接出现故障,且确定该主分布式集群系统协调服务集群11无法提供决策服务时,第二备分布式集群系统协调服务集群13中的任一备协调服务器可以发起选举管理服务器的决议,各个备协调服务器可以采用basic paxos算法、fast paxos算法或Raft算法等选举算法统计被选举为管理服务器的票数,若某个备协调服务器(如备协调服务器4)的选举票数大于总的备协调服务器数量的一半,可以将备协调服务器4确定为管理服务器。
本发明实施例中,第二备分布式集群系统协调服务集群可以向第一设备管理系统的至少一个设备发送信息,若未接收到第一设备管理系统中的设备发送的回复信息,可以确定第一设备管理系统出现故障,或者确定第一设备管理系统与第二设备管理系统之间的网络连接出现故障。进一步,第二备分布式集群系统协调服务集群可以判断该主分布式集群系统协调服务集群是否可以提供决策服务器,在确定该主分布式集群系统协调服务集群无法提供决策服务时,从该第二设备管理系统中的第二备分布式集群系统协调服务集群中选取管理服务器,以便备协调服务器集群可以提供决策服务。
作为一种可选的实施方式,上述确定该主分布式集群系统协调服务集群无法提供决策服务的具体方式包括:获取该主分布式集群系统协调服务集群中的有效服务器的数量,判断该有效服务器的数量是否大于预设阈值,若否,则确定该主分布式集群系统协调服务集群无法提供决策服务。
本发明实施例中,第二备分布式集群系统协调服务集群可以获取该主分布式集群系统协调服务集群中的有效服务器的数量,判断该有效服务器的数量是否大于预设阈值,若否,则确定无法从该主分布式集群系统协调服务集群中选取管理服务器,即确定该主分布式集群系统协调服务集群无法提供决策服务,以便采用备协调服务器集群提供决策服务;若确定有效服务器的数量大于预设阈值,确定可以从该主分布式集群系统协调服务集群中选取管理服务器,即确定该主分布式集群系统协调服务集群可以提供决策服务。
其中,预设阈值可以是指主分布式集群系统协调服务集群中的主服务器的数量的一半。
作为一种可选的实施方式,上述获取该主分布式集群系统协调服务集群中的有效服务器的数量的具体方式包括:从该中心数据库查找该主分布式集群系统协调服务集群中位于该第二设备管理系统的第一目标服务器,获取该第一目标服务器的数量,将该第一目标服务器的数量确定为该主分布式集群系统协调服务集群的有效服务器的数量。
本发明实施例中,上述有效服务器可以是指可以正常工作的主协调服务器,由于第一设备管理系统出现故障,因此第一设备管理系统的主协调服务器不能正常工作,第二备分布式集群系统协调服务集群可以从该中心数据库查找该主分布式集群系统协调服务集群中位于该第二设备管理系统的第一目标服务器(第一目标服务器可以是指主协调服务器),获取该第一目标服务器的数量,将该第一目标服务器的数量确定为该主分布式集群系统协调服务集群的有效服务器的数量。
S202、由该第二备分布式集群系统协调服务集群中的管理服务器控制从该第二服务器集群中选取主服务器,并控制该主服务器将该分布式集群系统中的负载分配给该第二服务器集群。
本发明实施例中,该第二备分布式集群系统协调服务集群中的管理服务器可以控制从该第二服务器集群中选取主服务器,并控制该主服务器将该分布式集群系统中的负载分配给该第二服务器集群,在主分布式集群系统协调服务集群无法提供决策服务时,可以通过备协调服务器集群提供决策服务,可以提高系统的容灾能力。
作为一种可选的实施方式,上述由该第二备分布式集群系统协调服务集群中的管理服务器控制从该第二服务器集群中选取主服务器,并控制该主服务器将该分布式集群系统中的负载分配给该第二服务器集群的具体方式包括:由该第二备分布式集群系统协调服务集群中的管理服务器向该第二备分布式集群系统协调服务集群中的其他第二目标服务器广播设备管理指令,使该其他第二目标服务器根据该设备管理指令从该第二服务器集群中选取主服务器,由该第二备分布式集群系统协调服务集群中的管理服务器向该主服务器发送分配指令,以控制该主服务器将该分布式集群系统中的负载分配给该第二服务器集群。
举例来说,如图1所述的分布式集群系统中,若备协调服务器4为管理服务器,备协调服务器4可以向其他第二目标服务器(即备协调服务器5和备协调服务器6)广播设备管理指令(该设备管理指令也就是指选举master客户端的指令),使备协调服务器5和备协调服务器6根据该设备管理指令通过投票的方式从第二服务器集群15中选取主服务器,备协调服务器4可以统计各个处理服务器被选举为主服务器的票数,备协调服务器4将票数最多的处理服务器作为主服务器(如处理服务器10),该备协调服务器4还可以向该主服务器发送分配指令,以控制该主服务器将第一设备管理系统中的负载分配给第二服务器集群15,由于第二服务器集群15也承载了第二设备管理系统2的负载,即控制该主服务器采用负载均衡的方式将该分布式集群系统中的负载分配给该第二服务器集群15。
本法实施例中,该第二备分布式集群系统协调服务集群中的管理服务器可以向该第二备分布式集群系统协调服务集群中的其他第二目标服务器广播设备管理指令,使该其他第二目标服务器根据该设备管理指令从该第二服务器集群中选取主服务器,由该第二备分布式集群系统协调服务集群中的管理服务器向该主服务器发送分配指令,以控制该主服务器将该分布式集群系统中的负载分配给该第二服务器集群,可以避免设备管理系统出现故障,该设备管理系统中的负载不能被管理或处理的事件发生,提高跨机房异地容灾能力。
作为一种可选的实施方式,上述分布式集群系统还包括第三设备管理系统,该第一设备管理系统包括第一数据库,该第二设备管理系统包括第二数据库,该第三设备管理系统包括第三数据库,其中,该第一数据库用于记录该第一设备管理系统及该第三设备管理系统的数据信息,该第二数据库用于记录该第一设备管理系统及该第二设备管理系统的数据信息,该第三数据库用于记录该第二设备管理系统及该第三设备管理系统的数据信息;该数据信息用于指示设备管理系统的各个集群之间的对应关系。
本发明实施例中,可以采用链式的方式记录各个设备管理系统(即机房)的数据信息,可以避免各个机房的负载多重注册的事件发生,进而,可以节省资源。即在第一设备管理系统出现故障时,第二备分布式集群系统可以从第二数据库中获取第一设备管理系统中的负载,控制主服务器将第一设备管理系统中的负载分配给第二服务器集群,即第一设备管理系统中的负载可以仅注册在第一设备管理系统及第二设备管理系统中,而不需要将第一设备管理系统中的负载注册到第一设备管理系统、第二设备管理系统及第三设备管理系统中,可以减少注册的次数,从而避免多注册浪费资源。
本发明实施例中,在确定主分布式集群系统协调服务集群无法提供决策服务时,可以由备协调服务器集群提供决策服务,即可以从备协调服务器集群中选取管理服务器(管理服务器即leader服务器),由备协调服务器集群中的管理服务器控制从服务器集群中选取主服务器(主服务器即为master客户端),并控制主服务器分配该分布式系统中的负载,可以避免在设备管理系统出现故障时,导致不能提供决策服务的事件发生,可以提高跨机房异地容灾能力。
基于上述对一种设备管理方法的描述,本发明实施提供另一种设备管理方法,该方法应用于上述图1所示的分布式集群系统,请参见图3,如图3所示所述方法可以包括:
S301、当该第一设备管理系统出现故障,或该第一设备管理系统与该第二设备管理系统之间的网络连接出现故障,向该主分布式集群系统协调服务集群发送心跳探测信息,并接收该主分布式集群系统协调服务集群的回复信息。
本发明实施例中,当该第一设备管理系统出现故障,或该第一设备管理系统与该第二设备管理系统之间的网络连接出现故障,第二备分布式集群系统协调服务集群可以向该主分布式集群系统协调服务集群发送心跳探测信息,并接收该主分布式集群系统协调服务集群的回复信息,以便可以根据该回复信息判断该主分布式集群系统协调服务集群是否可以提供决策服务。
S302、根据该回复信息判断该主分布式集群系统协调服务集群中是否存在管理服务器,若不存在,则执行步骤S303~S305,若存在,则执行步骤S306。
本发明实施例中,第二备分布式集群系统协调服务集群可以根据该回复信息判断该主分布式集群系统协调服务集群中是否存在管理服务器,若不存在,则可以执行步骤S303~S305,以采用备协调服务器集群提供决策服务;若存在,则可以执行步骤S306,以采用主分布式集群系统协调服务集群提供决策服务。
举例来说,如图1所述的分布式集群系统中,第二备分布式集群系统协调服务集群13可以向主分布式集群系统协调服务集群11发送心跳探测消息,并接收回复信息,若第二备分布式集群系统协调服务集群13统计到的回复信息的条数小于或等于主分布式集群系统协调服务集群11中主协调服务器数量的一半,第二备分布式集群系统协调服务集群13可以确定无法从主分布式集群系统协调服务集群中选取管理服务器,即根据该回复信息确定该主分布式集群系统协调服务集群中不存在管理服务器;否则,确定可以从主分布式集群系统协调服务集群11中选取管理服务器,即根据该回复信息确定该主分布式集群系统协调服务集群中存在管理服务器。
S303、确定该主分布式集群系统协调服务集群无法提供决策服务。
S304、从该第二设备管理系统中的第二备分布式集群系统协调服务集群中选取管理服务器。
本发明实施例中,第二备分布式集群系统协调服务集群在确定该主分布式集群系统协调服务集群无法提供决策服务时,可以从该第二设备管理系统中的第二备分布式集群系统协调服务集群中选取管理服务器,以便第二备分布式集群系统协调服务集群中的管理服务器可以对第二服务器集群及该分布式集群系统中的负载进行管理。
S305、由该第二备分布式集群系统协调服务集群中的管理服务器控制从该第二服务器集群中选取主服务器,并控制该主服务器将该分布式集群系统中的负载分配给该第二服务器集群。
本发明实施例中,该第二备分布式集群系统协调服务集群中的管理服务器可以向第二备分布式集群系统协调服务集群中的各个备协调服务器发送投票选取主服务器的决议,并接收各个备协调服务器选取的主服务器的信息,从接收到的信息中统计票数最多的服务器,将票数最多的服务器作为主服务器,并控制该主服务器将该分布式集群系统中的负载分配给该第二服务器集群,可以避免第一设备管理系统出现故障,第一设备管理系统中的负载无法被管理或处理的事件发生,可提高系统的容灾能力。
S306、切换到由该主分布式集群系统协调服务集群中的管理服务器控制从该第二服务器集群及该第一服务器集群中选取主服务器,并控制该主服务器将该分布式集群系统中的负载分配给该第一服务器集群及该第二服务器集群。
本发明实施例中,若第一设备管理系统的故障恢复,或第一设备管理系统与第二设备管理系统的之间的网络连接故障恢复,即根据该回复信息确定该主分布式集群系统协调服务集群中存在管理服务器,则第二备分布式集群系统协调服务集群暂停管理第二服务器集群,切换到由该主分布式集群系统协调服务集群中的管理服务器控制从该第二服务器集群及该第一服务器集群中选取主服务器,并控制该主服务器将该分布式集群系统中的负载分配给该第一服务器集群及该第二服务器集群。
本发明实施例中,在第一设备管理系统出现故障,或第一设备管理系统与第二设备管理系统出现故障时,第二备分布式集群系统协调服务集群可以基于心跳探测信息判断该主分布式集群系统协调服务集群是否能够提供决策服务,若该主分布式集群系统协调服务集群无法提供决策服务,可以由第二备分布式集群系统协调服务集群提供决策服务,可以避免在设备管理系统出现故障时,导致不能提供决策服务的事件发生,可以提高跨机房异地容灾能力;若该主分布式集群系统协调服务集群可以提供决策服务,可以由主分布式集群系统协调服务集群提供决策服务,即在设备管理系统故障恢复时,可以由主分布式集群系统协调服务集群提供决策服务,主分布式集群系统协调服务集群与备分布式集群系统协调服务集群可以交替提供决策服务,提高设备协调管理的灵活性。
基于上述对一种设备管理方法的描述,本发明实施提供一种设备管理装置,该装置应用于上述图1所示的分布式集群系统,请参见图4,如图4所示所述装置可以包括:
选取模块401,用于当所述第一设备管理系统出现故障,或所述第一设备管理系统与所述第二设备管理系统之间的网络连接出现故障,且确定所述主分布式集群系统协调服务集群无法提供决策服务时,从所述第二设备管理系统中的第二备分布式集群系统协调服务集群中选取管理服务器。
控制模块402,用于控制从所述第二服务器集群中选取主服务器,并控制所述主服务器将所述分布式集群系统中的负载分配给所述第二服务器集群。
可选的,发送模块403,用于向所述主分布式集群系统协调服务集群发送心跳探测信息,并接收所述主分布式集群系统协调服务集群的回复信息。
可选的,第一判断模块404,用于根据所述回复信息判断所述主分布式集群系统协调服务集群中是否存在管理服务器。
可选的,确定模块405,用于若不存在,则确定所述主分布式集群系统协调服务集群无法提供决策服务。
可选的,切换模块406,用于若根据所述回复信息确定所述主分布式集群系统协调服务集群中存在管理服务器,则切换到由所述主分布式集群系统协调服务集群中的管理服务器控制从所述第二服务器集群及所述第一服务器集群中选取主服务器,并控制所述主服务器将所述分布式集群系统中的负载分配给所述第一服务器集群及所述第二服务器集群。
可选的,获取模块407,用于获取所述主分布式集群系统协调服务集群中的有效服务器的数量。
可选的,第二判断模块408,用于判断所述有效服务器的数量是否大于预设阈值,若否,则确定所述主分布式集群系统协调服务集群无法提供决策服务。
可选的,所述获取模块407,具体用于从所述中心数据库查找所述主分布式集群系统协调服务集群中位于所述第二设备管理系统的第一目标服务器;获取所述第一目标服务器的数量,将所述第一目标服务器的数量确定为所述主分布式集群系统协调服务集群的有效服务器的数量。
可选的,所述控制模块402,具体用于向所述第二备分布式集群系统协调服务集群中的其他第二目标服务器广播设备管理指令,使所述其他第二目标服务器根据所述设备管理指令从所述第二服务器集群中选取主服务器,向所述主服务器发送分配指令,以控制所述主服务器将所述分布式集群系统中的负载分配给所述第二服务器集群。
可选的,上述分布式集群系统还包括第三设备管理系统,该第一设备管理系统包括第一数据库,该第二设备管理系统包括第二数据库,该第三设备管理系统包括第三数据库,其中,该第一数据库用于记录该第一设备管理系统及该第三设备管理系统的数据信息,该第二数据库用于记录该第一设备管理系统及该第二设备管理系统的数据信息,该第三数据库用于记录该第二设备管理系统及该第三设备管理系统的数据信息;该数据信息用于指示设备管理系统的各个集群之间的对应关系。
本发明实施例中,该设备管理装置具有实现上述图2和图3对应实施例中的设备管理方法中第二备分布式集群系统协调服务集群中的备协调服务器执行的相应步骤的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件。
基于同一发明构思,由于该设备管理装置解决问题的原理以及有益效果可以参见上述图2和图3所述设备管理方法的实施方式以及所带来的有益效果,因此该设备管理装置的实施方式可以参见上述图2和图3所述设备管理方法的实施方式,重复之处不再赘述。
基于上述对一种设备管理装置的描述,本发明实施提供了一种服务器,请参见图5,如图5所示的服务器可以包括:包括处理器501、存储器502、输入设备503和输出设备504,所述处理器501、存储器502、输入设备503和输出设备504通过总线相互连接。
处理器501可以是一个或多个中央处理器(central processing unit,CPU),在处理器501是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。
存储器502包括但不限于是随机存储记忆体(random access memory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasable programmableread only memory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM),该存储器502用于存储指令及数据。
上述输入设备503包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等,输出设备504可以包括显示器(LCD等)、扬声器等。
上述存储器502还用于存储程序指令。上述处理器501可以调用上述存储器502存储的程序指令,实现如本申请上述各实施例所示的设备管理方法。
可选的,本发明实施例中的处理器501可以实现图4中的选取模块401、控制模块402、第一判断模块404、确定模块405、切换模块406、获取模块407及第二判断模块408的功能,输出设备504可以实现图4中的发送模块403的功能本发明实施例不做限定。
需要说明的是,本发明实施例中的服务器可以是指图1所示的第二备分布式集群系统协调服务集群中的服务器。
基于同一发明构思,本发明实施例中提供的服务器解决问题的原理与本发明方法实施例相似,因此该服务器的实施以及有益效果可以参见上述各方法实施例,为简洁描述,在这里不再赘述。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序解决问题的实施方式以及有益效果可以参见上述图2和图3的设备管理方法的实施方式以及有益效果,重复之处不再赘述。
本发明实施还提供了一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非易失性计算机可读存储介质,该计算机程序被执行时使计算机执行上述图2和图3对应实施例中的设备管理方法的步骤,该计算机程序产品解决问题的实施方式以及有益效果可以参见上述图2和图3的设备管理方法的实施方式以及有益效果,重复之处不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。

Claims (21)

1.一种设备管理方法,应用于分布式集群系统,其特征在于,所述分布式集群系统至少包括第一设备管理系统和第二设备管理系统;所述分布式集群系统包括主分布式集群系统协调服务集群,所述第一设备管理系统包括第一备分布式集群系统协调服务集群及第一服务器集群,所述第二设备管理系统包括第二备分布式集群系统协调服务集群和第二服务器集群;所述方法包括:
当所述第一设备管理系统出现故障,或所述第一设备管理系统与所述第二设备管理系统之间的网络连接出现故障,且确定所述主分布式集群系统协调服务集群无法提供决策服务时,从所述第二设备管理系统中的第二备分布式集群系统协调服务集群中选取管理服务器;
由所述第二备分布式集群系统协调服务集群中的管理服务器控制从所述第二服务器集群中选取主服务器,并控制所述主服务器将所述分布式集群系统中的负载分配给所述第二服务器集群。
2.根据权利要求1所述的方法,其特征在于,所述确定所述主分布式集群系统协调服务集群无法提供决策服务,包括:
向所述主分布式集群系统协调服务集群发送心跳探测信息,并接收所述主分布式集群系统协调服务集群的回复信息;
根据所述回复信息判断所述主分布式集群系统协调服务集群中是否存在管理服务器;
若不存在,则确定所述主分布式集群系统协调服务集群无法提供决策服务。
3.根据权利要求2所述的方法,其特征在于,还包括:
若根据所述回复信息确定所述主分布式集群系统协调服务集群中存在管理服务器,则切换到由所述主分布式集群系统协调服务集群中的管理服务器控制从所述第二服务器集群及所述第一服务器集群中选取主服务器,并控制所述主服务器将所述分布式集群系统中的负载分配给所述第一服务器集群及所述第二服务器集群。
4.根据权利要求1所述的方法,其特征在于,所述确定所述主分布式集群系统协调服务集群无法提供决策服务,包括:
获取所述主分布式集群系统协调服务集群中的有效服务器的数量;
判断所述有效服务器的数量是否大于预设阈值,若否,则确定所述主分布式集群系统协调服务集群无法提供决策服务。
5.根据权利要求4所述的方法,其特征在于,所述分布式集群系统还包括中心数据库;获取所述主分布式集群系统协调服务集群中的有效服务器的数量,包括:
从所述中心数据库查找所述主分布式集群系统协调服务集群中位于所述第二设备管理系统的第一目标服务器;
获取所述第一目标服务器的数量,将所述第一目标服务器的数量确定为所述主分布式集群系统协调服务集群的有效服务器的数量。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述由所述第二备分布式集群系统协调服务集群中的管理服务器控制从所述第二服务器集群中选取主服务器,并控制所述主服务器将所述分布式集群系统中的负载分配给所述第二服务器集群,包括:
由所述第二备分布式集群系统协调服务集群中的管理服务器向所述第二备分布式集群系统协调服务集群中的其他第二目标服务器广播设备管理指令,使所述其他第二目标服务器根据所述设备管理指令从所述第二服务器集群中选取主服务器;
由所述第二备分布式集群系统协调服务集群中的管理服务器向所述主服务器发送分配指令,以控制所述主服务器将所述分布式集群系统中的负载分配给所述第二服务器集群。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述分布式集群系统还包括第三设备管理系统,所述第一设备管理系统包括第一数据库,所述第二设备管理系统包括第二数据库,所述第三设备管理系统包括第三数据库,其中,
所述第一数据库用于记录所述第一设备管理系统及所述第三设备管理系统的数据信息;
所述第二数据库用于记录所述第一设备管理系统及所述第二设备管理系统的数据信息;
所述第三数据库用于记录所述第二设备管理系统及所述第三设备管理系统的数据信息;
所述数据信息用于指示设备管理系统的各个集群之间的对应关系。
8.一种分布式集群系统,包括第一设备管理系统及第二设备管理系统,其特征在于,所述分布式集群系统包括主分布式集群系统协调服务集群,所述第一设备管理系统包括第一备分布式集群系统协调服务集群及第一服务器集群,所述第二设备管理系统包括第二备分布式集群系统协调服务集群和第二服务器集群;其中,
所述第二备分布式集群系统协调服务集群,用于在所述第一设备管理系统出现故障,或所述第一设备管理系统与所述第二设备管理统系之间的网络连接出现故障,且确定所述主分布式集群系统协调服务集群无法提供决策服务时,从所述第二备分布式集群系统协调服务集群中选取管理服务器;
所述第二备分布式集群系统协调服务集群的管理服务器,用于控制从所述第二服务器集群中选取主服务器,并控制所述主服务器将所述分布式集群系统中的负载分配给所述第二服务器集群。
9.根据权利要求8所述的系统,其特征在于,
所述第二备分布式集群系统协调服务集群,具体用于向所述主分布式集群系统协调服务集群发送心跳探测信息,并接收所述主分布式集群系统协调服务集群的回复信息,根据所述回复信息判断所述主分布式集群系统协调服务集群中是否存在管理服务器,若不存在,则确定所述主分布式集群系统协调服务集群无法提供决策服务。
10.根据权利要求9所述的系统,其特征在于,
所述主分布式集群系统协调服务集群中的管理服务器,用于若根据所述回复信息确定所述主分布式集群系统协调服务集群中存在管理服务器,则控制从所述第二服务器集群及所述第一服务器集群中选取主服务器,并控制所述主服务器将所述分布式集群系统中的负载分配给所述第一服务器集群及所述第二服务器集群。
11.根据权利要求8-10任一项所述的系统,其特征在于,
所述第二备分布式集群系统协调服务集群的管理服务器,具体用于向所述第二备分布式集群系统协调服务集群中的其他第二目标服务器广播设备管理指令,使所述其他第二目标服务器根据所述设备管理指令从所述第二服务器集群中选取主服务器,以及向所述主服务器发送分配指令;
所述主服务器,用于根据所述分配指令将所述分布式集群系统中的负载分配给所述第二服务器集群。
12.根据权利要求11所述的系统,其特征在于,所述分布式集群系统还包括第三设备管理系统,所述第一设备管理系统包括第一数据库,所述第二设备管理系统包括第二数据库,所述第三设备管理系统包括第三数据库,其中,
所述第一数据库用于记录所述第一设备管理系统及所述第三设备管理系统的数据信息;
所述第二数据库用于记录所述第一设备管理系统及所述第二设备管理系统的数据信息;
所述第三数据库用于记录所述第二设备管理系统及所述第三设备管理系统的数据信息;
所述数据信息用于指示设备管理系统的各个集群之间的对应关系。
13.一种设备管理装置,应用于权8至权12所述的分布式集群系统中,其特征在于,所述装置包括:
选取模块,用于当所述第一设备管理系统出现故障,或所述第一设备管理系统与所述第二设备管理系统之间的网络连接出现故障,且确定所述主分布式集群系统协调服务集群无法提供决策服务时,从所述第二设备管理系统中的第二备分布式集群系统协调服务集群中选取管理服务器;
控制模块,用于控制从所述第二服务器集群中选取主服务器,并控制所述主服务器将所述分布式集群系统中的负载分配给所述第二服务器集群。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括:
发送模块,用于向所述主分布式集群系统协调服务集群发送心跳探测信息,并接收所述主分布式集群系统协调服务集群的回复信息;
第一判断模块,用于根据所述回复信息判断所述主分布式集群系统协调服务集群中是否存在管理服务器;
确定模块,用于若不存在,则确定所述主分布式集群系统协调服务集群无法提供决策服务。
15.根据权利要求14所述的装置,其特征在于,所述装置还包括:
切换模块,用于若根据所述回复信息确定所述主分布式集群系统协调服务集群中存在管理服务器,则切换到由所述主分布式集群系统协调服务集群中的管理服务器控制从所述第二服务器集群及所述第一服务器集群中选取主服务器,并控制所述主服务器将所述分布式集群系统中的负载分配给所述第一服务器集群及所述第二服务器集群。
16.根据权利要求13所述的装置,其特征在于,所述装置还包括:
获取模块,用于获取所述主分布式集群系统协调服务集群中的有效服务器的数量;
第二判断模块,用于判断所述有效服务器的数量是否大于预设阈值,若否,则确定所述主分布式集群系统协调服务集群无法提供决策服务。
17.根据权利要求16所述的装置,其特征在于,
所述获取模块,具体用于从所述中心数据库查找所述主分布式集群系统协调服务集群中位于所述第二设备管理系统的第一目标服务器;获取所述第一目标服务器的数量,将所述第一目标服务器的数量确定为所述主分布式集群系统协调服务集群的有效服务器的数量。
18.如权利要求13-17任一项所述的装置,其特征在于,
所述控制模块,具体用于向所述第二备分布式集群系统协调服务集群中的其他第二目标服务器广播设备管理指令,使所述其他第二目标服务器根据所述设备管理指令从所述第二服务器集群中选取主服务器,向所述主服务器发送分配指令,以控制所述主服务器将所述分布式集群系统中的负载分配给所述第二服务器集群。
19.一种服务器,所述服务器包括至少一个处理器、存储器及存储在所述存储器上并可被所述至少一个处理器执行的指令,其特征在于,所述至少一个处理器执行所述指令,以实现权利要求1至7中任一项所述的设备管理方法的步骤。
20.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1至7中任一项所述的设备管理方法的步骤。
21.一种计算机程序产品,其特征在于,所述计算机程序产品包括存储了计算机程序的非易失性计算机可读存储介质,所述计算机程序被执行时使计算机实现权利要求1至7中任一项所述的设备管理方法的步骤。
CN201711164923.0A 2017-11-17 2017-11-17 设备管理方法、系统、装置及服务器 Active CN109802986B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711164923.0A CN109802986B (zh) 2017-11-17 2017-11-17 设备管理方法、系统、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711164923.0A CN109802986B (zh) 2017-11-17 2017-11-17 设备管理方法、系统、装置及服务器

Publications (2)

Publication Number Publication Date
CN109802986A true CN109802986A (zh) 2019-05-24
CN109802986B CN109802986B (zh) 2021-10-15

Family

ID=66555040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711164923.0A Active CN109802986B (zh) 2017-11-17 2017-11-17 设备管理方法、系统、装置及服务器

Country Status (1)

Country Link
CN (1) CN109802986B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110611827A (zh) * 2019-10-17 2019-12-24 星宏集群有限公司 一种Android设备对于直播流的局域网内分发方法及系统
CN112000735A (zh) * 2020-08-05 2020-11-27 中国邮政储蓄银行股份有限公司 一种数据处理方法、装置、系统
CN112994917A (zh) * 2019-12-17 2021-06-18 华为技术有限公司 网络管理方法和网络管理装置
CN114363156A (zh) * 2022-01-25 2022-04-15 南瑞集团有限公司 一种基于集群技术的水电站计算机监控系统部署方法
CN115801790A (zh) * 2023-01-05 2023-03-14 摩尔线程智能科技(北京)有限责任公司 数据处理装置集群的管理系统和控制方法
CN115934358A (zh) * 2023-01-05 2023-04-07 摩尔线程智能科技(北京)有限责任公司 数据处理装置集群的控制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050132154A1 (en) * 2003-10-03 2005-06-16 International Business Machines Corporation Reliable leader election in storage area network
CN102411637A (zh) * 2011-12-30 2012-04-11 创新科软件技术(深圳)有限公司 分布式文件系统的元数据管理方法
CN105337780A (zh) * 2015-12-01 2016-02-17 迈普通信技术股份有限公司 一种服务器节点配置方法及物理节点
CN107295080A (zh) * 2017-06-19 2017-10-24 北京百度网讯科技有限公司 应用于分布式服务器集群的数据存储方法和服务器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050132154A1 (en) * 2003-10-03 2005-06-16 International Business Machines Corporation Reliable leader election in storage area network
CN102411637A (zh) * 2011-12-30 2012-04-11 创新科软件技术(深圳)有限公司 分布式文件系统的元数据管理方法
CN105337780A (zh) * 2015-12-01 2016-02-17 迈普通信技术股份有限公司 一种服务器节点配置方法及物理节点
CN107295080A (zh) * 2017-06-19 2017-10-24 北京百度网讯科技有限公司 应用于分布式服务器集群的数据存储方法和服务器

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110611827A (zh) * 2019-10-17 2019-12-24 星宏集群有限公司 一种Android设备对于直播流的局域网内分发方法及系统
CN112994917A (zh) * 2019-12-17 2021-06-18 华为技术有限公司 网络管理方法和网络管理装置
CN112000735A (zh) * 2020-08-05 2020-11-27 中国邮政储蓄银行股份有限公司 一种数据处理方法、装置、系统
CN114363156A (zh) * 2022-01-25 2022-04-15 南瑞集团有限公司 一种基于集群技术的水电站计算机监控系统部署方法
CN115801790A (zh) * 2023-01-05 2023-03-14 摩尔线程智能科技(北京)有限责任公司 数据处理装置集群的管理系统和控制方法
CN115934358A (zh) * 2023-01-05 2023-04-07 摩尔线程智能科技(北京)有限责任公司 数据处理装置集群的控制方法
CN115801790B (zh) * 2023-01-05 2023-05-23 摩尔线程智能科技(北京)有限责任公司 数据处理装置集群的管理系统和控制方法

Also Published As

Publication number Publication date
CN109802986B (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
CN109802986B (zh) 设备管理方法、系统、装置及服务器
CN113014634B (zh) 集群选举处理方法、装置、设备及存储介质
CN107959705B (zh) 流式计算任务的分配方法和控制服务器
CN106817408B (zh) 一种分布式服务器集群调度方法及装置
CN111209110B (zh) 一种实现负载均衡的任务调度管理方法、系统和存储介质
WO2019210580A1 (zh) 访问请求处理方法、装置、计算机设备和存储介质
EP3813335B1 (en) Service processing methods and systems based on a consortium blockchain network
CN112231108A (zh) 任务处理方法、装置、计算机可读存储介质及服务器
CN111541762B (zh) 数据处理的方法、管理服务器、设备及存储介质
CN111414241A (zh) 批量数据处理方法、装置、系统、计算机设备及计算机可读存储介质
CN110569124A (zh) 一种任务分配方法和装置
CN107508700B (zh) 容灾方法、装置、设备及存储介质
CN113326100B (zh) 一种集群管理方法、装置、设备及计算机存储介质
EP3672203A1 (en) Distribution method for distributed data computing, device, server and storage medium
CN112631756A (zh) 一种应用于航天测控软件的分布式调控方法及装置
CN102571595A (zh) 一种堆叠系统的路由转发信息同步方法和装置
CN117354312A (zh) 访问请求处理方法、装置、系统、计算机设备和存储介质
CN114710485B (zh) 处理方法和处理装置
CN112463514A (zh) 分布式缓存集群的监测方法和装置
CN113190347A (zh) 一种边缘云系统及任务管理方法
CN110519393B (zh) 自助设备的监管方法、装置、设备、服务器和介质
CN113608870A (zh) 消息队列的负载均衡方法及装置、电子设备及存储介质
CN107645519B (zh) 一种数据处理方法及系统、客户端及服务器
CN116991591B (zh) 一种数据调度方法、装置及存储介质
CN111953760B (zh) 数据同步方法、装置、多活系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant