CN114137942B - 一种分布式控制器集群的控制方法及装置 - Google Patents

一种分布式控制器集群的控制方法及装置 Download PDF

Info

Publication number
CN114137942B
CN114137942B CN202111435447.8A CN202111435447A CN114137942B CN 114137942 B CN114137942 B CN 114137942B CN 202111435447 A CN202111435447 A CN 202111435447A CN 114137942 B CN114137942 B CN 114137942B
Authority
CN
China
Prior art keywords
node
controller
leading
advocacy
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111435447.8A
Other languages
English (en)
Other versions
CN114137942A (zh
Inventor
蔡立宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN202111435447.8A priority Critical patent/CN114137942B/zh
Publication of CN114137942A publication Critical patent/CN114137942A/zh
Application granted granted Critical
Publication of CN114137942B publication Critical patent/CN114137942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0259Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterized by the response to fault detection
    • G05B23/0286Modifications to the monitored process, e.g. stopping operation or adapting control
    • G05B23/0289Reconfiguration to prevent failure, e.g. usually as a reaction to incipient failure detection
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/20Pc systems
    • G05B2219/24Pc safety
    • G05B2219/24065Real time diagnostics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Chemical & Material Sciences (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请提供一种分布式控制器集群的控制方法及装置,涉及通信技术领域,该分布式控制器集群的控制方法,应用于分布式控制器集群中其中一个控制器节点,该方法包括:当分布式控制器集群启动后,通过预设的选择算法确定控制器节点的节点类型;当节点类型为引领节点时,则确定分布式控制器集群中的其它节点为拥护节点;将引领节点的控制器确定为主控制器,以使拥护节点的控制器在主控制器的引领下进行网络管理数据同步;当主控制器出现故障时,确定故障类型;根据故障类型和选择算法进行分布式控制器集群的控制器角色切换。可见,实施这种实施方式,不需要引入第三方设备,缩短了转发路径,同时能够避免控制器故障导致无法通信的问题。

Description

一种分布式控制器集群的控制方法及装置
技术领域
本申请涉及通信技术领域,具体而言,涉及一种分布式控制器集群的控制方法及装置。
背景技术
在超融合环境中,软件定义网络(下称SDN)越来越成为不可缺少的部分。SDN是随着网络发展出来的一项新型技术。SDN作为超融合集群极为重要的组成功能,那么它的可靠性、高可用性就必须得到保障。现有的分布式控制器集群的控制方法,通常增加一台NAT设备,让SDN转发平面的交换机可以先跟NAT设备建立连接,再由NAT设备把数据请求转发到控制器集群中,从而消除了控制器单点的问题。然而,在实践中发现,由于引入了NAT设备,会造成报文转发的路径变长;另一方面,控制器集群不是分布式集群,只能是2个作为主备,则当NAT设备故障或者两个控制器都出现故障时,出现无法通信的问题。可见,现有技术需要引入第三方设备,从而导致转发路径长,同时也存在当控制器集群的两个控制器都出现故障时,出现无法通信的问题。
发明内容
本申请实施例的目的在于提供一种分布式控制器集群的控制方法及装置,不需要引入第三方设备,缩短了转发路径,同时能够避免控制器故障导致无法通信的问题。
本申请实施例第一方面提供了一种分布式控制器集群的控制方法,应用于所述分布式控制器集群中其中一个控制器节点,包括:
当所述分布式控制器集群启动后,通过预设的选择算法确定所述控制器节点的节点类型;
当所述节点类型为引领节点时,则确定所述分布式控制器集群中的其它节点为拥护节点;
将所述引领节点的控制器确定为主控制器,以使所述拥护节点的控制器在所述主控制器的引领下进行网络管理数据同步;
当所述主控制器出现故障时,确定故障类型;
根据所述故障类型和所述选择算法进行所述分布式控制器集群的控制器角色切换。
在上述实现过程中,该方法可以在分布式控制器集群启动时,优先在多个控制器中确定引领节点和拥护节点,然后再以引领节点的数据对拥护节点的数据进行同步。如此,当引领节点出现故障时,该方法便可以根据故障类型调整多个节点之间的角色,从而使得引领节点重新被选出,进而提高系统工作的稳定性,并且有效避免控制器故障导致无法通信的问题出现。
进一步地,所述通过预设的选择算法确定所述控制器节点的节点类型,应用于所述分布式控制器集群中其中一个控制器节点,包括:
以广播的形式发送目标投票报文至所述分布式控制器集群中的其它节点,其中,所述目标投票报文包括所述控制器节点的目标份量值;
接收所述其它节点发送的投票报文,所述投票报文包括所述其它节点的份量值;
根据所述投票报文判断是否存在大于所述目标份量值的份量值;
如果不存在,则将所述控制器节点的节点类型确定为引领节点,将所述其它节点的节点类型确定为拥护节点;
如果存在,则将所述控制器节点的节点类型确定为拥护节点,并根据所述其它节点发送的投票报文确定出最大份量值对应的节点,将所述节点的节点类型确定为引领节点。
进一步地,所述根据所述故障类型和所述选择算法进行所述分布式控制器集群的控制器角色切换,包括:
当所述节点类型为引领节点,以及当所述故障类型为引领节点整体故障时,则断开通信连接。
进一步地,所述根据所述故障类型和所述选择算法进行所述分布式控制器集群的控制器角色切换,包括:
当所述节点类型为引领节点,以及当所述故障类型为网络管理服务故障时,通过预设的失效值对所述目标份量值进行降值处理,得到新的目标份量值;
发送包括所述新的目标份量值的宣告报文至所述拥护节点,以使所述引领节点和所述拥护节点根据所述宣告报文和所述选择算法进行重新选举,重新确定新的引领节点和新的拥护节点;并执行所述的将所述引领节点的控制器确定为主控制器,以使所述拥护节点的控制器在所述主控制器的引领下进行网络管理数据同步。
进一步地,所述方法还包括:
当所述节点类型为拥护节点时,则从所述分布式控制器集群中的其它节点中确定引领节点;并执行所述的将所述引领节点的控制器确定为主控制器,以使所述拥护节点的控制器在所述主控制器的引领下进行网络管理数据同步。
进一步地,所述方法还包括:
当所述节点类型为拥护节点时,以及当所述故障类型为引领节点整体故障时,与所述主控制器断开通信连接,并则根据所述选择算法与其它拥护节点重新进行选举,确定出所述控制器节点的节点类型;
当所述节点类型为引领节点时,确定所述其它拥护节点为新的拥护节点,并执行所述的将所述引领节点的控制器确定为主控制器,以使所述拥护节点的控制器在所述主控制器的引领下进行网络管理数据同步;
当所述节点类型为拥护节点时,则从所述其它拥护节点中确定新的引领节点,并执行所述的将所述引领节点的控制器确定为主控制器,以使所述拥护节点的控制器在所述主控制器的引领下进行网络管理数据同步。
本申请实施例第二方面提供了一种分布式控制器集群的控制方法,应用于分布式控制器集群,包括:
当所述分布式控制器集群启动后,通过预设的选择算法从所述分布式控制器集群中确定引领节点和拥护节点;
将所述引领节点的控制器作为主控制器,以使所述拥护节点的控制器在所述主控制器的引领下进行网络管理数据同步;
当所述主控制器出现故障时,确定故障类型;
根据所述故障类型和所述选择算法从所述分布式控制器集群中确定新的引领节点和新的拥护节点;
将所述新的引领节点的控制器为新的主控制器,以使新的拥护节点的控制器在所述新的主控制器的引领下进行网络管理数据同步。
本申请实施例第三方面提供了一种分布式控制器集群的控制装置,所述分布式控制器集群的控制装置包括:
第一确定单元,用于当所述分布式控制器集群启动后,通过预设的选择算法确定所述控制器节点的节点类型;
第二确定单元,用于当所述节点类型为引领节点时,则确定所述分布式控制器集群中的其它节点为拥护节点;
第三确定单元,用于将所述引领节点的控制器确定为主控制器,以使所述拥护节点的控制器在所述主控制器的引领下进行网络管理数据同步;
第四确定单元,用于当所述主控制器出现故障时,确定故障类型;
切换单元,用于根据所述故障类型和所述选择算法进行所述分布式控制器集群的控制器角色切换。
在上述实现过程中,该控制装置可以优先确定引领节点和拥护节点,并触使拥护节点同步引领节点中的数据,以作备用。当引领节点出现故障时,通过预设的投票算法确定出新的引领节点,以使新的引领节点继承原引领节点的工作内容,从而保证系统工作正常进行。
本申请实施例第四方面提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例第一方面中任一项所述的分布式控制器集群的控制方法。
本申请实施例第五方面提供了一种计算机可读存储介质,其存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行本申请实施例第一方面中任一项所述的分布式控制器集群的控制方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种分布式控制器集群的控制方法的流程示意图;
图2为本申请实施例提供的另一种分布式控制器集群的控制方法的流程示意图;
图3为本申请实施例提供的一种分布式控制器集群的控制装置的结构示意图;
图4为本申请实施例提供的一种分布式控制器集群的系统架构示意图;
图5为本申请实施例提供的一种分布式控制器集群的控制系统的信息交互流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1
请参看图1,图1为本申请实施例提供了一种分布式控制器集群的控制方法的流程示意图。其中,该分布式控制器集群的控制方法应用于分布式控制器集群中其中一个控制器节点,该方法包括:
S101、当分布式控制器集群启动后,以广播的形式发送目标投票报文至分布式控制器集群中的其它节点,其中,目标投票报文包括控制器节点的目标份量值。
S102、接收其它节点发送的投票报文,投票报文包括其它节点的份量值。
S103、根据投票报文判断是否存在大于目标份量值的份量值,若否,则执行步骤S104、S106~S107;若是,则执行步骤S105~S107。
本实施例中,分布式控制器集群启动时,一开始所有控制器节点都是初始状态。在初始状态下,所有节点均发起投票报文,该报文携带自己的份量值。
举例来说,控制器1,它在初始状态会以广播的形式发送携带100份量值的选举报文,控制器2和控制器3同理;那么最终控制器2和控制器3会收到控制器1的选举报文,对比报文中的份量值,发现自己的份量值比控制器1小,那么在规定选举周期时间范围内没有收到更高份量值的选举报文,控制器2和控制器3会投票给控制器1,而控制器1在规定的选举周期时间范围内也没有收到比自己份量值更高的报文,控制器1会把票投给自己,从而控制器1成为引领节点,控制器2和控制器3会自动成为拥护节点。
S104、将控制器节点确定为引领节点,将其它节点确定为拥护节点。
本实施例中,引领节点和拥护节点是两种节点类型。其中,此处描述的控制器节点的节点类型为引领节点。
在本实施例中,当控制器节点当选引领节点后,可以周期性地发送宣告消息,通知其他阶段我是引领节点,阻止其他拥护节点发起新的选举、篡权。
举例来说,在系统架构中,这时候的控制器1承担着主控制器角色,对上承担北向接收用户创建网络功能的请求,对下承担南向下发流表至虚拟交换机等工作;并且带领控制器2和控制器3节点进行网络管理数据同步。
S105、将控制器节点确定为拥护节点,并根据其它节点发送的投票报文确定出最大的份量值对应的节点,作为引领节点。
S106、将引领节点的控制器确定为主控制器,以使拥护节点的控制器在主控制器的引领下进行网络管理数据同步。
S107、判断主控制器是否出现故障,若是,则执行步骤S108~S110;若否,则结束本流程。
S108、确定故障类型。
本实施例中,故障类型分为两种,一种是整个节点故障,包括网络不可达,主机down机,系统卡死等;另外一种是服务故障,网络可达,但是管理网络的进程故障。
作为一种可选的实施方式,当主控制器出现故障时,确定故障类型的步骤之后,该方法还包括:
当控制器节点为引领节点时,当故障类型为引领节点整体故障时,则断开通信连接。
举例来说,当作为引领节点的控制器1整体故障时,无法与其他节点进行通信,没有定时发送宣告报文,控制器2和控制器3均重新发送选举报文,携带自己的份量值,重新发生选举。在选择中,由于控制器2份量值高,所以会成为引领节点,控制器3份量值低的成为拥护节点。
作为另一种可选的实施方式,当主控制器出现故障时,确定故障类型的步骤之后,该方法还包括步骤S109~S110。
S109、当节点类型为引领节点时,以及当故障类型为网络管理服务故障时,通过预设的失效值对目标份量值进行降值处理,得到新的目标份量值。
S110、发送包括新的目标份量值的宣告报文至拥护节点,以使引领节点和拥护节点根据宣告报文和选择算法进行重新选举,重新确定新的引领节点和新的拥护节点,并执行步骤S106。
举例来说,当控制器1发现自己的SDN核心网络服务故障时,证明自己无法工作,而此时宣告报文仍然可以发送,自己仍出引领地位,那么集群SDN功能会发生不可用状态,必须让出引领地位。这时候需要利用失效值将自动降低自己的份量值,而为了保证当引领节点上面服务故障之后,能够切换引领角色给其他节点,所以失效值需要满足引领节点份量值减去该值之后得到的值要比集群中其他控制器的份量值低,由此才不会出现重新选举之后自己又变成了引领节点。
作为一种可选的实施方式,步骤S108之后,该方法还包括:
当节点类型为拥护节点时,以及当故障类型为引领节点整体故障时,与主控制器断开通信连接,并根据选择算法与其它拥护节点重新进行选举,确定出控制器节点的节点类型;
当节点类型为引领节点时,确定其它拥护节点为新的拥护节点,并执行步骤S106;
当节点类型为拥护节点时,则从其它拥护节点中确定新的引领节点,并执行步骤S106。
举例来说,控制器2和控制器3在规定时间内收不到控制器1的宣告报文时,自动发送新一轮选举,控制器2成为引领节点,控制器3成为控制器2拥护节点,所以控制器2需要启动数据同步驱动和数据同步进程,并且周期性发送宣告报文,维持引领地位;而控制器3自动断开原来的连接,重新与控制器2建立数据同步连接,实时备份网络管理数据。
本实施例中,上述的重新选举的过程举例如下:
1、控制器1发现自身服务故障,自动将自己的份量值加上失效值,降低自己的份量值;新的份量值会随着宣告报文一起发送出去,并且自动将为初始状态,重新选举;
2、控制器2和控制器3收到了控制器1宣告报文比自己的还小,证明控制器无法承担引领工作,自动切换初始状态,重新选举;
3、在新的选举过程,由于控制器2份量值最高,故成为引领节点,其他节点自动成为拥护节点。
请参阅图4。如图4所示,该方法提供了一种在超融合环境下,针对SDN控制器集群,基于投票选举机制,选举出控制器集群的引领节点,该节点对上承担北向接收用户创建网络功能的请求,对下承担南向下发流表至虚拟交换机等工作;并且带领其他控制器节点进行网络数据同步的方式,实现了SDN集群中控制器的分布式属性,当其中任意一个SDN控制器出现故障时,集群中的其他SDN控制器能够接管SDN集群管理工作任务。
请参阅图5。如图5所示,该方法中各个控制器通过选举确定控制器的角色,控制器1也成为引领节点,其余节点均为拥护节点;引领节点周期性发送宣告报文,维持控制器1的引领地位,防止篡权;引领节点在第一个宣告报文周期同时启动数据同步驱动,启动数据同步进程;拥护节点开启网络数据拥护进程,与引领节点建立TCP连接,只要数据往引领节点写入或者删除等,拥护节点会通过该TCP连接通道获取信息实时同步修改。当控制器1网络管理服务故障,此时控制器2关闭拥护状态,启动数据同步驱动,启动数据同步进程,作为引领状态节点周期性发送宣告报文,维持引领地位;控制器3断开原来数据同步通道,重新与控制器2建立TCP连接,启动数据实时同步进程,实时拥护数据;控制器1与控制器2建立TCP连接,启动数据同步经常,实时拥护数据。
其中,整体过程就是通过一种带份量值的投票选举算法,在控制器节点中选举出引领节点,其他节点均为引领节点的拥护者(下称拥护节点),拥护节点自动实时同步引导节点的网络管理数据。引领节点上拥有控制器集群对外的虚拟地址(下称VIP),转发平台的交换机直接跟VIP建立连接,当引领节点出现故障时,其他拥护节点在规定时间内没有收到引领节点的宣告信息,则会自动进入初始状态,重新进行新一轮选举,新引领节点拥有VIP,承担维护SDN控制器集群作用。
本申请实施例中,该方法的执行主体可以为计算机、服务器等计算装置,对此本实施例中不作任何限定。
在本申请实施例中,该方法的执行主体还可以为智能手机、平板电脑等智能设备,对此本实施例中不作任何限定。
可见,实施本实施例所描述的分布式控制器集群的控制方法,能够在分布式控制器集群启动时,优先在多个控制器中确定引领节点和拥护节点,然后再以引领节点的数据对拥护节点的数据进行同步。如此,当引领节点出现故障时,该方法便可以根据故障类型调整多个节点之间的角色,从而使得引领节点重新被选出,进而提高系统工作的稳定性,并且有效避免控制器故障导致无法通信的问题出现。
实施例2
请参看图2,图2为本申请实施例提供的另一种分布式控制器集群的控制方法的流程示意图。如图2所示,其中,该分布式控制器集群的控制方法应用于分布式控制器集群,该方法包括:
S201、当分布式控制器集群启动后,通过预设的选择算法从分布式控制器集群中确定引领节点和拥护节点。
本实施例中,选择算法为投票选举算法。
举例来说,该分布式控制器集群具有三个控制器,其中:
控制器1:选举份量值100,失效值-5;
控制器2:选举份量值98,失效值-5;
控制器3:选举份量值96,失效值-5;
选举份量值:表达该节点的话语权有多大,该值越高,在选举过程中越优先被选为引领节点;
失效值:当引领节点上面的重要服务出现故障时,引领节点自动加上该值降低自己的份量值,该值在选举中不需要用到。
本实施例中,失效值需要满足以下条件(备注:n代表控制器数量,w代表服务检查失败权重,a为等差数列的公差):
①控制器各份量值为公差为a的等差数列,比如说a为5,那么三个控制器份量值可以是100,95,90或者80,75,70等组合;
②失效值满足w=a*(n-1)+1;即是当控制器集群数量为3(n=3)和公差为5(a=5)的时候(假设采用100,95,90份量值),失效值w等于11才能满足当引领节点份量值减去该失效值之后得到的值比集群中其他控制器的份量值低的原则;100-11=89,也就是89比90小,这样可以防止引领角色切换回故障本身节点上。
S202、将引领节点的控制器作为主控制器,以使拥护节点的控制器在主控制器的引领下进行网络管理数据同步。
S203、当主控制器出现故障时,确定故障类型。
S204、根据故障类型和选择算法从分布式控制器集群中确定新的引领节点和新的拥护节点。
S205、将新的引领节点的控制器为新的主控制器,以使新的拥护节点的控制器在新的主控制器的引领下进行网络管理数据同步。
实施这种实施方式,能够节约成本,提高请求处理速度,同时实现高可用性,有效防止集群功能故障。
本实施例中,该方法应用于超融合服务器虚拟化系统中网络控制器的高可用集群中。具体的,该方法阐述了一种基于投票选举机制与数据拥护相结合的方法,用于实现网络控制器集群的高可用,保证服务器虚拟化系统的网络功能高可用性。
举例来说,按照本实施例详细描述的方法,具体流程如下:
1.部署网络控制器集群时,选择高可用部署方式;
2.填写植入虚拟地址(VIP)、各个控制器实际地址,各个控制器份量值等;
3.启动集群之后,选举引领节点和拥护节点;
4.引领节点启动网络服务(包括top-network,ovsdb-server),top-network主要负责处理用户请求,与ovsdb-server交互;ovsdb-server主要负责网络数据的保存和维护,是整个网络虚拟化系统的核心;
5.拥护节点启动top-network-back和ovsdb-server进程,top-network-back与引领的节点top-network建立TCP连接,当引领节点触发数据增删改查时,通知拥护节点top-network-back进程调用ovsdb-server进行对应操作;
6.超融合各个节点与引领节点上的VIP进行连接,VIP只会存在引领节点上面,所以超融合各个节点只需要跟VIP进行连接。
可见,实施本实施例所描述的分布式控制器集群的控制方法,能够在分布式控制器集群启动时,优先在多个控制器中确定引领节点和拥护节点,然后再以引领节点的数据对拥护节点的数据进行同步。如此,当引领节点出现故障时,该方法便可以根据故障类型调整多个节点之间的角色,从而使得引领节点重新被选出,进而提高系统工作的稳定性,并且有效避免控制器故障导致无法通信的问题出现。
实施例3
请参看图3,图3为本申请实施例提供的一种分布式控制器集群的控制装置的结构示意图。如图3所示,该分布式控制器集群的控制装置应用于分布式控制器集群中其中一个控制器节点,包括:
第一确定单元310,用于当分布式控制器集群启动后,通过预设的选择算法确定控制器节点的节点类型;
第二确定单元320,用于当节点类型为引领节点时,则确定分布式控制器集群中的其它节点为拥护节点;
第三确定单元330,用于将引领节点的控制器确定为主控制器,以使拥护节点的控制器在主控制器的引领下进行网络管理数据同步;
第四确定单元340,用于当主控制器出现故障时,确定故障类型;
切换单元350,用于根据故障类型和选择算法进行分布式控制器集群的控制器角色切换。
作为一种可选的实施方式,第一确定单元310包括:
广播子单元311,用于当分布式控制器集群启动后,以广播的形式发送目标投票报文至分布式控制器集群中的其它节点,其中,目标投票报文包括控制器节点的目标份量值;
接收子单元312,用于接收其它节点发送的投票报文,投票报文包括其它节点的份量值;
判断子单元313,用于根据投票报文判断是否存在大于目标份量值的份量值;
确定子单元314,用于在不存在大于目标份量值的份量值时,将控制器节点的节点类型确定为引领节点,将其它节点的节点类型确定为拥护节点;
确定子单元314,还用于在存在大于目标份量值的份量值时,将控制器节点的节点类型确定为拥护节点,并根据其它节点发送的投票报文确定出最大份量值对应的节点,将节点的节点类型确定为引领节点。
作为一种可选的实施方式,切换单元350还用于当节点类型为引领节点,以及当故障类型为引领节点整体故障时,则断开通信连接。
作为一种可选的实施方式,切换单元350包括:
计算子单元351,用于当节点类型为引领节点,以及当故障类型为网络管理服务故障时,通过预设的失效值对目标份量值进行降值处理,得到新的目标份量值;
切换子单元352,用于发送包括新的目标份量值的宣告报文至拥护节点,以使引领节点和拥护节点根据宣告报文和选择算法进行重新选举,重新确定新的引领节点和新的拥护节点;并将引领节点的控制器确定为主控制器,以使拥护节点的控制器在主控制器的引领下进行网络管理数据同步。
作为一种可选的实施方式,第二确定单元320,还用于当节点类型为拥护节点时,则从分布式控制器集群中的其它节点中确定引领节点。
作为一种可选的实施方式,切换单元350包括:
选举子单元353,用于当节点类型为拥护节点时,以及当故障类型为引领节点整体故障时,与主控制器断开通信连接,并根据选择算法与其它拥护节点重新进行选举,确定出控制器节点的节点类型;
切换子单元352,还用于当节点类型为引领节点时,确定其它拥护节点为新的拥护节点;
切换子单元352,还用于当节点类型为拥护节点时,则从其它拥护节点中确定新的引领节点。
本申请实施例中,对于网络攻击预测装置的解释说明可以参照实施例1或实施例2中的描述,对此本实施例中不再多加赘述。
可见,实施本实施例所描述的分布式控制器集群的控制装置,能够优先确定引领节点和拥护节点,并触使拥护节点同步引领节点中的数据,以作备用。当引领节点出现故障时,通过预设的投票算法确定出新的引领节点,以使新的引领节点继承原引领节点的工作内容,从而保证系统工作正常进行。
本申请实施例提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例1或实施例2中任一项分布式控制器集群的控制方法。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行本申请实施例1或实施例2中任一项分布式控制器集群的控制方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (9)

1.一种分布式控制器集群的控制方法,其特征在于,应用于所述分布式控制器集群中其中一个控制器节点,包括:
当所述分布式控制器集群启动后,通过预设的选择算法确定所述控制器节点的节点类型;
当所述节点类型为引领节点时,则确定所述分布式控制器集群中的其它节点为拥护节点;
将所述引领节点的控制器确定为主控制器,以使所述拥护节点的控制器在所述主控制器的引领下进行网络管理数据同步;
当所述主控制器出现故障时,确定故障类型;
根据所述故障类型和所述选择算法进行所述分布式控制器集群的控制器角色切换;
其中,所述根据所述故障类型和所述选择算法进行所述分布式控制器集群的控制器角色切换,包括:
当所述节点类型为引领节点,以及当所述故障类型为网络管理服务故障时,通过预设的失效值对所述控制器节点的目标份量值进行降值处理,得到新的目标份量值;
发送包括所述新的目标份量值的宣告报文至所述拥护节点,以使所述引领节点和所述拥护节点根据所述宣告报文和所述选择算法进行重新选举,重新确定新的引领节点和新的拥护节点;并执行所述的将所述引领节点的控制器确定为主控制器,以使所述拥护节点的控制器在所述主控制器的引领下进行网络管理数据同步。
2.根据权利要求1所述的分布式控制器集群的控制方法,其特征在于,所述通过预设的选择算法确定所述控制器节点的节点类型,包括:
以广播的形式发送目标投票报文至所述分布式控制器集群中的其它节点,其中,所述目标投票报文包括所述控制器节点的目标份量值;
接收所述其它节点发送的投票报文,所述投票报文包括所述其它节点的份量值;
根据所述投票报文判断是否存在大于所述目标份量值的份量值;
如果不存在,则将所述控制器节点的节点类型确定为引领节点,将所述其它节点的节点类型确定为拥护节点;
如果存在,则将所述控制器节点的节点类型确定为拥护节点,并根据所述其它节点发送的投票报文确定出最大份量值对应的节点,将所述节点的节点类型确定为引领节点。
3.根据权利要求1所述的分布式控制器集群的控制方法,其特征在于,所述根据所述故障类型和所述选择算法进行所述分布式控制器集群的控制器角色切换,包括:
当所述节点类型为引领节点,以及当所述故障类型为引领节点整体故障时,则断开通信连接。
4.根据权利要求1所述的分布式控制器集群的控制方法,其特征在于,所述方法还包括:
当所述节点类型为拥护节点时,则从所述分布式控制器集群中的其它节点中确定引领节点;并执行所述的将所述引领节点的控制器确定为主控制器,以使所述拥护节点的控制器在所述主控制器的引领下进行网络管理数据同步。
5.根据权利要求4所述的分布式控制器集群的控制方法,其特征在于,所述方法还包括:
当所述节点类型为拥护节点时,以及当所述故障类型为引领节点整体故障时,与所述主控制器断开通信连接,并根据所述选择算法与其它拥护节点重新进行选举,确定出所述控制器节点的节点类型;
当所述节点类型为引领节点时,确定所述其它拥护节点为新的拥护节点,并执行所述的将所述引领节点的控制器确定为主控制器,以使所述拥护节点的控制器在所述主控制器的引领下进行网络管理数据同步;
当所述节点类型为拥护节点时,则从所述其它拥护节点中确定新的引领节点,并执行所述的将所述引领节点的控制器确定为主控制器,以使所述拥护节点的控制器在所述主控制器的引领下进行网络管理数据同步。
6.一种分布式控制器集群的控制方法,其特征在于,应用于分布式控制器集群,包括:
当所述分布式控制器集群启动后,通过预设的选择算法从所述分布式控制器集群中确定引领节点和拥护节点;
将所述引领节点的控制器作为主控制器,以使所述拥护节点的控制器在所述主控制器的引领下进行网络管理数据同步;
当所述主控制器出现故障时,确定故障类型;
根据所述故障类型和所述选择算法从所述分布式控制器集群中确定新的引领节点和新的拥护节点;
将所述新的引领节点的控制器为新的主控制器,以使新的拥护节点的控制器在所述新的主控制器的引领下进行网络管理数据同步;
其中,所述根据所述故障类型和所述选择算法从所述分布式控制器集群中确定新的引领节点和新的拥护节点的步骤包括:
当所述故障类型为网络管理服务故障时,通过预设的失效值对所述控制器节点的目标份量值进行降值处理,得到新的目标份量值;
发送包括所述新的目标份量值的宣告报文至所述拥护节点,以使所述引领节点和所述拥护节点根据所述宣告报文和所述选择算法进行重新选举,重新确定新的引领节点和新的拥护节点。
7.一种分布式控制器集群的控制装置,其特征在于,应用于所述分布式控制器集群中其中一个控制器节点,包括:
第一确定单元,用于当所述分布式控制器集群启动后,通过预设的选择算法确定所述控制器节点的节点类型;
第二确定单元,用于当所述节点类型为引领节点时,则确定所述分布式控制器集群中的其它节点为拥护节点;
第三确定单元,用于将所述引领节点的控制器确定为主控制器,以使所述拥护节点的控制器在所述主控制器的引领下进行网络管理数据同步;
第四确定单元,用于当所述主控制器出现故障时,确定故障类型;
切换单元,用于根据所述故障类型和所述选择算法进行所述分布式控制器集群的控制器角色切换;
其中,所述切换单元包括:
计算子单元,用于当节点类型为引领节点,以及当故障类型为网络管理服务故障时,通过预设的失效值对控制器节点的目标份量值进行降值处理,得到新的目标份量值;
切换子单元,用于发送包括新的目标份量值的宣告报文至拥护节点,以使引领节点和拥护节点根据宣告报文和选择算法进行重新选举,重新确定新的引领节点和新的拥护节点;并将引领节点的控制器确定为主控制器,以使拥护节点的控制器在主控制器的引领下进行网络管理数据同步。
8.一种电子设备,其特征在于,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至6中任一项所述的分布式控制器集群的控制方法。
9.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行权利要求1至6任一项所述的分布式控制器集群的控制方法。
CN202111435447.8A 2021-11-29 2021-11-29 一种分布式控制器集群的控制方法及装置 Active CN114137942B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111435447.8A CN114137942B (zh) 2021-11-29 2021-11-29 一种分布式控制器集群的控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111435447.8A CN114137942B (zh) 2021-11-29 2021-11-29 一种分布式控制器集群的控制方法及装置

Publications (2)

Publication Number Publication Date
CN114137942A CN114137942A (zh) 2022-03-04
CN114137942B true CN114137942B (zh) 2023-11-10

Family

ID=80389127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111435447.8A Active CN114137942B (zh) 2021-11-29 2021-11-29 一种分布式控制器集群的控制方法及装置

Country Status (1)

Country Link
CN (1) CN114137942B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103118440A (zh) * 2013-02-25 2013-05-22 江苏物联网研究发展中心 车载自组网的动态网格构建方法
CA2949613A1 (en) * 2015-11-30 2017-05-30 Huawei Technologies Co., Ltd. Poe-based power supply method and pse
CN107360025A (zh) * 2017-07-07 2017-11-17 郑州云海信息技术有限公司 一种分布式存储系统集群监控方法及设备
US10367676B1 (en) * 2015-09-28 2019-07-30 Amazon Technologies, Inc. Stable leader selection for distributed services
CN111818058A (zh) * 2020-07-09 2020-10-23 武汉量子风暴信息科技有限公司 面向网络跳变控制器的安全防护方法、系统及相关设备
CN112671928A (zh) * 2020-12-31 2021-04-16 北京天融信网络安全技术有限公司 设备集中管理架构、负载均衡方法、电子设备及存储介质
CN113014634A (zh) * 2021-02-20 2021-06-22 成都新希望金融信息有限公司 集群选举处理方法、装置、设备及存储介质
CN113126884A (zh) * 2019-12-30 2021-07-16 阿里巴巴集团控股有限公司 数据迁移方法、装置、电子设备及计算机存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103118440A (zh) * 2013-02-25 2013-05-22 江苏物联网研究发展中心 车载自组网的动态网格构建方法
US10367676B1 (en) * 2015-09-28 2019-07-30 Amazon Technologies, Inc. Stable leader selection for distributed services
CA2949613A1 (en) * 2015-11-30 2017-05-30 Huawei Technologies Co., Ltd. Poe-based power supply method and pse
CN107360025A (zh) * 2017-07-07 2017-11-17 郑州云海信息技术有限公司 一种分布式存储系统集群监控方法及设备
CN113126884A (zh) * 2019-12-30 2021-07-16 阿里巴巴集团控股有限公司 数据迁移方法、装置、电子设备及计算机存储介质
CN111818058A (zh) * 2020-07-09 2020-10-23 武汉量子风暴信息科技有限公司 面向网络跳变控制器的安全防护方法、系统及相关设备
CN112671928A (zh) * 2020-12-31 2021-04-16 北京天融信网络安全技术有限公司 设备集中管理架构、负载均衡方法、电子设备及存储介质
CN113014634A (zh) * 2021-02-20 2021-06-22 成都新希望金融信息有限公司 集群选举处理方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李冬宾 ; 许健武 ; 周沅 ; 邹洪斌 ; .空管自动化系统升级改造过渡方案的评估.民航管理.2015,(第06期),全文. *
空管自动化系统升级改造过渡方案的评估;李冬宾;许健武;周沅;邹洪斌;;民航管理(第06期);全文 *

Also Published As

Publication number Publication date
CN114137942A (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
EP2911341B1 (en) Method and device for dynamically switching gateway of distributed resilient network interconnect
EP3490224A1 (en) Data synchronization method and system
US11892922B2 (en) State management methods, methods for switching between master application server and backup application server, and electronic devices
EP3343836B1 (en) Hot backup method, device and system
CN106330475B (zh) 一种通信系统中管理主备节点的方法和装置及高可用集群
CN107508694B (zh) 一种集群内的节点管理方法及节点设备
CN111176888B (zh) 云存储的容灾方法、装置及系统
CN102388570B (zh) 一种主备模式下的单板运行方法及系统
CN104967691A (zh) 一种分布式存储控制方法及系统
CN112367182A (zh) 容灾主备用设备的配置方法及装置
CN103235748A (zh) 元数据的管理方法和系统
CN114124650A (zh) 一种sptn网络控制器主从部署方法
CN112564990B (zh) 一种用于音频管理服务器切换的管理方法
EP3570169B1 (en) Method and system for processing device failure
CN114137942B (zh) 一种分布式控制器集群的控制方法及装置
US8982902B1 (en) Backup server architecture in a VoIP system
CN108418863B (zh) 控制器集群的管理方法、sdn控制器及存储介质
CN107087021B (zh) 主从服务器确定方法及装置
CN114301763A (zh) 分布式集群故障的处理方法及系统、电子设备及存储介质
CN111510336B (zh) 一种网络设备状态管理方法及装置
CN105512116A (zh) 数据同步的方法及装置
CN102215272A (zh) 一种应急切换的方法和系统
CN113794631B (zh) 一种端口冗余处理方法、装置、设备及机器可读存储介质
CN116582618B (zh) 电销高可用的实现方法、装置、机房管理平台和计算机
EP4160996A1 (en) Operation state switching method and device, master/standby management system, and network system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant