CN112272105A - 一种sdn控制器集群成员的控制方法、系统及介质 - Google Patents

一种sdn控制器集群成员的控制方法、系统及介质 Download PDF

Info

Publication number
CN112272105A
CN112272105A CN202010975772.2A CN202010975772A CN112272105A CN 112272105 A CN112272105 A CN 112272105A CN 202010975772 A CN202010975772 A CN 202010975772A CN 112272105 A CN112272105 A CN 112272105A
Authority
CN
China
Prior art keywords
cluster
sdn controller
members
isolated
controller cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010975772.2A
Other languages
English (en)
Other versions
CN112272105B (zh
Inventor
宋波
赵海平
黄树民
马於虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cisco Networking Technology Co Ltd
Original Assignee
Inspur Cisco Networking Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cisco Networking Technology Co Ltd filed Critical Inspur Cisco Networking Technology Co Ltd
Priority to CN202010975772.2A priority Critical patent/CN112272105B/zh
Publication of CN112272105A publication Critical patent/CN112272105A/zh
Application granted granted Critical
Publication of CN112272105B publication Critical patent/CN112272105B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • H04L41/0661Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities by reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • H04L67/143Termination or inactivation of sessions, e.g. event-controlled end of session
    • H04L67/145Termination or inactivation of sessions, e.g. event-controlled end of session avoiding end of session, e.g. keep-alive, heartbeats, resumption message or wake-up for inactive or interrupted session

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例涉及一种SDN控制器集群成员的控制方法、系统及介质,旨在解决控制器集群宕机,业务中断,正常业务受影响的问题。方法包括:SDN控制器集群响应于集群成员中被隔离成员和所述集群成员中未被隔离成员之间发送的通信恢复消息;所述SDN控制器集群通过所述通信恢复消息中携带的标识,确定所述集群成员中被隔离成员;所述SDN控制器集群将所述被隔离成员重新加入所述SDN控制器集群。

Description

一种SDN控制器集群成员的控制方法、系统及介质
技术领域
本发明涉及通信技术领域,特别涉及一种SDN控制器集群成员的控制方法、系统及介质。
背景技术
商用SDN(Software Defined Network)控制器要求集群部署,在使用过程中会遇到成员隔离的现象,原因是隔离成员与其他成员网络消息无法正常传递。现有技术中,ODL(Open Daylight)控制器在识别隔离成员后会进行集群全员或者多数派成员重启。
现有技术一方面会造成控制器集群宕机,业务中断,这主要是因为传统ODL框架在处理集群隔离的方法是重启所有成员或多数派成员,这就导致集群系统无法工作,在这段重启的时间内业务会一直中断,控制器不可用。现有技术另一方面会造成正常业务受影响,在整个集群宕机过程会影响所有业务,影响范围广。因为宕机和恢复过程会触发业务的处理,可能会导致正常的业务被破坏。
发明内容
本发明实施例一种SDN控制器集群成员的控制方法、系统及介质,旨在至少在一定程度上解决以下技术问题:
控制器集群宕机,业务中断,正常业务受影响。
本发明实施例的第一方面提供了一种SDN控制器集群成员的控制方法,包括:
SDN控制器集群响应于集群成员中被隔离成员和所述集群成员中未被隔离成员之间发送的通信恢复消息;
所述SDN控制器集群通过所述通信恢复消息中携带的标识,确定所述集群成员中被隔离成员;
所述SDN控制器集群将所述被隔离成员重新加入所述SDN控制器集群。
在一些示例中,所述SDN控制器集群响应于集群成员中被隔离成员和所述集群成员中未被隔离成员之间发送的通信恢复消息,包括:
所述SDN控制器集群响应于所述被隔离成员和所述未被隔离成员之间连续发送的多个通信恢复消息,以使每个所述集群成员在收发多个所述通信恢复消息时将消息对端的标识写入各自不存在重复元素的集合中。
在一些示例中,所述SDN控制器集群通过所述通信恢复消息中携带的标识,确定所述集群成员中被隔离成员,包括:
所述SDN控制器集群确定每个所述集群成员的集合中的标识数量;
所述SDN控制器集群根据所述标识数量确定所述集群成员中被隔离成员。
在一些示例中,所述SDN控制器集群根据所述标识数量确定所述集群成员中被隔离成员,包括:
所述SDN控制器集群判断所述标识数量是否大于1;
若大于1,则确定为被隔离成员。
在一些示例中,所述SDN控制器集群根据所述标识数量确定所述集群成员中被隔离成员,包括:
所述SDN控制器集群判断所述集群成员之间的标识数量的大小;
确定表示数量最大的集群成员为被隔离成员。
在一些示例中,所述SDN控制器集群将所述被隔离成员重新加入所述SDN控制器集群之后,还包括:
所述SDN控制器集群将每个所述集群成员的集合的标识进行初始化处理。
在一些示例中,所述SDN控制器集群响应于所述集群成员中被隔离成员和所述集群成员中未被隔离成员之间发送的通信恢复消息之前,还包括:
所述SDN控制器集群确定每个所述集群成员的通信状态;
若所述集群成员中的一个成员处于通信中断状态,且通信终端状态的持续时间达到阈值,则将所述一个成员作为被隔离成员进行隔离,并通过所述集群成员中的其它成员保证所述SDN控制器集群的运行。
在一些示例中,所述SDN控制器集群将所述被隔离成员重新加入所述SDN控制器集群,包括:
所述SDN控制器集群重启所述被隔离成员,使所述被隔离成员重新加入所述SDN控制器集群。
本发明实施例的第二方面提供了一种SDN控制器集群成员的控制系统,所述系统包括SDN控制器集群,所述控制器集群包括多个动态变化的集群成员,其中,
所述集群成员中的被隔离成员用于与所述集群成员中的未被隔离成员之间收发通信恢复消息,并保存所述通信恢复消息对端的标识;
所述集群成员中的未被隔离成员用于与所述集群成员中的被隔离成员之间收所述发通信恢复消息,并保存所述通信恢复消息对端的标识;
所述SDN控制器集群用于根据每个所述集群成员保存的标识信息,确定所述集群成员中的被隔离成员,以及用于将所述被隔离成员重新添加到所述SDN控制器集群中。
本发明实施例的第三方面提供了一种非易失性计算机存储介质,存储有计算机指令,所述指令被设置为能够执行如上所述的SDN控制器集群成员的控制方法。
有益效果:
本发明实施例通过隔离标记算法,利用集群成员之间的消息传递,识别少数派的计算方式,减小整个集群重启概率,更好的保证SDN控制器集群的稳定性。同时,整个过程SDN控制器集群的业务正常运行,不会触发大范围的业务处理,对现有业务影响很小。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例提供的SDN控制器集群中的集群成员状态变化示意图;
图2为本发明实施例提供的SDN控制器中的集群成员的交互示意图;
图3为本发明实施例提供的隔离标记算法的逻辑示意图;
图4为本发明实施例提供的SDN控制器集群成员的控制方法的流程示意图。
具体实施方式
为了更清楚的阐释本申请的整体构思,下面结合说明书附图以示例的方式进行详细说明。
首先对本说明书中出现的实施例进行介绍。
SDN即软件定义网络,是一种网络设计理念。网络硬件可以集中式软件管理,将控制层与转发层分离,实现网络可编程化。
ODL是一个高度可用、模块化、可扩展、支持多协议的控制器平台,可以作为SDN管理平面管理多厂商异构的SDN网络。它提供了一个模型驱动服务抽象层,允许用户采用不同的南向协议在不同厂商的底层转发设备上部署网络应用。本发行实施例是在ODL框架的基础上改进的,在ODL框架中,仅允许出现一个被隔离的集群成员,若两个以上的集群成员因网络故障而中断通信,则会出现SDN控制器集群大面积重启的情况。
集群是一组相互独立的、通过高速网络互联的单元,可以是服务器或者计算机等,它们构成了一个组,并以单一系统的模式加以管理。一个客户与集群相互作用时,集群像是一个独立的服务器。集群配置是用于提高可用性和可缩放性。
本发明实施例提供了一种SDN控制器集群成员的控制方法、系统及介质,能够有解决的方法及时检测到隔离成员并在网络消息恢复后帮助其重新恢复加入集群。
图1为本发明实施例提供的SDN控制器集群中的集群成员状态变化示意图,以图1所示的SDN控制器集群为例,依据集群成员的不同状态,SDN控制器集群具有多种工作形态。具体包括:
SDN控制器集群正常运行,SDN控制器集群成员之间通信正常,集群系统和业务正常。
集群成员中一个集群成员通信终中断,集群成员A由于断网等原因造成和集群成员B、C的通信中断,集群成员B和C之间通信正常。在中断状态持续一段时间后集群成员A会被判定隔离并从集群系统中剔除。集群成员B和C维持集群系统并保证控制器正常运行。
通信中断的成员恢复通信,集群成员A网络恢复可以和集群成员B、C进行通信,此时集群成员A会和B、C互发通信恢复消息。但是集群成员B和C之间仍然只存在正常通信消息,不会互发通信恢复消息。
隔离标记,通过通信恢复消息中携带的标识进行标记,使SDN控制器集群确定被隔离的集群成员A。
隔离重启,SDN控制器集群调用脚本对集群成员A进行自动重启。
隔离恢复,集群成员A重启之后会和集群成员B、C进行正常通信,集群成员A重新加入SDN控制器集群,形成三成员集群状态。
需要注意的是,上述示例中集群成员的数量仅是示例性的,并不能构成对本发明实施例的限制。
图2为本发明实施例提供的SDN控制器中的集群成员的交互示意图,如图所示,SDN控制器集群包括集群成员A、集群成员B和集群成员C,各集群成员通过heartbeat技术形成SDN控制器集群。
当集群成员A出现网络故障,比如断网等原因,造成集群成员A和集群成员B、C的通信中断,此时集群成员A发送至集群成员B、C的消息不可达,此时集群成员A进入不可达消息自循环状态,当该状态持续时间达到一定时间或者不可达消息自循环达到一定次数后,会将集群成员A进行隔离并退出SDN控制器集群的运行。
当集群成员A的网络恢复时,集群成员A和集群成员B、C会互相发送通信恢复消息,但是集群成员B和C之间发送正常的通信消息,不会互相发送通信恢复消息。
图3为本发明实施例提供的隔离标记算法的逻辑示意图,如图3所示,通信恢复消息中会带有对端成员的IP地址,因此,在本发明的一些优选的实施例中,将IP地址作为标识。
具体而言,集群成员在收到通信恢复消息之后,会从通信恢复消息中抽取对端的IP地址并放到集合中作为标识。
在一些示例中,集合是不存在重复元素的一个集合。
在一些示例中,集群成员A和集群成员B、C之间会连续进行多次通信恢复消息的发送,比如5次到10次或者更多。
在多次通信之后,集合成员A中的集合中会存在集合成员B、C两个成员的IP地址,即集合成员A标识mark=2,集合成员B、C只和对端的集合成员A通信,因此集合成员B、C的集合中都都只存有A的一个IP地址,也就是集合成员B、C标记mark=1。
在通过隔离标记算法计算过后,SDN控制器集群可以识别到mark大于1的集群成员,即集群成员A。之后SDN控制器集群会调用脚本对隔离的集群成员A进行自动重启,使集群成员A重新加入SDN控制器集群。集群成员A、B、C集合中的标识会在此环节初始化清零。整个阶段成员B、C之间正常通信并维持集群系统正常工作,SDN控制器集群业务正常进行。
在本发明的另一些实施例中,由于集合成员A与多个成员进行通行回复消息的收发,因此也可以通过每个集合成员的标识数量最多的确定被隔离的集群成员。
综上所述,本发明实施例通过隔离标记算法,利用集群成员之间的消息传递,识别少数派的计算方式,减小整个集群重启概率,更好的保证SDN控制器集群的稳定性。同时,整个过程SDN控制器集群的业务正常运行,不会触发大范围的业务处理,对现有业务影响很小。
第一方面,本发明实施例提供了一种SDN控制器集群成员的控制方法,图4为本发明实施例提供的SDN控制器集群成员的控制方法的流程示意图,如图4所示,方法包括:
401、SDN控制器集群响应于集群成员中被隔离成员和所述集群成员中未被隔离成员之间发送的通信恢复消息;
402、所述SDN控制器集群通过所述通信恢复消息中携带的标识,确定所述集群成员中被隔离成员;
403、所述SDN控制器集群将所述被隔离成员重新加入所述SDN控制器集群。
基于同样的思路,本发明实施例还提供了上述方法对应的系统和非易失性计算机存储介质。
第二方面,本发明实施例提供了一种SDN控制器集群成员的控制系统,所述系统包括SDN控制器集群,所述控制器集群包括多个动态变化的集群成员,其中,
所述集群成员中的被隔离成员用于与所述集群成员中的未被隔离成员之间收发通信恢复消息,并保存所述通信恢复消息对端的标识;
所述集群成员中的未被隔离成员用于与所述集群成员中的被隔离成员之间收所述发通信恢复消息,并保存所述通信恢复消息对端的标识;
所述SDN控制器集群用于根据每个所述集群成员保存的标识信息,确定所述集群成员中的被隔离成员,以及用于将所述被隔离成员重新添加到所述SDN控制器集群中。
第三方面,本发明实施例提供了一种非易失性计算机存储介质,存储有计算机指令,所述指令被设置为能够执行如上所述的SDN控制器集群成员的控制方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在申请中。

Claims (10)

1.一种SDN控制器集群成员的控制方法,其特征在于,包括:
SDN控制器集群响应于集群成员中被隔离成员和所述集群成员中未被隔离成员之间发送的通信恢复消息;
所述SDN控制器集群通过所述通信恢复消息中携带的标识,确定所述集群成员中被隔离成员;
所述SDN控制器集群将所述被隔离成员重新加入所述SDN控制器集群。
2.根据权利要求1所述的方法,其特征在于,所述SDN控制器集群响应于集群成员中被隔离成员和所述集群成员中未被隔离成员之间发送的通信恢复消息,包括:
所述SDN控制器集群响应于所述被隔离成员和所述未被隔离成员之间连续发送的多个通信恢复消息,以使每个所述集群成员在收发多个所述通信恢复消息时将消息对端的标识写入各自不存在重复元素的集合中。
3.根据权利要求2所述的方法,其特征在于,所述SDN控制器集群通过所述通信恢复消息中携带的标识,确定所述集群成员中被隔离成员,包括:
所述SDN控制器集群确定每个所述集群成员的集合中的标识数量;
所述SDN控制器集群根据所述标识数量确定所述集群成员中被隔离成员。
4.根据权利要求3所述的方法,其特征在于,所述SDN控制器集群根据所述标识数量确定所述集群成员中被隔离成员,包括:
所述SDN控制器集群判断所述标识数量是否大于1;
若大于1,则确定为被隔离成员。
5.根据权利要求3所述的方法,其特征在于,所述SDN控制器集群根据所述标识数量确定所述集群成员中被隔离成员,包括:
所述SDN控制器集群判断所述集群成员之间的标识数量的大小;
确定表示数量最大的集群成员为被隔离成员。
6.根据权利要求1所述的方法,其特征在于,所述SDN控制器集群将所述被隔离成员重新加入所述SDN控制器集群之后,还包括:
所述SDN控制器集群将每个所述集群成员的集合的标识进行初始化处理。
7.根据权利要求1所述的方法,其特征在于,所述SDN控制器集群响应于所述集群成员中被隔离成员和所述集群成员中未被隔离成员之间发送的通信恢复消息之前,还包括:
所述SDN控制器集群确定每个所述集群成员的通信状态;
若所述集群成员中的一个成员处于通信中断状态,且通信终端状态的持续时间达到阈值,则将所述一个成员作为被隔离成员进行隔离,并通过所述集群成员中的其它成员保证所述SDN控制器集群的运行。
8.根据权利要求1所述的方法,其特征在于,所述SDN控制器集群将所述被隔离成员重新加入所述SDN控制器集群,包括:
所述SDN控制器集群重启所述被隔离成员,使所述被隔离成员重新加入所述SDN控制器集群。
9.一种SDN控制器集群成员的控制系统,其特征在于,所述系统包括SDN控制器集群,所述控制器集群包括多个动态变化的集群成员,其中,
所述集群成员中的被隔离成员用于与所述集群成员中的未被隔离成员之间收发通信恢复消息,并保存所述通信恢复消息对端的标识;
所述集群成员中的未被隔离成员用于与所述集群成员中的被隔离成员之间收所述发通信恢复消息,并保存所述通信恢复消息对端的标识;
所述SDN控制器集群用于根据每个所述集群成员保存的标识信息,确定所述集群成员中的被隔离成员,以及用于将所述被隔离成员重新添加到所述SDN控制器集群中。
10.一种非易失性计算机存储介质,存储有计算机指令,其特征在于,所述指令被设置为能够执行权利要求1-8任一项所述的方法。
CN202010975772.2A 2020-09-16 2020-09-16 一种sdn控制器集群成员的控制方法、系统及介质 Active CN112272105B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010975772.2A CN112272105B (zh) 2020-09-16 2020-09-16 一种sdn控制器集群成员的控制方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010975772.2A CN112272105B (zh) 2020-09-16 2020-09-16 一种sdn控制器集群成员的控制方法、系统及介质

Publications (2)

Publication Number Publication Date
CN112272105A true CN112272105A (zh) 2021-01-26
CN112272105B CN112272105B (zh) 2023-04-18

Family

ID=74349514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010975772.2A Active CN112272105B (zh) 2020-09-16 2020-09-16 一种sdn控制器集群成员的控制方法、系统及介质

Country Status (1)

Country Link
CN (1) CN112272105B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106487611A (zh) * 2016-10-27 2017-03-08 杭州华三通信技术有限公司 一种检测sdn集群分裂的方法及装置
CN106533751A (zh) * 2016-11-07 2017-03-22 杭州华三通信技术有限公司 一种sdn控制器集群合并方法及装置
WO2017113929A1 (zh) * 2015-12-29 2017-07-06 中兴通讯股份有限公司 一种软件定义网络中控制转发设备集群的方法及控制器
CN108092829A (zh) * 2018-01-31 2018-05-29 深信服科技股份有限公司 集群分裂的处理方法、sdn控制器及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017113929A1 (zh) * 2015-12-29 2017-07-06 中兴通讯股份有限公司 一种软件定义网络中控制转发设备集群的方法及控制器
CN106487611A (zh) * 2016-10-27 2017-03-08 杭州华三通信技术有限公司 一种检测sdn集群分裂的方法及装置
CN106533751A (zh) * 2016-11-07 2017-03-22 杭州华三通信技术有限公司 一种sdn控制器集群合并方法及装置
CN108092829A (zh) * 2018-01-31 2018-05-29 深信服科技股份有限公司 集群分裂的处理方法、sdn控制器及存储介质

Also Published As

Publication number Publication date
CN112272105B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
US7894335B2 (en) Redundant routing capabilities for a network node cluster
US6542934B1 (en) Non-disruptively rerouting network communications from a secondary network path to a primary path
CN100426751C (zh) 保证集群系统中配置信息一致的方法
CN100466584C (zh) 环网保护的处理方法
US20060153068A1 (en) Systems and methods providing high availability for distributed systems
CN104935672A (zh) 负载均衡服务高可用实现方法和设备
JP2006229967A (ja) 高速マルチキャスト・パス切り替え
CN101009628A (zh) 一种交换网络拓扑变化时组播表项更新的方法及装置
CN104869057A (zh) 开放流交换机优雅重启处理方法、装置及开放流控制器
KR20050065346A (ko) 클러스터 시스템에서 프로토콜 네트워크 장애 관리 시스템및 방법
CN101729426A (zh) 一种虚拟路由冗余协议主备用设备快速切换的方法及系统
CN106059793A (zh) 一种基于平滑重启的路由信息处理方法及装置
CN102487332B (zh) 故障处理方法、装置和系统
CN104125079A (zh) 一种确定双机热备份配置信息的方法及装置
CN112272105B (zh) 一种sdn控制器集群成员的控制方法、系统及介质
CN111083074A (zh) 主备双ospf状态机的高可用性方法和系统
KR100363523B1 (ko) 클러스터링 서버에서의 분산 처리 제어 방법
CN115152192B (zh) Pce受控网络可靠性
CN105391565A (zh) 备份业务配置实现同步的方法
CN111835544B (zh) 一种基于用户态协议栈的虚拟路由器的监控方法及系统
CN114301763A (zh) 分布式集群故障的处理方法及系统、电子设备及存储介质
CN105871524A (zh) 一种基于tipc协议实现双机热备的方法及系统
CN114095342B (zh) 备份的实现方法及装置
CN113746902B (zh) 通信方法及装置
CN113535464B (zh) 一种容灾备份方法、服务器、集群系统和存储装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant