CN109039758B - 面向软件定义航空集群机载网络的控制器故障恢复方法 - Google Patents

面向软件定义航空集群机载网络的控制器故障恢复方法 Download PDF

Info

Publication number
CN109039758B
CN109039758B CN201810959075.0A CN201810959075A CN109039758B CN 109039758 B CN109039758 B CN 109039758B CN 201810959075 A CN201810959075 A CN 201810959075A CN 109039758 B CN109039758 B CN 109039758B
Authority
CN
China
Prior art keywords
node
election
message
controller
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810959075.0A
Other languages
English (en)
Other versions
CN109039758A (zh
Inventor
吕娜
刘创
陈柯帆
朱梦圆
曹芳波
周家欣
邹鑫清
刘鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201810959075.0A priority Critical patent/CN109039758B/zh
Publication of CN109039758A publication Critical patent/CN109039758A/zh
Application granted granted Critical
Publication of CN109039758B publication Critical patent/CN109039758B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/30Decision processes by autonomous network management units using voting and bidding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种面向软件定义航空集群机载网络的控制器故障恢复方法,包括:失控节点的判定及选举权值的计算;选举消息的传递,控制器消息的发布;本发明提出基于超时机制的控制器故障检测方法进行失控节点的判定,综合考虑邻居节点数量、多跳业务量和控制器容量计算选举权值,能够有效保证控制器故障后的网络性能;然后,通过邻居节点信息的建立和维护实现选举消息的更新,在此基础上提出了依据节点状态传递和处理选举消息的算法;这种方式能够保证选举消息有序传递且仅需要维护一跳邻居信息,可以有效减少对网络正常传输业务的影响,能较好适用于具有网络拓扑动态变化、新节点加入等特征的机载网络。

Description

面向软件定义航空集群机载网络的控制器故障恢复方法
技术领域
本发明涉及航空集群系统技术领域,尤其涉及面向软件定义航空集群机载网络的控制器故障恢复方法。
背景技术
作为未来网络研究的热点领域,软件定义网络(Software-Defined Networking,SDN)正凭借其易管理、可编程等优势受到业界的广泛关注。SDN作为一种创新的网络设计范式在有线网络中得到了成功实践也推动了其在无线传感器网、车载网、无人机自组网等无线网络领域的应用研究,理论与实验结果都充分肯定了其优势。在航空领域,由大规模、功能各异的有人/无人航空平台组成航空集群,已成为近年来的重要发展趋势。当前以航空数据链和航空自组网为代表的机载网络一直遵循着传统分布式网络架构的设计思路。虽然可通过对当前机载网络进行不断改进和升级来使之尽力迎合航空集群的通信需求,但这种“烟囱式”发展模式效率很低,不断叠加网络各类软硬件资源导致网络变得臃肿和复杂,难以实现可持续的性能提升,限制了航空集群的能力涌现。
SDN的出现为破解机载网络发展僵化问题提供了全新的技术途径。目前国内外的相关研究已经展开。相较于传统机载网络采用分布式的网络架构,SDN网络的控制与管理是由逻辑集中的控制平面负责。这种方式虽然可以大大提升网络自动化管理和控制能力,但同时也导致了网络对控制平面的依赖性。在航空集群环境中,网络环境更加复杂多变,高对抗战场环境不仅使得节点故障概率变高,同时受节点移动性和链路不可靠性等因素影响,航空集群机载网络的控制器之间难以像地面有线网络一样稳定可靠地交互信息,这给控制平面的设计提出了较大挑战。其中,控制器故障将直接导致网络节点无法处理网络数据流并上传自身状态信息,对网络性能影响最大。如何有效应对网络节点的控制器故障已经成为SDN在机载网络中应用的重要难题。
为提高控制平面的健壮性,国内外研究人员从备份控制器部署和交换机迁移两个方面对控制器故障恢复问题进行了研究。
一类研究是在网络前期规划阶段,通过部署备份控制器的方式来增强控制平面的可靠性;如Ros等人提出了针对控制器故障恢复的FTCP布局方法,该方法通过部署冗余的控制器来实现控制器故障后的快速恢复;王文博等提出了《一种软件定义网络中的控制器热备份及选举算法》(电子学报,2016,44(4):913-919.)将发生故障控制域内的交换机迁移问题优化成控制器的热备份及选举问题,并设计了相应的备份空间确定算法和主控制器选举算法;Muller提出了根据最短距离和控制器剩余容量计算备份控制器列表的方法。
另一类研究是在控制器布局确定之后,通过迁移故障域的交换机实现对网络进行弹性管控;Openflow1.4协议中增加了当控制器发生故障或超载情况下域内交换机向外迁移的机制,在此基础上,Hock将距离和时延作为迁移的首要衡量因素对迁移机制进行设计;伊鹏等提出了《一种考虑软件定义网络控制节点故障的控制器部署和交换机迁移方法》(电子与信息学报,2017,39(8):1972-1978.)在优化迁移方法的同时也考虑了控制器部署位置的影响,通过为每个节点分配相应的master和slave控制器来应对控制器故障和超载问题。
从国内外的相关研究可以看出,现有控制器故障恢复问题的研究还主要面向拓扑固定的地面有线网络,没有考虑到动态拓扑下无线网络的部署需求。由于机载网络与地面有线网络的巨大差异,如受高动态的网络拓扑和频繁的链路中断影响,机载网络环境更加复杂多变。在控制器架构上,地面有线网络常采用扁平式的多控制器架构,而在航空集群环境下则多采用混合层次式控制器架构来以应对复杂的网络环境,提高网络可扩展性。而目前相关研究由于缺乏这些考虑,在实际应用到机载网络场景时很难有较好的指导意义。
其中,备份控制器的确定方法虽然对提高控制平面可靠性意义重大,但是仅仅适用于网络拓扑固定的地面静态网络。在机载网络环境下,由于网络拓扑的动态变化和控制器故障发生时间的随机性,原有的备份控制器往往因为节点移动难以满足故障时网络部署的需求。如果采用依据网络环境变化动态更新备份控制器的方式,则在每个控制域均周期性地维护一个备份控制器。由于航空集群环境下网络规模较大,这种方式会导致网络计算和开销显著增大。而对故障域内交换机进行迁移的方法虽然可以在网络运行过程中对网络进行动态调整,但是这种方法没有考虑到控制器的恢复。在机载网络环境下仅对故障域内节点进行迁移不仅效率低、迁移代价大,也增加了相邻控制器的负担,极易造成邻域控制器过载,引起整个控制平面的失衡。
发明内容
针对上述问题中存在的不足之处,本发明提供面向软件定义航空集群机载网络的控制器故障恢复方法,其能够自主探测控制器的故障,通过本地失控节点间协商完成控制节点重新选举和本地控制域的重新构建;这一过程不需要人为干预或者主控制器的参与,减少了对网络正常传输业务的影响。
为实现上述目的,本发明提供一种面向软件定义航空集群机载网络的控制器故障恢复方法,包括:
步骤1、失控节点的判定及选举权值的计算:
步骤11、采用超时机制的控制器故障检测方法进行失控节点的判定;
步骤12、基于该失控节点的邻居节点数量、多跳业务量和控制器容量综合计算失控节点的选举权值;
步骤2、选举消息的传递:
步骤21、满足选举消息发送条件的失控节点,根据该节点状态信息初始化选举消息;
步骤22、发送选举消息到选举权值最大的邻居节点;
步骤23、若该邻居节点的选举权值大于选举消息中控制节点的选举权值,则更新选举消息;
步骤24、依据邻居节点状态,选择选举消息发送的目的节点;若选举消息的接收分组中元素的业务量之和超过控制节点容量或节点的邻居节点状态均为已接收选举消息,则选举消息停止传递;
步骤3、控制器消息的发布:
步骤31、选举消息停止传递后,会停留在某一节点,该节点发布控制器消息,是用于控制节点的通知;
步骤32、控制器消息到达具有最大选举权值的节点后,该节点会激活控制器模块,作为新的控制器管理本地节点。
作为本发明的进一步改进,在步骤11中,失控节点的判定方法为:
在网络运行过程中,若一个传输节点连续5次PACKET_IN消息请求没有收到控制节点的响应,则该节点判定对应控制器发生故障,节点处于失控状态。
作为本发明的进一步改进,在步骤12中,失控节点的选举权值为:
NW(vi)=w1×N(vi)+w2×L(vi)+w3×C(vi)
式中:vi为失控节点,NW(vi)为失控节点vi的选举权值,N(vi)为失控节点vi的邻居节点数量,w1为N(vi)的权重系数,L(vi)为失控节点vi的多跳业务量,w2为L(vi)的权重系数,C(vi)为失控节点vi的控制器容量,w3为C(vi)的权重系数。
作为本发明的进一步改进,权重系数w1、w2和w3的计算方法为:
用pm(vi),m=1,2,3分别表示三个评判参数,p1(vi)表示N(vi)的评判参数,p2(vi)表示L(vi)的评判参数,p3(vi)表示C(vi)的评判参数;
Figure GDA0002995260110000041
式中,S(vi)为失控节点vi的邻居失控节点集;
每个评判参数的熵值求解公式为:
Figure GDA0002995260110000042
每个评判参数的权重系数求解公式为:
Figure GDA0002995260110000043
作为本发明的进一步改进,在步骤2中,选举消息包括发起节点ID、发起节点选举权值、控制节点ID、控制节点选举权值、控制节点容量和接收分组;
接收分组是记录每个节点选举消息接收状态的,接收分组中每个元素对应着选举消息到达的节点号,元素值对应着节点状态和节点超过一跳的业务量;预定义三种接收状态UNRECEIVED、RECEIVED、TRANSFER,UNRECEIVED表示该节点从没有收到过选举消息,RECEIVED表示该节点已经接收过选举消息且邻居节点中不存在从未接收过选举消息的节点,TRANSFER表示该节点已经接收过选举消息且邻居节点中存在从未接收过选举消息的节点。
作为本发明的进一步改进,在步骤21中,选举消息发送条件为:
当失控节点的多跳业务量超过该失控节点自身所搭载控制器容量的1/4时,该失控节点发送选举消息。
作为本发明的进一步改进,在步骤23中,若该邻居节点的选举权值大于选举消息中控制节点的选举权值,则更新选举消息且接收分组的元素个数加1;否则,选举消息接收分组的个数加1。
作为本发明的进一步改进,所述步骤24包括:
步骤241、若接收分组中每个元素的业务量之和超过控制节点容量,则跳至步骤245;否则,根据选举消息中接收分组的各节点接收状态,判定邻居节点的接收状态;
步骤242、若存在相邻的UNRECEIVED节点,将本节点接收状态标记为TRANSFER,并将选举消息转发到该节点上;若有多于一个的UNRECEIVED节点,则选择具有最大选举权值的节点进行转发;否则,跳至步骤243;
步骤243、若相邻TRANSFER节点不等于1,将本节点访问状态标记为RECEIVED,并将选举消息转发到该节点上;若存在多个TRANSFER节点,则选择具有最大选举权值的节点进行转发;否则,跳至步骤245;
步骤244、邻居节点在接收到选举消息后,返回步骤23进行比较;
步骤245、将该节点状态标记为RECEIVED,选举结束。
作为本发明的进一步改进,在步骤3中,控制器消息包括控制节点ID、控制节点选举权值和接收分组;
控制器消息中的接收分组是根据选举消息接收分组得到的,接收分组中每个元素对应选举消息到达的节点,元素值对应着节点状态,初始化为UNRECEIVED状态;
节点在发送控制器消息之前会在接收分组中将要发送的节点状态设置为RECEIVED,节点收到控制器消息后会根据邻居节点信息和接收分组选择控制器消息没有到达的节点进行发送,并更新控制器消息。
作为本发明的进一步改进,在步骤32中,若控制器消息接收分组中节点状态均为RECEIVED,则控制器消息停止传递,并向控制节点发送请求消息。
与现有技术相比,本发明的有益效果为:
本发明提出基于超时机制的控制器故障检测方法进行失控节点的判定,综合考虑邻居节点数量、多跳业务量和控制器容量计算选举权值,能够有效保证控制器故障后的网络性能;然后,通过邻居节点信息的建立和维护实现选举消息的更新,在此基础上提出了依据节点状态传递和处理选举消息的算法;这种分布式的控制器故障解决方法能够保证选举消息的有序传递且仅仅需要维护一跳邻居节点信息,可以有效减少对网络正常传输业务的影响,能较好适用于具有网络拓扑动态变化、新节点加入等特征的机载网络。
附图说明
图1为本发明一种实施例公开的面向软件定义航空集群机载网络的控制器故障恢复方法的流程图;
图2为本发明一种实施例公开的选举权值计算流程图;
图3为本发明一种实施例公开的软件定义航空集群机载网络架构示意图;
图4为本发明一种实施例公开的选举消息传递流程图;
图5为本发明一种实施例公开的选举消息传递过程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1所示,本发明提供一种面向软件定义航空集群机载网络的控制器故障恢复方法,主要包括三个阶段,选举权值的计算阶段、选举消息的传递阶段和控制器消息的发布阶段;
步骤1、失控节点的判定及选举权值的计算;如图2所示,其具体包括:
步骤11、采用超时机制的控制器故障检测方法进行失控节点的判定;失控节点的判定方法为:规定在网络运行过程中,若一个传输节点连续5次PACKET_IN消息请求没有收到控制节点的响应,则该节点判定对应控制器发生故障,节点处于失控状态。
步骤12、基于该失控节点的邻居节点数量、多跳业务量和控制器容量综合计算失控节点的选举权值;具体为:
在节点处于失控状态下,失控节点会通过周期性地发送Hellow消息进行一跳邻居节点状态的感知,邻居节点在收到Hellow消息后记录节点状态并回复Ack-hellow消息。为实现选举权值的计算,除节点ID等必须的1跳路由维护信息外,Hellow消息和Ack-hellow消息还应当包括该节点的邻居节点总数、多跳业务量和控制器容量等节点权值计算参数信息。
失控节点的选举权值为:
NW(vi)=w1×N(vi)+w2×L(vi)+w3×C(vi)
式中:vi为失控节点,NW(vi)为失控节点vi的选举权值,N(vi)为失控节点vi的邻居节点数量,w1为N(vi)的权重系数,L(vi)为失控节点vi的多跳业务量,w2为L(vi)的权重系数,C(vi)为失控节点vi的控制器容量,w3为C(vi)的权重系数。
作为本发明的进一步改进,权重系数w1、w2和w3的计算方法为:
用pm(vi),m=1,2,3分别表示三个评判参数,p1(vi)表示N(vi)的评判参数,p2(vi)表示L(vi)的评判参数,p3(vi)表示C(vi)的评判参数;
Figure GDA0002995260110000071
式中,S(vi)为失控节点vi的邻居失控节点集;
每个评判参数的熵值求解公式为:
Figure GDA0002995260110000072
每个评判参数的权重系数求解公式为:
Figure GDA0002995260110000073
步骤2、选举消息的传递:
控制节点的选举是通过选举消息在网络中传递进行的,通过这种方式网络中失控节点的信息被收集计算并通知下一节点,最终在停止条件触发下选举消息停止传递,选出权值最大的节点作为控制节点。选举消息格式如下:
发起节点ID 发起节点NW 控制节点ID 控制节点NW 控制节点容量 接收分组RA
接收分组是记录每个节点选举消息接收状态的,接收分组中每个元素对应着选举消息到达的节点号,元素值对应着节点状态和节点超过一跳的业务量;预定义三种接收状态UNRECEIVED、RECEIVED、TRANSFER,UNRECEIVED表示该节点从没有收到过选举消息,RECEIVED表示该节点已经接收过选举消息且邻居节点中不存在从未接收过选举消息的节点,TRANSFER表示该节点已经接收过选举消息且邻居节点中存在从未接收过选举消息的节点。
选举消息的传递,具体包括:
步骤21、满足选举消息发送条件的失控节点,根据该节点状态信息初始化选举消息;具体的:
选举消息发送条件为:通过邻居节点间信息的交互,每个失控节点能够感知一跳范围内失控节点的信息。此时规定:当失控节点的多跳业务量超过节点自身所搭载控制器容量的
Figure GDA0002995260110000081
时,该节点才能发送选举消息开启选举进程。
步骤22、发送选举消息到选举权值最大的邻居节点;
步骤23、若该邻居节点的选举权值大于选举消息中控制节点的选举权值,则更新选举消息;
步骤24、依据邻居节点状态,选择选举消息发送的目的节点;若选举消息的接收分组中元素的业务量之和超过控制节点容量或节点的邻居节点状态均为已接收选举消息(RECEIVED),则选举消息停止传递;
步骤3、控制器消息的发布,其包括:
步骤31、选举消息结束传递后,会停留在某一节点。此时,节点发送控制器消息,是用于控制节点的通知。控制器消息格式如下:
控制节点ID 控制节点NW 接收分组RA
控制器消息中的接收分组是根据选举消息接收分组得到的,接收分组中每个元素对应选举消息到达的节点,元素值对应着节点状态,初始化为UNRECEIVED状态;
节点在发送控制器消息之前会在接收分组中将要发送的节点状态设置为RECEIVED,节点收到控制器消息后会根据邻居节点信息和接收分组选择控制器消息没有到达的节点进行发送,并更新控制器消息。
步骤32、为了避免控制器消息的重复发送,节点在发送控制器消息之前会在数组RA中将要发送的节点状态设置为RECEIVED。节点收到控制器消息后会根据邻居节点信息和接收分组RA选择控制器消息没有到达的节点进行发送,并更新控制器消息。
步骤33、控制器消息到达具有最大选举权值的节点后,该节点会激活控制器模块,作为新的控制器管理本地节点。若控制器消息接收分组中节点状态均为RECEIVED,则控制器消息停止传递,并向控制节点发送请求消息。
实施例:
为了更好说明本发明提出的控制器故障恢复方法。图3给出了软件定义航空集群机载网络架构示意图,层次型的多控制器架构形成了逻辑集中控制式的机载网络。在多控制器部署完成后,网络被分成多个控制域,每个控制域内有一个控制器,负责管理域内网络数据流。航空集群每个平台均应部署一个控制器,但在相同时间一个域内仅有一个控制器保持工作。这不仅为控制器故障恢复提供了物理硬件基础,也有利于网络根据拓扑、流量的变化灵活选取节点作为控制器,实现对网络的弹性管控。
SDN在机载网络中实际应用时,SDN传输方式和传统网络传输方式是共存的。在SDN方式不可用的情况下,传统网络传输方式能够使节点不依赖与控制器的信息交互,通过邻居节点间协商的方式,独立完成自身信息传输过程。此时,本文所要研究的问题就变为:控制器发生不可逆故障导致SDN传输方式不可用情形下,故障域内的节点如何基于传统网络传输方式,通过域内节点间的协商完成选择新的控制节点的选举。
为保证故障恢复后的网络控制性能,本发明根据收集下列评判参数进行选举权值的计算:
(1)邻居节点数量,定义失控节点vi的邻居节点数量为N(vi),则N(vi)=|S(vi)|,S(vi)为失控节点vi的邻居失控节点集,其表示节点vi一跳范围内失控节点的集合。在机载网络环境下,由于通信链路的不稳定性因素影响,节点的邻居节点数量越大,其一跳范围内失控节点的数量就越多,选举该节点作为控制节点进行网络控制的开销与时延就会越少。
(2)多跳业务量,假设每个节点vi超过一跳的业务量为l(vi),则节点vi的多跳业务量为:
Figure GDA0002995260110000091
其表示节点vi及其邻居节点超过一跳的业务量总和。由于一跳邻居节点间的信息交互没有流表配置的需求。而在集中式网络控制下,节点及其邻居一跳以上的信息交互需求越高,节点多跳业务量越大,传输节点向控制节点发送的PACKET_IN事件数量越多,其自身及邻居节点的流表配置越频繁。选举该节点作为控制节点,更有利于提高网络的管控效率。
(3)控制器容量
本发明用平均流吞吐量C(vi)来表示节点vi所搭载的控制器容量。其表示该控制器能够处理的最大请求量。该值越大,控制节点可管理的节点数量越多。由于控制器容量不仅与网络硬件的处理能力有关、也与网络流的到达情形,网络业务的QoS需求等限制因素有关,在实际应用时很难有准确的值进行表示。而在航空集群环境中,受平台类型和载荷等因素影响,各个平台搭载的软硬件资源差异较大,本文中仅考虑由此因素导致的控制器容量的不同。
综合考虑上述控制节点的评判参数,本文定义vi进行控制节点选举时的权值NW(vi)为:
NW(vi)=w1×N(vi)+w2×L(vi)+w3×C(vi) (2)
式中:w1、w2和w3为对应评判参数的权重系数;
因为各参数的计量单位不同,不能互相计算比较,需要进行规范化处理。为此,本发明采取熵法来评估各参数的相对重要程度,综合得到每个节点进行选举的权值。熵法计算的原则是:在某一参数上取值相差越大,那么它的相对重要程度就越大,则该标准所占的权重也应该越大。本文使用该方法来求解各参数的权重系数,根据节点vi及其邻居失控节点集S(vi)的参数值,权重系数的计算步骤为:
①用pm(vi),m=1,2,3分别表示三个评判参数。首先,根据下面公式规范化每个参数值,某一参数pm(vi)表示为:
Figure GDA0002995260110000101
②每个参数的熵值求解方法如下式所示为:
Figure GDA0002995260110000102
pm(vi)=0时,pm(vi)lnpm(vi)=0。
③根据公式(4),每个参数的权重求解方法如下式所示为:
Figure GDA0002995260110000103
步骤2中选举消息传递中的选举消息是基于RA中的节点状态进行传递的,图4给出了选举消息传递流程图,具体流程描述如下:
步骤21、满足选举消息发送条件,根据该节点状态信息初始化选举消息;
步骤22、发送选举消息到NW值最大的邻居节点;
步骤23、如果该节点NW值大于选举消息中的控制节点NW值,则更新选举消息且接收分组的元素个数加1;否则,选举消息RA元素个数加1;
步骤24、如果RA分组中每个元素的业务量l(υi)之和超过控制节点容量,转到步骤28;否则,根据选举消息中RA分组的各节点接收状态,判定邻居节点的接收状态;
步骤25、如果存在相邻的UNRECEIVED节点,将本节点接收状态标记为TRANSFER,并将选举消息转发到该节点上。若有多于一个的UNRECEIVED节点,则选择具有较大NW值的节点进行转发;否则,进行下一步;
步骤26、如果相邻TRANSFER节点不等于1,将本节点访问状态标记为RECEIVED,并将选举消息转发到该节点上。若存在多个TRANSFER节点,则选择具有较大NW值的节点进行转发;否则,转到步骤28;
步骤27、邻居节点在接收到选举消息后,返回步骤23进行比较;
步骤28、将该节点状态标记为RECEIVED,选举结束。
图5举例说明了选举消息的传递过程,图5中的(a)→(f)为选举消息传递的递进过程,图5的数字既代表节点ID也代表节点权重NW;从(a)中可以看出,当网络控制节点7故障后,故障域内节点处于失控状态,形成网络拓扑如(b)所示;假设节点4首先检测到控制节点故障并满足选举消息发送条件。根据NW值最大原则将选举消息传递给节点5,此时网络节点状态如(c)所示。随着节点的状态的改变和选举消息的传递,经(d)→(e)→(f)最终选举消息最终停留在节点1。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种面向软件定义航空集群机载网络的控制器故障恢复方法,其特征在于,包括:
步骤1、失控节点的判定及选举权值的计算:
步骤11、采用超时机制的控制器故障检测方法进行失控节点的判定;
步骤12、基于该失控节点的邻居节点数量、多跳业务量和控制器容量综合计算失控节点的选举权值NW(vi),计算公式为:
NW(vi)=w1×N(vi)+w2×L(vi)+w3×C(vi)
式中:vi为失控节点,NW(vi)为失控节点vi的选举权值,N(vi)为失控节点vi的邻居节点数量,w1为N(vi)的权重系数,L(vi)为失控节点vi的多跳业务量,w2为L(vi)的权重系数,C(vi)为失控节点vi的控制器容量,w3为C(vi)的权重系数;
权重系数w1、w2和w3的计算方法为:
用pm(vi),m=1,2,3分别表示三个评判参数,p1(vi)表示N(vi)的评判参数,p2(vi)表示L(vi)的评判参数,p3(vi)表示C(vi)的评判参数;
Figure FDA0002995260100000011
式中,S(vi)为失控节点vi的邻居失控节点集;
每个评判参数的熵值求解公式为:
Figure FDA0002995260100000012
每个评判参数的权重系数求解公式为:
Figure FDA0002995260100000013
步骤2、选举消息的传递:
步骤21、满足选举消息发送条件的失控节点,根据该节点状态信息初始化选举消息;
步骤22、发送选举消息到选举权值最大的邻居节点;
步骤23、若该邻居节点的选举权值大于选举消息中控制节点的选举权值,则更新选举消息;
步骤24、依据邻居节点状态,选择选举消息发送的目的节点;若选举消息的接收分组中元素的业务量之和超过控制节点容量或节点的邻居节点状态均为已接收选举消息,则选举消息停止传递;
步骤3、控制器消息的发布:
步骤31、选举消息停止传递后,会停留在某一节点,该节点发布控制器消息,是用于控制节点的通知;
步骤32、控制器消息到达具有最大选举权值的节点后,该节点会激活控制器模块,作为新的控制器管理本地节点。
2.如权利要求1所述的面向软件定义航空集群机载网络的控制器故障恢复方法,其特征在于,在步骤11中,失控节点的判定方法为:
在网络运行过程中,若一个传输节点连续5次PACKET_IN消息请求没有收到控制节点的响应,则该节点判定对应控制器发生故障,节点处于失控状态。
3.如权利要求1所述的面向软件定义航空集群机载网络的控制器故障恢复方法,其特征在于,在步骤2中,选举消息包括发起节点ID、发起节点选举权值、控制节点ID、控制节点选举权值、控制节点容量和接收分组;
接收分组是记录每个节点选举消息接收状态的,接收分组中每个元素对应着选举消息到达的节点号,元素值对应着节点状态和节点超过一跳的业务量;预定义三种接收状态UNRECEIVED、RECEIVED、TRANSFER,UNRECEIVED表示该节点从没有收到过选举消息,RECEIVED表示该节点已经接收过选举消息且邻居节点中不存在从未接收过选举消息的节点,TRANSFER表示该节点已经接收过选举消息且邻居节点中存在从未接收过选举消息的节点。
4.如权利要求1或3所述的面向软件定义航空集群机载网络的控制器故障恢复方法,其特征在于,在步骤21中,选举消息发送条件为:
当失控节点的多跳业务量超过该失控节点自身所搭载控制器容量的1/4时,该失控节点发送选举消息。
5.如权利要求1或3所述的面向软件定义航空集群机载网络的控制器故障恢复方法,其特征在于,在步骤23中,若该邻居节点的选举权值大于选举消息中控制节点的选举权值,则更新选举消息且接收分组的元素个数加1;否则,选举消息接收分组的个数加1。
6.如权利要求3所述的面向软件定义航空集群机载网络的控制器故障恢复方法,其特征在于,所述步骤24包括:
步骤241、若接收分组中每个元素的业务量之和超过控制节点容量,则跳至步骤245;否则,根据选举消息中接收分组的各节点接收状态,判定邻居节点的接收状态;
步骤242、若存在相邻的UNRECEIVED节点,将本节点接收状态标记为TRANSFER,并将选举消息转发到该节点上;若有多于一个的UNRECEIVED节点,则选择具有最大选举权值的节点进行转发;否则,跳至步骤243;
步骤243、若相邻TRANSFER节点不等于1,将本节点访问状态标记为RECEIVED,并将选举消息转发到该节点上;若存在多个TRANSFER节点,则选择具有最大选举权值的节点进行转发;否则,跳至步骤245;
步骤244、邻居节点在接收到选举消息后,返回步骤23进行比较;
步骤245、将该节点状态标记为RECEIVED,选举结束。
7.如权利要求3所述的面向软件定义航空集群机载网络的控制器故障恢复方法,其特征在于,在步骤3中,控制器消息包括控制节点ID、控制节点选举权值和接收分组;
控制器消息中的接收分组是根据选举消息接收分组得到的,接收分组中每个元素对应选举消息到达的节点,元素值对应着节点状态,初始化为UNRECEIVED状态;
节点在发送控制器消息之前会在接收分组中将要发送的节点状态设置为RECEIVED,节点收到控制器消息后会根据邻居节点信息和接收分组选择控制器消息没有到达的节点进行发送,并更新控制器消息。
8.如权利要求7所述的面向软件定义航空集群机载网络的控制器故障恢复方法,其特征在于,在步骤32中,若控制器消息接收分组中节点状态均为RECEIVED,则控制器消息停止传递,并向控制节点发送请求消息。
CN201810959075.0A 2018-08-22 2018-08-22 面向软件定义航空集群机载网络的控制器故障恢复方法 Active CN109039758B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810959075.0A CN109039758B (zh) 2018-08-22 2018-08-22 面向软件定义航空集群机载网络的控制器故障恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810959075.0A CN109039758B (zh) 2018-08-22 2018-08-22 面向软件定义航空集群机载网络的控制器故障恢复方法

Publications (2)

Publication Number Publication Date
CN109039758A CN109039758A (zh) 2018-12-18
CN109039758B true CN109039758B (zh) 2021-08-17

Family

ID=64626788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810959075.0A Active CN109039758B (zh) 2018-08-22 2018-08-22 面向软件定义航空集群机载网络的控制器故障恢复方法

Country Status (1)

Country Link
CN (1) CN109039758B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109547345B (zh) * 2019-01-22 2020-11-03 陈柯帆 一种软件定义机载网络系统及内容驱动的路由方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101035021A (zh) * 2007-02-08 2007-09-12 北京航空航天大学 稳定节能分群维护方法
CN102065446A (zh) * 2010-12-20 2011-05-18 北京航空航天大学 面向群组移动环境的拓扑控制系统及控制方法
CN106789293A (zh) * 2016-12-29 2017-05-31 南京邮电大学 一种空间信息网络空间层控制器选举算法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104571131B (zh) * 2015-01-20 2017-09-05 西安电子科技大学宁波信息技术研究院 无人机编队分布式协作系统及其抗干扰方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101035021A (zh) * 2007-02-08 2007-09-12 北京航空航天大学 稳定节能分群维护方法
CN102065446A (zh) * 2010-12-20 2011-05-18 北京航空航天大学 面向群组移动环境的拓扑控制系统及控制方法
CN106789293A (zh) * 2016-12-29 2017-05-31 南京邮电大学 一种空间信息网络空间层控制器选举算法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Pareto-optimal resilient controller placement in SDN-based core networks;D. Hock等;《Proceedings of the 2013 25th International Teletraffic Congress (ITC), Shanghai, 2013, pp. 1-9》;20130912;全文 *
SDN controller placement design: For large scale production network;H. S. Naning等;《2016 IEEE Asia Pacific Conference on Wireless and Mobile (APWiMob), Bandung, 2016, pp. 74-79》;20160915;全文 *
一种考虑软件定义网络控制节点故障的控制器部署和交换机迁移方法;伊鹏 等;《电子与信息学报》;20170831;全文 *
一种软件定义网络中的控制器热备份及选举算法;王文博 等;《电子学报》;20160415;全文 *
层次型多中心的SDN控制器部署;张栋;《电子学报》;20170315;全文 *

Also Published As

Publication number Publication date
CN109039758A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN103001875B (zh) 一种量子密码网络动态路由方法
CN105959232B (zh) 一种基于软件定义网络控制点优化的卫星网络路由方法
CN111556514A (zh) 一种去中心化的移动边缘计算资源发现和选择方法及系统
CN104683016A (zh) 基于最小化时延的多层卫星网络最优业务分布路由方法
CN109089294B (zh) 一种基于sdn分布式控制的无人机网络流量配置方法及系统
CN104579964A (zh) 一种量子密码网络动态路由架构系统
CN104054304A (zh) 计算机系统、控制器、交换机、通信方法以及存储网络管理程序的记录介质
CN104753828A (zh) 一种sdn控制器、数据中心系统和路由连接方法
WO2017092560A1 (zh) 生成路由信息及确定传输路径的方法、装置
CN109922513A (zh) 一种基于移动预测和时延预测的olsr路由方法及系统
CN106209615B (zh) 一种基于spfa算法计算转发路径的动态路由控制方法和系统
Aljeri et al. An adaptive traffic-flow based controller deployment scheme for software-defined vehicular networks
JP5869041B2 (ja) ネットワークトポロジ要求を物理ネットワークにマッピングする方法、コンピュータプログラム製品、モバイル通信システム及びネットワーク構成プラットフォーム
Zhao et al. FT-SPEED: A fault-tolerant, real-time routing protocol for wireless sensor networks
Toorchi et al. Skeleton-based swarm routing (SSR): Intelligent smooth routing for dynamic UAV networks
CN104468390A (zh) 软件定义网络中基于分布—集中式架构模型的多控制负载均衡的方法和系统
CN109039758B (zh) 面向软件定义航空集群机载网络的控制器故障恢复方法
CN107995114B (zh) 基于密度聚类的容迟网络路由方法
CN106161118A (zh) 一种无线传感网中能量均衡的k‑跳分簇路由方法
GB2504813A (en) Distributed network scheduling of bandwidth resources using network situation awareness information
CN111404595B (zh) 一种天基网络通信卫星健康度评估方法
Suraki et al. FCLCC: fuzzy cross-layer congestion control in mobile ad hoc networks
JP2017228909A (ja) ネットワーク負荷低減システムおよびネットワーク負荷低減方法
CN103460759B (zh) 通信装置以及路径搜索方法
CN112954609B (zh) 一种基于骨干环的分布式地理位置服务方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant