CN108234154B - 一种机载交换网络设备故障监控方法 - Google Patents

一种机载交换网络设备故障监控方法 Download PDF

Info

Publication number
CN108234154B
CN108234154B CN201611140895.4A CN201611140895A CN108234154B CN 108234154 B CN108234154 B CN 108234154B CN 201611140895 A CN201611140895 A CN 201611140895A CN 108234154 B CN108234154 B CN 108234154B
Authority
CN
China
Prior art keywords
alive
network
timer
terminal
wdt
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611140895.4A
Other languages
English (en)
Other versions
CN108234154A (zh
Inventor
王晓华
李斌
李健
李大鹏
范祥辉
薛威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Aeronautics Computing Technique Research Institute of AVIC
Original Assignee
Xian Aeronautics Computing Technique Research Institute of AVIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Aeronautics Computing Technique Research Institute of AVIC filed Critical Xian Aeronautics Computing Technique Research Institute of AVIC
Priority to CN201611140895.4A priority Critical patent/CN108234154B/zh
Publication of CN108234154A publication Critical patent/CN108234154A/zh
Application granted granted Critical
Publication of CN108234154B publication Critical patent/CN108234154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/085Retrieval of network configuration; Tracking network configuration history

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明属于机载通信网络技术领域,涉及机载交换网络设备的故障监控方法。一种机载交换网络设备故障监控方法,本方法基于一组WDT看门狗定时器、一组TIMER周期狗定时器以及一组网络消息,能够实时监测机载交换网络系统内各网络设备的健康状态,快速捕获系统中网络设备的故障信息,为上层系统或者应用提供故障管理支持,这对于机载交换网络系统稳定可靠地运行,以及有效地控制管理有着至关重要的作用。

Description

一种机载交换网络设备故障监控方法
技术领域
本发明属于机载通信网络技术领域,涉及机载交换网络设备的故障监控方法。
背景技术
随着新一代飞机航电系统数字化、综合化程度日益加深,航电系统已采用网络化架构,高速交换网络系统已成为先进航电系统的核心通信平台。面向综合化的航电系统通常采用分布式、开放体系架构,通过高速交换网络实现资源、信息共享和功能综合。
机载交换网络系统由一组网络终端(NT)和网络交换机(SW)构成,网络终端和网络交换机统称为网络设备。其中,网络交换机是交换网络系统的核心部件,所有网络终端通过物理链路与网络交换机相连,网络终端则作为机载系统传感、计算、作动等功能节点的通信接口实现整个网络系统的分布式通信和管理。网络终端一般由主机(HOST)和通信接口(NIC)组成,其中HOST和NIC通过标准主机总线接口(HBI)进行物理耦合,比如PCI、PCIE和SRIO等。在如图1所示的星型机载网络拓扑结构中,网络交换机作为机载交换网络系统中的核心部件为网络终端提供数据交换支持,网络终端为主机应用提供外部接口通信支持。
交换网络系统采用分布式开放体系架构,具备良好的伸缩性、适应性和系统容错重构能力,但由于网络设备故障关联性高,耦合紧密,导致故障诊断和隔离防护困难,网络系统故障行为不可控,因而无法有效保障机载系统可靠运行。
为此,需设计一种故障监控机制,能够实时监测机载交换网络系统内各网络设备的健康状态,快速捕获系统中网络设备的故障信息,为上层系统或者应用提供故障管理支持,这对于机载交换网络系统稳定可靠地运行,以及有效地控制管理有着至关重要的作用。
发明内容
本发明的目的是:针对机载交换网络系统提供一种网络设备故障的监控方法,能够实时监测网络系统内各设备的故障状态,获取故障信息,为上层系统或应用提供网络故障管理支持。
为达到以上目的,本发明是采取如下技术方案予以实现的:
如图2所示,一种机载交换网络设备故障监控方法,本方法基于一组WDT看门狗定时器、一组TIMER周期定时器以及一组网络消息,其中,
WDT看门狗定时器包括:
a.主机健康监控看门狗HOST_ALIVE_WDT;
b.通信接口健康监控看门狗NIC_ALIVE_WDT;
c.网络管理器健康监控看门狗NC_ALIVE_WDT;
d.交换机健康监控看门狗SW_ALIVE_WDT;
TIMER周期定时器包括:
a.主机周期喂狗定时器HOST_ALIVE_TIMER;
b.通信接口周期喂狗定时器NIC_ALIVE_TIMER
c.网络管理器周期喂狗定时器NC_ALIVE_TIMER;
d.交换机周期喂狗定时器SW_ALIVE_TIMER;
其中,WDT看门狗定时器需有硬件支持,TIMER定时器可以是硬件逻辑实现的定时器也可以是由软件实现的周期任务。
网络消息包括:
a.交换机链路状态汇报消息SW_ALIVE_MSG;
b.网络状态汇报消息NC_ALIVE_MSG;
本方法包括以下步骤:
(1)通过主机HOST与通信接口NIC相互获取对方生命信息的方式实现终端节点内部健康状态双向监控;
(2)网络终端NT对应的主机HOST故障由终端内部故障监控机制感知,其通信接口NIC主动发送通信故障信息至网络管理器NC,并将自身置为不可通信状态。NC收到该终端发送的故障信息后,在下一个广播周期通过NC_ALIVE_MSG通报全网络,其它终端由此获知终端发生故障;
(3)网络终端NT对应的NIC故障由交换机感知并通报,网络交换机通过物理端口状态获知与其连接的NT终端的链路状态,并按照SW_ALIVE_TIMER设置值周期地广播发送SW_ALIVE_MSG消息,向全网络汇报该NT终端的链路状态信息。网络管理器NC接收并解析处理该消息,若发现有终端的链路断开,则通过NC_ALIVE_MSG通报全网络,其它终端由此获知NT终端发生故障;
(4)网络管理器NC节点故障监控实现方法为:NC按照NC_ALIVE_TIMER设置值周期地广播发送NC_ALIVE_MSG,其中包含NC所维护的全网络状态信息,备份网络管理器BNC和网络终端NT在收到该消息后,提取全网络状态信息,并清除自身的NC_ALIVE_WDT。当NC内部状态监控到故障或者其对应的通信接口NIC链路断开等异常情况发生时,其NIC无法按照周期正常发送生命消息。由于在预定的时间内收不到NC_ALIVE_MSG,BNC终端的NC_ALIVE_WDT会首先超时,由此BNC首先感知到NC故障,它代替成为新的NC并周期广播发送NC_ALIVE_MSG消息。其它NT终端收到新的NC_ALIVE_MSG消息后也能获知NC切换的故障处理信息;
(5)交换机故障监控方法为:网络管理器NC接收交换机广播发送的SW_ALIVE_MSG消息后,解析提取网络终端的链路信息和交换机状态信息,并清除SW_ALIVE_WDT。若SW_ALIVE_WDT超时,则表明交换机发生故障,NC向上层应用上报交换机故障信息。
本发明具有的优点是:
1、提供一种有效的网络故障监控方法,为机载任务系统故障管理提供支撑;
2、应用模式灵活、组合性强,支持多层级的网络故障诊断;
3、易于实现、扩展性好,适用于不同网络规模的分布式交换网络系统。
附图说明
图1是机载交换网络拓扑示意图;
图2是机载交换网络级故障监控原理示意图。
具体实施方式
下面结合附图及具体实例对本发明做进一步的详细说明。
如图2所示,一种机载交换网络故障监控方法基于一组WDT看门狗定时器、一组TIMER周期定时器以及一组网络消息,如表1和表2所示。
表1
Figure GDA0002824719200000031
表2
Figure GDA0002824719200000032
表1中所述的看门狗定时器需有硬件支持,定时器可以是硬件逻辑实现的定时器也可以是软件实现的周期任务,网络消息用于实现全网络状态信息的收集和共享。表1中第2列为实际使用中定时器时间设置参考值。
表2中网络消息说明如下:
由NC负责收集、维护全部网络设备状态信息,并周期广播至网络内所有设备实现全网络状态信息共享。状态信息主要包括两部分:
网络终端链路状态,由网络中的交换机按照SW_ALIVE_TIMER(见图2中SW交换机)所设置的值周期地广播发送SW_ALIVE_MSG汇报全网,0代表终端链路断开,1代表终端链路正常;并由NC负责解析和维护;
网络终端通信状态,由驱动软件定义的上层状态信息,用以表明终端是否处于可通信状态。定义该状态的原因为,单纯地依靠链路信息,无法判断网络终端的主机CPU是否正常。为此,网络终端在正常初始化完成后,由终端的主机CPU主动地向NC上报状态,NC将该终端的通信状态置为1。
NC依据终端的链路状态和通信状态维护网络状态,并按照NC_ALIVE_TIMER(见图2中NC终端)所设置的值周期地广播发送NC_ALIVE_MSG,向全网汇报其收集到的网络状态信息,其它终端只接收并解析获取该信息。
一种网络设备故障的监控方法,详细实现过程为:
1、终端内部故障监控
终端内部状态监控通过主机HOST与通信接口NIC相互获取对方生命信息的方式实现双向健康监控(见图2中的网络终端),此功能适用于所有类型的网络终端,具体实现为:
a.主机HOST设置监控NIC看门狗定时器NIC_ALIVE_WDT;通信接口NIC设置监控HOST的看门狗定时器HOST_ALIVE_WDT;
b.通信接口NIC按照NIC_ALIVE_TIMER设置值周期地清除NIC_ALIVE_WDT;
c.主机HOST按照HOST_ALIVE_TIMER设置值启动周期任务或者定时器周期地清除HOST_ALIVE_WDT;
d.若主机HOST发现NIC_ALIVE_WDT超时狗叫,则上报上层应用;
e.若通信接口NIC发现HOST_ALIVE_WDT超时,则表明HOST故障,NIC禁止本终端的通信功能。
2、网络故障监控
网络故障涉及NC故障、NT故障以及交换机故障。其故障监控基于NC端设置的SW_ALIVE_WDT和NC_ALIVE_TIMER,BNC和NT设置的NC_ALIVE_WDT以及两种网络消息SW_ALIVE_MSG和NC_ALIVE_MSG共同实现。具体实施过程为:
1)NT故障监控
NT故障分为主机故障和NIC链路故障两种情况,处理过程为:
a主机故障
NT终端依据内部状态监控机制监控到主机故障,其通信接口NIC主动发送通信故障信息至网络管理器NC,并将自身置为不可通信状态。NC收到该NT终端发送的故障信息后,在下一个广播周期通报全网络,其它终端由此获知NT终端发生故障。
b.NIC链路故障
网络交换机通过物理端口状态获知与其连接的终端的链路状态,按照SW_ALIVE_TIMER设置值周期地广播发送SW_ALIVE_MSG消息,向全网络汇报终端的链路状态信息。NC接收并解析处理该消息,若发现有某些终端链路断开,则通过NC_ALIVE_MSG通报全网络其它终端。
2)NC故障监控
NC按照NC_ALIVE_TIMER(如图2中NC终端所示)设置值周期地广播发送NC_ALIVE_MSG,其中包含NC所维护的全网络状态信息,BNC和NT在收到该消息后,提取全网络状态信息,并清除自身的NC_ALIVE_WDT。
网络监控看门狗定时器时间设置要求为:NC_ALIVE_TIMER值小于BNC的NC_ALIVE_WDT值,BNC的NC_ALIVE_WDT值小于NT的NC_ALIVE_WDT值。如表1所示,实际使用中参考设置为:NC_ALIVE_TIMER设置为50ms,BNC的NC_ALIVE_WDT设置为100ms,NT的NC_ALIVE_WDT设置为200ms。
当NC终端内部状态监控到故障或者其NIC链路断开等异常情况发生时,导致NIC无法按照周期正常发送生命消息。由于在预定的时间内收不到NC_ALIVE_MSG,BNC终端的NC_ALIVE_WDT会首先超时,由此BNC首先感知到NC故障,它代替成为新的NC并周期广播发送NC_ALIVE_MSG消息。其它NT终端收到新的NC_ALIVE_MSG消息后也能获知NC切换的故障处理信息。
3)交换机故障监控
NC除了依据SW_ALIVE_MSG判断网络终端的链路状态信息以外,还通过设置SW_ALIVE_WDT监控交换机状态,其过程为:
NC接收交换机广播发送的SW_ALIVE_MSG消息后,解析提取终端的链路信息和交换机状态信息,并清除SW_ALIVE_WDT。若SW_ALIVE_WDT超时,则表明交换机发生故障,NC向上层应用上报交换机故障信息。

Claims (1)

1.一种机载交换网络设备故障监控方法,其特征是,本方法基于一组WDT看门狗定时器、一组TIMER周期定时器以及一组网络消息,其中,
WDT看门狗定时器包括:
a.主机健康监控看门狗HOST_ALIVE_WDT;
b.通信接口健康监控看门狗NIC_ALIVE_WDT;
c.网络管理器健康监控看门狗NC_ALIVE_WDT;
d.交换机健康监控看门狗SW_ALIVE_WDT;
TIMER周期定时器包括:
a.主机周期喂狗定时器HOST_ALIVE_TIMER;
b.通信接口周期喂狗定时器NIC_ALIVE_TIMER;
c.网络管理器周期喂狗定时器NC_ALIVE_TIMER;
d.交换机周期喂狗定时器SW_ALIVE_TIMER;
其中,WDT看门狗定时器需有硬件支持,TIMER定时器可以是硬件逻辑实现的定时器也可以是由软件实现的周期任务;
网络消息包括:
a.交换机链路状态汇报消息SW_ALIVE_MSG;
b.网络状态汇报消息NC_ALIVE_MSG;
本方法包括以下步骤:
(1)通过主机HOST与通信接口NIC相互获取对方生命信息的方式实现任意终端节点内部健康状态双向监控;
(2)网络终端NT对应的主机HOST故障由终端内部故障监控机制感知,其通信接口NIC主动发送通信故障信息至网络管理器NC,并将自身置为不可通信状态;网络管理器NC收到该NT终端发送的故障信息后,在下一个广播周期通过NC_ALIVE_MSG通报全网络,其它终端由此获知NT终端发生故障;
(3)网络终端NT对应的NIC故障由交换机感知并通报,网络交换机通过物理端口状态获知与其连接的NT终端的链路状态,并按照SW_ALIVE_TIMER设置值周期地广播发送SW_ALIVE_MSG消息,向全网络汇报该NT终端的链路状态信息;网络管理器NC接收并解析处理该消息,若发现有终端的链路断开,则通过NC_ALIVE_MSG通报全网络,其它终端由此获知NT终端发生故障;
(4)网络管理器NC节点故障监控实现方法为:网络管理器NC按照NC_ALIVE_TIMER设置值周期地广播发送NC_ALIVE_MSG,其中包含NC所维护的全网络状态信息,备份网络管理器BNC和网络终端NT在收到该消息后,提取全网络状态信息,并清除自身的NC_ALIVE_WDT;当网络管理器NC内部状态监控到故障或者其对应的通信接口NIC链路断开等异常情况发生时,其NIC无法按照周期正常发送生命消息;由于在预定的时间内收不到NC_ALIVE_MSG,BNC终端的NC_ALIVE_WDT会首先超时,由此BNC首先感知到NC故障,它代替成为新的NC并周期广播发送NC_ALIVE_MSG消息;其它NT终端收到新的NC_ALIVE_MSG消息后也能获知NC切换的故障处理信息;
(5)交换机故障监控方法为:网络管理器NC接收交换机广播发送的SW_ALIVE_MSG消息后,解析提取网络终端的链路信息和交换机状态信息,并清除SW_ALIVE_WDT;若SW_ALIVE_WDT超时,则表明交换机发生故障,NC向上层应用上报交换机故障信息。
CN201611140895.4A 2016-12-12 2016-12-12 一种机载交换网络设备故障监控方法 Active CN108234154B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611140895.4A CN108234154B (zh) 2016-12-12 2016-12-12 一种机载交换网络设备故障监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611140895.4A CN108234154B (zh) 2016-12-12 2016-12-12 一种机载交换网络设备故障监控方法

Publications (2)

Publication Number Publication Date
CN108234154A CN108234154A (zh) 2018-06-29
CN108234154B true CN108234154B (zh) 2021-04-20

Family

ID=62637950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611140895.4A Active CN108234154B (zh) 2016-12-12 2016-12-12 一种机载交换网络设备故障监控方法

Country Status (1)

Country Link
CN (1) CN108234154B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109445980B (zh) * 2018-12-04 2023-09-05 中国航空工业集团公司西安航空计算技术研究所 一种基于x86架构的民用机载模块看门狗设计方法
CN112532454B (zh) * 2020-11-30 2023-05-26 西安云维智联科技有限公司 一种fc交换网络系统网络管理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111306A (zh) * 2009-12-23 2011-06-29 杭州华三通信技术有限公司 基于以太网的光纤通道虚链路故障检测方法、系统和装置
CN103595728A (zh) * 2013-11-25 2014-02-19 浙江大学城市学院 一种保障网络设备安全可靠的系统和方法
CN104468217A (zh) * 2014-12-09 2015-03-25 中国航空工业集团公司第六三一研究所 一种1394网络管理者故障下的网络重建方法
CN204425370U (zh) * 2014-12-09 2015-06-24 中国航空工业集团公司第六三一研究所 一种fc交换机监控电路

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7898383B2 (en) * 2006-03-13 2011-03-01 The Boeing Company System and method for detecting security violation
US8261134B2 (en) * 2009-02-02 2012-09-04 Cray Inc. Error management watchdog timers in a multiprocessor computer

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111306A (zh) * 2009-12-23 2011-06-29 杭州华三通信技术有限公司 基于以太网的光纤通道虚链路故障检测方法、系统和装置
CN103595728A (zh) * 2013-11-25 2014-02-19 浙江大学城市学院 一种保障网络设备安全可靠的系统和方法
CN104468217A (zh) * 2014-12-09 2015-03-25 中国航空工业集团公司第六三一研究所 一种1394网络管理者故障下的网络重建方法
CN204425370U (zh) * 2014-12-09 2015-06-24 中国航空工业集团公司第六三一研究所 一种fc交换机监控电路

Also Published As

Publication number Publication date
CN108234154A (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
US6651190B1 (en) Independent remote computer maintenance device
CN101083698B (zh) 监视装置
US20050108389A1 (en) Network endpoint health check
CN102170342B (zh) 一种高冗余配置下的iec104通信主备切换方法
CN109597723A (zh) 用于地铁综合监控系统的双机热备冗余实现系统及方法
CN103944746A (zh) 一种双机热备的方法及装置
CN104320311A (zh) 一种scada分布式平台下的心跳检测方法
CN102394787A (zh) 基于epa交换机的双链路冗余控制方法
CN112468592B (zh) 一种基于电力信息采集的终端在线状态侦测方法及系统
CN112422684B (zh) 目标消息的处理方法及装置、存储介质、电子装置
CN108234154B (zh) 一种机载交换网络设备故障监控方法
CN208227042U (zh) 一种服务器实时自动故障报警装置
CN102932183A (zh) 双上行链路故障处理方法及设备
CN109286525B (zh) 一种基于mqtt通讯和主备之间心跳的双机备份方法
CN103036724B (zh) 状态信息传输方法、网络设备及组合设备
CN101980478B (zh) 设备故障的检测处理方法、装置和网络设备
CN103067205B (zh) 同一主机管理下共用同一地址的rt与备份rt切换方法
CN113708967B (zh) 一种系统监测容灾预警装置及预警方法
US10394671B2 (en) Fault-tolerant, serviceable automation system
CN204633800U (zh) 一种管理单元和交换单元双冗余的交换机
CN116055297A (zh) 分布式存储节点宕机后的软硬件结合的自愈方法及系统
CN101674201A (zh) 一种主动触发以太网交换机集群主备切换的方法
CN104869012A (zh) 基于电网调度电话综合告警监测系统及其方法
CN103944781A (zh) 一种防止堆叠系统单边分裂的方法及系统
CN104135411A (zh) 一种基于rs232接口多节点通信的实现装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant