CN101009684B - 分布式系统中单板工作状态监控装置及方法 - Google Patents

分布式系统中单板工作状态监控装置及方法 Download PDF

Info

Publication number
CN101009684B
CN101009684B CN2007100083396A CN200710008339A CN101009684B CN 101009684 B CN101009684 B CN 101009684B CN 2007100083396 A CN2007100083396 A CN 2007100083396A CN 200710008339 A CN200710008339 A CN 200710008339A CN 101009684 B CN101009684 B CN 101009684B
Authority
CN
China
Prior art keywords
veneer
signal
working state
state
state signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007100083396A
Other languages
English (en)
Other versions
CN101009684A (zh
Inventor
李秀中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Technologies Co Ltd
Original Assignee
Hangzhou H3C Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou H3C Technologies Co Ltd filed Critical Hangzhou H3C Technologies Co Ltd
Priority to CN2007100083396A priority Critical patent/CN101009684B/zh
Publication of CN101009684A publication Critical patent/CN101009684A/zh
Application granted granted Critical
Publication of CN101009684B publication Critical patent/CN101009684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

应用于分布式系统中的单板工作状态监控装置及方法,以使该系统中的一个单板能够快速感知另一个单板的工作状态是否正常并及时处理其中不正常情况;该装置包括配置于所述另一个单板中、用于输出所述另一个单板的工作状态信号至所述一个单板的状态监测器,及配置于所述一个单板中、用于根据所述工作状态信号判定所述另一个单板工作状态不正常后通知CPU中断与所述另一个单板通信的中断产生器;该方法逻辑操作所述另一个单板的各检测信号以产生所述工作状态信号,并根据所述工作状态信号判定所述另一个单板的工作状态。本发明不仅能实时处理单板被拔出、软件故障、复位、重启等不正常状态,同时还因较少占用CPU资源而有效提高整体系统性能。

Description

分布式系统中单板工作状态监控装置及方法
技术领域
本发明涉及分布式系统,尤其涉及分布式系统中单板工作状态的监控装置及方法。
背景技术
在诸如高端路由器、高端交换机之类的大型处理设备中,基本上都采用分布式系统来提高设备的处理能力。并且,分布式系统的常用架构可参见图1。
如图1所示,在常用分布式系统10中,连接板100用来连接多个单板200#A、200#B、200#C、…、200#M、及200#N,使得各单板200#A、200#B、200#C、…、200#M、及200#N可通过连接板100进行相互通信;同时,各单板200#A、200#B、200#C、…、200#M、及200#N也可通过连接板100获得电源、在位信号等。
其中,根据分布式系统10的不同,连接板100可能被称为背板、或母板等。而各单板200#A、200#B、200#C、…、200#M、及200#N可能具有相同功能,也可能因具体分工而具有不同功能。比如,当某单板200#A的主要功能是完成控制层面的操作时,根据分布式系统10的不同其可能被称为主控板、主处理单元、或主CPU(Central Processing Unit)卡等;而当某单板200#A的主要功能是完成执行层面的操作时,根据分布式系统10的不同其可能被称为子卡、线路板、或从处理单元等。
为了提高分布式系统的可靠性,现有技术已实现了单板的冗余备份,使得该分布式系统能够在某单板损坏时自动倒换至其他状态正常的单板上工作。而为了在更换、新加载、或卸载某单板时不影响其他单板的正常工作,所述单板一般都实现有热插拔功能。
在分布式系统中,由于各单板分工协作共同完成整个系统功能,因此在很多情况下某单板需要知道其他部分或全部单板是否工作正常。比如,当某单板处于被拔出、复位、启动、或软件故障等不正常工作状态时,其他部分或全部单板应当能够感知该单板的工作状态,从而可以采取相应的处理措施。
于是,某单板如何知道其他单板是否工作正常,现有技术通常采用握手检测机制,也即:单板之间通过软件定时发送握手报文来相互感知对方感知工作状态。参照图1举例来说,假设单板200#A每隔1个间隔时间T1(比如,10秒)向单板200#B发送1个握手报文,如果单板200#B在预定的等待时间T2(比如12秒)内收到单板200#A的握手报文则判定单板200#A工作状态正常,反之则判定单板200#A工作状态不正常。同理,假设单板200#B每隔1个间隔时间T3(比如5秒)向单板200#A发送1个握手报文,如果单板200#A在预定的等待时间T4(比如7秒)内收到单板200#B的握手报文则判定单板200#B工作状态正常,反之则判定单板200#B工作状态不正常。
上述用于感知分布式系统中各单板间工作状态是否正常的握手检测机制存在诸多缺点,下面将继续以所述单板200#A和单板200#B为例逐一进行说明:
首先,由于握手报文的处理是通过软件形式实现的,这将占用CPU资源,尤其在所述间隔时间T1或T3较小时将严重侵占CPU的处理资源,从而严重恶化系统整体性能。因此,现有技术中一般都设置比较长的间隔时间T1或T3,比如10秒、20秒、甚或更长。
其次,当所述单板200#A或单板200#B被拔出、或其上软件发生故障、或由于故障发生重启、或由于某种原因发生复位时,检测方均需要最少等待预定的等待时间T2或T4才能判定被检测方的工作状态不正常。也就是说,所述握手检测机制的实时性较差,并因此将导致后续保护倒换等措施的处理不及时。
发明内容
有鉴于此,本发明目的在于提供一种分布式系统中单板工作状态监控装置及方法,以解决现有握手检测机制的技术方案严重占用CPU资源、及对单板被拔出、单板软件故障、单板复位、单板重启等不正常工作状态感知不及时的问题。
为了达到上述目的,本发明提供一种单板工作状态监控装置,其应用在分布式系统中,以使该系统中的一个单板能够快速感知另一个单板的工作状态是否正常并及时处理其中不正常情况;该装置包括有:状态监测器,其配置于所述另一个单板中,用于根据所述另一个单板的各种检测信号产生所述另一个单板的工作状态信号,并将该工作状态信号发送至所述一个单板;以及中断产生器,其配置于所述一个单板中,用于根据所述工作状态信号判定所述另一个单板的工作状态为正常或不正常,并在出现不正常判定时对相应的不正常情况进行处理。
对于上述单板工作状态监控装置,所述中断产生器对不正常工作状态的处理方式有多种,其中之一为主动触发式:即所述中断产生器包括有中断触发器,用于在判定所述另一个单板的工作状态不正常后产生中断信号,并将该中断信号主动发送至所述一个单板中的CPU,使得该CPU能够及时进入相应的中断处理程序以进行相关处理;其中之二为被动查询式,即所述中断产生器包括有状态寄存器,用于根据所述工作状态信号记录所述另一个单板的工作状态为正常或不正常,以供所述一个单板中的CPU定时查询,使得该CPU能够根据其中的记录判定所述另一个单板的工作状态为正常或不正常。
对于上述单板工作状态监控装置,优选地,所述状态监测器包括有与门,所述与门用于接收所述另一个单板的各种检测信号,对所述各种检测信号进行逻辑与操作以产生所述工作状态信号、并将所述工作状态信号发送至所述中断产生器,且其中所述工作状态信号的正常值为高电平;或者,所述状态监测器包括有或门,所述或门用于接收所述另一个单板的各种检测信号,对所述各种检测信号进行逻辑或操作以产生所述工作状态信号、并将所述工作状态信号发送至所述中断产生器,其中所述工作状态信号的正常值为低电平。
对于上述单板工作状态监控装置,进一步优选地,所述状态监测器还包括有非门,用于在所述工作状态信号正常值为高电平时,对所述另一个单板中正常值为低电平的各种检测信号进行逻辑非操作后再输入所述与门;或者,在所述工作状态信号正常值为低电平时,对所述另一个单板中正常值为高电平的各种检测信号进行逻辑非操作后再输入所述或门。
对于上述单板工作状态监控装置,优选地,所述中断产生器中用于接收所述工作状态信号的输入端连接有电阻,且该电阻的另一端在所述工作状态信号正常值为高电平情况下接地、或者在所述工作状态信号正常值为低电平情况下接某一固定高电平。这样,当所述另一个单板被拔出时,所述正常值为高电平的工作状态信号将被下拉到地、或所述正常值为低电平的工作状态信号将被上拉至所述固定高电平,从而使得所述一个单板能够及时通过该电平变化感知所述另一个单板的工作状态不正常,并进而能够进行相关处理。
对于上述单板工作状态监控装置,优选地,所述状态监测器还包括有监控电路,主要实现所述另一个单板的单板系统复位、看门狗、电压监控等功能:当接收到有效的单板系统复位输入信号MR时,所述监控电路会将对应的复位信号RESET置为非正常值后输出;和/或当看门狗输入信号WDI在预定时间内没有触发时,所述监控电路会将对应的看门狗输出信号WDO置为非正常值后输出。并且,进一步优选地,所述监控电路可选用ADM706、DS1232、MAX1232D等多种商业芯片,也可以是开发者自己设计的实现相应功能的电路。
对于上述单板工作状态监控装置,优选地,所述状态监测器与所述中断产生器之间还插接有驱动电路,用于接收所述状态监测器输出的所述工作状态信号,并将其放大后再发送至所述中断产生器。此外,进一步优选地,所述驱动电路可选用244、245等多种商业芯片。
同时,本发明还提供一种单板工作状态监控方法,其应用在分布式系统中,以使该系统中的一个单板能够快速感知另一个单板的工作状态是否正常并及时处理其中不正常情况。该方法包括有:
步骤S 1,获得所述另一个单板的各种检测信号;
步骤S2,逻辑操作所述各种检测信号,以产生所述另一个单板的工作状态信号并发送至所述一个单板;
步骤S3,所述一个单板根据所述工作状态信号是否为正常值判定所述另一个单板的工作状态为正常或不正常。
对于上述单板工作状态监控方法,优选地,当所述一个单板判定所述另一个单板的工作状态为不正常时,所述一个单板执行对相应不正常情况进行处理的步骤S3N,且所述步骤S3N可能具体包括有下列步骤:
步骤S3N1-1,所述一个单板中的中断触发器产生中断信号,并将该中断信号发送至所述一个单板中的CPU;
步骤S3N1-2,根据所述中断信号,所述一个单板中的CPU进入相应的中断处理程序,以对所述不正常情况进行相关处理。
对于上述单板工作状态监控方法,优选地,所述步骤S3N还可能具体包括有下列步骤:
步骤S3N2-1,所述一个单板中的状态寄存器更改其中所述另一个单板工作状态的记录为不正常;
步骤S3N2-2,所述一个单板中的CPU定时查询所述状态寄存器,并根据其中的记录判定所述另一个单板的工作状态为正常或不正常,并对所述不正常情况进行相关处理。
本发明的有益效果有,应用上述单板工作状态监控装置及方法于某分布式系统中时,不仅使得该系统某一单板能够实时处理其他单板被拔出、软件故障、复位、重启等不正常的工作状态,同时还将因本发明技术方案较少占用CPU资源而有效提高该系统的整体性能。
附图说明
图1为现有技术中分布式系统的结构示意图;
图2为分布式系统应用本发明单板工作状态监控装置的结构示意图;
图3为本发明单板工作状态监控装置中状态监测器的第一优选实施例的结构示意图;
图4为本发明单板工作状态监控装置中状态监测器的第二优选实施例的结构示意图;
图5为本发明单板工作状态监控装置中中断产生器的第一优选实施例的结构示意图;
图6为本发明单板工作状态监控装置中中断产生器的第二优选实施例的结构示意图;
图7为分布式系统应用本发明单板工作状态监控方法的流程示意图。
具体实施方式
如上所述,本发明提供一种分布式系统中单板工作状态监控装置及其相应方法,下面将参照附图详细介绍本发明优选实施例。
如图2所示,本发明所提供应用于分布式系统20的单板工作状态监控装置包括有状态监测器230和中断产生器220,其中:
所述状态监测器230被配置于分布式系统20中需要被其他单板感知其工作状态的单板200中,所述需要被其他单板感知其工作状态的单板也就是前述发明内容部分所称的另一个单板。具体参照图2所示实施例而言,状态监测器230#A、230#C、…、及230#M,分别被配置于分布式系统20中需要被感知工作状态的单板200#A、200#C、…、及200#M中,用于分别根据所述单板200#A、200#C、…、及200#M的各种检测信号WDO、RESET、…、RUN产生所述200#A、200#C、…、及200#M的工作状态信号S#A、S#C、…、S#M,并将所述工作状态信号S#A、S#C、…、S#M分别发送至需要感知其单板工作状态的单板200#B、…、及200#N。
所述中断产生器220被配置于分布式系统20中需要感知其他单板工作状态的单板200中,所述需要感知其他单板工作状态的单板也就是前述发明内容部分所称的一个单板。具体参照图2所示实施例而言,中断产生器220#B、…、及220#N,分别被配置于分布式系统20中需要感知其他单板工作状态的单板200#B、…、及200#N中,用于分别根据所述工作状态信号S#A、S#C、…、S#M是否为正常值来判定所述被感知工作状态的单板200#A、200#C、…、及200#M的工作状态为正常或不正常。
综上所述,在图2中单板200#B、…、及200#N需要快速感知单板200#A、200#C、…、及200#M是否处于正常工作状态,则分别在单板200#A、200#C、…、及200#M中增加相应的状态监测器230#A、230#C、…、及230#M,同时在单板200#B、…、及200#N中增加相应的中断产生器220#B、…、及220#N。并且,本领域技术人员应能理解,图2仅作范例使用,实际应用本发明中具体感知和被感知单板的数量及编号可根据图2所示原理进行任意扩展或裁减。
同时,本领域技术人员还应能理解,所述单板200的各种检测信号可包括有上述已列举的看门狗输出信号WDO(WatchDog Output)、单板系统复位信号RESET、单板启动信号RUN等,还可包括有其他检测信号以检测其他可能引发单板工作状态不正常的因素。
对于上述本发明所提供单板工作状态监控装置,图3所示为其中所述状态监测器230的第一优选实施例的结构示意图。且如图3所示,该状态监测器230包括有与门231、监控电路232、及驱动电路233。
其中监控电路232,主要实现该单板200的单板系统复位、看门狗、电压监控等功能:当接收到有效的单板系统复位输入信号MR时,所述监控电路232则将对应的复位信号RESET置为非正常值低电平后输出至所述与门231;当看门狗输入信号WDI在预定时间内没有触发时,所述监控电路232则将对应的看门狗输出信号WDO置为非正常值低电平后输出至所述与门231。并且,优选地,所述监控电路232可选用ADM706、DS1232、MAX1232D等多种商业芯片,也可以是开发者自己设计的实现相应功能的电路。
其中与门231用于接收该状态监测器230所处单板200的各种检测信号WDO、RESET、…、RUN,对所述各种检测信号WDO、RESET、…、RUN进行逻辑与操作以产生该单板200的工作状态信号S之后,输出该工作状态信号S以使得其他单板200能够根据该工作状态信号S判断该单板200的工作状态是否正常。
而且,为了使得所述各种检测信号WDO、RESET、…、RUN中任一出现不正常均能由所述工作状态信号S正确反映出来,所述工作状态信号的正常值被设定为高电平。也就是说,输入所述与门231的各种检测信号WDO、RESET、…、RUN等的正常值均为高电平,其中任一出现不正常低电平均将使得所述工作状态信号S相应地由正常值高电平改变为非正常值低电平。
当然,本领域技术人员应能作如下延伸:即所述状态监测器230还可以包括有非门235(用虚线框标识),用于对该单板200中正常值为低电平的各种检测信号(比如WDO)进行逻辑非操作后再输入所述与门231。
其中驱动电路233与所述与门231相连,用于提高所述与门231输出的所述工作状态信号S的驱动能力。本领域技术人员应能理解,多种诸如244、245之类的商业芯片均可用作所述驱动电路233;并且,对于本发明而言,只要能够达到放大所述工作状态信号S的目的,所述驱动电路233既可如图3所示以串接在所述与门231之后的方式配置于该被感知单板中,也可以串接在前述中继产生器220之前的方式配置于感知单板中。
对于上述本发明所提供单板工作状态监控装置,图4所示为其中所述状态监测器230的第二优选实施例的结构示意图。且如图4所示,该状态监测器230包括有或门234、监控电路232、及驱动电路233。
其中监控电路232和驱动电路233的主要功能及技术细节,可参考前述状态监测器230第一优选实施例中的相关说明,故在此不再赘述。
其中或门234,用于接收该状态监测器230所处单板200的各种检测信号WDO、RESET、…、RUN,对所述各种检测信号WDO、RESET、…、RUN进行逻辑或操作以产生该单板200的工作状态信号S之后,输出该工作状态信号S以使得其他单板200能够根据该工作状态信号S判断该单板200的工作状态是否正常。
而且,为了使得所述各种检测信号WDO、RESET、…、RUN中任一出现不正常均能由所述工作状态信号S正确反映出来,所述工作状态信号S的正常值被设定为低电平。也就是说,输入所述或门234的各种检测信号WDO、RESET、…、RUN等的正常值均为低电平,其中任一出现不正常高电平均将使得所述工作状态信号S相应地由正常值低电平改变为非正常值高电平。
类似地,本领域技术人员应能作如下延伸:即所述状态监测器230还可以包括有非门235(用虚线框标识),用于对该单板200中正常值为高电平的各种检测信号(比如RUN)进行逻辑非操作后再输入所述或门234。
总之,本发明构建所述状态监测器230的原理在于:利用与、或、非等逻辑门对被感知工作状态单板200的各种检测信号进行逻辑操作,以产生相应的、可反映该单板200工作状态是否正常的工作状态信号S;并且,对所述逻辑操作的要求是,所述各种检测信号中任一出现不正常均能从所述工作状态信号S中反映出来。
因此,本领域技术人员应能理解,图3及图4所示优选实施例仅用于示范性解释本发明原理,实际应用本发明单板工作状态监控装置时所述状态监测器230的具体实施方案并不局限于此。
对于上述本发明所提供单板工作状态监控装置,图5所示为其中所述中断产生器220的第一优选实施例的结构示意图。且如图5所示,该中断产生器220包括有中断触发器221和下拉电阻R1,适用于输入所述中断产生器220(图5中具体实施为中断触发器221)的工作状态信号S正常值为高电平的情况。
所述中断触发器221,用于在分别根据所述工作状态信号S#A、S#C、…、S#M判定其中某单板工作状态不正常后产生中断信号,并将该中断信号主动发送至该中断产生器220所处单板中的CPU 210,使得该CPU 210能够及时根据该中断信号进入相应的中断处理程序以进行相关处理。
也就是说,应用图5所示中断产生器220(包括中断触发器221)的本发明单板工作状态监控装置,其采用主动触发方式来处理被感知单板的不正常工作状态。与现有技术中握手检测机制相比,其因不存在所述间隔时间T1或T3及所述等待时间T2或T4而有效提高了不正常工作状态处理的实时性。
同时,如图5所示,所述中断触发器221中用于接收所述工作状态信号S#A、S#C、…、S#M的各输入端,均优选地分别连接有一个下拉电阻R1,且所述下拉电阻R1的另一端接地。这样,假设单板200#A被拔出,则所述中断触发器221中用于输入该单板200#A相应工作状态信号S#A的输入端被悬空,将使得所述工作状态信号S#A的电平因下拉电阻R1的存在而被下拉到地,进而使得所述中断触发器221能够通过该电平变化(由正常值高电平改变为非正常值低电平)感知到单板200#A的工作状态不正常,并及时产生相应中断信号发送至CPU 210,从而使得所述CPU 210能够进入相应的中断处理程序以进行相关处理。
对于上述本发明所提供单板工作状态监控装置,图6所示为其中所述中断产生器220的第二优选实施例的结构示意图。且如图6所示,该中断产生器220包括有状态寄存器222和上拉电阻R2,适用于输入所述中断产生器220(图6中具体实施为状态寄存器222)的工作状态信号S正常值为低电平的情况。
所述状态寄存器222,用于根据所述工作状态信号S#A、S#C、…、S#M分别记录相应单板200#A、200#C、…、200#M的工作状态,以供该中断产生器220所处单板中的CPU 210定时查询,使得该CPU 210能够根据其中的记录判断单板200#A、200#C、…、200#M的工作状态为正常或不正常,并根据判定结果进行相关处理。
也就是说,应用图6所示中断产生器220(包括状态寄存器222)的本发明单板工作状态监控装置,其采用被动查询方式来判断被感知单板的工作状态是否正常。所述CPU 210定时地快速查询所述状态寄存器222,并根据其中的记录来判断相应被感知单板的工作状态是否正常。与上述主动触发方式相比,该被动查询方式因查询寄存器的指令非常少而更容易实现,同时还比现有握手检测机制的实时性要好。
同时,如图6所示,所述状态寄存器222中用于接收所述工作状态信号S#A、S#C、…、S#M的各输入端,均优选地分别连接有一个上拉电阻R2,且所述上拉电阻R2的另一端接固定高电平VCC。这样,假设单板200#C被拔出,则所述中断触发器221中用于输入该单板200#C相应工作状态信号S#C的输入端被悬空,将使得所述工作状态信号S#C的电平因上拉电阻R2的存在而被上拉至所述固定高电平VCC,进而使得所述状态寄存器222能够通过该电平变化(由正常值低电平变为非正常值高电平)感知到单板200#C的工作状态不正常后及时更改其中单板200#C工作状态记录为不正常,从而使得CPU 210能够通过定时查询所述状态寄存器222而获知所述单板200#C的工作状态为正常或不正常,并对其中不正常情况进行相关处理。
通过上述有关下拉电阻R1和上拉电阻R2主要功能及技术细节的介绍,本领域技术人员应能理解:所述下拉电阻R1和上拉电阻R2的主要功能相同,也即两者均是为处理单板200被拔出的不正常工作状态而设置;然而,所述下拉电阻R1和上拉电阻R2的技术细节存在不同,由于所述下拉电阻R1和所述上拉电阻R2分别针对所述工作状态信号S正常值为高电平和低电平两种情况,因此所述下拉电阻R1和所述上拉电阻R2中不与所述中断产生器220(可能为中断触发器221、也可能为状态寄存器222)相连的另一端分别接地和固定高电平。
总之,设置下拉电阻R1还是设置上拉电阻R2,并不取决于所述中断产生器220包括有中断触发器221还是状态寄存器222,而取决于输入所述中断产生器220的工作状态信号S的正常值为高电平还是低电平。
换句话说,实际应用本发明单板工作状态监控装置时,所述中断产生器220的具体实施方案并不局限于图5及图6所示优选实施例;用户完全可以根据实际工作状态信号S正常值为高电平/低电平,而相应地设置下拉电阻R1/上拉电阻R2。甚至,如果不考虑成本,用户还可利用非门对正常值为高电平的工作状态信号S进行逻辑非操作后再输入所述中断产生器220,并因此相应地设置上拉电阻R2;或者,利用非门对正常值为低电平的工作状态信号S进行逻辑非操作后再输入所述中断产生器220,并因此相应地设置下拉电阻R1。
同时,本发明还提供有上述单板工作状态监控装置的使用方法,并且以单板200#B感知单板200#A的工作状态为例,图7给出了该方法的大致流程图。如图7所示,该方法主要包括有下列步骤:
步骤S1,获取单板200#A的各种检测信号;
步骤S2,逻辑操作所述各种检测信号,以产生单板200#A的工作状态信号S#A,并将该工作状态信号S#A发送至单板200#B;
步骤S3,单板200#B根据所述工作状态信号S#A是否为正常值判定所述单板200#A的工作状态为正常或不正常,并在获得正常判定时继续监测、在获得不正常判定时执行对相应不正常情况进行处理的步骤S3N。
并且,对应于前述中断产生器220对不正常工作状态存在两种不同的处理方式,所述步骤S3N分别包括有不同的具体子步骤。
其中,对应于前述的主动触发方式,如图7所示,所述步骤S3N具体包括有下列步骤:
步骤S3N1-1,当获得所述不正常判定时,单板200#B中的中断触发器产生一个相应的中断信号,并将该中断信号发送至单板200#B中的CPU;
步骤S3N1-2,根据所述中断信号,单板200#B中的CPU进入相应的中断处理程序,以对所述不正常情况进行相关处理。
然而,对应于前述的被动查询方式,如图7所示,所述步骤S3N具体包括有下列步骤:
步骤S3N2-1,当获得所述不正常判定时,单板200#B中的状态寄存器更改相应单板200#A工作状态记录为不正常;
步骤S3N2-2,单板200#B中的CPU定时查询所述状态寄存器,并根据其中的记录来判断单板200#A工作状态为正常或不正常,并对不正常情况进行相关处理。
下面将以图2中单板200#B需要感知单板200#A的工作状态、且单板200#A中各种检测信号(包括有单板系统启动信号RUN、单板复位信号RESET、及单板看门狗输出信号WDO等)的正常值均被置为高电平为例,详细介绍上述本发明所提供单板工作状态监控装置及方法的实际应用,以进一步显示本发明相比现有技术的有益效果。
1)、在单板200#A中,单板系统启动信号RUN是该单板200#A系统启动后置位的,由于只需要执行几条指令,因此占用CPU的时间可以忽略不计;而看门狗输出信号WDO和单板系统复位信号RESET在现有技术中已被使用,并不会增加额外的CPU资源。也就是说,单板200#A中所述状态监测器230#A对所述单板200#A中各种检测信号的监测,不仅不会增加额外的CPU资源占用,反而还能将现有握手检测机制中因所述间隔时间较小而严重侵占的CPU处理资源节省下来。
2)、当单板200#A发生软件故障时,也即单板200#A中看门狗输入信号WDI(WatchDog Input)不能进行及时翻转时,将会使得看门狗输出信号WDO变为低电平,相应地引起工作状态信号S#A由正常值高电平变为非正常值低电平。
在从而使得,当单板200#B中采用主动触发方式时,则其中CPU能够立刻感知到单板200#A的不正常工作状态,并立刻进行相应的中断处理。与现有技术相比,所述主动触发方式至少节省了所述握手检测技术中的等待时间T2或T4,从而有效提高了不正常工作状态监控的实时性。
然而,当单板200#B采用被动状态查询方式时,假设其中CPU每隔1个查询时间T5(比如10秒)快速查询1次所述状态寄存器222中记录,则该CPU最迟将在工作状态信号S#A发生变化后所述查询时间T5时刻感知到单板200#A的不正常工作状态,并立刻进行相应的中断处理。与上述主动触发方式相比,所述被动查询方式虽然实时性有所降低(最多等待1个所述查询时间T5),但却由于处理机制简单(查询寄存器的指令非常少)而更容易实现;此外,与现有技术相比,所述被动查询方式的实时性相比握手检测技术有所提高(最多等待1个所述查询时间T5VS.最少等待1个所述等待时间T2或T4),同时还将因较少占用CPU处理资源而使得相应单板的系统整体性能有所改善。
3)、同理2),当单板200#A因发生故障而系统重启时,单板系统启动信号RUN会变为低电平,相应地引起工作状态信号S#A由正常值高电平变为非正常值低电平。从而使得在单板200#B中采用主动触发或被动查询的方式,均可使得其中CPU快速感知到单板200#A的不正常工作状态,并立刻进行相应的中断处理。
4)、同理2)和3),当单板200#A发生复位时,单板系统复位信号RESET会变为低电平,相应地引起工作状态信号S#A由正常值高电平变为非正常值低电平。从而使得在单板200#B中采用主动触发或被动查询的方式,均可使得其中CPU快速感知到单板200#A的不正常工作状态,并加以及时的中断处理。
5)、然而,当单板200#A被拔出时,则单板200#B上工作状态信号S#A的输入端被悬空。这时,单板200#B中所述下拉电阻R将把所述工作状态信号S#A下拉到地,也就使得该工作状态信号S#A由正常值高电平变为非正常值低电平,从而使得单板200#B中CPU可通过主动触发或被动查询的方式快速感知到单板200#A的不正常工作状态,并进行相应的处理。
值得一提的是,在实际应用中,本发明还可与现有技术中的握手检测机制联合使用。举例来说,为了降低现有握手检测机制对CPU资源的侵占,可以在所述握手检测机制中设置较长的间隔时间和/或等待时间(比如20秒),同时利用本发明技术方案进行实时和短时间的不正常检测。
综上所述,本发明不仅使得应用本发明的分布式系统中任一单板能够实时处理其他单板被拔出、软件故障、复位、重启等不正常的工作状态,同时还将因其较少占用CPU资源而能够有效提高整个分布式系统的整体性能。
需要声明的是,上述发明内容及具体实施方式意在证明本发明所提供技术方案的实际应用,不应解释为对本发明保护范围的限定。本领域技术人员在本发明的精神和原理内,当可作各种修改、等同替换、或改进。本发明的保护范围以所附权利要求书为准。

Claims (7)

1.一种单板工作状态监控装置,应用在分布式系统中,以使该系统中的一个单板能够快速感知另一个单板的工作状态是否正常并及时处理其中不正常情况;其特征在于,该装置包括有:
状态监测器,其配置于所述另一个单板中,用于逻辑操作所述另一个单板的各种检测信号以产生所述另一个单板的工作状态信号,并将该工作状态信号发送至所述一个单板;
中断产生器,其配置于所述一个单板中,包括有中断触发器,用于根据所述工作状态信号判定所述另一个单板的工作状态为正常或不正常,并在出现不正常判定时产生中断信号,并将该中断信号发送至所述一个单板中的CPU,以供该CPU以主动触发的方式判定另一单板的工作状态不正常,并在判定工作状态不正常时对相应的不正常情况进行处理,或包括有状态寄存器,用于根据所述工作状态信号记录所述另一个单板的工作状态为正常或不正常,以供所述一个单板中的CPU以被动查询方式判定所述另一个单板的工作状态正常或不正常,并在判定工作状态不正常时对相应的不正常情况进行处理。
2.如权利要求1所述的单板工作状态监控装置,其特征在于,所述状态监测器包括有与门,所述与门用于接收所述另一个单板的各种检测信号,对所述各种检测信号进行逻辑与操作以产生所述工作状态信号、并将所述工作状态信号发送至所述中断产生器,其中所述工作状态信号的正常值为高电平;
或者,所述状态监测器包括有或门,所述或门用于接收所述另一个单板的各种检测信号,对所述各种检测信号进行逻辑或操作以产生所述工作状态信号、并将所述工作状态信号发送至所述中断产生器,其中所述工作状态信号的正常值为低电平。
3.如权利要求2所述的单板工作状态检测装置,其特征在于,所述状态监测器还包括有非门,用于在所述工作状态信号正常值为高电平时,对所述另一个单板中正常值为低电平的各种检测信号进行逻辑非操作后再输入所述与门;或者,在所述工作状态信号正常值为低电平时,对所述另一个单板中正常值为高电平的各种检测信号进行逻辑非操作后再输入所述或门。
4.如权利要求1至3任一所述的单板工作状态监控装置,其特征在于,所述状态监测器包括有监控电路,用于至少监控所述另一个单板的系统复位状态和看门狗状态;
所述监控电路在接收到有效的单板系统复位输入信号(MR)时,将对应的复位信号(RESET)置为非正常值后输出;和/或所述监控电路当看门狗输入信号(WDI)在预定时间内没有触发时,将对应的看门狗输出信号(WDO)置为非正常值后输出。
5.如权利要求1至3任一所述的单板工作状态监控装置,其特征在于,所述中断产生器中用于接收所述工作状态信号的输入端连接有电阻,且该电阻的另一端在所述工作状态信号正常值为高电平时接地、或在所述工作状态信号正常值为低电平时接固定高电平。
6.如权利要求1至3任一所述的单板工作状态监控装置,其特征在于,所述状态监测器与所述中断产生器之间还插接有驱动电路,用于接收所述状态监测器输出的所述工作状态信号,并将其放大后再发送至所述中断产生器。
7.一种单板工作状态监控方法,应用在分布式系统中,以使该系统中的一个单板能够快速感知另一个单板的工作状态是否正常并及时处理其中不正常情况;其特征在于,该方法包括有:
步骤S1,获得所述另一个单板的各种检测信号;
步骤S2,逻辑操作所述各种检测信号,以产生所述另一个单板的工作状态信号并发送至所述一个单板;
步骤S3,所述一个单板根据所述工作状态信号是否为正常值判定所述另一个单板的工作状态为正常或不正常;
当所述一个单板判定所述另一个单板的工作状态为不正常时,所述一个单板执行对相应不正常情况进行处理的步骤S3N,且所述步骤S3N具体为:
步骤S3N1-1,所述一个单板中的中断触发器产生中断信号,并将该中断信号发送至所述一个单板中的CPU;
步骤S3N1-2,根据所述中断信号,所述一个单板中的CPU进入相应的中断处理程序,以对所述不正常情况进行相关处理;
或者当所述一个单板判定所述另一个单板的工作状态为不正常时,所述一个单板执行对相应不正常情况进行处理的步骤S3N’,且所述步骤S3N’具体为:
步骤S3N2-1,所述一个单板中的状态寄存器更改其中记录为不正常;
步骤S3N2-2,所述一个单板中的CPU定时查询所述状态寄存器,并根据其中的记录判定所述另一个单板的工作状态为正常或不正常,并对所述不正常情况进行相关处理。
CN2007100083396A 2007-01-29 2007-01-29 分布式系统中单板工作状态监控装置及方法 Active CN101009684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007100083396A CN101009684B (zh) 2007-01-29 2007-01-29 分布式系统中单板工作状态监控装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007100083396A CN101009684B (zh) 2007-01-29 2007-01-29 分布式系统中单板工作状态监控装置及方法

Publications (2)

Publication Number Publication Date
CN101009684A CN101009684A (zh) 2007-08-01
CN101009684B true CN101009684B (zh) 2011-06-22

Family

ID=38697816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007100083396A Active CN101009684B (zh) 2007-01-29 2007-01-29 分布式系统中单板工作状态监控装置及方法

Country Status (1)

Country Link
CN (1) CN101009684B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521103A (zh) * 2011-12-10 2012-06-27 山东明佳包装检测科技有限公司 一种程序和pc机状态监控的方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101695029B (zh) * 2009-10-22 2012-05-30 成都市华为赛门铁克科技有限公司 数据备份方法、主从倒换方法及通信系统以及相关设备
CN101917227B (zh) * 2010-08-27 2015-08-12 中兴通讯股份有限公司 传送节点资源状态信息的处理方法及装置
US20150120906A1 (en) * 2013-10-28 2015-04-30 International Business Machines Corporation Agentless baseline profile compilation for application monitoring solution
CN105786632B (zh) * 2014-12-25 2020-06-09 中兴通讯股份有限公司 掉电保护方法、装置及其系统
CN106649168B (zh) * 2015-10-29 2019-11-26 佛山市顺德区顺达电脑厂有限公司 判断是否发生热插拔的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1494228A (zh) * 2002-11-02 2004-05-05 华为技术有限公司 一种实现单板主备倒换的方法及其电路
CN1585500A (zh) * 2004-05-31 2005-02-23 烽火通信科技股份有限公司 一种主备单板自动监测和切换的方法
CN1767451A (zh) * 2004-10-27 2006-05-03 华为技术有限公司 一种单板管理方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1494228A (zh) * 2002-11-02 2004-05-05 华为技术有限公司 一种实现单板主备倒换的方法及其电路
CN1585500A (zh) * 2004-05-31 2005-02-23 烽火通信科技股份有限公司 一种主备单板自动监测和切换的方法
CN1767451A (zh) * 2004-10-27 2006-05-03 华为技术有限公司 一种单板管理方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521103A (zh) * 2011-12-10 2012-06-27 山东明佳包装检测科技有限公司 一种程序和pc机状态监控的方法

Also Published As

Publication number Publication date
CN101009684A (zh) 2007-08-01

Similar Documents

Publication Publication Date Title
CN102761439B (zh) Pon接入系统中基于看门狗的异常检测记录装置及方法
CN101009684B (zh) 分布式系统中单板工作状态监控装置及方法
KR102355424B1 (ko) 차량용 중앙 처리 장치를 제어하는 워치독 회로의 신뢰성을 향상시키는 장치 및 방법
US20070234123A1 (en) Method for detecting switching failure
EP2372491B1 (en) Power lock-up setting method and electronic apparatus using the same
US8700835B2 (en) Computer system and abnormality detection circuit
CN105242980A (zh) 互补式看门狗系统及互补式看门狗的监测方法
CN104050061A (zh) 一种基于PCIe总线多主控板冗余备份系统
CN109391320A (zh) 网络开关系统
CN210348469U (zh) 嵌套式看门狗装置
JP4655718B2 (ja) コンピュータシステム及びその制御方法
US9218029B2 (en) Method and system for resetting a SoC
CN113609051A (zh) 一种扩展板的热插拔方法、系统、装置及计算机存储介质
CN110764829B (zh) 一种多路服务器cpu隔离方法及系统
CN217606356U (zh) 一种切换控制电路、主板及电子设备
WO2007097040A1 (ja) 情報処理装置の制御方法、情報処理装置
CN110795293B (zh) 一种服务器软关机的测试方法、系统及装置
JP4479002B2 (ja) Cpuの省電力機能を有する機器のデバッグシステム及び方法
JP5336916B2 (ja) 半導体装置
CN102193609B (zh) 电源锁定的设定方法及其电子装置
EP1222543B1 (en) Method and device for improving the reliability of a computer system
TWI782305B (zh) 伺服系統
CN212061141U (zh) 频外的外接控制设备与系统
CN114153637A (zh) 伺服系统
JP2706027B2 (ja) プログラマブルコントローラ

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 310052 Binjiang District Changhe Road, Zhejiang, China, No. 466, No.

Patentee after: Xinhua three Technology Co., Ltd.

Address before: 310053 Hangzhou hi tech Industrial Development Zone, Zhejiang province science and Technology Industrial Park, No. 310 and No. six road, HUAWEI, Hangzhou production base

Patentee before: Huasan Communication Technology Co., Ltd.