CN106656544A - 切换装置的无缝自动回复 - Google Patents

切换装置的无缝自动回复 Download PDF

Info

Publication number
CN106656544A
CN106656544A CN201610051580.6A CN201610051580A CN106656544A CN 106656544 A CN106656544 A CN 106656544A CN 201610051580 A CN201610051580 A CN 201610051580A CN 106656544 A CN106656544 A CN 106656544A
Authority
CN
China
Prior art keywords
watchdog timer
cpu
counter
switching
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610051580.6A
Other languages
English (en)
Other versions
CN106656544B (zh
Inventor
赖德贤
黄楹钦
陈念青
蔡碧月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quanta Computer Inc
Original Assignee
Quanta Computer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quanta Computer Inc filed Critical Quanta Computer Inc
Publication of CN106656544A publication Critical patent/CN106656544A/zh
Application granted granted Critical
Publication of CN106656544B publication Critical patent/CN106656544B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/064Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • H04L41/0661Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities by reconfiguring faulty entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施方式主要是涉及计算机系统的自动恢复。本技术公开可自动检测系统故障并从系统故障回复切换装置的技术。根据一些实施方式,监视计时器可检测切换系统故障并送出信号以重置切换中央处理单元。根据一些实施方式,可在重置切换中央处理单元时保持切换功能。

Description

切换装置的无缝自动回复
技术领域
本公开整体而言涉及计算机系统的自动恢复。更精确地,技术的某些实施方式涉及一种对带有切换功能的高可用性(high-availability)的切换装置自动恢复的方法及系统。
背景技术
网络切换器(network switch)是包含由系统总线连接许多元件的计算机。每个网络切换器可包含将像是以太网络的网络接口上的其他的网络装置与切换器耦接的复数个端口。
网络切换器提供切换功能以在网络连接的装置之间传移信息,像是分组或数据帧。由切换器提供的切换功能通常包含自网络装置于来源端口接收数据、转移数据通过背板(backplane)至至少一另外目标端口及传送数据至网络上的另一个装置。
然而,自动检测系统故障及从系统故障恢复网络切换器仍然是具有挑战性的。举例而言,当切换中央处理单元(central processor unit,CPU)停摆时,通常用冷启动(cool boot)初始化以从CPU停止对输入产生回应的锁定状态中恢复切换器。然而冷启动初始化程序通常花费相对长的时间而因此降低了系统效率。
发明内容
本技术的各方面涉及可自动检测系统故障并从系统故障回复切换装置的手法。本技术的各方面也涉及可使切换装置自系统故障中恢复而不会妨碍切换功能的技术。
根据某些实施方式,网络切换器可包含切换CPU及特定应用集成电路(Application-Specific Integrated Circuit,ASIC)。本技术可利用监视计时器以监控并检测切换系统故障,像是切换CPU停摆或锁定。为了应对CPU锁定,监视计时器可送出信号以重置CPU。当可配置多个监视计时器计数器时,监视计时器可在系统操作的不同阶段检测并恢复系统故障。
根据某些实施方式,监视计时器可为内嵌于切换CPU中的电子计时器。根据某些实施方式,监视计时器可为独立的服务控制器,像是基板服务控制器(baseboard service controller,BMC),其可以如本文所公开地实施监视计时器功能。根据某些实施方式,本技术使机架管理控制器(Rack ManagementController,RMC)及底板管理控制器(Chassis Management Controller,CMC)能够提供监视计时器功能。
根据某些实施方式,本技术涉及启动切换中央处理单元的计算机实施方法,包含:第一,设置监视计时器的第一监视计时器计数器,第一监视计时器计数器与启动载入器阶段相关联,监视计时器在第一监视计时器计数器逾期之后可操作以重置切换中央处理单元;第二,设置监视计时器的第二监视计时器计数器,第二监视计时器计数器与操作系统启动阶段相关联,监视计时器在第二监视计时器计数器逾期之后可操作以重置切换中央处理单元;以及第三,设置监视计时器的第三监视计时器计数器,第三监视计时器计数器与运行时间阶段相关联,监视计时器在第三监视计时器计数器逾期之后可操作以重置切换中央处理单元。
根据某些实施方式,重置网络系统可进一步包含特定应用集成电路的暖启动初始化。与会导致网络停机时间的冷启动初始程序不同,暖启动初始程序可在CPU重置期间保存切换功能。举例而言,像是学习及转发的切换功能在CPU重置期间可继续。因此,暖启动初始化可保存切换功能的效率。
根据某些实施方式,尽管本文的许多示例是参考以太网络切换器而描述的,但要理解的是其仅为示例且本技术在此方面不受限制。相反地,可使用提供计算机网络连接的任意切换器,像是光纤通道切换器、非同步传送模式(asynchronous transfer mode)切换器及InfiniBand切换器或其相似之物。
此外,尽管本讨论使用BMC作为服务控制器的例子,但本技术可应用于其他独立自主CPU及操作系统的服务控制器。
本公开额外的特征及优点将在下文的叙述列举,且部分将从此叙述显而易见或可借由实践本文所公开的原理来习得。本公开特征及优点可借由在附加的权利要求中特别指出的仪器及组合的方法而了解及获得。本公开的这些及其他特征将可由下列的叙述及附加的权利要求更加显而易见,或可借由实践列举于本文的原则而习得。
附图说明
发明的各种实施方式及示例公开于以下的详细描述及附图中:
图1A是根据某些实施方式,说明带有内部监视计时器的自动恢复切换系统示例的示意方块图;
图1B是说明带有如图1A所示的内部监视计时器的自动恢复切换系统的另一示例的示意方块图;
图2是根据某些实施方式,说明带有外部监视计时器的自动恢复切换系统示例的示意方块图;
图3是根据某些实施方式,自动恢复切换系统的示例流程图;
图4为根据某些实施方式,带有高可用性切换功能的自动恢复切换系统的另一示例流程图;以及
图5是根据某些实施方式,说明计算装置的计算平台。
附图符号说明
100、200:网络切换系统
102、202:网络切换器
104、204:存储器
106、206:中央处理单元
108、208、508:特定应用集成电路(ASIC)
110、112、114、210、212、214:端口
116、216:系统总线
118、218:ASIC模块数据库
120:监视计时器
122、220:ASIC模块
124、224:ASIC设置
126:以太网络
222、502:基板管理控制器
302、304、306、402、404、406、408、410、412、414、416:步骤
500:系统架构
504:切换处理器
506:输入装置
510:网络接口
512:显示器
514:储存装置
516:系统存储器
524:总线
具体实施方式
本技术的各种实施方式在下文详述。当讨论特定的实施行为时,其应被理解为其为说明的目的进行。相关领域技术人员将认识到在不偏离本技术的精神及范围下可使用其他元件及配置。
作为近代信息技术的骨干,网络切换器使多个计算装置能够经由像是以太网络的网络接口传送数据。随着不断成长的网络需求,特别是在像是大型数据中心的集群计算环境,需要网络切换器(network switches)以提供具有高可用性及杰出可靠性的切换功能。
网络切换器通常包含中央处理单元(central processing unit,CPU)及可操作的特定应用集成电路(application-specific integrated circuit,ASIC)以提供数据切换功能。一般而言,冷启动初始化通常用来从CPU锁定状态(lock-up)中恢复切换器,在CPU锁定状态中,CPU停止对输入产生回应。冷启动初始程序通常花费相对长的时间以恢复切换器,因而导致切换功能的低可用性。
因此,具有提供切换系统故障的自动检测及恢复的网络切换器协议的改良需求。进一步地说,需要不妨碍切换功能地恢复网络切换器。
本技术公开了可利用监视计时器(watchdog timer)而具备自动检测并恢复切换系统故障可行的技术。根据某些实施方式,本技术可利用内嵌在切换CPU中的监视计时器提供本文公开的监视功能;根据某些实施方式,本技术可利用于切换CPU外部的服务控制器提供本文公开的监视功能。根据某些实施方式,本技术能够无缝恢复网络切换器而不会降低像是数据帧(data frames)的学习、溢流及转发的切换功能。
监视计时器(watchdog timer)可为用以检测并恢复系统故障的电子式计时器。监视计时器通常以可自起始值计数至零的计数器为基础,其可触发系统重置。当系统操作为正常时,系统可以自动且周期性地重置计数器使其不会逾期并开始系统重置。相反地,当系统对重置计数器异常及失灵时,此监视计时器在计数器失效时可为了恢复正常系统操作而送出逾时信号以重置系统。
图1A是根据某些实施方式,说明带有内部监视计时器的自动恢复切换系统示例的示意方块图。需要察觉到的是在图1A中的系统技术为示例,且像是服务器、切换器及网络元件的任意数量的计算装置可被包含于图1A的系统中。
如图1A所示,自动恢复切换系统可包含网络切换器102,其可用以操作以对网络系统提供切换功能。网络切换器102可包含CPU 106,其可用以操作以执行像是实施网络协议的运行时间应用程序(runtime applications)。这些网络协议的例子包含链路汇聚控制协议(Link Aggregation Control Protocol,LACP)及开放式最短路径优先(Open Shortest Path First,OSPF),其可助于提供高速主干网络,像是网际网络协议第四版(internet protocol version 4,IPv4)或网际网络协议第六版(internet protocol version 6,IPv6)。举例而言,LACP可用以操作以将数个物理端口聚集在一起以形成单一逻辑通道。LACP可允许一网络装置进行自动捆扎链路(automatic bundling of links)的协商。举例而言,OSPF可用以操作以借由收集链路状态信息来创造网络的拓朴图。CPU 106也可执行用以实施切换功能的其他网络协议。
根据某些实施方式,CPU 106可经由像是PCIe(高速外围组件互连接口(peripheral component interconnect express))链路的系统总线116与ASIC 108互相连接。ASIC 108可为包含切换控制器、存储器及I/O接口(未显示)的切换IC。根据某些实施方式,ASIC 108可与像是查找表的ASIC设置(ASICSetting)124相关联,其可相关联与端口(port)对应的媒体存取控制(mediumaccess control,MAC)地址。举例而言,切换控制器可借由识别在分组标头的目标MAC地址来判定分组路径。切换控制器可进一步地将目标MAC地址与对应的输出端口进行相关联。进一步而言,ASIC 108可借由像是以太网络126的上行链路传送分组至网络。
根据某些实施方式,网络切换器102可包含存储器104,其可用以操作以储存切换相关的数据。举例而言,存储器104可为包含动态随机存取存储器群组的双行存储器模块(dual in-line memory module,DIMM),存储器技术为相关领域技术人员所已知,因此不需进一步的描述。
根据某些实施方式,CPU 106可执行ASIC模块(ASIC Module)122且产生可被储存于存储器104中的ASIC模块数据库(ASIC Module Database)118。ASIC模块数据库118可储存各种网络参数,举例而言,用于网络功能的ASIC设置124的映射。
根据某些实施方式,网络切换器102可进一步包含端口的群组像是端口110、端口112及端口114,其每一个都可与比如计算节点的网络装置相关联。此外,这些端口中的一或多个可为用于分组切换的输入端口或输出端口。
如图1所示,根据某些实施方式,监视计时器120(watchdog timer)可为嵌于CPU 106中的内部电子装置。监视计时器120可检测像是CPU锁定或冻结的系统故障并且接着为了恢复系统而开始CPU 106的重置。根据某些实施方式,监视计时器120可包含可从起始值(比如60秒)倒数至零的计数器。当起始值逾期时,监视计时器120可送出可重置CPU 106以恢复系统的逾时信号。根据某些实施方式,监视计时器120的计数器可从起始值计数至溢出值。同样地,当计数器达到溢出值时,监视计时器120可送出逾时信号以重置CPU106。
根据某些实施方式,监视计时器120可配置带有多于一个的计数器,每一个计数器可对应至网络切换器102相应的操作阶段(operation stage)。同时,根据每一个相应操作阶段的特性及功能,每个计数器的起始值可为不同。举例而言,第一监视计时器计数器与启动载入器阶段(boot loader stage)相关联。第一监视计时器计数器可具有比启动载入器阶段的预估时间更长的起始时间值。举例而言,第二监视计时器计数器与操作系统启动阶段(operation systembooting stage)相关联。第二监视计时器计数器可具有比操作系统启动阶段的预估时间更长的起始时间值。举例而言,第三监视计时器计数器与运行时间阶段(runtime stage)相关联。进一步而言,当运行时间阶段可为不确定时,第三监视计时器可借由计时器重置程序或监视计时器常驻程序来周期性地重置。
更精确地说,在启动载入器阶段时,在CPU 106上执行的启动载入器可设置监视计时器120的第一监视计数器。根据某些实施方式,第一监视计数器可根据启动载入器阶段的预期时间而设置。具体而言,第一监视计数器可长到足以涵盖启动载入器阶段的预期时间。举例而言,当启动载入器阶段可花费不超过10秒时,第一监视计数器可设置一个长于10秒的起始值。此方法可以避免当容许监视计时器120能够自动检测并恢复系统故障时,启动程序的意外重置。
进一步,当CPU 106对输入的反应停摆或失灵比第一监视计数器要长的一段时间时,监视计时器120可传送逾时信号给CPU 106以重置启动程序。
同样地,在操作系统启动阶段时,可设置监视计时器120的第二监视计数器。根据某些实施方式,第二监视计数器可根据操作系统启动阶段的预期时间而设置。具体而言,第二监视计数器可长到足以涵盖操作系统启动阶段的预期时间。举例而言,当操作系统启动阶段通常可花费不超过15秒时,第二监视计数器可设置一个长于15秒的起始值以避免CPU 106的意外重置。
进一步,当CPU 106对输入的反应停摆或失灵比第二监视计数器要长的一段时间时,监视计时器120可传送逾时信号以重置CPU 106。
在启动载入器阶段及操作启动阶段之后的运行时间阶段中,在CPU 106上执行的监视计时器常驻程序可设置监视计时器120的第三监视计数器。根据某些实施方式,监视计时器常驻程序可为一个作为背景程序执行的计算机程序。当CPU 106功能正常时,CPU 106可产生心跳信号(heartbeat signal)并利用监视计时器常驻程序传送之。因此,监视计时器常驻程序可自动且周期性地重置第三监视计数器的起始值以避免CPU 106的重置。在另一方面,当CPU 106遭受失灵且停止产生心跳信号时,监视计时器常驻程序可取消重置,因此使第三监视计时器经过(elapse)或逾期。于是,监视计时器可产生逾时信号以重置CPU 106。
进一步,监视计时器120可配置带有用于网络系统的其他启动或操作阶段的额外的监视计时器计数器。
根据某些实施方式,网络系统的重置可进一步包含ASIC 108的暖启动初始化(warm boot initialization)。与可造成网络停机时间(network downtime)的冷启动初始程序不同,暖启动初始程序可在CPU重置时保存切换功能。举例而言,由ASIC 108行使的切换功能像是学习(learning)或转发(forwarding)可在CPU重启动时持续。
在暖启动初始程序中,当ASIC模块122接收到来自监视计时器120或其他元件的逾时信号时,可开始暖启动初始化。ASIC模块122可探查连接至系统总线116的PCIe装置,在此期间,ASIC模块122可识别ASIC 108。接着ASIC模块122可自ASIC 108接收ASIC设置124。因此,ASIC模块122可重新载入各种装置模块或驱动程序,包含相关端口的MAC驱动程序。ASIC模块122也可利用ASIC设置124重建ASIC模块数据库118。最后,网络系统可以根据ASIC模块数据库118建立网络协议。这些网络协议的例子可包含如本文所述的LACP及OSPF。
图1B是说明如图1A所示的自动恢复切换系统的另一示例的示意方块图。根据某些实施方式,当网络系统进入运行时间阶段,CPU 106可自动传送重启信号(restart signals)给监视计时器120使其不会传送重置信号(resetsignal)给CPU 106。举例而言,在运行时间阶段,监视计时器120可与计数5秒的监视计数器值相关联。因此,CPU 106在每5秒中可周期且自动地传送重启信号给监视计时器120。根据某些实施方式,在CPU 106上执行的监视计时器常驻程序可周期地传送重启信号给监视计时器120。当CPU 106传送重启信号失灵,逾期5秒时,监视计时器120可传送重置信号给CPU 106。在接收到重置信号后,网络系统可立即强制启动程序的重启使其可从CPU锁定或冻结中恢复。
图2是根据某些实施方式,说明带有外部监视计时器的自动恢复切换系统示例的示意方块图。需查觉到的是在图2中的系统拓朴是举例,且像是服务器、切换器及网络元件的任意数量的计算装置可被包含于图2的系统中。
如图2所示,自动恢复切换系统可包含网络切换器202,其可用以操作以提供网络系统切换功能。网络切换器202可包含CPU 206,其可用以操作以执行像是实施网络协议的运行时间应用程序。这些网络协议的例子包含链路汇聚控制协议(LACP)及开放式最短路径优先(OSPF),其可有助于提供高速主干网络,像是网际网络协议第四版(IPv4)或网际网络协议第六版(IPv6)。举例而言,LACP可用以操作以将数个物理端口聚集在一起以形成单一逻辑通道。LACP可允许让一网络装置进行自动捆扎链路的协商。举例而言,OSPF可用以操作以借由聚集链路状态信息来创造网络的拓朴图。CPU 206也可执行用于实施切换功能的其他的网络协议。
根据某些实施方式,CPU 206可经由像是PCIe(高速外围组件互连接口)链路的系统总线216与ASIC 208互相连接。CPU 206可通过通信接口与可模拟监视计时器功能的基板管理控制器(Baseboard Management Controller,BMC)222互相连接。这种通信接口例如为智慧平台管理总线(IntelligentPlatform Management Bus/Bridge,IPMB),其可定义用以与嵌于计算装置中的服务处理器(service processor)相接的协议。另一个通信接口的例子可为RESTful(表征状态转移(Representational State Transfer)),例如Redfish。另一个通信接口的例子可为i2c(内部集成电路(Inter-Integrated Circuit))。另一个通信接口的例子可为SSIF(系统管理总线系统接口(SMBus system interface))。
BMC为独立且内嵌式的微控制器,且在某些实施方式中,负责管理并监控主CPU、固件及操作系统。根据某些实施方式,BMC可借由从安装于底板的感应器接收数据,比如风扇速度、CPU温度、电力消耗程度等等来监控服务器的硬件元件。根据某些实施方式,机架管理控制器(Rack ManagementController,RMC)或底板管理控制器(chassis management controller,CMC)可用以操作以对网络系统提供监视计时器功能。
根据某些实施方式,BMC 222可经由像是I2C的通信链路与网络切换器202耦接。根据某些实施方式,BMC 222可经由通信链路连接至网络切换器202的通用输入/输出引脚(general-purpose input/output,GPIO pin)。
根据某些实施方式,ASIC 208可与像是查找表的ASIC设置224相关联,其可将端口与对应的媒体存取控制(medium access control,MAC)地址进行相关联。举例而言,切换控制器可借由识别在分组标头的目标MAC地址判定分组的转发路径。切换控制器可进一步地将目标MAC地址与对应的输出端口进行相关联。
根据某些实施方式,网络切换器202可包含存储器204,其可用以操作以储存切换相关的数据。举例而言,存储器204可为包含动态随机存取存储器群组的双行存储器模块(DIMM),存储器技术为相关领域技术人员所知,因此不需进一步的描述。
根据某些实施方式,CPU 206可执行ASIC模块220且产生可被储存于存储器204中的ASIC模块数据库218。ASIC模块数据库218可储存各种网络参数,举例而言,用于网络功能的ASIC设置224的映射。
根据某些实施方式,网络切换器202可进一步包含端口的群组像是端口210、端口212及端口214,其每一个都可与比如计算节点的网络装置相关联。此外,这些端口中的一或多个可为用于分组切换的输入端口或输出端口。
如图2所示,根据某些实施方式,BMC 222可为CPU 206外部的独立装置。BMC 222可检测像是CPU锁定或冻结的系统故障,并因此,为了恢复系统而开始CPU 206的重置。举例而言,BMC 222可送出GPIO信号给CPU206以开始重置。根据某些实施方式,BMC 222可如同可自起始值(比如60秒)倒数至零的计数器一般地运作。当起始值逾期时,BMC 222可送出可重置CPU 206以恢复系统的逾时信号。根据某些实施方式,BMC 222可从起始值计数至溢出值。同样地,当计数器达到事先决定的溢出值时,BMC 222可送出逾时信号以重置CPU 206。
根据某些实施方式,BMC 222可配置带有多于一个的计数器,每一个计数器可对应至网络切换器202相应的操作阶段。同时,根据每一个相应操作阶段的特性功能,每个计数器的起始值可为不同。举例而言,第一监视计时器计数器与启动载入器阶段相关联。第一监视计时器计数器可具有比启动载入器阶段的预估时间更长的起始时间值。举例而言,第二监视计时器计数器与操作系统启动阶段相关联。第二监视计时器计数器可具有比操作系统启动阶段的预估时间更长的起始时间值。举例而言,第三监视计时器计数器与运行时间阶段相关联。进一步而言,当运行时间阶段可为不确定时,第三监视计时器可借由计时器重置程序或监视计时器常驻程序来周期性地重置。
更精确地说,在启动载入器阶段时,在CPU 206上执行的启动载入器可设置BMC 222的第一监视计数器。举例而言,经由自CPU 206而来的命令或指令通过通信接口至BMC 222。根据某些实施方式,第一监视计数器可根据启动载入器阶段的预期时间而设置。具体而言,第一监视计数器可长到足以涵盖启动载入器阶段的预期时间。举例而言,当启动载入器阶段可花费不超过10秒时,第一监视计数器可设置一个长于10秒的起始值。此方法可以避免当容许BMC 222能够自动检测并恢复系统故障时,启动程序的意外重置。
进一步而言,当CPU 206对输入的反应停摆或失灵比第一监视计数器要长(比如10秒)的一段时间时,BMC 222可传送逾时信号给CPU 206以重置启动程序。逾时信号的例子可为GPIO信号。
同样地,在操作系统启动阶段时,可设置BMC 222的第二监视计数器。根据某些实施方式,第二监视计数器可根据操作系统启动阶段的预期时间而设置。具体而言,第二监视计数器可长到足以涵盖操作系统启动阶段的预期时间。举例而言,当操作系统启动阶段通常可花费不超过15秒时,第二监视计数器可设置一个长于15秒的起始值以避免CPU 206的意外重置。
进一步而言,当CPU 206对输入的反应停摆或失灵比第二监视计数器要长(比如15秒)的一段时间时,监视器常驻程序可传送逾时信号以重置CPU206。
在启动载入器阶段及操作启动阶段之后的运行时间阶段中,在CPU 206上执行的监视计时器常驻程序可设置BMC 222的第三监视计数器。根据某些实施方式,监视计时器常驻程序可为一个作为背景程序执行的计算机程序。当CPU 206功能正常时,CPU 206可产生心跳信号并利用监视计时器常驻程序传送之。因此,监视计时器常驻程序可自动且周期性地重置第三监视计数器的起始值以避免CPU 206的重置。在另一方面,当CPU 206遭受失灵且停止产生心跳信号时,监视计时器常驻程序可取消重置,因此使第三监视计时器经过或逾期。于是,监视计时器可产生逾时信号以重置CPU 206。
进一步,监视器常驻程序可配置带有用于网络系统的其他启动或操作阶段的额外的监视计时器计数器。
根据某些实施方式,网络系统的重置可进一步开始ASIC 208的暖启动初始化。与可造成网络停机时间的冷启动初始程序不同,暖启动初始程序可在CPU重置时保存切换功能。举例而言,像是由ASIC 208行使的学习或转发的切换功能。在暖启动初始程序中,网络系统可自ASIC 208接收ASIC设置224,重载ASIC模块220以在CPU 206上执行并根据ASIC设置224在存储器204中重建ASIC模块数据库218。最后,网络系统可根据ASIC模块数据库218建立网络协议。这些网络协议的例子可包含如本文所述的LACP及OSPF。
图3是根据某些实施方式,自动恢复切换系统的示例流程图。要被理解的是,除非有另外说明,否则在各种实施方式的范围中,能够以相似或轮流或两者同时的方式行使额外的、较少的或替代的步骤。
在步骤302,自动恢复切换系统可设置监视计时器的第一监视计时器计数器。根据某些实施方式,监视计时器可为在切换CPU内部的电子式计时器。根据某些实施方式,第一监视计时器计数器的起始值可至少在某些程度上根据启动载入器阶段的预期时间长度来决定。进一步,在第一监视计时器计数器逾期后,监视计时器可送出逾时信号以重置切换中央处理单元。
举例而言,如第1图所示,在CPU 106上执行的启动载入器可设置监视计时器120的第一监视计数器。具体而言,第一监视计数器可长到足以涵盖启动载入器阶段的预期时间。举例而言,当启动载入器阶段可花费不超过10秒时,第一监视计数器可设置一个长于10秒的起始值。此方法可以避免当容许监视计时器120能够自动检测并恢复系统故障时,启动程序的意外重置。
在步骤304,自动恢复切换系统可设置监视计时器的第二监视计时器计数器。根据某些实施方式,第二监视计时器计数器的起始值可至少在某些程度上根据操作系统启动阶段的预期时间长度来决定。进一步而言,在第二监视计时器计数器逾期后,监视计时器可送出逾时信号以重置切换中央处理单元。
举例而言,如第1图所示,可设置监视计时器120的第二监视计数器。根据某些实施方式,可根据操作系统启动阶段的预期时间长度来设置第二监视计数器。具体而言,第二监视计数器可长到足以涵盖操作系统启动阶段的预期时间。举例而言,当操作系统启动阶段通常可花费不超过15秒时,第二监视计数器可设置一个长于15秒的起始值。以避免CPU 106的意外重置。
在步骤306,自动恢复切换系统可设置监视计时器的第三监视计时器计数器。根据某些实施方式,第三监视计时器计数器与运行时间阶段相关联。在第三监视计时器计数器逾期后,监视计时器可送出逾时信号以重置切换中央处理单元。根据某些实施方式,第三监视计时器可借由监视计时器常驻程序来周期性地重置,以防止第三监视计时器逾期。
再次参考第1图,举例而言,在启动载入器阶段及操作启动阶段之后的运行时间阶段中,在CPU 106上执行的监视计时器常驻程序可设置监视计时器120的第三监视计数器。根据某些实施方式,监视计时器常驻程序可为一个作为背景程序执行的计算机程序。当CPU 106功能正常时,CPU 106可产生心跳信号并利用监视计时器常驻程序传送之。因此,监视计时器常驻程序可自动且周期性地重置第三监视计数器的起始值以避免CPU 106的重置。在另一方面,当CPU 106遭受失灵且停止产生心跳信号时,监视计时器常驻程序可放弃重置并使第三监视计时器经过或逾期。于是,监视计时器可产生逾时信号以重置CPU 106。
图4是根据某些实施方式,带有高可用性切换功能的自动恢复切换系统的另一示例流程图。要被理解的是,除非有另外说明,否则在各种实施方式的范围中,能够以相似或轮流或两者同时的方式行使额外的、较少的或替代的步骤。
在步骤402,自动恢复切换系统可设置监视计时器的第一监视计时器计数器。根据某些实施方式,独立于切换CPU的服务控制器像是BMC,可模拟电子监视计时器的功能。根据某些实施方式,第一监视计时器计数器的起始值可至少在某些程度上根据启动载入器阶段的预期时间长度来决定。进一步,在第一监视计时器计数器逾期后,监视计时器可送出逾时信号以重置切换中央处理单元。
举例而言,如图2所示,在CPU 206上执行的启动载入器可对设置BMC222的第一监视计数器。具体而言,第一监视计数器可长到足以涵盖启动载入器阶段的预期时间。举例而言,当启动载入器阶段可花费不超过10秒时,第一监视计数器可设置一个长于10秒的起始值。此方法可以避免当容许BMC222能够自动检测并恢复系统故障时,启动程序的意外重置。
在步骤404,自动恢复切换系统可设置监视计时器的第二监视计时器计数器。根据某些实施方式,第二监视计时器计数器的起始值可至少在某些程度上根据操作系统启动阶段的预期时间长度来决定。进一步而言,在第二监视计时器计数器逾期后,监视计时器可送出逾时信号以重置切换中央处理单元。
举例而言,如图2所示,可设置BMC 222的第二监视计数器。根据某些实施方式,可根据操作系统启动阶段的预期时间长度来设置第二监视计数器。具体而言,第二监视计数器可长到足以涵盖操作系统启动阶段的预期时间。举例而言,当操作系统启动阶段通常可花费不超过15秒时,第二监视计数器可设置一个长于15秒的起始值。以避免CPU 206的意外重置。
在步骤406,自动恢复切换系统可设置监视计时器的第三监视计时器计数器。根据某些实施方式,第三监视计时器计数器与运行时间阶段相关联。在第三监视计时器计数器逾期后,监视计时器可送出逾时信号以重置切换中央处理单元。根据某些实施方式,第三监视计时器可借由监视计时器常驻程序来周期性地重置,以防止第三监视计时器逾期。
再次参考图2,举例而言,在启动载入器阶段及操作启动阶段之后的运行时间阶段中,在CPU 206上执行的监视计时器常驻程序可设置BMC 222的第三监视计数器。根据某些实施方式,监视计时器常驻程序可为一个作为背景程序执行的计算机程序。当CPU 206功能正常时,CPU 206可产生心跳信号并利用监视计时器常驻程序传送之。因此,监视计时器常驻程序可自动且周期性地重置第三监视计数器的起始值以避免CPU 206的重置。在另一方面,当CPU 206遭受失灵且停止产生心跳信号时,监视计时器常驻程序可放弃重置并使第三监视计时器经过或逾期。于是,监视计时器可产生逾时信号以重置CPU 206。
在步骤408,当第一监视计时器计数器、第二监视计时器计数器或第三监视计时器计数器的其中之一逾期时,监视计时器可重置切换CPU使其可自故障中恢复。举例而言,如图2所示,在启动载入器阶段及操作启动阶段之后的运行时间阶段中,在CPU 206上执行的监视计时器常驻程序可设置BMC222的第三监视计数器。当CPU 206遭受失灵且停止产生心跳信号时,监视计时器常驻程序可取消计数器重置,因此使第三监视计时器经过或逾期。于是,监视计时器可产生逾时信号以重置CPU 206。
在步骤410,自动恢复切换系统可自切换ASIC接收(receive)切换ASIC设置(switch ASIC setting)。举例而言,如图2所示,网络切换器202在暖启动初始化可自ASIC 208接收ASIC设置224而不用重置ASIC 208。
在步骤412,自动恢复切换系统可重载(reload)切换ASIC模块。举例而言,网络切换器202可重载ASIC模块220并在CPU 206上执行。ASIC模块220可用以操作以产生ASIC模块数据库218,其可包含用以实施切换功能的参数。
在步骤414,自动恢复切换系统可利用ASIC设置重建(rebuild)切换ASIC数据库。举例而言,网络切换器可重建ASIC模块数据库218以储存在存储器204中。ASIC模块数据库218可储存各种网络参数,举例而言,用于网络功能的ASIC设置224的映射。
在步骤416,自动恢复切换系统可利用切换ASIC模块数据库建立网络协议。这些网络协议的例子包含链路汇聚控制协议(LACP)及开放式最短路径优先(OSPF),其可有助于提供高速主干网络像是网际网络协议第四版(IPv4)或网际网络协议第六版(IPv6)。因此,当再启动CPU 206时,网络切换器202可维持切换功能的高可用性。
图5说明用以实施图1至4的系统及程序的示例系统架构500。系统架构500包含总线524,其相互连接子系统及装置,像是BMC 502、处理器504、储存装置514、系统存储器516、网络接口510及ASIC 508。处理器504能够以一个或多个像是由Corporation制造的中央处理单元(centralprocessing units,CPUs)实施,或由一个或多个的虚拟处理器及CPUs与虚拟处理器的任意组合实施。系统架构500经由输入及输出装置输入装置506及显示器512交换表示输入及输出的数据,其中输入及输出装置输入装置506及显示器512包含,但不局限于:键盘、鼠标、音频输入(比如语音至文字装置)、用户接口、显示器、监视器、光标、触感式显示器、LCD或LED显示器及其他与I/O有关的装置。
系统架构500借由处理器504行使特定操作,执行储存在系统存储器516中一个或多个指令的一个或多个序列。系统架构500可在客户端-服务器配置、对等式配置(peer-to-peer arrangement)、或作为任何移动计算装置,包含智能手机及相似之物作为服务器装置或客户端装置。从像是储存装置514的其他计算机可读介质而来的这些指令或数据可被读入系统存储器516中。在某些示例中,硬布线电路系统可被用以实施的取代软件指令或用以实施的软件指令组合。指令可被嵌于软件或固件之中。术语「计算机可读介质(computerreadable medium)」意指参与提供指令给处理器504执行的任何有形介质。这种介质可以许多形式为例,包含,但不局限于,非挥发性介质及挥发性介质。举例而言,非挥发性介质包含光盘或磁盘及相似之物。挥发性介质包含动态存储器,像是系统存储器516。
举例而言,计算机可读介质的一般形式为软盘、柔性盘、硬盘、磁带、任意其他磁性介质、光盘只读存储器(CD-ROM)、任意其他光学介质、打孔卡、纸带、任意其他带有孔排列模式的物理介质、动态随机存取存储器(RAM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、快闪可擦除可编程只读存储器(FLASH-EPROM)、任意其他存储器芯片或匣、或任意其他计算机可读介质。指令可进一步地利用传输介质来传送或接收。术语「传输介质(transmission medium)」可包含任何有形或无形的介质,其能够储存、编码或携带由机器执行的指令,且包含数字或模拟通信信号或其他无形介质以帮助这些指令进行通信。传输介质包含同轴电缆、铜线及光纤,包含那些包含于总线524中用以传送计算机数据信号的线路。
在示例中显示,系统存储器516可包含各种模块,其包含可执行指令以实施本文所述的功能。在示例中显示,系统存储器516包含日志管理器、日志缓冲或日志储存库,每一个均可配置以提供一个或多个的本文所述功能。
虽然上述示例已为了清楚的理解的目的而在一些细节上进行了描述,上述本发明的技术并不限于所提供的细节。有许多实现上述发明技术的替代方式。所公开的实例是说明性的而不是限制性的。

Claims (10)

1.一种启动切换中央处理单元的计算机实施方法,其包含:
设置一监视计时器的一第一监视计时器计数器,该第一监视计时器计数器与一启动载入器阶段相关联,该监视计时器在该第一监视计时器计数器逾期之后可操作以重置一切换中央处理单元;
设置该监视计时器的一第二监视计时器计数器,该第二监视计时器计数器与一操作系统启动阶段相关联,该监视计时器在该第二监视计时器计数器逾期之后可操作以重置该切换中央处理单元;以及
设置该监视计时器的一第三监视计时器计数器,该第三监视计时器计数器与一运行时间阶段相关联,该监视计时器在该第三监视计时器计数器逾期之后可操作以重置该切换中央处理单元。
2.如权利要求1所述的方法,其中该第一监视计时器计数器是根据与该启动载入器阶段相关联的一预期时间而设置。
3.如权利要求1所述的方法,其中该第二监视计时器计数器是根据与该操作系统启动阶段相关联的一预期时间而设置。
4.如权利要求1所述的方法,其中该第三监视计时器是借由一监视计时器常驻程序而周期性地重置,以防止该第三监视计时器逾期,该监视计时器常驻程序与一切换中央处理单元的操作状态相关联。
5.如权利要求1所述的方法,其中该监视计时器是在该切换中央处理单元中的一内嵌式计时器或在该切换中央处理单元外部的一服务控制器。
6.如权利要求1所述的方法,其进一步包含行使下述其中之一:
在该第一监视计时器计数器逾期后,在该启动载入器阶段中重置该切换中央处理单元;
在该第二监视计时器计数器逾期后,在该操作系统启动阶段中重置该切换中央处理单元;以及
在该第三监视计时器计数器逾期后,在该运行时间阶段中重置该切换中央处理单元。
7.一种网络切换系统,其包含:
一处理器;以及
一存储装置,包含指令,当该处理器执行指令时,使处理器行使指令包含:
设置一监视计时器的一第一监视计时器计数器,该第一监视计时器计数器与一启动载入器阶段相关联,且该监视计时器在该第一监视计时器计数器逾期之后可操作以重置一切换中央处理单元;
设置该监视计时器的一第二监视计时器计数器,该第二监视计时器计数器与一操作系统启动阶段相关联,且监视计时器在该第二监视计时器计数器逾期之后可操作以重置该切换中央处理单元;以及
设置该监视计时器的一第三监视计时器计数器,该第三监视计时器计数器与一运行时间阶段相关联,该监视计时器在该第三监视计时器计数器逾期之后可操作以重置该切换中央处理单元。
8.如权利要求7所述的系统,其中重置该切换中央处理单元进一步包含行使一暖启动初始化而不用重置一切换特定应用集成电路。
9.一种储存指令的非暂时性计算机可读储存介质,当其借由处理器执行时,使处理器行使至少一个操作,包含:
设置一监视计时器的一第一监视计时器计数器,该第一监视计时器计数器与一启动载入器阶段相关联,该监视计时器在该第一监视计时器计数器逾期之后可操作以重置一切换中央处理单元;
设置该监视计时器的一第二监视计时器计数器,该第二监视计时器计数器与一操作系统启动阶段相关联,该监视计时器在该第二监视计时器计数器逾期之后可操作以重置该切换中央处理单元;以及
设置该监视计时器的一第三监视计时器计数器,该第三监视计时器计数器与一运行时间阶段相关联,该监视计时器在该第三监视计时器计数器逾期之后可操作以重置该切换中央处理单元。
10.如权利要求9所述的非暂时性计算机可读储存介质,其使处理器进一步行使至少一个操作,包含:
在该第一监视计时器计数器逾期后,在该启动载入器阶段中重置该切换中央处理单元;
在该第二监视计时器计数器逾期后,在该操作系统启动阶段中重置该切换中央处理单元;以及
在该第三监视计时器计数器逾期后,在该运行时间阶段中重置该切换中央处理单元。
CN201610051580.6A 2015-11-04 2016-01-26 切换装置的无缝自动回复 Active CN106656544B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/932,352 US10127095B2 (en) 2015-11-04 2015-11-04 Seamless automatic recovery of a switch device
US14/932,352 2015-11-04

Publications (2)

Publication Number Publication Date
CN106656544A true CN106656544A (zh) 2017-05-10
CN106656544B CN106656544B (zh) 2019-09-27

Family

ID=58634617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610051580.6A Active CN106656544B (zh) 2015-11-04 2016-01-26 切换装置的无缝自动回复

Country Status (3)

Country Link
US (1) US10127095B2 (zh)
CN (1) CN106656544B (zh)
TW (1) TWI578170B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111262621A (zh) * 2018-11-30 2020-06-09 富士康(昆山)电脑接插件有限公司 从系统硬件故障中执行自动恢复的方法及使用该方法的光通信模组

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10528358B2 (en) 2015-01-23 2020-01-07 Hewlett-Packard Development Company, L.P. Initialize port
CN107066354B (zh) * 2017-04-18 2021-01-05 中国银联股份有限公司 一种数据库的切换方法、主服务器以及从服务器
US10846160B2 (en) * 2018-01-12 2020-11-24 Quanta Computer Inc. System and method for remote system recovery
TWI729491B (zh) * 2019-09-11 2021-06-01 立端科技股份有限公司 運用通用型輸入輸出接腳之乙太網路通訊系統以及具有該乙太網路通訊系統之網路伺服器
CN111143105B (zh) * 2019-12-31 2023-07-18 深圳市源拓光电技术有限公司 一种用于网管型交换机的看门狗保护方法及系统
US11226862B1 (en) * 2020-09-03 2022-01-18 Dell Products L.P. System and method for baseboard management controller boot first resiliency
US11520648B2 (en) 2020-09-25 2022-12-06 Microsoft Technology Licensing, Llc Firmware emulated watchdog timer controlled using native CPU operations
CN112306726B (zh) * 2020-10-20 2022-05-03 中国电子科技集团公司第五十二研究所 一种抗单粒子翻转系统及方法
CN114750774B (zh) * 2021-12-20 2023-01-13 广州汽车集团股份有限公司 安全监测方法和汽车
US11803445B2 (en) * 2022-01-18 2023-10-31 Vmware, Inc. Boot failure protection on smartNICs and other computing devices
TWI835090B (zh) * 2022-03-15 2024-03-11 神雲科技股份有限公司 讀取受基板管理控制器監測之待監測裝置的方法
CN115098304B (zh) * 2022-06-20 2022-11-29 中国科学院空间应用工程与技术中心 一种嵌入式系统、电子设备及软件运行方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5530879A (en) * 1994-09-07 1996-06-25 International Business Machines Corporation Computer system having power management processor for switching power supply from one state to another responsive to a closure of a switch, a detected ring or an expiration of a timer
CN101261609A (zh) * 2007-03-08 2008-09-10 株式会社瑞萨科技 数据处理器及控制系统
CN101499909A (zh) * 2008-02-03 2009-08-05 中兴通讯股份有限公司 单板启动系统和方法
CN101510165A (zh) * 2009-02-25 2009-08-19 华为技术有限公司 看门狗电路的喂狗方法、装置和单板

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10138918A1 (de) * 2001-08-08 2003-03-06 Infineon Technologies Ag Programmgesteuerte Einheit
EP1351145A1 (en) * 2002-04-04 2003-10-08 Hewlett-Packard Company Computer failure recovery and notification system
US7689875B2 (en) * 2002-04-25 2010-03-30 Microsoft Corporation Watchdog timer using a high precision event timer
US20040003317A1 (en) * 2002-06-27 2004-01-01 Atul Kwatra Method and apparatus for implementing fault detection and correction in a computer system that requires high reliability and system manageability
US7536594B2 (en) * 2005-03-25 2009-05-19 Videogenix Watchdog device that provides and interrupts power to a network device in response to a lockup error condition
US20050188274A1 (en) * 2004-01-29 2005-08-25 Embedded Wireless Labs Watchdog system and method for monitoring functionality of a processor
TW200641589A (en) 2005-05-17 2006-12-01 Nat Huwei Inst Technology Embedded operating system and method using remote control and auto reset to ensure stability
TWI312627B (en) * 2006-06-02 2009-07-21 Accton Technology Corporatio Resetting method for network switch device
JP2008225858A (ja) * 2007-03-13 2008-09-25 Nec Corp Biosストール障害時の復旧装置、その方法及びそのプログラム
US7774648B2 (en) * 2007-05-02 2010-08-10 Honeywell International Inc. Microprocessor supervision in a special purpose computer system
CN100568191C (zh) * 2008-05-06 2009-12-09 江苏东大金智建筑智能化系统工程有限公司 嵌入式系统的全程喂狗方法
TWI512425B (zh) * 2008-12-05 2015-12-11 Micro Star Int Co Ltd Computer motherboard with automatic adjustment of hardware parameter values
JP2012069032A (ja) * 2010-09-27 2012-04-05 Hitachi Cable Ltd 情報処理装置
TWI582571B (zh) 2011-04-11 2017-05-11 啟碁科技股份有限公司 回復出廠預設值的方法與裝置,及其電腦程式產品
US9531550B2 (en) * 2012-10-19 2016-12-27 Ubiquiti Networks, Inc. Wireless gateway adapter for a power-over-ethernet port
US9298556B2 (en) * 2013-04-24 2016-03-29 Nintendo Co., Ltd. Graphics processing watchdog active reset
US9880894B2 (en) * 2015-07-08 2018-01-30 Microsoft Technology Licensing, Llc High availability and energy-efficient watchdog timer

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5530879A (en) * 1994-09-07 1996-06-25 International Business Machines Corporation Computer system having power management processor for switching power supply from one state to another responsive to a closure of a switch, a detected ring or an expiration of a timer
CN101261609A (zh) * 2007-03-08 2008-09-10 株式会社瑞萨科技 数据处理器及控制系统
CN101499909A (zh) * 2008-02-03 2009-08-05 中兴通讯股份有限公司 单板启动系统和方法
CN101510165A (zh) * 2009-02-25 2009-08-19 华为技术有限公司 看门狗电路的喂狗方法、装置和单板

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111262621A (zh) * 2018-11-30 2020-06-09 富士康(昆山)电脑接插件有限公司 从系统硬件故障中执行自动恢复的方法及使用该方法的光通信模组
CN111262621B (zh) * 2018-11-30 2022-06-24 富士康(昆山)电脑接插件有限公司 从系统硬件故障中执行自动恢复的方法及使用该方法的光通信模组

Also Published As

Publication number Publication date
US20170123884A1 (en) 2017-05-04
US10127095B2 (en) 2018-11-13
TWI578170B (zh) 2017-04-11
CN106656544B (zh) 2019-09-27
TW201717050A (zh) 2017-05-16

Similar Documents

Publication Publication Date Title
CN106656544A (zh) 切换装置的无缝自动回复
US20240080362A1 (en) Storage area network attached clustered storage system
TWI618380B (zh) 管理方法、服務控制器裝置以及非暫態電腦可讀取媒體
US7930425B2 (en) Method of effectively establishing and maintaining communication linkages with a network interface controller
CN110032462A (zh) 远端系统恢复的方法
US8819220B2 (en) Management method of computer system and management system
EP2696534B1 (en) Method and device for monitoring quick path interconnect link
TW202041061A (zh) 用於組態漂移偵測及補救之系統及方法
CN107533496A (zh) 本地恢复加速部件处的功能
US20160080210A1 (en) High density serial over lan managment system
CN108810046A (zh) 一种选举领导者Leader的方法、装置及设备
CN107170474A (zh) 可扩展存储盒、计算机实施方法以及计算机可读存储装置
CN105204880B (zh) 计算机系统及基本输入输出系统的设定方法
CN105893293A (zh) 用于管理外部组件快速互连设备热插拔的系统和方法
US7734948B2 (en) Recovery of a redundant node controller in a computer system
US20210286747A1 (en) Systems and methods for supporting inter-chassis manageability of nvme over fabrics based systems
CN101589370A (zh) 大规模并行计算机系统上的故障恢复以处理节点故障而不结束执行的作业
US10652099B2 (en) Site asymmetric topology reconciliation in a computer cluster
US20200099575A1 (en) Device and method for failover
TW201720282A (zh) 控制伺服器機櫃中氣流之系統及方法
CN107179804A (zh) 机柜装置
CN106557405A (zh) 服务器机柜监控方法
CN109375956A (zh) 一种重启操作系统的方法、逻辑设备以及控制设备
CN104503947B (zh) 多路服务器及其信号处理方法
CN111563595A (zh) 推断处理系统、推断处理装置以及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant