CN100364274C - 恢复服务器机架中刀片服务处理器的失败闪存的方法和系统 - Google Patents

恢复服务器机架中刀片服务处理器的失败闪存的方法和系统 Download PDF

Info

Publication number
CN100364274C
CN100364274C CNB2005100064220A CN200510006422A CN100364274C CN 100364274 C CN100364274 C CN 100364274C CN B2005100064220 A CNB2005100064220 A CN B2005100064220A CN 200510006422 A CN200510006422 A CN 200510006422A CN 100364274 C CN100364274 C CN 100364274C
Authority
CN
China
Prior art keywords
data processing
processing unit
via positions
management
management via
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2005100064220A
Other languages
English (en)
Other versions
CN1655519A (zh
Inventor
杰拉德·尼古拉斯·巴克勒
杰弗里·迈克尔·弗兰克
多纳德·欧格尼·约翰逊
卡尔·A·莫雷尔
戴维·罗伯特·伍德哈姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1655519A publication Critical patent/CN1655519A/zh
Application granted granted Critical
Publication of CN100364274C publication Critical patent/CN100364274C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1433Saving, restoring, recovering or retrying at system level during software upgrading
    • CCHEMISTRY; METALLURGY
    • C02TREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
    • C02FTREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
    • C02F1/00Treatment of water, waste water, or sewage
    • C02F1/72Treatment of water, waste water, or sewage by oxidation
    • C02F1/78Treatment of water, waste water, or sewage by oxidation with ozone
    • AHUMAN NECESSITIES
    • A01AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
    • A01KANIMAL HUSBANDRY; AVICULTURE; APICULTURE; PISCICULTURE; FISHING; REARING OR BREEDING ANIMALS, NOT OTHERWISE PROVIDED FOR; NEW BREEDS OF ANIMALS
    • A01K63/00Receptacles for live fish, e.g. aquaria; Terraria
    • A01K63/04Arrangements for treating water specially adapted to receptacles for live fish
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01FMIXING, e.g. DISSOLVING, EMULSIFYING OR DISPERSING
    • B01F23/00Mixing according to the phases to be mixed, e.g. dispersing or emulsifying
    • B01F23/20Mixing gases with liquids
    • B01F23/23Mixing gases with liquids by introducing gases into liquid media, e.g. for producing aerated liquids
    • B01F23/231Mixing gases with liquids by introducing gases into liquid media, e.g. for producing aerated liquids by bubbling
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01FMIXING, e.g. DISSOLVING, EMULSIFYING OR DISPERSING
    • B01F23/00Mixing according to the phases to be mixed, e.g. dispersing or emulsifying
    • B01F23/20Mixing gases with liquids
    • B01F23/23Mixing gases with liquids by introducing gases into liquid media, e.g. for producing aerated liquids
    • B01F23/237Mixing gases with liquids by introducing gases into liquid media, e.g. for producing aerated liquids characterised by the physical or chemical properties of gases or vapours introduced in the liquid media
    • B01F23/2376Mixing gases with liquids by introducing gases into liquid media, e.g. for producing aerated liquids characterised by the physical or chemical properties of gases or vapours introduced in the liquid media characterised by the gas being introduced
    • B01F23/23761Aerating, i.e. introducing oxygen containing gas in liquids
    • B01F23/237613Ozone
    • CCHEMISTRY; METALLURGY
    • C02TREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
    • C02FTREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
    • C02F2201/00Apparatus for treatment of water, waste water or sewage
    • C02F2201/78Details relating to ozone treatment devices
    • C02F2201/782Ozone generators
    • CCHEMISTRY; METALLURGY
    • C02TREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
    • C02FTREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
    • C02F2201/00Apparatus for treatment of water, waste water or sewage
    • C02F2201/78Details relating to ozone treatment devices
    • C02F2201/784Diffusers or nozzles for ozonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Quality & Reliability (AREA)
  • Environmental Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Environmental & Geological Engineering (AREA)
  • Hydrology & Water Resources (AREA)
  • Water Supply & Treatment (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Organic Chemistry (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Animal Husbandry (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)
  • Stored Programmes (AREA)

Abstract

一种在多个服务器刀片计算机中,用于恢复在服务器刀片中的服务处理器上的闪存更新操作期间丢失的服务器刀片的方法和系统。因为闪存更新失败,丢失的服务器刀片不知道它在管理通路上的位置,该管理通路典型的形式可能是连接服务器刀片机架中的服务器刀片和管理模块的中平面或总线。丢失的服务器刀片将指示闪存失败的信号放置在管理通路上。信号放置在为这种消息而保留的特殊信道上。管理模块接收信号,然后确定多个服务器刀片中哪个因闪存更新失败而丢失。

Description

恢复服务器机架中刀片服务处理器的失败闪存的方法和系统
技术领域
本发明一般地涉及计算机领域,尤其涉及封装在服务器机架中的多个刀片(blade)服务器。更特别地,本发明涉及用于自动地恢复刀片服务处理器的失败闪存的方法和系统。
背景技术
服务器刀片计算机在单个机架(刀片机架)中提供高密度服务器板(刀片)。典型的服务器刀片计算机在图1中说明,标识为服务器刀片机架102。服务器刀片机架102包括多个可热插拔的服务器刀片104a-n。在服务器刀片机架102中典型地存在十四个服务器刀片104。服务器刀片104的操作由标识为管理模块108的逻辑来协调,该管理模块108典型地包括用于控制输入/输出(I/O)功能、与网络106(例如因特网或局域网)接口、并且分配作业和数据到不同服务器刀片104的处理器。
管理模块108的另一个功能是编程服务器刀片104中的闪速只读存储器(闪速存储器)。该闪存操作更新服务器刀片104中的固件,产生最佳操作。但是,因为服务器刀片104是可热插拔的,当服务器刀片104处于可能需要几分钟的闪存操作中时,通常没有什么防止工程师从服务器刀片机架102的中平面或后平面(没有显示)中无意地移除服务器刀片104。当部分闪存的服务器刀片104重新安装到服务器刀片机架102或另一个机架中时,它将经常出故障。当重新安装到服务器刀片机架102中时,重新安装的服务器刀片104中的自诊断逻辑将识别到,闪存操作未能完全执行。但是,服务器刀片104将失败于不知道它在服务器刀片机架102中的总线地址或物理位置的点,因此不能用失败闪存来通知管理模块108该问题。
类似地,即使服务器刀片104没有从服务器刀片机架102中移除,但是闪存操作失败,管理模块108将可能不知道失败。再次,服务器刀片104将不能通知管理模块108该问题。
因此,需要一种使得服务器刀片在导致服务器刀片不知道它在服务器刀片机架中的位置的失败闪存操作之后,能够与服务器刀片机架中的管理模块通信的方法和系统。
发明内容
本发明涉及一种用于恢复多个服务器刀片计算机中在服务器刀片中的服务处理器上的闪存更新操作期间丢失的服务器刀片的方法和系统。因为闪存更新失败,丢失的服务器刀片不知道它在管理通路上的位置,该管理通路典型的形式可能是连接服务器刀片机架中的服务器刀片和管理模块的中平面或总线。丢失的服务器刀片将指示闪存失败的信号放在管理通路上。该信号放在为这种消息保留的特殊信道上。管理模块接收信号,然后确定多个服务器刀片中哪个因闪存更新失败而丢失。
如果多个闪存更新失败同时发生,管理模块阻塞与除一个外所有丢失服务器刀片的通信,并且重新闪存该一个未被阻塞的服务器刀片,从而使得该一个未被阻塞的服务器刀片能够定义它在管理通路上的位置(地址)。其他丢失服务器刀片中每个顺序地解除阻塞,重新闪存,从而使得能够定义它们在管理通路上的位置。
本发明的上面,以及另外目的、特征和优点将在下面详细描述中变得明白。
附图说明
认为表征本发明的新特征在附加权利要求书中陈述。但是,本发明自身,以及优选使用模式,其更多目的和优点,当结合附随附图阅读时通过参考下面说明实施方案的详细描述来最好地理解。
图1描述连接到网络的服务器刀片机架的现有技术图;
图2a说明包括与管理模块相关联、用于隔离和定位因闪存失败而丢失的服务器刀片的刀片阻塞器的刀片机架。
图2b描述服务刀片的一个中服务处理器中非易失性存储器的结构;
图3是恢复单个丢失服务器刀片所采取步骤的流程图;以及
图4是恢复多于一个丢失服务器刀片所采取步骤的流程图。
具体实施方式
现在参考图2a,描绘根据本发明优选实施方案的服务器刀片机架200的示意框图。为了清楚,仅一个管理模块202和三个服务器刀片204a-n被描绘。但是,在优选实施方案中,备用管理模块202(没有显示)包括在服务器刀片机架200中,并且服务器刀片机架200具有能够连接十四或更多服务器刀片204的中平面206。
管理模块202是能够管理多个服务器刀片204的逻辑。管理模块202经由标识为中平面206的管理通路连接到服务器刀片204a-n。中平面206是安装在服务器刀片机架200中间的后平面,其包含另外的电子设备或卡,包括服务器刀片204可以插入其中的电路和插口。中平面206包含用于管理模块202和服务器刀片204a-n之间,以及服务器刀片204a-n自身之间,经由各自的服务处理器208a-n安全内部通信的至少一个总线。
管理模块202能够检测系统中每个服务器刀片204,电源模块210,和中平面206的存在、数量、类型和修正级别。管理模块202也可以指示闪存操作并且识别闪存操作的失败,如下面更多描述的。
每个服务器刀片204具有至少一个中央处理单元(CPU)212,和非易失性存储器(NVM)214。优选地,NVM214是闪速只读存储器(“闪速ROM”或“闪速存储器”),其可以称作块的存储为单位擦除并重新编程。NVM214也可以包括非易失性电可擦除可编程只读存储器(EEPROM),其类似于闪速存储器,除了EEPROM以字节级擦除和重新写入,并且通常比闪速存储器的容量小。
当服务器刀片204从制造商发货时,NVM214典型地使用固件预先烧制,包括基本输入/输出系统(BIOS)以及用于监控服务器刀片204的软件。这种监控可能包括经由对冷却风扇215的速度调节来调节操作温度,控制直接存取存储设备(DASD),监控并控制整个系统的电压,确定服务器刀片204的通电状态,请求对共享键盘、视频、鼠标、光盘只读存储器(CD-ROM)和/或软盘驱动器的访问,以及监控运行在服务器刀片204上的操作系统(OS)。为了利用更新和其他优化,该固件由管理模块202周期性地更新,其将固件更新重新闪存到NVM214中。
例如,可存取到管理模块202(虽然不一定在其中)的更新闪存码216可以下载到任何或所有服务处理器208。每个服务处理器208控制闪存码216到其各自相关NVM214中的闪存。如果闪存码216到NVM214中的闪存失败,那么服务器刀片204的管理可能丢失。
例如,考虑更新闪存码216到NVM214a中的失败闪存操作的下面实例。在闪存操作期间,服务器刀片204a可能在闪存操作完成之前物理地从其插槽中移除。类似地,在闪存期间可能存在间歇的电源故障或尖峰信号,或者可能仅仅存在使得闪存未能完成的控制、时序或者任何其他软件或硬件错误。这种失败可能导致服务器刀片204a的服务处理器208a“忘记”它在中平面206上的地址,从而服务器刀片204a的地址,如下面所描述的。
现在参考图2b,NVM214划分成两个部分:保护区218和闪存区220。存储在保护区218中的是不可擦除(不能够重写)的代码,其可能包括与NVM214相关联的服务器刀片204的重要产品数据(VPD)例如序列号、型号和通用唯一标识符(UUID)。保护区218也可能包括跟踪数据,包括服务器刀片204在过去曾经安装到哪个其他服务器刀片机架200,如果存在的话。但是,保护区218不包括服务器刀片204在说明为中平面206的管理通路上的当前地址(“管理通路标识”)。
中平面206包含服务器刀片204可以插入其中的插口222。当服务器刀片204插入到特定插口222中时,物理位置为该服务器刀片204建立。例如,考虑服务器刀片204a插入到插口222a中。描绘为I2C逻辑224a的控制逻辑,其符合Phillips的IC(集成电路)间标准(在此引用其全部内容作为参考,并且通常称作“I2C”),检测插口222a中服务器刀片204a的存在。和管理模块202一起操作的I2C逻辑224a,将中平面206中总线上的物理地址分配给服务器刀片204a,当服务器刀片204a插入到插口222a中时。优选地,每个服务器刀片204与优选地连接到中平面206的唯一I2C逻辑224相关联,如图2a中描绘的。作为选择,单个I2C逻辑224可以由所有服务器刀片204使用。
作为选择,每个插口刀片204可以具有在中平面206上唯一的因特网协议(IP)地址。也就是,中平面206可以使用IP寻址协议来支持内部通信,其中连接或结合到中平面206的每个设备包含由在服务器刀片机架200内部或外部的逻辑(没有显示)指定的IP地址。例如,动态主机配置协议(DHCP)服务器110,如图1中所示,可以用来将IP地址分配给服务器刀片204a。此后,与服务器刀片204a的通信经由与服务器刀片204a相关联的网络接口卡(NIC)226a。
管理模块202管理刀片地址列表228,其是中平面206上所有管理通路位置(或者是物理总线地址如果使用插口222,或者是IP地址如果使用NIC226)的列表。该刀片地址列表228用来在图3和4描述的步骤中识别丢失服务器刀片204。
再次参考图2a,以典型的方式,位于管理模块202和中平面206之间的是刀片阻塞器230,其选择性地阻塞管理模块202与服务器刀片204中指定服务处理器208的任何组合之间的通信。刀片阻塞器230的默认状态允许管理模块202和服务器刀片204之间(经由各自服务处理器208)的无限制通信,其中管理模块202和服务器刀片204之间的特定通信根据来自管理模块202的信号/命令而阻塞。刀片阻塞器230用来隔离特定服务器刀片204的服务处理器208,当多个服务器刀片204的服务处理器208丢失时,如图4中描述的。
同样与中平面206相关联的是存在检测设备232。可能是I2C设备的存在检测设备232能够与管理模块202通信,以识别哪个服务器刀片204安装在中平面206上。
现在参考图3,描绘在本发明优选实施方案中恢复丢失服务器刀片所采取的步骤的流程图。在启动程序302处开始,服务器刀片的服务处理器中的闪速ROM使用固件的更新来闪存(块304)。从管理模块下载到服务处理器的该固件优选地是上面参考图2a-b描述的。也就是,下载(闪存)到闪速ROM的闪存区中的该固件是先前存储固件的更新,并且包括优化相关服务器刀片的操作的代码。
在闪存操作期间,服务器刀片的逻辑位置可能变成未定义直到闪存操作成功地完成。闪存操作可能因上面讨论的原因而没有成功地完成。如果没有(询问块306),服务器刀片发送错误信号(块308)。该错误信号在管理模块和服务器刀片之间的中平面中的特定地址(物理布线或IP地址)上发送。例如,如果服务器机架具有十四个服务器刀片的插口,每个具有在中平面总线上的唯一地址,那么中平面总线上的第十五个地址为指示服务器刀片中闪速ROM的失败闪存操作的错误信号而保留。
但是,管理模块仅从错误信号中将不知道哪个服务器刀片未能使用更新的固件闪存其闪速ROM。因此,管理模块首先检查标识为服务器机架系统一部分的所有服务器刀片的位置(地址)列表(块310)。管理模块然后通过比较(应当在系统上的所有服务器刀片的)服务器刀片地址列表上的位置和当前具有与管理模块的通信能力的服务器刀片的地址,来确定哪个服务器刀片“丢失”(因在失败闪存操作期间其位置未定义)。该通信能力可以通过监控到和从服务器刀片的通信量并且使用如上参考图2a描述的存在检测设备232来由管理模块实现。在列表上但是没有与管理模块通信的服务器刀片被推论为丢失服务器(块312)。
然后管理模块,优选地使用图2中描述的I2C逻辑224,向服务器刀片提供(块314)其当前管理通路位置(物理位置或IP地址)。该当前位置标识优选地通过转换来自图2a中所示刀片地址列表228的当前位置标识来提供。既然管理模块和服务器刀片知道服务器刀片的恢复位置标识,管理模块可以重新闪存服务器刀片中的闪速ROM(块316),并且过程结束(结束程序块318)。
可能存在两个或多个服务器刀片失败的情况。图4中所示的步骤满足处理该情况的优选方法。虽然步骤描述为仅两个服务器刀片未能正确地闪存新的固件,该方法适合于任何数目的服务器刀片,如这里描述的。
以启动程序块402开始,管理模块闪存第一和第二服务器刀片的闪速ROM(块404)。如果它们都失败(询问块406),那么两个服务器刀片都将丢失。一个(或者优选地两个都)服务器刀片将失败信号放置在连接到管理模块的中平面总线上,其接收失败信号(块408)。如果第一和第二服务器刀片都发送失败信号,那么管理模块可能接收重复的失败信号,指示两个失败的闪存。作为选择,管理模块可能仅接收到单个失败信号,对于全部两个服务器刀片,两个服务器刀片都或者仅一个服务器刀片发送失败信号。
管理模块不能通信到全部两个服务器刀片,因为如果两个服务器刀片同时在特定地址将发生的冲突问题。因此,管理模块必须首先使用图2a中描述的刀片阻塞器将服务器刀片之一阻塞出去(块410)。以图3中描述的相同方式,管理模块然后重新建立未被阻塞的服务器刀片的位置标识,并且重新闪存那个服务器刀片闪速ROM(块412)。接下来,管理模块指示刀片阻塞器以解除阻塞该被阻塞的服务器刀片,另一个丢失服务器刀片的标识位置被建立,并且它的闪速ROM以上述相同方式重新闪存(块414),从而结束过程(结束程序块416)。
如果存在多于一个因固件到闪速ROM的失败闪存而已经丢失的服务器刀片,那么刀片阻塞器继续阻塞所有其它服务器刀片,除了那个标识位置正要被重新建立的服务器刀片。
本发明因此提供一种恢复因失败闪存而已经丢失的丢失服务器刀片的可靠方法和系统。通过识别丢失的服务器刀片,服务器刀片的更新固件可以重新闪存,允许服务器刀片以最大效率操作。
应当理解,本发明至少一些方面可能作为选择地以程序产品实现。定义本发明上功能的程序可以经由多种信号承载介质传递到数据存储系统或计算机系统,其包括但不局限于,不可写存储介质(例如CD-ROM),可写存储介质(例如软盘,硬盘驱动器,读/写CD ROM,光介质),以及通信介质,例如计算机和电话网络,包括以太网。应当理解,因此,在这种信号承载介质中,当承载或编码指示本发明中的方法功能的计算机可读指令时,代表本发明的备选实施方案。此外,应当理解,本发明可能由具有硬件,软件,或者软件和硬件组合形式的装置的系统来实现,如在这里或其等价物中描述的。
虽然本发明已经参考优选实施方案详细地显示和描述,本领域技术人员应当理解,形式和细节的各种改变可能在其中进行,而不背离本发明的本质和范围。

Claims (16)

1.一种方法,包括:
试图从管理模块下载计算机代码到第一数据处理单元,该第一数据处理单元是由管理模块管理的多个数据处理单元中的一个,该多个数据处理单元由管理通路连接到管理模块;
响应计算机代码未能正确地下载从而导致第一数据处理单元不能定义它在管理通路上的管理通路位置,使用管理通路上的特殊地址将失败信号从第一数据处理单元发送到管理模块;
比较当前有效数据处理单元的管理通路位置和为所有多个数据处理单元而保留的所有管理通路位置列表中的管理通路位置,该当前有效数据处理单元来自多个数据处理单元;以及
推断第一数据处理单元的管理通路位置为在所有管理通路位置列表上但不是当前有效数据处理单元之一的管理通路位置的管理通路位置。
2.根据权利要求1的方法,还包括在推断第一数据处理单元的管理通路位置之后提供管理通路位置到第一数据处理单元。
3.根据权利要求2的方法,其中第一数据处理单元的管理通路位置使用符合I2C总线规范并且连接到管理通路的控制逻辑来提供到第一数据处理单元。
4.根据权利要求3的方法,其中控制逻辑在管理模块的控制下。
5.根据权利要求1的方法,还包括:
识别由于失败的计算机代码下载而不知道自身的管理通路位置的第二数据处理单元;
阻塞从管理模块到第二数据处理单元的通信;以及
提供第一数据处理单元的管理通路位置到第一数据处理单元。
6.根据权利要求5的方法,还包括:
随后将第二数据处理单元和管理模块之间的通信解除阻塞;以及
提供第二数据处理单元的管理通路位置到第二数据处理单元。
7.根据权利要求1的方法,其中多个数据处理单元是服务器刀片。
8.根据权利要求7的方法,其中管理模块和服务器刀片是服务器刀片机架的组件。
9.根据权利要求1的方法,其中数据处理单元的每个具有网络接口卡NIC,并且其中第一数据处理单元的管理通路位置是因特网协议地址。
10.根据权利要求1的方法,其中计算机代码下载到第一数据处理单元的服务处理器中。
11.根据权利要求1的方法,其中计算机代码试图闪存到第一数据处理单元中的服务处理器中的闪速存储器中。
12.一种系统,包括:
管理模块;
多个数据处理单元;
将管理模块连接到多个数据处理单元的管理通路;
为管理通路上的多个数据处理单元保留的保留管理通路位置列表;以及
连接到管理通路的存在检测设备,其中如果计算机代码到多个数据处理单元中的第一数据处理单元的下载失败并且使得第一数据处理单元的管理通路位置变成由第一数据处理单元未定义,那么存在检测设备在管理通路上的特殊地址上检测来自第一数据处理单元的失败信号,从而导致管理模块比较所述保留管理通路位置列表中的管理通路位置和当前有效的数据处理单元的管理通路位置,并且推断第一数据处理单元的管理通路位置为在所述保留管理通路位置列表上但不是当前有效数据处理单元之一的管理通路位置的管理通路位置,以恢复管理通路位置到第一数据处理单元。
13.根据权利要求12的系统,还包括控制逻辑,其符合I2C总线规范,用于将管理通路位置恢复到第一数据处理单元。
14.根据权利要求13的系统,还包括:
阻塞器,用于阻塞从管理模块到未能下载软件的第二数据处理单元的通信,当第二数据处理单元被阻塞时,第一数据处理单元能够使自身的管理通路位置被恢复,并且在该阻塞器解除阻塞之后,第二数据处理单元能够随后使自身的管理通路位置被恢复。
15.根据权利要求12的系统,还包括:
第一数据处理单元中的服务处理器;以及
第一数据处理单元中的服务处理器中的闪速存储器,其中计算机代码是从管理模块闪存到闪速存储器的更新的代码。
16.根据权利要求12的系统,其中所述多个数据处理单元是服务器机架中的服务器刀片。
CNB2005100064220A 2004-02-12 2005-01-31 恢复服务器机架中刀片服务处理器的失败闪存的方法和系统 Active CN100364274C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/777,375 2004-02-12
US10/777,375 US7383461B2 (en) 2004-02-12 2004-02-12 Method and system to recover a failed flash of a blade service processor in a server chassis

Publications (2)

Publication Number Publication Date
CN1655519A CN1655519A (zh) 2005-08-17
CN100364274C true CN100364274C (zh) 2008-01-23

Family

ID=34837975

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100064220A Active CN100364274C (zh) 2004-02-12 2005-01-31 恢复服务器机架中刀片服务处理器的失败闪存的方法和系统

Country Status (5)

Country Link
US (4) US7383461B2 (zh)
JP (1) JP4594750B2 (zh)
KR (1) KR100702551B1 (zh)
CN (1) CN100364274C (zh)
TW (1) TWI341458B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105122207A (zh) * 2013-04-03 2015-12-02 惠普发展公司,有限责任合伙企业 管理固件更新

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7383461B2 (en) * 2004-02-12 2008-06-03 International Business Machines Corporation Method and system to recover a failed flash of a blade service processor in a server chassis
US20060233174A1 (en) * 2005-03-28 2006-10-19 Rothman Michael A Method and apparatus for distributing switch/router capability across heterogeneous compute groups
TWI285304B (en) * 2005-10-20 2007-08-11 Quanta Comp Inc Extendable storage apparatus for blade server system
US7873696B2 (en) * 2005-10-28 2011-01-18 Yahoo! Inc. Scalable software blade architecture
US7870288B2 (en) * 2005-10-28 2011-01-11 Yahoo! Inc. Sharing data in scalable software blade architecture
US7779157B2 (en) * 2005-10-28 2010-08-17 Yahoo! Inc. Recovering a blade in scalable software blade architecture
US7707465B2 (en) * 2006-01-26 2010-04-27 International Business Machines Corporation Routing of shared I/O fabric error messages in a multi-host environment to a master control root node
JP4712089B2 (ja) * 2006-02-13 2011-06-29 富士通株式会社 情報処理装置、システム制御装置および情報処理装置の制御方法
JP4751785B2 (ja) * 2006-07-31 2011-08-17 富士通株式会社 伝送装置およびソフトウェア自動更新方法
US7996829B2 (en) * 2006-07-31 2011-08-09 Hewlett-Packard Development Company, L.P. Managing software revisions for servers in an infrastructure
TWI317887B (en) * 2006-10-23 2009-12-01 Quanta Comp Inc Modular management blade system and code updating method
JP2008123464A (ja) * 2006-11-16 2008-05-29 Hitachi Ltd リモートコンソール機構を備えたサーバシステム
US7930425B2 (en) * 2006-12-11 2011-04-19 International Business Machines Corporation Method of effectively establishing and maintaining communication linkages with a network interface controller
US8776037B2 (en) * 2007-01-04 2014-07-08 International Business Machines Corporation Apparatus and method to update multiple devices disposed in a computing system
JP5439736B2 (ja) * 2008-04-08 2014-03-12 日本電気株式会社 コンピュータ管理システム、コンピュータシステムの管理方法、及びコンピュータシステムの管理プログラム
CN103257949B (zh) * 2008-06-19 2016-08-31 惠普开发有限公司 多刀片互连器
EP2304582A4 (en) * 2008-06-19 2013-02-13 Hewlett Packard Development Co MORE BLADE CONNECTOR
WO2009154629A1 (en) * 2008-06-20 2009-12-23 Hewlett-Packard Development Company, L.P. Domain management processor
EP2304580A4 (en) * 2008-06-20 2011-09-28 Hewlett Packard Development Co LOW-LEVEL initializer
JP4982454B2 (ja) * 2008-09-03 2012-07-25 株式会社日立製作所 情報処理方法および情報処理システム
US9104521B2 (en) * 2009-03-16 2015-08-11 Tyco Electronics Subsea Communications Llc System and method for remote device application upgrades
CN102053944A (zh) * 2010-12-10 2011-05-11 曙光信息产业(北京)有限公司 刀片服务器中数据的共享方法
US8640118B2 (en) * 2011-05-24 2014-01-28 International Business Machines Corporation Managing firmware on a system board
CN103793238A (zh) * 2012-10-31 2014-05-14 英业达科技有限公司 机柜与其同时更新多个基本输入输出系统的方法
WO2014158153A1 (en) 2013-03-28 2014-10-02 Hewlett-Packard Development Company, L.P. Identifying memory of a blade device for use by an operating system of a partition including the blade device
WO2014158161A1 (en) * 2013-03-28 2014-10-02 Hewlett-Packard Development Company, L.P. Error coordination message for a blade device having a logical processor in another system firmware domain
EP2979170B1 (en) 2013-03-28 2020-07-08 Hewlett-Packard Enterprise Development LP Making memory of compute and expansion blade devices available for use by an operating system
US20150365269A1 (en) * 2014-06-17 2015-12-17 Hon Hai Precision Industry Co., Ltd. Usage of mapping jumper pins or dip switch setting to define node's ip address to identify node's location
US10387239B2 (en) * 2017-04-10 2019-08-20 Western Digital Technologies, Inc. Detecting memory failures in the runtime environment
KR102385541B1 (ko) * 2017-09-29 2022-04-11 삼성전자주식회사 버스 시스템
CN112087531A (zh) * 2020-08-14 2020-12-15 陕西千山航空电子有限责任公司 一种在线配置网络地址的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1265204A (zh) * 1997-08-11 2000-08-30 全斯美达有限公司 检测被寻址单元预测失败的存储控制器
CN1365032A (zh) * 2001-12-29 2002-08-21 天津大学 远程网络监控和二次开发功能的开放式结构数控系统
US20030226004A1 (en) * 2002-06-04 2003-12-04 International Business Machines Corporation Remotely controlled boot settings in a server blade environment

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63191240A (ja) 1987-02-03 1988-08-08 Nissin Electric Co Ltd マルチプロセツサシステム
JP2698074B2 (ja) 1987-05-21 1998-01-19 日本電信電話株式会社 マルチプロセッサシステムにおけるプロセッサの局データ変更方法
US5864653A (en) * 1996-12-31 1999-01-26 Compaq Computer Corporation PCI hot spare capability for failed components
US6338150B1 (en) * 1997-05-13 2002-01-08 Micron Technology, Inc. Diagnostic and managing distributed processor system
US6718481B1 (en) * 2000-05-26 2004-04-06 Emc Corporation Multiple hierarichal/peer domain file server with domain based, cross domain cooperative fault handling mechanisms
US20020087668A1 (en) * 2000-12-29 2002-07-04 San Martin Raul S. Automatic upgrade of live network devices
US20020174207A1 (en) 2001-02-28 2002-11-21 Abdella Battou Self-healing hierarchical network management system, and methods and apparatus therefor
US20020188718A1 (en) * 2001-05-04 2002-12-12 Rlx Technologies, Inc. Console information storage system and method
US7395323B2 (en) * 2001-08-07 2008-07-01 Hewlett-Packard Development Company, L.P. System and method for providing network address information in a server system
US20030033463A1 (en) * 2001-08-10 2003-02-13 Garnett Paul J. Computer system storage
JP2005527006A (ja) 2001-08-10 2005-09-08 サン・マイクロシステムズ・インコーポレーテッド コンピュータシステム管理
US20030069953A1 (en) 2001-09-28 2003-04-10 Bottom David A. Modular server architecture with high-availability management capability
US7299277B1 (en) * 2002-01-10 2007-11-20 Network General Technology Media module apparatus and method for use in a network monitoring environment
US20040030766A1 (en) 2002-08-12 2004-02-12 Michael Witkowski Method and apparatus for switch fabric configuration
US8051210B2 (en) * 2002-10-15 2011-11-01 Hewlett-Packard Development Company, L.P. Server with LAN switch that connects ports based on connection information received from first and second LANs
US6931475B2 (en) 2002-11-18 2005-08-16 Quanta Computer Inc. Blade server system with KVM switches
US20040103180A1 (en) * 2002-11-27 2004-05-27 International Business Machines Corporation Method, apparatus and program product for server mangement
US6976112B2 (en) * 2002-11-27 2005-12-13 International Business Machines Corporation Apparatus, method and program product for automatically distributing power to modules inserted in live chassis
US7350112B2 (en) * 2003-06-16 2008-03-25 International Business Machines Corporation Automated diagnostic service
US20050021732A1 (en) * 2003-06-30 2005-01-27 International Business Machines Corporation Method and system for routing traffic in a server system and a computer system utilizing the same
US7483374B2 (en) * 2003-08-05 2009-01-27 Scalent Systems, Inc. Method and apparatus for achieving dynamic capacity and high availability in multi-stage data networks using adaptive flow-based routing
US7233877B2 (en) * 2003-08-29 2007-06-19 Sun Microsystems, Inc. System health monitoring
US20050068888A1 (en) * 2003-09-26 2005-03-31 Komarla Eshwari P. Seamless balde failover in platform firmware
US7383461B2 (en) * 2004-02-12 2008-06-03 International Business Machines Corporation Method and system to recover a failed flash of a blade service processor in a server chassis
US20050188080A1 (en) 2004-02-24 2005-08-25 Covelight Systems, Inc. Methods, systems and computer program products for monitoring user access for a server application
US20050188221A1 (en) * 2004-02-24 2005-08-25 Covelight Systems, Inc. Methods, systems and computer program products for monitoring a server application
US7398401B2 (en) * 2004-03-25 2008-07-08 Intel Corporation Method and apparatus for communicating information from an operating system based environment of a server blade to the chassis management module
TWI285304B (en) * 2005-10-20 2007-08-11 Quanta Comp Inc Extendable storage apparatus for blade server system
US20070094426A1 (en) 2005-10-24 2007-04-26 Aten International Co., Ltd. KVM switch supporting IPMI communications with computing devices
US7814479B2 (en) * 2005-12-14 2010-10-12 International Business Machines Corporation Simultaneous download to multiple targets
JP4127315B2 (ja) * 2006-05-24 2008-07-30 株式会社日立製作所 デバイス管理システム
US8112316B2 (en) * 2007-05-29 2012-02-07 Walgreen Co. Digital photograph processing and ordering system and method
US7996719B2 (en) 2008-10-24 2011-08-09 Microsoft Corporation Expressing fault correlation constraints

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1265204A (zh) * 1997-08-11 2000-08-30 全斯美达有限公司 检测被寻址单元预测失败的存储控制器
CN1365032A (zh) * 2001-12-29 2002-08-21 天津大学 远程网络监控和二次开发功能的开放式结构数控系统
US20030226004A1 (en) * 2002-06-04 2003-12-04 International Business Machines Corporation Remotely controlled boot settings in a server blade environment

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105122207A (zh) * 2013-04-03 2015-12-02 惠普发展公司,有限责任合伙企业 管理固件更新

Also Published As

Publication number Publication date
US7383461B2 (en) 2008-06-03
JP2005228308A (ja) 2005-08-25
US20080126563A1 (en) 2008-05-29
US20050182851A1 (en) 2005-08-18
KR20050081165A (ko) 2005-08-18
US20080140859A1 (en) 2008-06-12
KR100702551B1 (ko) 2007-04-04
US20080141236A1 (en) 2008-06-12
TWI341458B (en) 2011-05-01
CN1655519A (zh) 2005-08-17
JP4594750B2 (ja) 2010-12-08
US7970880B2 (en) 2011-06-28
US8140705B2 (en) 2012-03-20
TW200606629A (en) 2006-02-16
US7996706B2 (en) 2011-08-09

Similar Documents

Publication Publication Date Title
CN100364274C (zh) 恢复服务器机架中刀片服务处理器的失败闪存的方法和系统
US7512830B2 (en) Management module failover across multiple blade center chassis
CN100375028C (zh) 在存储区域网络中安装远程引导的操作系统的系统和方法
US10430082B2 (en) Server management method and server for backup of a baseband management controller
US20110270962A1 (en) Method of building system and management server
CN102521289B (zh) 一种文件同步方法、装置及系统
CN109101247A (zh) 安装驱动程序的方法、装置和服务器
US7856489B2 (en) Simplify server replacement
KR20010092554A (ko) 컨텐츠 서비스를 제공하는 웹서버의 백업 시스템 및 그 방법
Cisco Configuring the Route Processor for the Catalyst 8540
Cisco Configuring the Switch Route Processor for the Catalyst 8510
Cisco Configuring the Route Processor for the Catalyst 8540
Cisco Configuring the Switch Route Processor for the Catalyst 8510
US20220404986A1 (en) Configuration of a computational drive
Cisco LightStream 2020 Release Notes for Software Release 2.1(1.93)
Cisco LightStream 2020 Release Notes for Software Release 2.1(1.93)
Cisco LightStream 2020 Release Notes for Software Release 2.1(1.93)
Cisco LightStream 2020 Release Notes for Software Release 2.1(1.93)
Cisco Operational Traps
Cisco Operational Traps
Cisco LightStream 2020 Release Notes for Software Release 2.1(1.93)
Cisco LightStream 2020 Release Notes for Software Release 2.1(1.93)
Cisco LightStream 2020 Release Notes for Software Release 2.1(1.93)
Cisco LightStream 2020 Release Notes for Software Release 2.1(1.93)
Cisco Operational Traps

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant