DE10232919A1 - Computersystem mit Sicherungsverwaltung zur Handhabung eines eingebetteten Prozessorausfalls - Google Patents

Computersystem mit Sicherungsverwaltung zur Handhabung eines eingebetteten Prozessorausfalls

Info

Publication number
DE10232919A1
DE10232919A1 DE10232919A DE10232919A DE10232919A1 DE 10232919 A1 DE10232919 A1 DE 10232919A1 DE 10232919 A DE10232919 A DE 10232919A DE 10232919 A DE10232919 A DE 10232919A DE 10232919 A1 DE10232919 A1 DE 10232919A1
Authority
DE
Germany
Prior art keywords
management processor
power
management
processor
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE10232919A
Other languages
English (en)
Inventor
David R Maciorowski
Michael John Erickson
Paul J Mantey
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Publication of DE10232919A1 publication Critical patent/DE10232919A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/30Means for acting in the event of power-supply failure or interruption, e.g. power-supply fluctuations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Power Sources (AREA)

Abstract

Ein System zum Bereitstellen von Grundsystemsteuerfunktionen nach einem Ausfall eines Verwaltungsprozesses in einem Computersystem. Während des normalen Systembetriebs überwacht ein Verwaltungsprozessor die Systemsensoren, die die Systemleistung, Temperatur und den Kühlungslüfterzustand überwachen und notwendige Einstellungen vornehmen. Der Verwaltungsprozessor liefert normalerweise ein Ausgangssignal, das anzeigt, daß er ordnungsgemäß arbeitet. Eine Hochverfügbarkeitssteuerung überwacht jedes dieser Signale, um zu verifizieren, daß zumindest ein Betriebsverwaltungsprozessor vorhanden ist. Wenn keiner der Prozessoren anzeigt, daß sie ordnungsgemäß arbeiten, überwacht die Hochverfügbarkeitssteuerung die Systemsensoren und aktualisiert die Systemanzeigen. Hat sich ein Problem entwickelt, wie z. B. der Ausfall einer Leistungsversorgung oder ein potentiell gefährlicher Ansteig der Temperatur, fährt die Hochverfügbarkeitssteuerung die entsprechende Ausrüstung sequentiell herunter, um das System vor einer Beschädigung zu schützen.

Description

  • Die vorliegende Erfindung bezieht sich allgemein auf Computersysteme und spezieller auf ein System, das einen Sicherungs-Verwaltungsprozessor (Backup-Verwaltungsprozessors) aufweist, der Grundsystem-Steuerfunktionen bei einem Ausfall von einem oder mehreren Systemverwaltungsprozessoren vorsieht.
  • Bestimmte existierende Computersysteme umfassen einen Verwaltungsprozessor zum Überwachen und Steuern von Aspekten der Systemumgebung, wie z. B. der Leistung, der Leistungssequenzierung, der Temperatur, und zum Aktualisieren von Bedientfeldanzeigen. Ein Ausfall des Verwaltungsprozessors kann zu einem Systemausfall aufgrund der Unfähigkeit zur Überwachung und Steuerung von Systemstatus, Leistung, Temperatur und dergleichen führen.
  • Sogar bei Systemen mit einem Peer- oder Sicherungs- Verwaltungsprozessor kann ein Firmware-Programmfehler, der allen Verwaltungsprozessoren gemein ist, bewirken, daß der Systemprozessor effektiv funktionsunfähig wird, da alle diese Prozessoren typischerweise im wesentlichen mit dem gleichen Code programmiert sind und sie daher wahrscheinlich alle dem gleichen Problem unterliegen, wenn eine fehlerhafte Codesequenz ausgeführt wird.
  • Es ist eine Aufgabe der vorliegenden Erfindung, ein System und ein Verfahren zur Sicherungsverwaltung zu schaffen, das Grundsystemsteuerungsfunktionen bei einem Prozessorausfall liefert.
  • Diese Aufgabe wird durch ein System gemäß Anspruch 1 und 16 und ein Verfahren gemäß Anspruch 8 gelöst.
  • Das vorliegende System löst die vorstehenden Probleme und erreicht einen Vorteil auf diesem Gebiet durch Bereitstellen einer Hochverfügbarkeitssteuerung, die den Status des Verwaltungsprozessors überwacht. Sollte der Verwaltungsprozessor ausfallen, sieht die Steuerung zumindest einen minimalen Satz von Funktionen vor, die erforderlich sind, um dem System zu ermöglichen, den Betrieb zuverlässig fortzusetzen. Ferner führt die Hochverfügbarkeitssteuerung nicht die gleiche Sequenz von Operationen wie der Code aus, der durch den Verwaltungsprozessor ausgeführt wird, und daher unterliegt sie nicht einem Ausfall, der aus einem spezifischen Programmfehler resultiert, der bewirken kann, daß der Verwaltungsprozessor ausfällt.
  • Das vorliegende System umfaßt ein Leistungsverwaltungs- Teilsystem, das die Leistung an alle System-Entitäten steuert und einen Schutz für die System-Hardware vor Leistungs- und Umgebungsfehlern vorsieht. Das Leistungsverwaltungs- Teilsystem steuert auch die Frontbedienfeld-LEDs und sieht eine Großraumleistungs-Ein/Aus-Steuerung über einen Leistungsschalter vor.
  • Während des normalen Systembetriebs überwacht der Verwaltungsprozessor die Systemsensoren, die die Systemleistung, Temperatur und den Kühllüfterstatus erfassen, und nimmt notwendige Einstellungen vor oder meldet Probleme. Der Verwaltungsprozessor aktualisiert auch verschiedene Anzeigen und überwacht benutzerinitiierte Ereignisse, wie z. B. das Ein- oder Ausschalten der Leistung.
  • Der Verwaltungsprozessor liefert normalerweise ein Ausgangssignal, das anzeigt, daß er ordnungsgemäß arbeitet. Die Hochverfügbarkeitssteuerung überwacht dieses Signal, um zu verifizieren, daß der Verwaltungsprozessor arbeitet. Wenn der Verwaltungsprozessor anzeigt, daß er nicht ordnungsgemäß arbeitet, überwacht die Hochverfügbarkeitssteuerung die Systemsensoren und aktualisiert die Systemanzeigen. Entwickelt sich ein Problem, wie ein Ausfall einer Leistungsversorgung oder eine potentiell gefährlicher Temperaturanstieg, fährt die Hochverfügbarkeitssteuerung die entsprechenden Ausrüstung herunter, um das System vor Schaden zu schützen. Zusätzlich, wenn ein Systembenutzer entschließt, das System herunterzufahren, spricht die Hochverfügbarkeitssteuerung auf den Leistungsschalter an, der verwendet werden kann, um das Herunterfahren des Systems zu initiieren, wenn der Verwaltungsprozessor ausgefallen ist.
  • Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen näher erläutert. Es zeigen:
  • Fig. 1 ein Blockdiagramm, das die Grundkomponenten des vorliegenden Systems darstellt,
  • Fig. 2 ein Blockdiagramm, das exemplarische Komponenten darstellt, die bei einem Ausführungsbeispiel der vorliegenden Erfindung verwendet werden,
  • Fig. 3 ein Flußdiagramm, das eine exemplarische Sequenz von Schritten zeigt, die durch die Hochverfügbarkeitssteuerung gemäß dem vorliegenden System ausgeführt werden,
  • Fig. 4 ein Blockdiagramm, das die Komponenten der Hochverfügbarkeitssteuerung des vorliegenden Systems ausführlicher darstellt, und
  • Fig. 5 ein Flußdiagramm, das eine exemplarische Sequenz von Schritten zeigt, die durch die Betriebszustandsmaschine der Hochverfügbarkeitssteuerung ausgeführt werden.
  • Fig. 1 ist ein Blockdiagramm, das die Grundkomponenten des vorliegenden Systems 100 darstellt. Wie in Fig. 1 gezeigt ist, weisen die Komponenten einer höheren Ebene des Systems 100 einen oder mehrere Verwaltungsprozessoren 105, eine Hochverfügbarkeitssteuerung 101, Leistungs-, Lüfter- und Systemtemperatur-Sensoren 120, Frontbedienfeld-Anzeigen 130, ein Kühlungslüfter-Steuerungsmodul 140, eine Mehrzahl von Leistungssteuerungen 150 und einen Leistungsschalter 110 auf.
  • Der Verwaltungsprozessor 105 überwacht und steuert verschiedene Aspekte der Systemumgebung, wie z. B. die Leistung, über Leistungssteuerungen 15x (lokale Leistungsmodule 151, 152 und 153, die in Fig. 2 gezeigt sind), die Temperatur, über Kühlungslüfter, die durch das Modul 140 gesteuert werden, und das Aktualisieren von Bedienfeldanzeigen 130. Der Verwaltungsprozessor 105 verwaltet Operationen, die der Kern-I/O-Platine 104 zugeordnet sind, die I/O- Steuerungen für Peripheriegeräte, Busverwaltung und dergleichen umfaßt. Die Hochverfügbarkeitssteuerung 101 überwacht den Status des Verwaltungsprozessors 105 sowie die Leistungs-, Lüfter- und Temperatursensoren 120. In der Situation, in der die Hochverfügbarkeitssteuerung 101 den Ausfall des Verwaltungsprozessors 105 erfaßt, übernimmt sie die Steuerung des Systems 100, wie nachstehend ausführlicher beschrieben ist.
  • Da die Hochverfügbarkeitssteuerung nicht die gleiche Sequenz von Operationen wie der Code, der durch den Verwaltungsprozessor ausgeführt wird, ausführt, unterliegt sie daher nicht dem Ausfall, der aus einem spezifischen Programmfehler resultiert, der bewirken kann, daß der Verwaltungsprozessor ausfällt.
  • Normaler Systembetrieb
  • Während der Verwaltungsprozessor 105 ordnungsgemäß arbeitet, finden folgende Ereignisse statt. Wenn der Frontbedienfeld-Leistungsschalter 110 gedrückt wird, erkennt dies die Hochverfügbarkeitssteuerung 101 und benachrichtigt den Verwaltungsprozessor durch eine Unterbrechung. Der Verwaltungsprozessor wertet die Leistungsanforderungen gegenüber der verfügbaren Leistung aus, und, wenn zumindest eine Systemleistungsversorgung verfügbar ist und ordnungsgemäß arbeitet, der Verwaltungsprozessor 105 befiehlt der Hochverfügbarkeitssteuerung, das System hochzufahren.
  • Fig. 2 zeigt die Komponenten ausführlicher, die bei einem exemplarischen Ausführungsbeispiel des vorliegenden Systems genutzt werden. Während des normalen Systembetriebs, wenn der Frontbedienfeld-Leistungsschalter 110 gedrückt wird, werden folgende Komponenten hochgefahren:
    • 1. System-Rückwandplatine 118,
    • 2. PCI- (I/O-Karten-) Rückwandplatine 125 und
    • 3. zugeordnete Zellenplatine 102.
  • Man beachte, daß das System 100 eine Mehrzahl von PCI- Rückwandplatinen 125 umfassen kann, von denen jede eine Mehrzahl von zugeordneten Zellenplatinen 102 enthalten kann. Bei dem vorliegenden System weist eine Zelle (Platine) 102 eine Mehrzahl von Prozessoren 115 und eine zugeordnete Hardware/Firmware und einen Speicher (nicht gezeigt) auf, ein lokales Leistungsmodul 152 zum Steuern der Leistung zu der Zelle und einen lokalen Serviceprozessor zum Verwalten des Informationsflusses zwischen den Prozessoren 115 und den externen Entitäten, die den Verwaltungsprozessor 105 umfassen.
  • Der Frontbedienfeld-Leistungsschalter 110 steuert die Leistung zu dem System 100 bei sowohl hardware- als auch software geschalteten Modi. Diese ermöglicht dem System, in Ermangelung eines Verwaltungsprozessors 105 hochgefahren oder heruntergefahren zu werden. Wenn der Frontbedienfeld- Leistungsschalter 110 gedrückt wird, wenn keine Zellenplatine 102 vorhanden ist, wird seine PCI-Rückwandplatine 125 nicht hochgefahren. Wenn eine Zellenplatine vorhanden ist, jedoch keine PCI-Rückwandplatine vorhanden ist, wird die Zellenplatine dennoch hochgefahren. Wenn der Frontbedienfeld-Leistungsschalter erneut gedrückt wird, wird der Verwaltungsprozessor 105 erneut durch eine Unterbrechung benachrichtigt. Der Verwaltungsprozessor 105 benachrichtigt dann die entsprechenden Systementitäten, und das System wird heruntergefahren.
  • Ein Cell_Present-Signal 114 wird zur Systemplatine (und zur Hochverfügbarkeitssteuerung 101) durch Pins, die sich auf dem Verbinder auf der Zellenplatine 102 befinden, geleitet. Wenn die Zellenplatine aus der Systemplatine entfernt worden ist, wird das Cell_Present-Signal 114 unterbrochen, wodurch bewirkt wird, daß es inaktiv wird. Die Hochverfügbarkeitssteuerung 101 überwacht das Cell_Present-Signal, und wenn ein Cell-Power-Enable-Signal 113 zu einer Zellenplatine 102, deren "Cell-Present"-Signal 114 inaktiv wird, aktiv ist, wird die Leistung zur Platine unmittelbar gesperrt und bleibt so lange gesperrt, bis die Leistung zur Zellenplatine ausdrücklich wieder freigegeben worden ist. Ein "Core- IO-Present"-Signal 109 wird zur Systemplatine durch die Pins, die sich auf dem Kern-I/O-Platinenverbinder befinden, geleitet. Wenn die Kern-I/O-Platine 104 entfernt worden ist, wird das Core-I/O-Present-Signal 109 unterbrochen, wodurch bewirkt wird, daß es inaktiv wird.
  • Die Kern-I/O-Platine 104 umfaßt einen Überwachungszeitgeber, der die Ansprechbarkeit des Verwaltungsprozessors 105 überwacht, um beim Bestimmen, ob der Prozessor ordnungsgemäß arbeitet, zu helfen. Der Verwaltungsprozessor 105 umfaßt eine Firmware-Aufgabe zum Überprüfen der Integrität der Systembetriebsumgebung, wodurch eine zusätzliche Maßnahme für eine ordnungsgemäße Funktionsfähigkeit des Verwaltungsprozessors bereitgestellt wird.
  • Betrieb ohne Verwaltungsprozessor
  • Fig. 3 ist ein Flußdiagramm, das eine exemplarische Sequenz von Schritten, die beim Praktizieren eines Verfahrens gemäß dem vorliegenden System ausgeführt werden, zeigt. Der Betrieb des Systems ist besser verständlich, indem man Fig. 2 und 3 in Verbindung zueinander betrachtet. Bei einem exemplarischen Ausführungsbeispiel der vorliegenden Erfindung werden die Operationen, die in Fig. 3 beschrieben sind, durch die Operationszustandsmaschine 103 ausgeführt. Wie in Fig. 3 gezeigt ist, überwacht die Zustandsmaschine 103 der Hochverfügbarkeitssteuerung bei Schritt 300 den Status des Verwaltungsprozessors 105 über ein "Verwaltungsprozessor- OK"-Signal 108 (funktionsfähig) [MP_OK] 108. Bei Schritt 305, wenn das MP_OK-Signal 108 als aktiv erfaßt worden ist, wird davon ausgegangen, daß der Verwaltungsprozessor 105 ordnungsgemäß arbeitet, und die Zustandsmaschine 103 setzt den Überwachungsprozeß bei Schritt 300 fort.
  • Wenn die Zustandsmaschine 103 das MP_OK-Signal 108 als nicht aktiv erfaßt, geht die HAC (bzw. Hochverfügbarkeitssteuerung = high availability controller) davon aus, daß der Verwaltungsprozessor 105 entweder im System nicht vorhanden ist oder nicht funktionsfähig ist, und übernimmt die Verwaltung des Systems 100 bei Schritt 310, wobei sich das System im gleichen Betriebszustand befindet, wie unmittelbar zuvor vor dem Ausfall des Verwaltungsprozessors 105.
  • Die Hochverfügbarkeitssteuerung 101 aktiviert das System und die I/O-Lüfter 145 über das Lüftersteuerungsmodul 140. Das Lüftermodul erkennt, über ein inaktives SP_OK- (Verwaltungsprozessor-OK)- Signal 141 von der HAC 101, daß ein Verwaltungsprozessor nicht funktionsfähig ist und stellt seine Lüftergeschwindigkeit auf einen geeigneten Vorgabewert für einen unüberwachten Betrieb. Sollte ein Lüfterfehler durch das Lüftermodul 140 erfaßt worden sein, erkennt die Hochverfügbarkeitssteuerung 101 dies (über eine Lüftungsfehlerunterbrechung vom Lüftermodul) und fährt das System herunter.
  • Das "Cell-Present"-Signal 114 wird zur Hochverfügbarkeitssteuerung 101 durch die Pins, die sich auf dem Zellenplatinenverbinder befinden, geleitet. Wenn die Zellenplatine entfernt worden ist, wird das Cell-Present-Signal unterbrochen, wodurch bewirkt wird, daß es inaktiv wird. Die Zustandsmaschine 103 überwacht das Cell-Present-Signal 114, und, wenn das Cell-Power-Enable-Signal 113 zu einer Zellenplatine, deren Cell-Present-Signal 114 inaktiv wird, aktiv ist, wird die Leistung zur Platine unmittelbar deaktiviert und bleibt so lange deaktiviert, bis die Leistung zur Platine ausdrücklich wieder aktiviert worden ist. Das Core-IO- Present-Signal 109 wird zur HAC durch die Pins auf dem Kern-I/O-Platinenverbinder geleitet. Wenn die Kern-I/O- Platine 104 entfernt worden ist, wird das Core-IO-Present- Signal 109 unterbrochen, wodurch bewirkt wird, daß es inaktiv wird.
  • Die nachstehenden Grundsignale, die durch jede leistungsversorgbare Entität (Zelle(n) 102, Systemrückwandplatine 118 und PCI-Rückwandplatine 125) geliefert werden, werden durch die Hochverfügbarkeitssteuerung (HAC) 101 verwendet:
    • 1. ein "Power-Enable"-Signal (113, 122) (Leistung- Freigabe) von der 101 (HAC) zur Entität LPM,
    • 2. ein "Device-Present"-Signal (109, 114) (Vorrichtung präsent) zur HAC,
    • 3. ein "Device-Ready"-Signal (Vorrichtung bereit) zur HAC,
    • 4. ein "Power-Good"-Signal (Leistung an) zur HAC und
    • 5. ein "Power-Fault"-Signal (Leistungsfehler) zur HAC (außer bei Zellen-LPM-Fehleranzeigen, die an den lokalen Serviceprozessor 116 für die Zelle geliefert werden). Der Verständlichkeit halber wird jedes der letzten drei Signale [(3)-(5)] in Fig. 2 zu einer einzigen Leitung kombiniert, wie durch die Leitungen 112, 119 und 121 für die Zelle 102, die Systemrückwandplatine 118 bzw. die PCI-Rückwandplatine 125 gezeigt ist.
  • Bei Schritt 315 überwacht die Zustandsmaschine 103 das Verwaltungs-OK-Signal 108, um zu bestimmen, ob der Verwaltungsprozessor 105 wieder funktionsfähig ist. Wenn bestimmt worden ist, daß der Verwaltungsprozessor 105 funktionsfähig ist, wird die Steuerung zum Verwaltungsprozessor geleitet, und die Hochverfügbarkeitssteuerung 101 nimmt bei Schritt 300 wieder ihre Statusüberwachungsfunktion an.
  • Hochverfügbarkeitssteuerungslogik
  • Fig. 4 ist ein Blockdiagramm, das die Hochverfügbarkeitssteuerung des vorliegenden Systems ausführlicher darstellt. Wie in Fig. 4 gezeigt ist, zentralisiert die Hochverfügbarkeitssteuerung (HAC) 101 die Steuerungs- und Statusinformationen für einen Zugriff durch den Verwaltungsprozessor 105. Bei einem exemplarischen Ausführungsbeispiel der vorliegenden Erfindung ist die Hochverfügbarkeitssteuerung 101 als eine feldprogrammierbare logische Anordnung (FPGA; FPGA = field programmable logic array) implementiert, obwohl alternativ andere, nicht-softwarecodierte Bauelemente verwendet werden könnten. In jedem Fall führt die HAC 101 nicht die gleiche Sequenz von Operationen wie der Code aus, der durch den Verwaltungsprozessor 105 ausgeführt wird.
  • Die folgenden Sensor- und Steuerungssignale werden entweder empfangen oder durch die HAC erzeugt, während der Betrieb des Systems 100 überwacht wird:
    • 1. Der Frontbedienfeld-Leistungsschalter 110 wird durch die Hochverfügbarkeitssteuerung 101 überwacht.
    • 2. Die Lüfterfehlersignale melden Lüfterprobleme, die durch das Lüftermodul 140 erfaßt werden. Die Lüfterfehler sowie Rückwandplatinen-Leistungsfehler werden über einen Unterbrechungsbus 401 gemeldet, außer Zellenplatinen 102, von denen die Lüfterfehlersignale zum entsprechenden lokalen Serviceprozessor 116 gesendet werden.
    • 3. Ein "Device-Present"-Signal 405 wird von jeder Hauptplatine, d. h. Zelle 102, PCI 125 und Kern-I/O- Verwaltungsprozessor 104 (sowie den Frontbedienfeld- und Massenspeicherungsplatinen [nicht gezeigt]) in dem System gesendet, was anzeigt, daß die Platine ordnungsgemäß in das System eingebracht worden ist.
    • 4. "Power-Enable"-Signale 420 werden an jeden LPM 15x gesendet, um die Leistung von jeder zugeordneten, leistungsversorgbaren Entität zu steuern. Der "Power- Good"-Status bestätigt, über Signale 410 von den Hauptleistungsversorgungen und den leistungsversorgbaren Entitäten, das ordnungsgemäße Hochfahren und Herunterfahren für jede Entität.
    • 5. Ein "LPM-Ready"-Signal 415 kommt von jeder Platine in dem System. Dieses Signal zeigt an, daß der spezifische LPM 15x ordnungsgemäß neu eingestellt worden ist, alle notwendigen Betriebsmittel vorhanden sind und der LPM bereit ist, um die zugeordnete Platine hochzufahren.
    • 6. Frontbedienfeld-Anzeigen (LEDs oder andere Anzeigevorrichtungen) 130 der Hauptleistung, Standby-Leistung, Verwaltungsprozessor-OK und andere Anzeigen, die durch das Betriebssystem gesteuert werden, sind durch die Hochverfügbarkeitssteuerung 101 steuerbar.
  • Die durch die Leitungen 402 und 403 angezeigten Busse befinden sich intern in der FPGA der Hochverfügbarkeitssteuerung und funktionieren als "Daten-Aus"- bzw. "Daten-Ein"- Leitungen. Bei einem exemplarischen Ausführungsbeispiel der vorliegenden Erfindung ist der Block 106 eine I2C- Busschnittstelle, die eine Fernschnittstelle zwischen dem Verwaltungsprozessor 105 und den Sensoren und Steuerungen, die vorstehend beschrieben sind, vorsieht.
  • Hochverfüqbarkeitssteuerungs-Betriebszustandsmaschine
  • Fig. 5 ist ein Flußdiagramm, das eine exemplarische Sequenz von Schritten, die durch die Hochverfügbarkeitssteuerungs- Betriebszustandsmaschine 103 ausgeführt werden, zeigt. Wie in Fig. 5 gezeigt ist, benachrichtigt der Verwaltungsprozessor 105, der als Vorgabe-Primär-Verwaltungsprozessor 105(P) gekennzeichnet worden ist, die Hochverfügbarkeitssteuerung 105 über seinen primären Prozessorstatus nach einer System-Boot- (bzw. Urlade-) Operation bei Schritt 505, bei der alle Verwaltungsprozessoren 105(1)-105(N) die Ausführung ihres jeweiligen Betriebssystems initiieren. Die Hochverfügbarkeitssteuerung 101 aktiviert dann den Verwaltungsprozessor 105(P), so daß er, über den I2C-Bus 111, alle Systemfunktionen steuert, für die der Verwaltungsprozessor verantwortlich ist, einschließlich Überwachungs- und Steuerfunktionen, die vorstehend beschrieben sind. Alle Verwaltungsprozessoren 105 empfangen Eingangssignale von den Leistungs-, Lüfter- und Temperatursensoren 120 (über den I2C-Bus 111), jedoch steuert nur der primäre Verwaltungsprozessor 105(P) die verwandten Systemfunktionen.
  • Bei Schritt 515 starten alle Verwaltungsprozessoren 105(1)-105(N) ihre Überwachungszeitgeber 117 (bzw. stellen diese neu ein). Bei dem exemplarischen Ausführungsbeispiel besitzt jeder Überwachungszeitgeber 117 eine benutzereinstellbare Zeitablaufdauer zwischen näherungsweise 6 und 10 Sekunden, jedoch können andere Zeitgeberwerte ausgewählt werden, die für ein spezielles System 100 geeignet sind. Bei Schritt 520 wird das Verwaltungsprozessor-OK- (MP_OK-) Signal 108, das solange in einem aktiven Status gehalten wird, wie die Überwachungszeitgebung 117 arbeitet, an die Hochverfügbarkeitssteuerung 101 gesendet. Wenn ein gegebener Verwaltungsprozessor 105 ordnungsgemäß funktioniert, sendet er in periodischen Abständen ein Reset-Signal an den Überwachungszeitgeber 117, um zu bewirken, daß der Zeitgeber die Zeitablaufdauer erneut startet. Wenn ein spezieller Verwaltungsprozessor 105 defekt ist, ist es wahrscheinlich, daß der Prozessor den Zeitüberwachungsgeber nicht zurücksetzt, dessen Zeitablaufdauer abläuft, wodurch bewirkt wird, daß das MP_OK-Signal 108 inaktiv wird. Wenn die Hochverfügbarkeitssteuerung 101 ein inaktives MP_OK-Signal erfaßt, übernimmt die Steuerung die Steuerung des Systems 100, wie im Hinblick auf Schritt 310 in Fig. 3 oben beschrieben ist.
  • Bei Schritt 525, wenn ein Überwachungszeitgeber-Reset- Signal vom primären Verwaltungsprozessor 105(P) gesendet wurde, dann wird der Zeitgeber bei Schritt 515 erneut eingestellt. Ansonsten überprüft der Verwaltungsprozessor 105(P) bei Schritt 530 den Status der Systemumgebung. Der Verwaltungsprozessor 105 umfaßt eine Firmware-Aufgabe, die die Systemleistung, Temperatur und Lüftergeschwindigkeit mit vorbestimmten Werten vergleicht, um die Integrität der Systembetriebsumgebung zu überprüfen. Wenn die Systemumgebungsparameter nicht innerhalb eines zulässigen Bereichs liegen, dann stellt der Verwaltungsprozessor 105(P) den Überwachungszeitgeber 117 nicht erneut ein, wodurch bewirkt wird, daß das MP_OK-Signal 105 bei Schritt 540 inaktiv wird. Die Hochverfügbarkeitssteuerung 101 übernimmt dann die Steuerung des Systems 100, wie vorstehend beschrieben ist. Wenn die Systemumgebungsparameter innerhalb eines zulässigen Bereiches liegen, springt der Verwaltungsprozessor schleifenmäßig zurück zu Schritt 525, wenn die Zeitablaufdauer des Überwachungszeitgebers 117 nicht abgelaufen ist.
  • Obgleich die exemplarischen Ausführungsbeispiele der vorliegenden Erfindung in den Zeichnungen gezeigt und vorstehend beschrieben worden sind, wird einem Fachmann offenbar, daß verschiedene Ausführungsbeispiele der vorliegenden Erfindung möglich sind. Zum Beispiel sollten die spezifische Konfiguration des Systems, wie in Fig. 1, 2 und 4 gezeigt ist, sowie die spezielle Folge von Schritten, die vorstehend in Fig. 3 und 5 beschrieben ist, nicht als Einschränkung der hierin beschriebenen Ausführungsbeispiele ausgelegt werden. Eine Modifizierung kann an diesen und anderen spezifischen Elementen der Erfindung vorgenommen werden, ohne von der Wesensart und dem Schutzbereich der Erfindung abzuweichen, der in den nachstehenden Ansprüchen ausgedrückt ist.

Claims (22)

1. Sicherungs-Verwaltungssystem (100) zum Bereitstellen von Grundsystemfunktionen in einem Computersystem, wobei das System folgende Merkmale aufweist:
eine Mehrzahl von Systemsensoren (120) zum Erfassen von Leistung, Temperatur und Kühlungslüftergeschwindigkeit in dem Computersystem;
einen Verwaltungsprozessor (105), der mit den Sensoren (120) gekoppelt ist;
eine Hochverfügbarkeitssteuerung, die mit dem Verwaltungsprozessor (105) und den Sensoren (120) wirksam gekoppelt ist;
ein Verwaltungsprozessor-Statussignal (108), das durch den Verwaltungsprozessor (105) erzeugt wird, um einen Betriebszustand desselben anzuzeigen, und das zu der Hochverfügbarkeitssteuerung (101) gekoppelt wird;
wobei die Sensoren (120) folgende Merkmale aufweisen:
eine Mehrzahl von Leistungssteuerungen (15x), von denen jede den Zustand einer zugeordneten Leistungsversorgung in dem Computersystem überwacht, und die Leistung zu derselben steuert; und
zumindest eine Kühlungslüfter-Steuerung (140) zum Erfassen und Steuern der Kühlungslüftergeschwindigkeit;
wobei, während des normalen Betriebs des Computersystems, der Verwaltungsprozessor (105) die Ausgangssignale von den Sensoren (120) überwacht und Steuersignale an die Leistungssteuerungen (15x) und an die Lüftersteuerung (140) sendet; und
wobei, ansprechend auf ein Erfassen, daß das Verwaltungsprozessor-Statussignal (108) inaktiv ist, die Hochverfügbarkeitssteuerung (101) Steuerungssignale ansprechend auf die Ausgangssignale von den Sensoren (120) erzeugt, um den Betrieb der Leistungssteuerungen (15x) und der Lüftersteuerung (104) zu steuern.
2. Sicherungsverwaltungssystem (100) gemäß Anspruch 1, das eine nicht-softwarecodierte Zustandsmaschine (103) umfaßt, die das Verwaltungsprozessor-Statussignal (108) überwacht und bewirkt, daß die Hochverfügbarkeitssteuerung (101) die Steuersignale erzeugt, wenn das Statussignal (108) inaktiv ist; wobei die Zustandsmaschine (103) eine andere Sequenz von Operationen ausführt als der Code, der durch den Verwaltungsprozessor (105) ausgeführt wird.
3. Sicherungsverwaltungssystem (100) gemäß Anspruch 2, bei dem die Zustandsmaschine (103) ein feldprogrammierbares Gatterarray ist.
4. Sicherungsverwaltungssystem (100) gemäß einem der Ansprüche 1 bis 3, das zumindest eine Zelle umfaßt, die eine Mehrzahl von Prozessoren und ein lokales Leistungsmodul zum Steuern der Leistung zu der Zelle aufweist, wobei die Zelle mit dem Verwaltungsprozessor und der Hochverfügbarkeitssteuerung gekoppelt ist;
wobei die Hochverfügbarkeitssteuerung (101) Signale von dem lokalen Leistungsmodul empfängt, das ein Vorrichtung-Bereit-Signal und ein Leistungs-Fehler-Signal umfaßt, und
wobei, ansprechend auf ein inaktives Prozessorzustandssignal (108), die Hochverfügbarkeitssteuerung (101) eine Leistungs-Freigabe-Signal an das lokale Leistungsmodul ansprechend auf das Empfangen des Vorrichtung-Bereit-Signals in Abwesenheit eines Leistungsfehlersignals, das von demselben empfangen wird, sendet.
5. Sicherungsverwaltungssystem (100) gemäß einem der Ansprüche 1 bis 4, das ferner einen Leistungsschalter (110) zum Steuern der Großraumleistung an das Computersystem umfaßt, der mit dem Verwaltungsprozessor (105) und der Hochverfügbarkeitssteuerung (101) gekoppelt ist; wobei die Hochverfügbarkeitssteuerung (101) auf ein Ausgangssignal von dem Leistungsschalter (110) anspricht, um das Herunterfahren von jeder Leistungsversorgung zu initiieren, wenn der Verwaltungsprozessor (105) ausgefallen ist.
6. Sicherungsverwaltungssystem (100) gemäß einem der Ansprüche 1 bis 5, bei dem der Verwaltungsprozessor (105) einen Überwachungszeitgeber (117) umfaßt, der das Verwaltungsprozessor-Zustandssignal (108) auf einen inaktiven Zustand einstellt, wenn der Verwaltungsprozessor (105) den Zeitgeber (117) nicht innerhalb eines vorbestimmten Zeitraums zurücksetzt.
7. Sicherungsverwaltungssystem (100) gemäß einem der Ansprüche 1 bis 6, das eine Mehrzahl von Frontbedienfeld-Anzeigen umfaßt, die auf Ausgangssignale von dem Verwaltungsprozessor (105) und der Hochverfügbarkeitssteuerung (101) ansprechen und mit denselben gekoppelt sind.
8. Verfahren zur Sicherungsverwaltung von Grundsystemfunktionen in einem Computersystem, wobei das Verfahren folgende Schritte aufweist:
Überwachen, über einen Verwaltungsprozessor (105), einer Mehrzahl von Sensoren (120) zum Erfassen von Leistung, Temperatur und Kühlungslüftergeschwindigkeit in dem Computersystem;
Erzeugen eines Prozessorzustandssignals (108), um einen Betriebszustand des Verwaltungsprozessors (105) anzuzeigen;
Überwachen des Prozessorzustandssignals (108); und
Erzeugen, ansprechend auf das Erfassen, daß das Prozessorzustandssignal (108) inaktiv ist, von Sicherungssteuersignalen, ansprechend auf Ausgangssignale von den Sensoren, um den Betrieb der zugeordenten Steuerungen (140, 15x) zu steuern;
wobei die Sicherungssteuersignale durch eine nichtsoftwarecodierte Zustandsmaschine (103) erzeugt werden, die mit dem Verwaltungsprozessor (105), den Sensoren (120) und den Steuerungen (140, 15x) wirksam gekoppelt ist.
9. Verfahren gemäß Anspruch 8, bei dem die Zustandsmaschine (103) eine andere Sequenz von Operationen ausführt als der Code, der durch den Verwaltungsprozessor (105) ausgeführt wird.
10. Verfahren gemäß Anspruch 9, bei dem die Zustandsmaschine (103) ein feldprogrammierbares logisches Gatterarray ist.
11. Verfahren gemäß einem der Ansprüche 8 bis 10, bei dem die Sensoren (120) zumindest eine Kühlungslüftersteuerung (140) zum Erfassen und Steuern der Kühlungslüftergeschwindigkeit und eine Mehrzahl von Leistungssteuerungen (15x) umfassen, von denen jede den Zustand einer zugeordneten Leistungsversorgung in dem Computersystem überwacht und die Leistung an dieselbe steuert, wobei das Verfahren folgenden Schritt aufweist: Senden der Steuersignale und der Sicherungssteuersignale an die Leistungssteuerungen (15x) und an die Lüftersteuerung (140).
12. Verfahren gemäß Anspruch 11, das einen Leistungsschalter zum Steuern der Großraumleistung zu dem Computersystem umfaßt, wobei das Verfahren folgenden Schritt aufweist: Initiieren des Herunterfahrens einer jeweiligen Leistungsversorgung, wenn der Verwaltungsprozessor (105) ausgefallen ist und der Leistungsschalter (110) gedrückt wird.
13. Verfahren gemäß einem der Ansprüche 8 bis 12, das zumindest eine Zelle umfaßt, die eine Mehrzahl von Prozessoren und ein lokales Leistungsmodul zum Steuern der Leistung an die Zelle aufweist, wobei das Verfahren folgenden Schritt aufweist:
Überwachen von Signalen, einschließlich eines Vorrichtungs-Bereit-Signals und eines Leistungs-Fehler- Signals, von dem lokalen Leistungsmodul, und
ansprechend auf ein inaktives Prozessorzustandssignal, Senden eines Leistungs-Freigabe-Signals an das lokale Leistungsmodul ansprechend auf das Empfangen des Vorrichtung-Bereit-Signals in Abwesenheit eines Leistungs-Fehler-Signals, das von demselben empfangen wird.
14. Verfahren gemäß einem der Ansprüche 8 bis 13, das den Schritt des Einstellens eines Überwachungszeitgebers umfaßt, der ein inaktives Prozessorzustandssignal erzeugt, wenn der Verwaltungsprozessor den Zeitgeber nicht innerhalb einer bestimmten Zeitdauer zurücksetzt.
15. Verfahren gemäß einem der Ansprüche 8 bis 14, bei der die Sicherungssteuersignale auch eine Mehrzahl von Frontbedienfeldanzeigen (130) steuern.
16. Sicherungsverwaltungssystem (100) zum Liefern von Grundsystemsteuerfunktionen in einem Computersystem, wobei das System folgende Merkmale aufweist:
eine Mehrzahl von Systemsensoren (120) zum Erfassen von Signalen von zumindest zwei Geräten in der Gruppe von Geräten, die aus einem Leistungsmodul zum Überwachen des Zustands einer zugeordneten Leistungsversorgung in einem Computersystem, einem Temperatursensor zum Überwachen der Temperatur in dem Computersystem und einem Kühlungslüftergeschwindigkeits-Modul zum Erfassen und Steuern der System- Kühlungslüftergeschwindigkeit besteht;
einen Verwaltungsprozessor (105), der mit den Systemsensoren (120) gekoppelt ist;
ein Verwaltungsprozessor-Zustandssignal (108), das durch den Verwaltungsprozessor erzeugt wird, um einen Betriebszustand desselben anzuzeigen;
eine nicht-softwarecodierte Zustandsmaschine (103), die mit dem Verwaltungsprozessor (105) und mit den Systemsensoren (120) wirksam gekoppelt ist, wobei die Zustandsmaschine (103) eine andere Sequenz von Operationen ausführt als der Code, der durch den Verwaltungsprozessor (105) ausgeführt wird;
wobei, ansprechend auf das Erfassen, daß das Statussignal inaktiv ist, die Zustandsmaschine (103) Steuersignale an die Leistungssteuerungen und an das Lüftermodul ansprechend auf Ausgangssignale von den Systemsensoren erzeugt, um den Betrieb derselben zu steuern.
17. Sicherungsverwaltungssystem gemäß Anspruch 16, bei dem die Steuerungen folgende Merkmale aufweisen:
eine Mehrzahl von Leistungssteuerungen, von denen jede den Zustand einer zugeordneten Leistungsversorgung in dem Computersystem überwacht, und die Leistung an dieselben steuert; und
zumindest eine Kühlungslüftungsteuerung zum Erfassen und Steuern der Kühlungslüftergeschwindigkeit.
18. Sicherungsverwaltungssystem gemäß Anspruch 16 oder 17, bei dem die Zustandsmaschine (103) ein feldprogrammierbares logisches Gatterarray ist.
19. Sicherungsverwaltungssystem gemäß einem der Ansprüche 16 bis 18, bei dem der Verwaltungsprozessor (108) einen Überwachungszeitgeber umfaßt, der das Prozessorzustandssignal auf einen inaktiven Zustand einstellt, wenn der Verwaltungsprozessor (105) den Zeitgeber nicht innerhalb einer vorgegebenen Zeitdauer zurücksetzt.
20. Sicherungsverwaltungssystem gemäß einem der Ansprüche 16 bis 19, das eine Mehrzahl von Frontbedienfeld- Anzeigen (130) umfaßt, die mit dem Verwaltungsprozessor (105) und der Hochverfügbarkeitssteuerung (101) gekoppelt sind und auf die Ausgangssignale derselben ansprechen.
21. Das Verfahren gemäß einem der Ansprüche 8 bis 15, das den Schritt des sequentiellen Herunterfahrens des Systems ansprechend auf das Erfassen des inaktiven Prozessorzustandssignals (108) von allen Verwaltungsprozessoren (105) umfaßt, wenn ein Lüfterfehler erfaßt wird oder wenn ein Rückwandplatine-Leistung-An-Signal (104) nicht erfaßt wird.
22. Das Verfahren gemäß einem der Ansprüche 8 bis 15 und 21, das einen Leistungsschalter zum Steuern der Großraumleistung des Computersystems umfaßt, wobei das Verfahren folgenden Schritt umfaßt: Initiieren des Herunterfahrens von jeder Leistungsversorgung, wenn der Verwaltungsprozessor (105) ausgefallen ist und der Leistungsschalter (110) gedrückt wird.
DE10232919A 2001-07-30 2002-07-19 Computersystem mit Sicherungsverwaltung zur Handhabung eines eingebetteten Prozessorausfalls Withdrawn DE10232919A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/918,027 US20030023887A1 (en) 2001-07-30 2001-07-30 Computer system with backup management for handling embedded processor failure

Publications (1)

Publication Number Publication Date
DE10232919A1 true DE10232919A1 (de) 2003-02-20

Family

ID=25439674

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10232919A Withdrawn DE10232919A1 (de) 2001-07-30 2002-07-19 Computersystem mit Sicherungsverwaltung zur Handhabung eines eingebetteten Prozessorausfalls

Country Status (3)

Country Link
US (1) US20030023887A1 (de)
JP (1) JP2003150279A (de)
DE (1) DE10232919A1 (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6915441B2 (en) * 2001-07-30 2005-07-05 Hewlett-Packard Development Company, L.P. Computer system with multiple backup management processors for handling embedded processor failure
US6813150B2 (en) * 2002-08-09 2004-11-02 Sun Microsystems, Inc. Computer system
US6954358B2 (en) * 2002-08-09 2005-10-11 Sun Microsystems, Inc. Computer assembly
US7424555B2 (en) * 2002-08-09 2008-09-09 Sun Microsystems, Inc. Computer assembly
GB2393817B (en) * 2002-08-09 2006-01-25 Sun Microsystems Inc Computer system having data and commands routed via service processor
US7047056B2 (en) * 2003-06-25 2006-05-16 Nellcor Puritan Bennett Incorporated Hat-based oximeter sensor
US7287708B2 (en) * 2004-11-12 2007-10-30 International Business Machines Corporation Cooling system control with clustered management services
US8970562B2 (en) * 2005-03-01 2015-03-03 Apple Inc. LCD module with thermal sensor integrated and its implementation
US20070288813A1 (en) * 2006-05-01 2007-12-13 Belady Christian L Cell board interconnection architecture with serviceable switch board
CN101482757A (zh) * 2008-01-07 2009-07-15 联想(北京)有限公司 一种温度控制的方法、系统及硬件装置
CN103138940B (zh) * 2011-11-28 2016-06-01 英业达科技有限公司 服务器机架系统
JP6497557B2 (ja) * 2015-09-25 2019-04-10 パナソニックIpマネジメント株式会社 電子機器及び電子機器の温度制御方法
CN111767186A (zh) * 2020-05-04 2020-10-13 上海英众信息科技有限公司 一种电脑状态监控系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6151689A (en) * 1992-12-17 2000-11-21 Tandem Computers Incorporated Detecting and isolating errors occurring in data communication in a multiple processor system
DE19716197A1 (de) * 1997-04-18 1998-10-22 Itt Mfg Enterprises Inc Mikroprozessorsystem für sicherheitskritische Regelungen
US5984504A (en) * 1997-06-11 1999-11-16 Westinghouse Electric Company Llc Safety or protection system employing reflective memory and/or diverse processors and communications
US6528987B1 (en) * 2000-06-19 2003-03-04 Analog Devices, Inc. Method and apparatus for determining fan speed
US6915441B2 (en) * 2001-07-30 2005-07-05 Hewlett-Packard Development Company, L.P. Computer system with multiple backup management processors for handling embedded processor failure

Also Published As

Publication number Publication date
US20030023887A1 (en) 2003-01-30
JP2003150279A (ja) 2003-05-23

Similar Documents

Publication Publication Date Title
DE10231938A1 (de) Computersystem mit mehreren Sicherungs-Verwaltungsprozessoren zur Handhabung eines Ausfalls eines eingebetteten Prozessors
DE69435090T2 (de) Rechnersystem mit Steuereinheiten und Rechnerelementen
DE60301702T2 (de) Fehlertolerantes Computersystem, Verfahren zur Resynchronisation desselben und Programm zur Resynchronisation desselben
DE69923085T2 (de) Initialisieren und wiederanlaufen von betriebssystemen
DE69911026T2 (de) Synchronisation von prozessoren in einem fehlertoleranten multi-prozessor-system
DE60019038T2 (de) Intelligente Fehlerverwaltung
DE112008001528B4 (de) Multiprozessorsystem und Steuerverfahren hierfür
DE69913553T2 (de) Konfigurierung von systemeinheiten
DE60032015T2 (de) Systemen und verfahren zur ausfallsicheren prozessausführung,überwachung und ausgangssteuerung von kritischen systemen
DE602005003490T2 (de) Verteiltes System mit Quorumredundanz und Verfahren dafür
DE60004365T2 (de) System und verfahren zur überwachung von einem verteilten fehlertoleranten rechnersystem
DE10232919A1 (de) Computersystem mit Sicherungsverwaltung zur Handhabung eines eingebetteten Prozessorausfalls
EP0543821B1 (de) Einrichtung zur funktionsüberwachung externer synchronisations-baugruppen in einem mehrrechnersystem
DE102013103293A1 (de) Serverschrank und Verfahren für gleichzeitiges Aktualisieren der Basisdatenaustauschsysteme
DE10255111A1 (de) System und Verfahren zum Laden von Firmware mit hoher Verfügbarkeit
DE112010005400T5 (de) System für gegenseitige Überwachung von Mikrocomputern und ein Verfahren für gegenseitige Überwachung von Mikrocomputern
DE10254410A1 (de) System und Verfahren für ein Laden einer Hochverfügbarkeits-Firmware
DE102022107799A1 (de) Verarbeitungsvorrichtung, Steuereinheit, elektronische Vorrichtung, Verfahren und Computerprogramm
EP1358554A1 (de) Automatische inbetriebnahme eines clustersystems nach einem heilbaren fehler
EP1807760B1 (de) Datenverarbeitungssystem mit variabler taktrate
EP1552394A1 (de) Verfahren zur ereignissynchronisation, insbesondere für prozessoren fehlertoleranter systeme
DE4010109C2 (de) Duplexrechnersystem
EP1537482A2 (de) Verfahren und schaltungsanordnung zur synchronisation synchron oder asynchron getakteter verarbeitungseinheiten
DE60008872T2 (de) Verfahren und vorrichtung zur automatischen reintegration eines moduls in ein rechnersystem
EP0815511B1 (de) Verfahren und vorrichtung zum überwachen einer elektronischen rechnereinheit

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8127 New person/name/address of the applicant

Owner name: HEWLETT-PACKARD DEVELOPMENT CO., L.P., HOUSTON, TE

8130 Withdrawal