DE10231938A1 - Computersystem mit mehreren Sicherungs-Verwaltungsprozessoren zur Handhabung eines Ausfalls eines eingebetteten Prozessors - Google Patents
Computersystem mit mehreren Sicherungs-Verwaltungsprozessoren zur Handhabung eines Ausfalls eines eingebetteten ProzessorsInfo
- Publication number
- DE10231938A1 DE10231938A1 DE10231938A DE10231938A DE10231938A1 DE 10231938 A1 DE10231938 A1 DE 10231938A1 DE 10231938 A DE10231938 A DE 10231938A DE 10231938 A DE10231938 A DE 10231938A DE 10231938 A1 DE10231938 A1 DE 10231938A1
- Authority
- DE
- Germany
- Prior art keywords
- management
- processors
- backplane
- high availability
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/2033—Failover techniques switching over of hardware resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2038—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
- G06F11/0757—Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0796—Safety measures, i.e. ensuring safe condition in the event of error, e.g. for controlling element
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Hardware Redundancy (AREA)
- Power Sources (AREA)
Abstract
Ein System zum Bereitstellen grundlegender Systemsteuerungsfunktionen auf einen Ausfall aller Verwaltungsprozessoren in einem Computersystem hin. Während eines normalen Systembetriebs überwacht eine Mehrzahl von Verwaltungsprozessoren Systemsensoren, die die Systemleistung, Temperatur und den Kühlventilatorstatus erfassen, und führt notwendige Einstellungen durch. Jeder Verwaltungsprozessor liefert normalerweise ein Ausgangssignal, das anzeigt, daß derselbe ordnungsgemäß funktioniert. Eine Steuerung mit hoher Verfügbarkeit überwacht jedes dieser Signale, um zu verifizieren, daß es zumindest einen funktionierenden Verwaltungsprozessor gibt. Wenn keiner der Prozessoren anzeigt, daß er ordnungsgemäß funktioniert, überwacht die Steuerung mit hoher Verfügbarkeit die Systemsensoren und aktualisiert Systemindikatoren. Wenn sich ein Problem entwickelt, wie z. B. ein Ausfall einer Leistungsversorgung oder ein potentiell gefährlicher Anstieg der Temperatur, fährt die Steuerung mit hoher Verfügbarkeit sequentiell die entsprechende Ausrüstung herunter, um das System vor einem Schaden zu schützen.
Description
- Die vorliegende Erfindung bezieht sich allgemein auf Computersysteme und insbesondere auf ein System, das eine Mehrzahl von Sicherungsverwaltungsprozessoren aufweist, die auf einen Ausfall eines oder mehrerer Systemverwaltungsprozessoren hin grundlegende Systemsteuerungsfunktionen bereitstellen.
- Bestimmte existierende Computersysteme umfassen einen Verwaltungsprozessor, um Aspekte der Systemumgebung, wie z. B. Leistung, Leistungssequenzierung, Temperatur, zu überwachen und zu steuern und Bildschirmanzeigen zu aktualisieren. Ein Ausfall des Verwaltungsprozessors kann aufgrund der Unfähigkeit, den Systemstatus, die Leistung, Temperatur und dergleichen zu überwachen und zu steuern, zu einem Systemausfall führen.
- Selbst bei Systemen, die Partner- (bzw. Peer-) oder Sicherungsverwaltungsprozessoren aufweisen, kann jedoch ein Firmware-Programmfehler, der allen Verwaltungsprozessoren gemein ist, bewirken, daß der Systemprozessor tatsächlich betriebsunfähig wird, da alle dieser Prozessoren üblicherweise mit im wesentlichen dem gleichen Code programmiert sind, wodurch alle derselben wahrscheinlich dem gleichen Problem erliegen, wenn eine fehlerhafte Codesequenz ausgeführt wird.
- Zusätzlich kann ein Ausfall des oder der Verwaltungsprozessoren aufgrund des Verlustes der Ventilatorgeschwindigkeitssteuerung zu einem zerstörerischen Überhitzen des Computersystemgehäuses führen, wobei der Ausfall des Verwaltungsprozessors bewirken kann, daß die verschiedenen Systemleistungsmodule auf eine derartige Weise heruntergefahren werden, daß die Systemelektronik beschädigt wird.
- Es ist die Aufgabe der vorliegenden Erfindung, ein Mehrfachredundanzsicherungsverwaltungssystem mit verbesserten Charakteristika, ein verbessertes Verfahren zur Mehrfachredundanzsicherungsverwaltung grundlegender Systemfunktion in einem Computersystem oder ein Sicherungsverwaltungssystem mit verbesserten Charakteristika zu schaffen.
- Diese Aufgabe wird durch ein Mehrfachredundanzsicherungsverwaltungssystem gemäß Anspruch 1, ein Verfahren gemäß Anspruch 8 oder ein Sicherungsverwaltungssystem gemäß Anspruch 15 gelöst.
- Das vorliegende System löst die obigen Probleme und erzielt einen Fortschritt auf diesem Gebiet, indem eine Steuerung mit hoher Verfügbarkeit geliefert wird, die den Status einer Mehrzahl von Verwaltungsprozessoren überwacht. Sollten alle Prozessoren ausfallen, liefert die Steuerung zumindest einen minimalen Satz von Funktionen, die erforderlich sind, um es zu ermöglichen, daß das System zuverlässig weiterarbeitet. Ferner führt die Steuerung mit hoher Verfügbarkeit nicht die gleiche Sequenz von Operationen durch wie der Code, der durch die Verwaltungsprozessoren ausgeführt wird, und ist deshalb nicht anfällig für einen Ausfall, der auf einem spezifischen "Programmfehler" resultiert, der bewirken kann, daß die Verwaltungsprozessoren ausfallen.
- Das vorliegende System umfaßt ein Leistungsverwaltungsteilsystem, das eine Leistung an alle Systementitäten steuert und einen Schutz der Systemhardware vor Leistungs- und Umgebungsfehlern liefert. Das Leistungsverwaltungsteilsystem steuert auch Bedienfeld-LEDs und schafft eine Volumenleistungs-An/Aus-Steuerung über einen Leistungsschalter.
- Während des normalen Systembetriebs überwacht eine Mehrzahl von Verwaltungsprozessoren Systemsensoren, die eine Systemleistung, Temperatur und den Kühlventilatorstatus erfassen. Der primäre Verwaltungsprozessor führt notwendige Einstellungen durch oder berichtet Probleme. Der primäre Verwaltungsprozessor aktualisiert auch verschiedene Indikatoren und überwacht vom Benutzer eingeleitete Ereignisse, wie z. B. ein An- oder Abschalten der Leistung.
- Jeder Verwaltungsprozessor liefert normalerweise ein Ausgangssignal, das anzeigt, daß derselbe ordnungsgemäß funktioniert. Die Steuerung mit hoher Verfügbarkeit überwacht jedes dieser Signale, um zu verifizieren, daß es zumindest einen funktionierenden Verwaltungsprozessor gibt. Wenn keiner der Prozessoren anzeigt, daß er ordnungsgemäß funktioniert, überwacht die Steuerung mit hoher Verfügbarkeit die Systemsensoren und aktualisiert Systemindikatoren. Wenn sich ein Problem entwickelt, wie z. B. ein Ausfall einer Leistungsversorgung oder ein potentiell gefährlicher Anstieg der Temperatur, fährt die Steuerung mit hoher Verfügbarkeit sequentiell die entsprechende Ausrüstung herunter, um das System vor einem Schaden zu schützen.
- Zusätzlich ist, wenn ein Systembenutzer sich entscheidet, das System in Abwesenheit einer funktionierenden Verwaltungssteuerung herunterzufahren, die Steuerung mit hoher Verfügbarkeit ansprechend auf den Leistungsschalter, der verwendet werden kann, um ein sequentielles Herunterfahren der Systemleistungsmodule auf eine derartige Weise einzuleiten, um einen Schaden an der Systemelektronik zu vermeiden.
- Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beigefügten Zeichnungen näher erläutert. Es zeigen:
- Fig. 1 ein Blockdiagramm, das grundlegende Komponenten des vorliegenden Systems darstellt;
- Fig. 2 ein Blockdiagramm, das exemplarische Komponenten darstellt, die bei einem Ausführungsbeispiel des vorliegenden Systems verwendet werden;
- Fig. 3 ein Flußdiagramm, das eine exemplarische Sequenz von Schritten zeigt, die beim Praktizieren eines Verfahrens gemäß dem vorliegenden System durchgeführt werden;
- Fig. 4 ein Blockdiagramm, das die Steuerung mit hoher Verfügbarkeit des vorliegenden Systems detaillierter darstellt; und
- Fig. 5 ein Flußdiagramm, das eine exemplarische Sequenz von Schritten zeigt, die durch die Steuerung mit hoher Verfügbarkeit durchgeführt werden.
- Fig. 1 ist ein Blockdiagramm, das grundlegende Komponenten des vorliegenden Systems 100 darstellt. Wie in Fig. 1 gezeigt ist, weisen die Komponenten des Systems 100 auf hoher Ebene eine Mehrzahl von Verwaltungsprozessoren 105(1) bis 105(N), eine Steuerung mit hoher Verfügbarkeit 101, Leistungs-, Ventilator- und Temperatursensoren 120, Bedienfeldindikatoren 130, ein Kühlventilatormodul 140, eine Mehrzahl von Leistungssteuerungen 150 und einen Leistungsschalter 110 auf.
- Jeder Verwaltungsprozessor 105 überwacht und steuert verschiedene Aspekte der Systemumgebung, wie z. B. die Leistung über Leistungssteuerungen 15x (lokale Leistungsmodule 151, 152 und 153, in Fig. 2 gezeigt), die Temperatur über Kühlventilatoren, die durch das Modul 140 gesteuert werden, und ein Aktualisieren von Bildschirmindikatoren 130. Jeder Verwaltungsprozessor 105 verwaltet außerdem Operationen, die der Kern-I/O-Platine 104 zugeordnet sind, was I/O- Steuerungen für Peripherievorrichtungen, eine Busverwaltung und dergleichen umfaßt. Die Steuerung mit hoher Verfügbarkeit 101 überwacht den Status jedes der Verwaltungsprozessoren 105 und der Leistungs-, Ventilator- und Temperatursensoren 120. In der Situation, in der die Steuerung mit hoher Verfügbarkeit 101 einen Ausfall aller Verwaltungsprozessoren 105 erfaßt, übernimmt dieselbe eine Steuerung des Systems 100, wie weiter unten detaillierter beschrieben wird.
- Da die Steuerung mit hoher Verfügbarkeit nicht die gleiche Sequenz von Operationen wie der Code durchführt, der durch die Verwaltungsprozessoren ausgeführt wird, ist sie nicht anfällig für einen Ausfall, der aus einem spezifischen "Programmfehler" resultiert, der bewirken kann, daß die Verwaltungsprozessoren ausfallen.
- Während jeder der Verwaltungsprozessoren 105 ordnungsgemäß funktioniert, finden die folgenden Ereignisse statt. Wenn der Leistungsschalter 110 an einem vorderen Bedienfeld gedrückt wird, erkennt die Steuerung mit hoher Verfügbarkeit 101 dies und benachrichtigt den primären Verwaltungsprozessor [im folgenden durch das Bezugszeichen 105(P) bezeichnet] über eine Unterbrechung. Der primäre Verwaltungsprozessor 105(P) bewertet die Leistungsanforderungen gegenüber der verfügbaren Leistung, wobei, wenn zumindest eine Systemleistungsversorgung verfügbar ist und ordnungsgemäß funktioniert, der Verwaltungsprozessor 105(P) der Steuerung mit hoher Verfügbarkeit 101 befiehlt, das System hochzufahren.
- Fig. 2 zeigt Komponenten, die bei einem exemplarischen Ausführungsbeispiel des vorliegenden Systems verwendet werden, detaillierter. Während eines normalen Systembetriebs werden, wenn der Leistungsschalter 110 an einem vorderen Bedienfeld gedrückt wird, die folgenden Komponenten in der unten angegebenen Reihenfolge hochgefahren:
- 1. System-Backplane bzw. -Rückwandplatine 118;
- 2. niedrigste logische PCI-(I/O-Karte-)Backplane 125 und dann zugeordnete Zellplatine 102; und
- 3. nächste logische PCI-Backplane, dann zugeordnete Zellplatine.
- Es wird angemerkt, daß das System 100 eine Mehrzahl von PCI-Backplanes 125 umfassen kann, wobei jede derselben eine Mehrzahl zugeordneter Zellplatinen 102 enthalten kann. Bei dem vorliegenden System weist eine Zelle (Platine) 102 eine Mehrzahl von Prozessoren 115 und eine zugeordnete Hardware/Firmware und einen Speicher (nicht gezeigt), ein lokales Leistungsmodul (LPM) 152 zum Steuern einer Leistung an die Zelle und einen lokalen Dienstprozessor 116 zum Verwalten eines Informationsflusses zwischen Prozessoren 115 und externen Entitäten, einschließlich des Verwaltungsprozessors 105, auf.
- Der Leistungsschalter 110 an einem vorderen Bedienfeld steuert eine Leistung an das System 100 in sowohl einem hardwaremäßig als auch einem softwaremäßig geschalteten Modus. Dies ermöglicht es, daß das System in der Abwesenheit eines Betriebsverwaltungsprozessors 105 hoch- und heruntergefahren wird. Wenn der Leistungsschalter 110 an einem vorderen Bedienfeld gedrückt wird, wird, wenn keine Zellplatine 102 vorhanden ist, die PCI-Backplane 125 nicht hochgefahren, wobei, wenn eine Zellplatine vorhanden ist, aber keine PCI-Backplane vorhanden ist, die Zellplatine trotzdem hochgefahren wird. Wenn der Leistungsschalter an einem vorderen Bedienfeld wieder gedrückt wird, wird der Verwaltungsprozessor 105 wieder durch eine Unterbrechung benachrichtigt. Der Verwaltungsprozessor 105 benachrichtigt dann die geeigneten Systementitäten, wobei das System "kontrolliert" in der umgekehrten Reihenfolge von der oben beschriebenen heruntergefahren wird.
- Ein Zelle_Vorhanden-Signal 114 wird durch Anschlußstifte zu der Systemplatine (und zu der Steuerung mit hoher Verfügbarkeit 101) geleitet, die auf dem Verbinder auf der Zellplatine 102 angeordnet sind. Wenn die Zellplatine aus der Systemplatine ausgestöpselt wird, wird das Signal Zelle_Vorhanden 114 unterbrochen, was bewirkt, daß dasselbe inaktiv wird. Die Steuerung mit hoher Verfügbarkeit 101 überwacht das Signal Zelle_Vorhanden, wobei, wenn ein Zellleistungsaktivierungssignal 113 aktiv zu einer Zellplatine 102 ist, deren Zelle_Vorhanden-Signal 114 inaktiv wird, die Leistung an die Platine unmittelbar deaktiviert wird und deaktiviert bleibt, bis die Leistung zu der Zellplatine explizit wieder aktiviert wird. Ein Signal "Kern-IO vorhanden" 109 wird durch Anschlußstifte, die auf dem Kern-I/O- Platinenverbinder angeordnet sind, zu der Systemplatine geleitet. Wenn die Kern-I/O-Platine 104 ausgestöpselt ist, wird das Signal "Kern-IO vorhanden" 109 unterbrochen, was bewirkt, daß dasselbe inaktiv wird.
- Die Kern-I/O-Platine 104 umfaßt einen Überwachungszeitgeber 117, der das Ansprechen des Verwaltungsprozessors 105 überwacht, um die Bestimmung dessen zu unterstützen, ob der Prozessor ordnungsgemäß funktioniert. Der Verwaltungsprozessor 105 umfaßt eine Firmware-Aufgabe zum Prüfen der Integrität der Systembetriebsumgebung und liefert so ein zusätzliches Maß der ordnungsgemäßen Funktionstüchtigkeit des Verwaltungsprozessors.
- Fig. 3 ist ein Flußdiagramm, das eine exemplarische Sequenz von Schritten zeigt, die beim Praktizieren eines Verfahrens gemäß des vorliegenden Systems durchgeführt werden. Der Betrieb des Systems kann durch ein gemeinsames Betrachten der Fig. 2 und 3 besser verstanden werden. Bei einem exemplarischen Ausführungsbeispiel des vorliegenden Systems werden die Operationen, die in Fig. 3 beschrieben sind, durch eine Betriebszustandsmaschine 103 durchgeführt. Wie in Fig. 3 gezeigt ist, überwacht bei einem Schritt 305 die Steuerungszustandmaschine mit hoher Verfügbarkeit 103 den Status von Verwaltungsprozessoren 105 über Verwaltungsprozessor- OK-(MP_OK-)Signale 108(1) bis 108(N). Wenn das MP_OK-Signal 108 von dem primären Verwaltungsprozessor 105(P) als aktiv erfaßt wird, wird angenommen, daß der Verwaltungsprozessor 105 ordnungsgemäß operiert, wobei die Zustandsmaschine 103 mit dem Überwachungsprozeß fortfährt, und bei Schritt 305 eine Schleife durchläuft. Wenn das MP_OK-Signal 108 von dem primären Verwaltungsprozessor 105(P) als inaktiv erfaßt wird, prüft die Steuerung mit hoher Verfügbarkeit 108, ob ein anderer der Verwaltungsprozessoren ein aktives MP_OK- Signal 108 sendet. Wenn ein Verwaltungsprozessor, der ein aktives MP_OK-Signal 108 aufweist, gefunden wird, überträgt die HAC die Systemsteuerung an den Prozessor 105, der der primäre Verwaltungsprozessor 105(P) wird. Fig. 5, die unten beschrieben wird, gibt Details über den Prozeß des Überwachens der Verwaltungsprozessoren, was durch Schritt 305 aus Fig. 3 angezeigt ist.
- Wenn die Steuerung mit hoher Verfügbarkeit (HAC) 101 kein aktives MP_OK-Signal 108 von einem der Verwaltungsprozessoren 105 erfassen kann, nimmt die HAC an, daß Verwaltungsprozessoren 105 entweder in dem System nicht vorhanden oder nicht betriebsfähig sind und übernimmt die Verwaltung des Systems 100 bei einem Schritt 310, wobei das System in dem gleichen Betriebszustand ist, der unmittelbar vor einem Ausfall des Verwaltungsprozessors 105 existierte.
- Die Steuerung mit hoher Verfügbarkeit 101 aktiviert das System und I/O-Ventilatoren 145 über ein Ventilatormodul 140. Das Ventilatormodul 140 erkennt, daß ein Verwaltungsprozessor nicht betriebsfähig ist, über ein inaktives SP_OK- Signal 141 (das anzeigt, daß der Verwaltungsprozessor nicht OK ist) von der HAC 101 und setzt die Ventilatorgeschwindigkeit auf eine geeignete Vorgabe für einen nicht überwachten Betrieb. Wenn ein Ventilatorfehler durch das Ventilatormodul 140 erfaßt wird, erkennt die Steuerung mit hoher Verfügbarkeit 101 dies (über eine Ventilatorfehlerunterbrechung von dem Ventilatormodul) und fährt das System bei einem Schritt 325 herunter.
- Das "Zelle Vorhanden"-Signal 114 wird durch Anschlußstifte, die auf dem Zellplatinenverbinder angeordnet sind, zu der Steuerung mit hoher Verfügbarkeit 101 geleitet. Wenn die Zellplatine ausgestöpselt ist, wird das Zelle-Vorhanden- Signal unterbrochen, was bewirkt, daß dieselbe inaktiv wird. Die Steuerung mit hoher Verfügbarkeit 101 überwacht das Zelle-Vorhanden-Signal 114, wobei, wenn Zelleistungsaktivierung 113 aktiv zu einer Zellplatine ist, deren Zelle- Vorhanden-Signal 114 inaktiv wird, die Leistung an die Platine unmittelbar deaktiviert wird und deaktiviert bleibt, bis die Leistung an die Platine explizit neu aktiviert wird. Das Kern-IO-Vorhanden-Signal 109 wird durch Anschlußstifte auf dem Kern-I/O-Platinenverbinder an die HAC geleitet. Wenn die Kern-IO-Platine 104 ausgestöpselt ist, wird das Kern-IO-Vorhanden-Signal 109 unterbrochen, was bewirkt, daß dasselbe inaktiv wird.
- Die folgenden grundlegenden Signale, die durch jede mit Leistung versorgbare Entität bereitgestellt werden (Zelle/n 102, System-Backplane 118 und PCI-Backplane 125), werden durch die Steuerung mit hoher Verfügbarkeit (HAC) 101 verwendet:
- 1. ein "Leistungsaktivierungs"-Signal (113, 122) von der 101 (HAC) an die Entität LPM;
- 2. ein "Vorrichtung-Vorhanden"-Signal (109, 114) an die HAC;
- 3. ein "Vorrichtung-Bereit"-Signal an die HAC;
- 4. ein "Leistung-Gut"-Signal an die HAC; und
- 5. ein "Leistungsfehler"-Signal an die HAC (bis auf Zelle-LPM-Fehler-Anzeigen, die dem lokalen Dienstprozessor 116 für die Zelle bereitgestellt werden). Aus Gründen der Klarheit wird jedes der letzten drei Signale [(3) - (5)] in Fig. 2 in eine einzelne Leitung kombiniert, wie durch Leitungen 112, 119 und 121 für die Zelle 102, die System-Backplane 118 bzw. die PCI-Backplane 125 gezeigt ist.
- Bei einem Schritt 310 erkennt die Betriebszustandmaschine 103, wenn ein Ventilatorfehler durch das Ventilatormodul 140 erfaßt wird, dies (über eine Ventilatorfehlerunterbrechung von dem Ventilatormodul) und fährt das System bei einem Schritt 325 sequentiell, wie unten beschrieben wird, herunter. Andernfalls fährt, wenn bei Schritt 315 eine Leistungsfehlerunterbrechung durch die Steuerung mit hoher Verfügbarkeit 101 empfangen wird, wenn das Signal "Vorrichtung_N_Leistung_gut" (410 aus Fig. 4) inaktiv wird, die Betriebszustandsmaschine 103 das System bei Schritt 325 unten sequentiell herunter.
- Wenn bei Schritt 315 die Systemleistung bestimmt wird, um OK zu sein, d. h. wenn ein "Backplane-Leistung-Gut"-Signal 119 erfaßt wird, prüft die Zustandsmaschine 103 bei Schritt 320, ob der System-Leistungsschalter 110 (an einem vorderen Bedienfeld) gedrückt ist. Falls dies nicht der Fall ist, fährt die Zustandsmaschine 103 bei Schritt 305 mit der Systemüberwachung fort. Wenn der Leistungsschalter gedrückt wurde, bewirkt die Zustandsmaschine 103 bei Schritt 325, daß das System 100 sequentiell in der unten aufgelisteten Reihenfolge heruntergefahren wird.
- 1. letzte logische PCI-(I/O-Karte-)Backplane 125, dann zugeordnete Zellplatine 102;
- 2. höchste logische PCI-Backplane 125 und dann zugeordnete Zellplatine 102; und schließlich
- 3. System-Backplane 118.
- Bei einem Schritt 330 werden die Bedienfeldindikatoren 130 aktualisiert, wobei schließlich bei einem Schritt 335 die Steuerung mit hoher Verfügbarkeit 101 die Verwaltungsprozessor-OK-Signale 108(1) bis 108(N) überwacht, um zu bestimmen, ob ein Verwaltungsprozessor 105 wieder betriebsfähig ist. Wenn bestimmt wird, daß zumindest ein Verwaltungsprozessor 105 betriebsfähig ist, wird die Steuerung an diesen Prozessor geleitet, wobei die Steuerungsbetriebszustandsmaschine mit hoher Verfügbarkeit 103 ihre Statusüberwachungsfunktion bei 300 wieder aufnimmt.
- Fig. 4 ist ein Blockdiagramm, das die Steuerung mit hoher Verfügbarkeit des vorliegenden Systems detaillierter darstellt. Wie in Fig. 4 gezeigt ist, zentralisiert die Steuerung mit hoher Verfügbarkeit (HAC) 101 Steuerungs- und Statusinformationen zum Zugriff durch Verwaltungsprozessoren 105. Bei einem exemplarischen Ausführungsbeispiel des vorliegenden Systems ist die Steuerung mit hoher Verfügbarkeit 101 als ein frei programmierbares Gatearray (FPGA) implementiert, wobei alternativ jedoch auch eine andere, nicht durch Software codierte Vorrichtung verwendet werden könnte. In jedem Fall führt die HAC 101 nicht die gleiche Sequenz von Operationen durch wie der Code, der durch Verwaltungsprozessoren 105 ausgeführt wird.
- Die folgenden Sensor- und Steuerungssignale werden entweder durch die HAC empfangen oder erzeugt, während der Betrieb des Systems 100 überwacht wird:
- 1. Der Leistungsschalter 110 an einem vorderen Bedienfeld wird durch die Steuerung mit hoher Verfügbarkeit 101 überwacht.
- 2. Ventilatorfehlersignale berichten Ventilatorprobleme, die durch das Ventilatormodul 140 erfaßt wurden. Ventilatorfehler sowie Backplane-Leistungsfehler werden über einen Unterbrechungsbus 401 berichtet, bis auf die Zellplatinen 102, von denen Ventilatorfehlersignale zu dem entsprechenden lokalen Dienstprozessor 116 gesendet werden.
- 3. Ein "Vorrichtung-Vorhanden"-Signal 405 wird von jeder Hauptplatine, d. h. Zelle 102, I/O-Backplane 125 und Kern-I/O-Verwaltungsprozessoren 104 (sowie Bedienfeld- und Massenspeicherplatinen [nicht gezeigt]), in dem System gesendet, was anzeigt, daß die Platine ordnungsgemäß in das System eingesetzt wurde.
- 4. "Leistungsaktivierungs"-Signale 420 werden zu jedem LPM 15x gesandt, um die Leistung jeder zugeordneten mit Leistung versorgbaren Entität zu steuern. Ein "Leistung-gut"-Status bestätigt über Signale 410 von den Hauptleistungsversorgungen und den mit Leistung versorgbaren Entitäten ein ordnungsgemäßes Hochfahren und Herunterfahren für jede Entität.
- 5. Ein "LPM-bereit"-Signal 415 kommt von jeder Platine in dem System. Dieses Signal zeigt an, daß das spezifische LPM 15x ordnungsgemäß rückgesetzt wurde, alle notwendigen Betriebsmittel vorhanden sind und das LPM bereit ist, um die zugeordnete Platine hochzufahren.
- 6. Bedienfeldindikatoren (LEDs oder andere Anzeigevorrichtungen) 130 für Hauptleistung, Bereitschaftsleistung, Verwaltungsprozessor-OK und andere Indikatoren, die durch das Betriebssystem gesteuert werden, sind durch die Steuerung mit hoher Verfügbarkeit 101 steuerbar.
- Die Busse, die durch Leitungen 402 und 403 angezeigt sind, sind innerhalb des Steuerungs-FPGA mit hoher Verfügbarkeit und fungieren als "Daten-Aus"- bzw. "Daten-Ein"-Leitung. Bei einem exemplarischen Ausführungsbeispiel der vorliegenden Erfindung ist Block 106 eine I2C-Bus-Schnittstelle, die eine entfernte Schnittstelle zwischen Verwaltungsprozessoren 105 und den oben beschriebenen Sensoren und Steuerungen liefert.
- Fig. 5 ist ein Flußdiagramm, das eine exemplarische Sequenz von Schritten zeigt, die durch die Steuerungsbetriebszustandsmaschine mit hoher Verfügbarkeit 103 durchgeführt werden. Wie in Fig. 5 gezeigt ist, benachrichtigt nach einer Systemladeoperation bei Schritt 505, bei dem alle Verwaltungsprozessoren 105(1) bis 105(N) eine Ausführung ihrer jeweiligen Betriebssysteme einleiten, bei Schritt 510 der Verwaltungsprozessor 105, der als der vorgegebene primäre Verwaltungsprozessor 105(P) bestimmt wurde, die Steuerung mit hoher Verfügbarkeit 101 über seinen primären Prozessorstatus. Die Steuerung mit hoher Verfügbarkeit 101 aktiviert dann den Verwaltungsprozessor 105(P), so daß derselbe alle Systemfunktionen steuert, für die der Verwaltungsprozessor verantwortlich ist, einschließlich der Überwachung und Steuerung von Funktionen, die oben beschrieben sind, über den I2C-Bus 111. Alle Verwaltungsprozessoren 105 empfangen Eingänge von Leistungs-, Ventilator- und Temperatursensoren 120 (über den I2C-Bus 111), wobei nur der primäre Verwaltungsprozessor 105(P) die verwandten Systemfunktionen steuert.
- Bei einem Schritt 515 starten alle Verwaltungsprozessoren 105(1) bis 105(N) ihre Überwachungszeitgeber 117 (oder setzen dieselben neu). Bei dem vorliegenden exemplarischen Ausführungsbeispiel weist jeder Überwachungszeitgeber 117 eine vom Benutzer einstellbare Auszeitperiode (timeout period) zwischen etwa 6 und 10 Sekunden auf, wobei andere Zeitgeberwerte ausgewählt werden können, wie dies für ein bestimmtes System 100 geeignet ist. Bei einem Schritt 520 wird das Verwaltungsprozessor-OK-(MP_OK-)Signal 108, das in einem aktiven Zustand gehalten wird, solange der Überwachungszeitgeber 117 läuft, an die Steuerung mit hoher Verfügbarkeit 101 gesandt. Wenn ein bestimmter Verwaltungsprozessor 105 ordnungsgemäß funktioniert, sendet er in periodischen Abständen ein Rücksetz- bzw. Neusetzsignal an den Überwachungszeitgeber 117, um zu bewirken, daß der Zeitgeber die Auszeitperiode neu startet. Wenn ein bestimmter Verwaltungsprozessor 105 nicht richtig funktioniert, ist es wahrscheinlich, daß der Prozessor den Überwachungszeitgeber nicht rücksetzt, der dann abläuft, was bewirkt, daß das MP_OK-Signal 108 inaktiv wird. Wenn die Steuerung mit hoher Verfügbarkeit 101 ein inaktives MP_OK-Signal erfaßt, übernimmt die Steuerung eine Steuerung des Systems 100, wie hinsichtlich Schritt 310 in Fig. 3 oben beschrieben wurde.
- Bei einem Schritt 525 wird, wenn ein Überwachungszeitgeberrücksetzsignal von dem primären Verwaltungsprozessor 105(P) gesendet wurde, der Zeitgeber bei Schritt 515 rückgesetzt. Andernfalls prüft der Verwaltungsprozessor 105(P) bei Schritt 530 den Status der Systemumgebung. Jeder Verwaltungsprozessor 105 umfaßt eine Firmware-Aufgabe, die Systemleistung, Temperatur und Ventilatorgeschwindigkeit mit vorbestimmten Werten vergleicht, um die Integrität der Systembetriebsumgebung zu prüfen. Wenn die Systemumgebungsparameter nicht in einem akzeptablen Bereich sind, setzt der Verwaltungsprozessor 105(P) den Überwachungszeitgeber 117 nicht rück, was bewirkt, daß das MP_OK-Signal 108 bei Schritt 540 inaktiv wird. Die Betriebszustandsmaschine 103 prüft dann, ob ein anderer Verwaltungsprozessor betriebsfähig ist, wie bei Schritt 305 in Fig. 3 oben beschrieben wurde. Wenn die Systemumgebungsparameter in einem akzeptablen Bereich sind, durchläuft bei Schritt 535, wenn der Überwachungszeitgeber 117 nicht abgelaufen ist, der Verwaltungsprozessor 105(P) eine Schleife zurück zu Schritt 525.
- Während bevorzugte Ausführungsbeispiele der vorliegenden Erfindung in den Zeichnungen gezeigt und oben beschrieben wurden, solle es für Fachleute ersichtlich sein, daß verschiedene Ausführungsbeispiele der vorliegenden Erfindung möglich sind. Die spezifische Konfiguration des Systems, die in den Fig. 1, 2 und 4 gezeigt ist, sowie die bestimmte Sequenz von Schritten z. B., die oben in den Fig. 3 und 5 beschrieben sind, sollten nicht aufgefaßt werden, um die hierin beschriebenen spezifischen Ausführungsbeispiele einzuschränken. Modifizierungen können an diesen und anderen spezifischen Elementen der Erfindung durchgeführt werden, ohne von der Wesensart und dem Bereich, die in den folgenden Ansprüchen ausgedrückt sind, abzuweichen.
Claims (20)
1. Mehrfachredundanzsicherungsverwaltungssystem zum
Bereitstellen grundlegender Systemfunktionen in einem
Computersystem, mit folgenden Merkmalen:
einer Mehrzahl von Systemsensoren (120) zum Erfassen der Leistung, Temperatur und Kühlventilatorgeschwindigkeit in dem Computersystem;
einer Mehrzahl von Verwaltungsprozessoren (105), wobei jeder der Prozessoren mit jedem der Sensoren gekoppelt ist,
wobei ein Verwaltungsprozessorstatussignal durch jeden der Verwaltungsprozessoren erzeugt wird, um einen Betriebszustand desselben anzuzeigen;
einer Steuerung mit hoher Verfügbarkeit, die wirksam mit dem Statussignal und den Sensoren (120) gekoppelt ist,
wobei die Steuerung mit hoher Verfügbarkeit eine nicht durch Software codierte Zustandsmaschine aufweist, die eine andere Sequenz von Operationen als der Code durchführt, der durch die Verwaltungsprozessoren ausgeführt wird,
wobei die Sensoren (120) folgende Merkmale umfassen:
eine Mehrzahl von Leistungssteuerungen, von denen jede den Zustand einer zugeordneten Leistungsversorgung in dem Computersystem überwacht und eine Leistung zu demselben steuert; und
zumindest eine Kühlventilatorsteuerung zum Erfassen und Steuern der Kühlventilatorgeschwindigkeit, und
wobei ansprechend auf ein Erfassen inaktiver Prozessorstatussignale (108) von allen Verwaltungsprozessoren (105) die Steuerung mit hoher Verfügbarkeit Steuerungssignale ansprechend auf Ausgänge von den Sensoren (120) erzeugt, um einen Betrieb der Leistungssteuerungen und der Ventilatorsteuerung zu steuern.
einer Mehrzahl von Systemsensoren (120) zum Erfassen der Leistung, Temperatur und Kühlventilatorgeschwindigkeit in dem Computersystem;
einer Mehrzahl von Verwaltungsprozessoren (105), wobei jeder der Prozessoren mit jedem der Sensoren gekoppelt ist,
wobei ein Verwaltungsprozessorstatussignal durch jeden der Verwaltungsprozessoren erzeugt wird, um einen Betriebszustand desselben anzuzeigen;
einer Steuerung mit hoher Verfügbarkeit, die wirksam mit dem Statussignal und den Sensoren (120) gekoppelt ist,
wobei die Steuerung mit hoher Verfügbarkeit eine nicht durch Software codierte Zustandsmaschine aufweist, die eine andere Sequenz von Operationen als der Code durchführt, der durch die Verwaltungsprozessoren ausgeführt wird,
wobei die Sensoren (120) folgende Merkmale umfassen:
eine Mehrzahl von Leistungssteuerungen, von denen jede den Zustand einer zugeordneten Leistungsversorgung in dem Computersystem überwacht und eine Leistung zu demselben steuert; und
zumindest eine Kühlventilatorsteuerung zum Erfassen und Steuern der Kühlventilatorgeschwindigkeit, und
wobei ansprechend auf ein Erfassen inaktiver Prozessorstatussignale (108) von allen Verwaltungsprozessoren (105) die Steuerung mit hoher Verfügbarkeit Steuerungssignale ansprechend auf Ausgänge von den Sensoren (120) erzeugt, um einen Betrieb der Leistungssteuerungen und der Ventilatorsteuerung zu steuern.
2. Sicherungsverwaltungssystem gemäß Anspruch 1, bei dem
die Zustandsmaschine (103) ein frei programmierbares
Gatearray ist.
3. Sicherungsverwaltungssystem gemäß Anspruch 1 oder 2,
bei dem ansprechend auf ein Erfassen von inaktiven
Prozessorstatussignalen (108) von allen
Verwaltungsprozessoren (105), wenn ein Ventilatorfehler erfaßt
wird oder wenn kein Backplane-Leistung-Gut-Signal
erfaßt wird, die Steuerung mit hoher Verfügbarkeit das
System sequentiell herunterfährt.
4. Sicherungsverwaltungssystem gemäß Anspruch 3, bei dem
das Computersystem zumindest eine I/O-Karte-Backplane
(125) und eine System-Backplane (118) umfaßt und die
Steuerung mit hoher Verfügbarkeit das System
sequentiell in der folgenden Reihenfolge herunterfährt:
die letzte logische I/O-Karte-Backplane (125), dann die zugeordnete Zellplatine;
die höchste logische I/O-Karte-Backplane (125), dann die zugeordnete Zellplatine; und
die System-Backplane (118).
die letzte logische I/O-Karte-Backplane (125), dann die zugeordnete Zellplatine;
die höchste logische I/O-Karte-Backplane (125), dann die zugeordnete Zellplatine; und
die System-Backplane (118).
5. Sicherungsverwaltungssystem gemäß Anspruch 4, bei dem
ansprechend auf ein Erfassen inaktiver
Prozessorstatussignale (108) von allen Verwaltungsprozessoren
(105), wenn die Steuerung mit hoher Verfügbarkeit
erfaßt, daß der Leistungsschalter gedrückt wurde, die
Steuerung mit hoher Verfügbarkeit das System
sequentiell herunterfährt.
6. Sicherungsverwaltungssystem gemäß einem der Ansprüche
1 bis 5, das ferner einen Leistungsschalter zum
Steuern einer Volumenleistung an das Computersystem
umfaßt, der mit den Verwaltungsprozessoren (105) und der
Steuerung mit hoher Verfügbarkeit gekoppelt ist, wobei
die Steuerung mit hoher Verfügbarkeit auf einen
Ausgang von dem Leistungsschalter anspricht, um ein
Herunterfahren jeder Leistungsversorgung einzuleiten,
wenn die Verwaltungsprozessoren ausgefallen sind.
7. Sicherungsverwaltungssystem gemäß einem der Ansprüche
1 bis 6, bei dem jeder der Verwaltungsprozessoren
(105) einen Überwachungszeitgeber (117) umfaßt, der
sein Prozessorstatussignal (108) auf einen inaktiven
Zustand setzt, wenn der jeweilige Verwaltungsprozessor
den Zeitgeber nicht in einem vorbestimmten Zeitraum
rücksetzt.
8. Verfahren zur Mehrfachredundanzsicherungsverwaltung
grundlegender Systemfunktionen in einem
Computersystem, wobei das Verfahren folgende Schritte aufweist:
Überwachen einer Mehrzahl von Sensoren (120) zum Erfassen der Leistung, Temperatur und Kühlventilatorgeschwindigkeit in dem Computersystem über eine Mehrzahl von Verwaltungsprozessoren (105);
Erzeugen einer Mehrzahl von Prozessorstatussignalen (108), wobei jedes Signal einen Betriebszustand eines zugeordneten der Verwaltungsprozessoren (105) anzeigt;
Überwachen der Mehrzahl von Prozessorstatussignalen (108); und
Erzeugen, ansprechend auf ein Erfassen, daß alle Prozessorstatussignale (108) inaktiv sind, von Sicherungssteuerungssignalen ansprechend auf Ausgänge von den Sensoren (120), um einen Betrieb der Steuerungen zu steuern,
wobei die Sicherungssteuerungssignale durch eine nicht durch Software codierte Zustandsmaschine (103) erzeugt werden, die wirksam mit dem Verwaltungsprozessor (105), den Sensoren (120) und den Steuerungen (15x, 140) gekoppelt ist.
Überwachen einer Mehrzahl von Sensoren (120) zum Erfassen der Leistung, Temperatur und Kühlventilatorgeschwindigkeit in dem Computersystem über eine Mehrzahl von Verwaltungsprozessoren (105);
Erzeugen einer Mehrzahl von Prozessorstatussignalen (108), wobei jedes Signal einen Betriebszustand eines zugeordneten der Verwaltungsprozessoren (105) anzeigt;
Überwachen der Mehrzahl von Prozessorstatussignalen (108); und
Erzeugen, ansprechend auf ein Erfassen, daß alle Prozessorstatussignale (108) inaktiv sind, von Sicherungssteuerungssignalen ansprechend auf Ausgänge von den Sensoren (120), um einen Betrieb der Steuerungen zu steuern,
wobei die Sicherungssteuerungssignale durch eine nicht durch Software codierte Zustandsmaschine (103) erzeugt werden, die wirksam mit dem Verwaltungsprozessor (105), den Sensoren (120) und den Steuerungen (15x, 140) gekoppelt ist.
9. Verfahren gemäß Anspruch 8, bei dem die
Zustandsmaschine (103) eine andere Sequenz von Operationen als
den Code durchführt, der durch den
Verwaltungsprozessor (105) ausgeführt wird.
10. Verfahren gemäß Anspruch 8 oder 9, bei dem die
Sensoren zumindest eine Kühlventilatorsteuerung zum
Erfassen und Steuern der Kühlventilatorgeschwindigkeit und
eine Mehrzahl von Leistungssteuerungen umfassen, wobei
jede derselben den Zustand einer zugeordneten
Leistungsversorgung in dem Computersystem überwacht und
eine Leistung an dieselbe steuert, wobei das Verfahren
folgenden Schritt umfaßt:
Senden der Steuerungssignale und der
Sicherungssteuerungssignale an die Leistungssteuerungen und an das
Ventilatormodul.
11. Verfahren gemäß einem der Ansprüche 8 bis 10, das für
jeden der Verwaltungsprozessoren (105) den Schritt des
Einstellens eines Überwachungszeitgebers (117) umfaßt,
der ein inaktives Prozessorstatussignal für den
zugeordneten der Verwaltungsprozessoren erzeugt, wenn der
Verwaltungsprozessor den Zeitgeber nicht in einem
vorbestimmten Zeitraum rücksetzt.
12. Verfahren gemäß einem der Ansprüche 8 bis 11, das den
Schritt des sequentiellen Herunterfahrens des Systems
ansprechend auf ein Erfassen von inaktiven
Prozessorstatussignalen von allen Verwaltungsprozessoren (105)
umfaßt, wenn ein Ventilatorfehler erfaßt wird oder
wenn kein Backplane-Leistung-Gut-Signal erfaßt wird.
13. Verfahren gemäß Anspruch 12, bei dem das
Computersystem zumindest eine I/O-Karte-Backplane (125) und eine
System-Backplane (118) umfaßt, und bei dem der Schritt
des sequentiellen Herunterfahrens des Systems die
folgenden Schritte in der folgenden Reihenfolge aufweist:
Herunterfahren der letzten logischen I/O-Karte- Backplane (125), dann der zugeordneten Zellplatine;
Herunterfahren der höchsten logischen I/O-Karte- Backplane (125), dann der zugeordneten Zellplatine; und
Herunterfahren der System-Backplane (118).
Herunterfahren der letzten logischen I/O-Karte- Backplane (125), dann der zugeordneten Zellplatine;
Herunterfahren der höchsten logischen I/O-Karte- Backplane (125), dann der zugeordneten Zellplatine; und
Herunterfahren der System-Backplane (118).
14. Verfahren gemäß Anspruch 13, bei dem ansprechend auf
ein Erfassen von inaktiven Prozessorstatussignalen von
allen Verwaltungsprozessoren (105), wenn die Steuerung
mit hoher Verfügbarkeit erfaßt, daß der
Leistungsschalter gedrückt wurde, die Steuerung mit hoher
Verfügbarkeit das System sequentiell herunterfährt.
15. Sicherungsverwaltungssystem (100) zum Bereitstellen
grundlegender Systemsteuerungsfunktionen in einem
Computersystem, mit folgenden Merkmalen:
einer Mehrzahl von Systemsensoren (120) zum Erfassen von Signalen von zumindest zwei Vorrichtungen in der Gruppe von Vorrichtungen, die ein Leistungsmodul (15x) zum Überwachen des Zustandes einer zugeordneten Leistungsversorgung in dem Computersystem, ein Temperatursensor (120) zum Überwachen der Temperatur in dem Computersystem und ein Kühlventilatorgeschwindigkeitsmodul (140) zum Erfassen und Steuern der Systemkühlventilatorgeschwindigkeit umfaßt;
einer Mehrzahl von Verwaltungsprozessoren (105), wobei jeder der Prozessoren mit jedem der Sensoren (120) gekoppelt ist,
wobei ein Verwaltungsprozessorstatussignal (108) durch jeden der Verwaltungsprozessoren (105) erzeugt wird, um einen Betriebszustand desselben anzuzeigen;
einer nicht durch Software codierten Zustandsmaschine (103), die wirksam mit jedem der Verwaltungsprozessoren (105) und den Systemsensoren (120) gekoppelt ist, wobei die Zustandsmaschine (103) eine andere Sequenz von Operationen als der Code durchführt, der durch die Verwaltungsprozessoren (105) ausgeführt wird,
wobei ansprechend auf ein Erfassen, daß jedes Statussignal (108) inaktiv ist, die Zustandsmaschine (103) Steuerungssignale an die Leistungssteuerungen (15x, 140) und an das Ventilatormodul ansprechend auf Ausgänge von den Systemsensoren (120) erzeugt, um den Betrieb derselben zu steuern.
einer Mehrzahl von Systemsensoren (120) zum Erfassen von Signalen von zumindest zwei Vorrichtungen in der Gruppe von Vorrichtungen, die ein Leistungsmodul (15x) zum Überwachen des Zustandes einer zugeordneten Leistungsversorgung in dem Computersystem, ein Temperatursensor (120) zum Überwachen der Temperatur in dem Computersystem und ein Kühlventilatorgeschwindigkeitsmodul (140) zum Erfassen und Steuern der Systemkühlventilatorgeschwindigkeit umfaßt;
einer Mehrzahl von Verwaltungsprozessoren (105), wobei jeder der Prozessoren mit jedem der Sensoren (120) gekoppelt ist,
wobei ein Verwaltungsprozessorstatussignal (108) durch jeden der Verwaltungsprozessoren (105) erzeugt wird, um einen Betriebszustand desselben anzuzeigen;
einer nicht durch Software codierten Zustandsmaschine (103), die wirksam mit jedem der Verwaltungsprozessoren (105) und den Systemsensoren (120) gekoppelt ist, wobei die Zustandsmaschine (103) eine andere Sequenz von Operationen als der Code durchführt, der durch die Verwaltungsprozessoren (105) ausgeführt wird,
wobei ansprechend auf ein Erfassen, daß jedes Statussignal (108) inaktiv ist, die Zustandsmaschine (103) Steuerungssignale an die Leistungssteuerungen (15x, 140) und an das Ventilatormodul ansprechend auf Ausgänge von den Systemsensoren (120) erzeugt, um den Betrieb derselben zu steuern.
16. Sicherungsverwaltungssystem gemäß Anspruch 15, bei dem
die Steuerungen folgende Merkmale umfassen:
eine Mehrzahl von Leistungssteuerungen (15x), wobei jede derselben den Zustand einer zugeordneten Leistungsversorgung in dem Computersystem überwacht und eine Leistung an dasselbe steuert; und
zumindest eine Kühlventilatorsteuerung (140) zum Erfassen und Steuern der Kühlventilatorgeschwindigkeit.
eine Mehrzahl von Leistungssteuerungen (15x), wobei jede derselben den Zustand einer zugeordneten Leistungsversorgung in dem Computersystem überwacht und eine Leistung an dasselbe steuert; und
zumindest eine Kühlventilatorsteuerung (140) zum Erfassen und Steuern der Kühlventilatorgeschwindigkeit.
17. Sicherungsverwaltungssystem gemäß Anspruch 15 oder 16,
bei dem jeder Verwaltungsprozessor (105) einen
Überwachungszeitgeber (117) umfaßt, der das
Prozessorstatussignal für den zugeordneten Prozessor in einen
inaktiven Zustand setzt, wenn der Verwaltungsprozessor (105)
den Zeitgeber nicht in einem vorbestimmten Zeitraum
rücksetzt.
18. Sicherheitsverwaltungssystem gemäß einem der Ansprüche
15 bis 17, bei dem ansprechend auf ein Erfassen
inaktiver Prozessorstatussignale von allen
Verwaltungsprozessoren (105), wenn ein Ventilatorfehler erfaßt wird
oder wenn kein Backplane-Leistung-Gut-Signal erfaßt
wird, die Steuerung mit hoher Verfügbarkeit das System
sequentiell herunterfährt.
19. Sicherungsverwaltungssystem gemäß Anspruch 18, bei dem
das Computersystem zumindest eine I/O-Karte-Backplane
(125) und eine System-Backplane (118) umfaßt, wobei
die Steuerung mit hoher Verfügbarkeit das System
sequentiell in der folgenden Reihenfolge herunterfährt:
die letzte logische I/O-Karte-Backplane (125), dann die zugeordnete Zellplatine;
die höchste logische I/O-Karte-Backplane (125), dann die zugeordnete Zellplatine; und
die System-Backplane (118).
die letzte logische I/O-Karte-Backplane (125), dann die zugeordnete Zellplatine;
die höchste logische I/O-Karte-Backplane (125), dann die zugeordnete Zellplatine; und
die System-Backplane (118).
20. Sicherungsverwaltungssystem gemäß Anspruch 19, bei dem
ansprechend auf ein Erfassen inaktiver
Prozessorstatussignale von allen Verwaltungsprozessoren (105),
wenn die Steuerung erfaßt, daß der Leistungsschalter
gedrückt wurde, die Steuerung mit hoher Verfügbarkeit
das System sequentiell herunterfährt.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/917,984 US6915441B2 (en) | 2001-07-30 | 2001-07-30 | Computer system with multiple backup management processors for handling embedded processor failure |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10231938A1 true DE10231938A1 (de) | 2003-06-18 |
Family
ID=25439602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10231938A Withdrawn DE10231938A1 (de) | 2001-07-30 | 2002-07-15 | Computersystem mit mehreren Sicherungs-Verwaltungsprozessoren zur Handhabung eines Ausfalls eines eingebetteten Prozessors |
Country Status (3)
Country | Link |
---|---|
US (1) | US6915441B2 (de) |
JP (1) | JP2003150280A (de) |
DE (1) | DE10231938A1 (de) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030023887A1 (en) * | 2001-07-30 | 2003-01-30 | Maciorowski David R. | Computer system with backup management for handling embedded processor failure |
US20040054943A1 (en) * | 2002-08-08 | 2004-03-18 | International Business Machines Corporation | Method and system for improving the availability of software processes utilizing configurable finite state tables |
US7222246B2 (en) * | 2003-09-26 | 2007-05-22 | Hewlett-Packard Development Company, L.P. | Method for determining number of dynamically temperature-adjusted power supply units needed to supply power according to measure operating temperature of power supply units |
US20050080887A1 (en) * | 2003-10-08 | 2005-04-14 | Chun-Liang Lee | Redundant management control arbitration system |
US7062933B2 (en) * | 2004-03-24 | 2006-06-20 | Intel Corporation | Separate thermal and electrical throttling limits in processors |
US7305570B2 (en) * | 2004-08-16 | 2007-12-04 | Standard Microsystems Corporation | Failsafe slave mechanism for mission critical applications |
JP2008517579A (ja) * | 2004-10-14 | 2008-05-22 | ラゴテック・コーポレーション | 分散された無線の家庭用および商用の電気オートメーションシステム |
US7418604B2 (en) * | 2004-12-22 | 2008-08-26 | Hewlett-Packard Development Company, L.P. | System and method for powering on after verifying proper operation of a charge pump and voltage regulator |
US20060149873A1 (en) * | 2005-01-04 | 2006-07-06 | Underwood Brad O | Bus isolation apparatus and method |
US7281070B2 (en) * | 2005-01-28 | 2007-10-09 | International Business Machines Corporation | Multiple master inter integrated circuit bus system |
US7627774B2 (en) * | 2005-02-25 | 2009-12-01 | Hewlett-Packard Development Company, L.P. | Redundant manager modules to perform management tasks with respect to an interconnect structure and power supplies |
JP4655718B2 (ja) * | 2005-03-25 | 2011-03-23 | 日本電気株式会社 | コンピュータシステム及びその制御方法 |
US7533281B2 (en) * | 2005-08-03 | 2009-05-12 | Aten International Co., Ltd. | Method and system for controlling powers of a plurality of servers |
TWI327259B (en) * | 2006-09-21 | 2010-07-11 | Tyan Computer Corp | Complex signal processing system and method for multiple fans |
CN101165354B (zh) * | 2006-10-18 | 2011-01-05 | 鸿富锦精密工业(深圳)有限公司 | 风扇转速自动控制电路 |
JP4359632B2 (ja) * | 2007-06-13 | 2009-11-04 | 株式会社トヨタIt開発センター | プロセッサ動作検査システム及び動作検査回路 |
US8108697B2 (en) * | 2008-07-28 | 2012-01-31 | Oracle America, Inc. | Controlling the power utilization of a computer system by adjusting a cooling fan speed |
JP5769252B2 (ja) | 2009-07-31 | 2015-08-26 | 日本電気株式会社 | 回線収容装置および温度制御方法 |
US9003824B2 (en) * | 2011-02-02 | 2015-04-14 | Robert Almblad | Positive air pressure ice making and dispensing system |
TWI411375B (zh) * | 2011-06-21 | 2013-10-01 | Quanta Comp Inc | 伺服器機櫃系統 |
US20150277520A1 (en) * | 2012-09-28 | 2015-10-01 | Hewlett-Packard Development Company, L.P. | Temperature regulation of a cpu |
US10101049B2 (en) | 2015-11-12 | 2018-10-16 | Oracle International Corporation | Determining parameters of air-cooling mechanisms |
US10254807B2 (en) * | 2016-06-13 | 2019-04-09 | Dell Products L.P. | Systems and methods for policy-based per-zone air mover management for offline management controller |
TWI630326B (zh) * | 2017-01-06 | 2018-07-21 | 茂達電子股份有限公司 | 風扇控制系統及其方法 |
CN114151374A (zh) * | 2021-11-05 | 2022-03-08 | 山东云海国创云计算装备产业创新中心有限公司 | 一种风扇控制电路及一种主机 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW292365B (en) * | 1995-05-31 | 1996-12-01 | Hitachi Ltd | Computer management system |
US5612580A (en) * | 1995-10-10 | 1997-03-18 | Northrop Grumman Corporation | Uninterruptible power system |
US5982652A (en) * | 1998-07-14 | 1999-11-09 | American Power Conversion | Method and apparatus for providing uninterruptible power using a power controller and a redundant power controller |
US6944779B2 (en) * | 1999-07-14 | 2005-09-13 | Visteon Global Technologies, Inc. | Power management fault strategy for automotive multimedia system |
US20030023887A1 (en) * | 2001-07-30 | 2003-01-30 | Maciorowski David R. | Computer system with backup management for handling embedded processor failure |
-
2001
- 2001-07-30 US US09/917,984 patent/US6915441B2/en not_active Expired - Fee Related
-
2002
- 2002-07-15 DE DE10231938A patent/DE10231938A1/de not_active Withdrawn
- 2002-07-30 JP JP2002220928A patent/JP2003150280A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2003150280A (ja) | 2003-05-23 |
US6915441B2 (en) | 2005-07-05 |
US20030126473A1 (en) | 2003-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE10231938A1 (de) | Computersystem mit mehreren Sicherungs-Verwaltungsprozessoren zur Handhabung eines Ausfalls eines eingebetteten Prozessors | |
DE69435090T2 (de) | Rechnersystem mit Steuereinheiten und Rechnerelementen | |
DE69923085T2 (de) | Initialisieren und wiederanlaufen von betriebssystemen | |
DE69430981T2 (de) | Speicherungssystem | |
DE112008001528B4 (de) | Multiprozessorsystem und Steuerverfahren hierfür | |
DE60301702T2 (de) | Fehlertolerantes Computersystem, Verfahren zur Resynchronisation desselben und Programm zur Resynchronisation desselben | |
DE60019038T2 (de) | Intelligente Fehlerverwaltung | |
DE3751600T2 (de) | Dreifachredundantes fehlererkennungssystem und entsprechendes anwendungsverfahren. | |
DE69608641T2 (de) | Ausfallbeseitigung für Steuergerät für eine Ein-/Ausgabevorrichtung | |
DE60004365T2 (de) | System und verfahren zur überwachung von einem verteilten fehlertoleranten rechnersystem | |
DE10255111A1 (de) | System und Verfahren zum Laden von Firmware mit hoher Verfügbarkeit | |
DE4317729A1 (de) | Programmierbare Steuereinheit | |
EP0543821B1 (de) | Einrichtung zur funktionsüberwachung externer synchronisations-baugruppen in einem mehrrechnersystem | |
DE10232919A1 (de) | Computersystem mit Sicherungsverwaltung zur Handhabung eines eingebetteten Prozessorausfalls | |
DE10254410A1 (de) | System und Verfahren für ein Laden einer Hochverfügbarkeits-Firmware | |
DE69032508T2 (de) | Fehlertolerantes Rechnersystem mit Online-Wiedereinfügung und Abschaltung/Start | |
DE102022107799A1 (de) | Verarbeitungsvorrichtung, Steuereinheit, elektronische Vorrichtung, Verfahren und Computerprogramm | |
DE4010109C2 (de) | Duplexrechnersystem | |
WO2004034260A2 (de) | Verfahren und schaltungsanordnung zur synchronisation synchron oder asynchron getakteter verarbeitungseinheiten | |
WO2004034261A1 (de) | Verfahren zur ereignissynchronisation, insbesondere für prozessoren fehlertoleranter systeme | |
EP1807760B1 (de) | Datenverarbeitungssystem mit variabler taktrate | |
DE69128391T2 (de) | Rückstellverfahren für die umsetzerschnittstelle bei störfällen und rechnersystem, welches dieses verfahren anwendet | |
DE60008872T2 (de) | Verfahren und vorrichtung zur automatischen reintegration eines moduls in ein rechnersystem | |
DE3689491T2 (de) | Überwachungsschaltung. | |
DE3789008T2 (de) | Datenverarbeitungssystem mit einem durch ein Teilsystem zu Gunsten eines anderen Teilsystems erzeugten Bussteuerbefehl. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8127 | New person/name/address of the applicant |
Owner name: HEWLETT-PACKARD DEVELOPMENT CO., L.P., HOUSTON, TE |
|
8130 | Withdrawal |