-
HINTERGRUND
-
Es ist im Stand der Technik bekannt, dass Gebläse verwendet werden können, um einen Luftstrom über Schaltungen zum Verteilen von Wärme zuführen. Die erzwungene Luftkühlung ist ein gut bekannter thermischer Managementmechanismus, der für verschiedene Arten von elektronischen Ausrüstungen, die Schaltungen und gedruckte Schaltkarten haben, verwendet wird. Ein Chassis kann beispielsweise Schlitze für ein Feld von gedruckten Schaltkarten, d. h. Blättern, aufweisen. Ein Gebläseeinsatz, der eine Reihe von Gebläsemodulen hat, kann Luft in das Chassis zum Kühlen der Blätter einbringen.
-
Ein Versagen eines oder mehrerer der Gebläsemodule ist unerwünscht, da der Luftstrom reduziert wird. Bei einem reduzierten Luftstrom in das Chassis kann die Temperatur der Bauelemente und der integrierten Schaltungen auf dem Blatt schnell bestimmte, akzeptable Betriebstemperaturen übersteigen und die Komponenten belasten. Diese Bedingungen können die Zuverlässigkeit der Ausrüstung verringern und die mittlere Zeit zwischen Fehlern (MTBF) erhöhen.
-
US 2002/101715 A1 offenbart ein Multiprozessor-Computersystem, das nach dem Ausfall einer mit einer zentralen Verarbeitungseinheit (CPU) gekoppelten Kühlvorrichtung den Betrieb fortsetzt. Gemäß der Offenbarung wird ein drohender Ausfall einer Kühlvorrichtung erkannt und alle Benutzer- und Betriebssystemprozesse werden von der betroffenen CPU, die mit der ausgefallenen Kühlvorrichtung gekoppelt ist, auf eine oder mehrere andere CPUs verschoben. Der Systemzustand wird dann so geändert, dass Interrupts nicht mehr von der betroffenen CPU empfangen und verarbeitet werden, und alle mit der betroffenen CPU verbundenen Speicher-Caches werden in den Hauptspeicher zurückgespült, um die Cache-Kohärenz zu gewährleisten. An diesem Punkt wird die CPU entweder abgeschaltet oder in einen Niedrigverbrauchsmodus versetzt, der es der CPU ermöglicht, ohne die Kühlvorrichtung zu arbeiten, während die Prozesse, die von der abgeschalteten CPU entfernt wurden, weiterhin auf anderen CPUs ausgeführt werden. Nachdem das Kühlgerät ausgetauscht wurde und normal funktioniert, kann die CPU wieder eingeschaltet werden, Interrupts können aktiviert werden und die CPU kann wieder Benutzer- und Betriebssystemprozesse ausführen.
-
Figurenliste
-
Die Beispiele, die hier beinhaltet sind, ergeben sich aus der nachfolgenden eingehenden Beschreibung in Verbindung mit den beiliegenden Zeichnungen. Dabei zeigt:
- 1 eine schematische Darstellung eines Gebläsemoduls mit Sensoren zum Messen von Betriebseigenschaften;
- 1A eine bildliche Darstellung eines Gebläsemoduls, das in einem Gebläseaufnahme angeordnet sein kann;
- 2A eine perspektivische Ansicht eines Chassis mit einem Gebläsemodul mit Sensoren;
- 2B eine Frontansicht eines Chassis mit einem Gebläsemodul mit Sensoren;
- 2C eine bildhafte Darstellung eines Luftstrom durch ein Chassis;
- 3 eine schematische Darstellung eines Systems mit einem Fehlermodul;
- 4 ein Flußdiagramm, das eine erfindungsgemäße Sammlung von Sensordaten wiedergibt;
- 5 ein Flußdiagramm, das eine erfindungsgemäße „leaky bucket“-Fehlervorhersageimplementation wiedergibt; und
- 6 ist ein Blockdiagramm eines erfindungsgemäßen Systems, das ein fehlerhaftes Modul hat.
-
EINGEHENDE BESCHREIBUNG
-
1 zeigt ein beispielhaftes Gebläsemodul 100 mit Sensoren zum Beobachten verschiedener Betriebseigenschaften eines Kühlgebläses 102 zum Erkennen und/oder Vorhersagen von Gebläseversagen. Wie in 1A gezeigt, kann das Gebläsemodul 100 entfernbar in eine Gebläseeinsatz 101 angeordnet sein, der mit einem Gerätechassis gekoppelt sein kann. Die Gebläsesensoren können einen Eingangstemperatursensor 104a zum Messen der Temperatur der Luft, die in das Gebläse strömt, und einen Ausgangstemperatursensor 104b zum Messen der Temperatur der Luft, die aus dem Gebläse ausströmt, aufweisen. Ein Stromsensor 106 kann den Strom messen, der von dem Gebläsemodul 100 verwendet werden, und ein Spannungssensor 107 kann eine Spannung messen, die an das Gebläsemodul angelegt ist. Ein Gebläseblattgeschwindigkeitsmotor 108, etwa ein Tachometer, kann die Geschwindigkeit des sich drehenden Gebläses messen. Ein Gebläsemodultemperatursensor 110 kann die Temperatur der Schaltung und/oder des Gebläsemotors in dem Gebläsemodul, das das Gebläse steuert, messen. Eingangs-/und Ausgangssensoren 112a,b können eine Druckdifferenz zwischen einer Eingangsseite und einer Ausgangsseite des Gebläses liefern. Ein Geräuschsensor 114, der als ein Mikrofon ausgebildet sein kann, misst die Umgebungstemperatur in der Nähe des Gebläsemoduls 100. Ein Vibrationssensor 116 misst den Vibrationspegel, der einen etwaigen mechanischen Fehler oder einer Anomalie angeben kann.
-
Die Gebläsesensoren sammeln verschiedene Information zum Beobachten der Ordnungsmäßigkeit des Kühlungssubsystems, das verwendet werden kann, um Fehler vorherzusagen. Beispielsweise kann die Strommenge und die Gebläsedrehgeschwindigkeitsinformation nach dem anfänglichen Betrieb erhalten werden. Wenn der Strom und/oder die gewährte Geschwindigkeit von der Grundlinie um mehr als einen vorgegebenen Betrag abweicht, kann ein Alarm erzeugt werden. Beispielsweise können Schwellenwerte, die innerhalb von 30% Abweichung liegen, als unkritisch angesehen werden.
-
Der Geräuschsensor 114 kann Lagergeräusche des Gebläsemotors beobachten. Bei einem Beispiel kann die Geräuschinformation einen oder mehrere Schwellenwerte haben. Wenn das Geräusch über einen ersten Schwellenwert steigt, kann ein erster Alarm für einen ersten Pegel erzeugt werden, der angibt, dass eine Gebläsewartung vorgeschlagen wird. Ein Geräusch über einen zweiten Schwellenwert kann einen zweiten Alarm für einen zweiten Pegel auslösen, der angibt, dass ein Gebläsefehler bevorsteht. Der Geräusch- oder Tonsensor 114 kann innerhalb oder außerhalb des Gebläses angeordnet sein. Die Signale, die aufzunehmen sind, repräsentieren sowohl die Geräuschleistung oder den Druck und die Geräuschqualität in einer Frequenzbandbreite, die verwendet werden kann, um die Arten der Fehler des Gebläses oder des Systems anzugeben zum Vergleichen des Geräuschmusters mit vorhandenen Geräuschmustern.
-
Das Paar von Drucksensoren 112a,b misst eine Differenz zwischen dem Gebläseeinlass- und Auslassluftdruck, die eine Basis bilden kann für Alarme, wenn der Druck oberhalb oder unterhalb eines oder mehrerer Stellwerteinstellungen ist. Bei einem alternativen Beispiel wird die Druckdifferenzinformation gesammelt durch messen des Drehmoments an den Gebläseblättern oder der Narbe durch einen oder mehrere Drehmomentsensoren in dem Blatt oder der Narbe. Bei einem Beispiel ist ein Chassis unter einer normalen Druckdifferenz von etwa 0,15" Wassersäule. Ein abnormer Zustand aufgrund eines verstopften Filters wird die Druckdifferenz in Abhängigkeit von dem Zustand des Filters erhöhen.
-
Bei einem Beispiel korreliert der Druck/Drehmoment-Alarm mit einem reduzierten Freibereichsverhältnis (FAR), der sich aus einem verstopften Luftfilter, einer Kabelblockage, dem Einsetzen eines außerordentlich dicht besetzten Platz und/oder eine Art einer Störung des Luftstromeinlasses/Auslasses usw. ergibt. Die Verstopfung oder Blockierung kann einen reduzierten Luftstrom und in Folge dessen höhere Temperaturen im Inneren des Chassis bewirken.
-
Die Leistung kann unter Verwendung einer Information aus dem Strom und dem Spannungsmonitor 106, 107 beobachtet werden. Bei einem Beispiel wird ein Produkt des elektrischen Stroms I, der von dem Gebläse gezogen wird, und einer Spannung V, die an das Gebläse angelegt wird, beobachtet. Der Tachometer 108 kann eine Drehgeschwindigkeitsinformation liefern.
-
Die Arbeit, die von dem Gebläse bei dem Blasen der Luft ausgeübt wird, entspricht der Leistung (Watt), die pro Drehung in Umdrehungen pro Minute (RPM) des Gebläseblattes verbraucht wird. Es wird angenommen, dass die Arbeit W = V * I / RPM ist. Die berechnete Arbeit über die Zeit kann verwendet werden, um den Zustand des Gebläses zu evaluieren.
-
Eine graduelle Abnahme eines Absolutwerts von W über die Zeit legt nahe:
- 1) Eine mögliche Filterverstopfung - wenn der Arbeitspegel über einen vorgegebenen Schwellenwert geht, ist es wahrscheinlich, dass der Filter ersetzt werden sollte.
- 2) Möglicher mechanischer Fehler des Gebläses - eine graduelle Zunahme der Arbeit kombiniert mit einer Zunahme der Gebläsemotortemperatur kann ein mögliches mechanisches Gebläseproblem anzeigen.
- 3) Möglicher mechanischer Fehler - eine Zunahme der Arbeit in Verbindung mit bestimmten Geräuschen und/oder einer Vibration kann einen bevorstehendes mechanisches Gebläseversagen anzeigen.
-
Eine plötzliche Zunahme der Arbeit, die von dem Gebläse ausgeübt wird, gibt eine plötzliche Änderung des Luftstroms an. Mögliche Ursachen einer plötzlichen Zunahme schließen ein:
- 1) Plötzliche Behinderung des Luftstroms in dem Chassis - zum Beispiel: Dies kann durch eine Installation einer nicht passenden Hardware verursacht sein.
- 2) Bevorstehendes Gebläselagerversagen - eine Zunahme der Arbeit und der Temperatur, des Geräusches oder der Vibration kann auf ein bevorstehendes Lagergebläseversagen hinweisen.
- 3) Mechanische Behinderung der Gebläseblattdrehung - dies kann verursacht sein durch ein teilweises Eindringen eines Fremdkörpers, der die freie Drehung des Gebläses behindert. Die Information vom Geräusch- und Vibrationssenor können dabei helfen, diese Art des Fehlers zu identifizieren.
-
Die Sensorinformation kann zum Bestimmen der Art des Fehlers kombiniert werden. Wenn, beispielsweise, das Gebläselager plötzlich aufgrund der hohen Temperatur, eines Austrocknens des Schmiermittels u.s.w. versagt, wird ein plötzlicher Anstieg des Stroms, der von dem Gebläsemotor gezogen wird, ein plötzlicher Abfall der Geschwindigkeit des Gebläses und möglicherweise eine Zunahme des Geräusches, das von dem Gebläse erzeugt wirdund weiter eine Zunahme der Temperatur des Gebläsemotors auftreten. All diese Lesungen können korreliert werden, um ein bevorstehendes Gebläseversagen vorherzusagen.
-
Der Tachometer 108 kann zum Messen der Gebläseanlaufzeit, d. h. der Zeit, die das Gebläse benötigt, um seine Betriebsgeschwindigkeit zu erreichen, verwendet werden. Dieser Parameter kann über mehrere Einschaltzyklen erfasst werden. Die Zunahme der Anlaufzeit kann verwendet werden, um eine Verschlechterung des Gebläses zu erkennen und ein Gebläseversagen festzustellen. Blätter in einem Gebläse sind sich bewegene Teile, wenn eine Blattanordnung sich um die Mittelachse des Gebläses dreht. Dort ist typischerweise ein Lagermechanismus einem geeigneten Schmiermittel, das eine freie Drehung der Blattanordnung erlaubt. Dieser Lagermechanismus kann sich über die Zeit verschlechtern, und das Schmiermittel kann seine Viskosität verlieren. Der Gebläsemotor kann mehr Leistung und Zeit, um auf die Geschwindigkeit zu kommen, benötigen.
-
Die Sensorinformation kann gemeinsam mit einer diagnostischen Steuerung zum Messen der Eigenschaft des Kühlsubsystems verwendet werden. Beispielsweise kann während der Wartungsperioden und anderen Perioden mit geringer Last ein Gebläsediagnostmodul aktiviert werden und eine Online-Diagnostik an jedem Gebläse ausführen, was nacheinander für jedes Gebläse ausgeführt werden kann. Durch Ablaufen der Gebläsediagnostik wird die Gesamtkühleigenschaft des Chassis nicht betroffen, wenn die Diagnose relativ wenig Zeit, beispielsweise Sekunden, in Anspruch nimmt. Die Diagnostik kann die Leistung für die Gebläse zyklisch abfahren und die Geschwindigkeit der Zeit zum Aufzeichnen irgendwelcher Änderungen messen. Die aufgezeichnete Anlaufgeschwindigkeit schafft eine Angabe des Zustands des Schmiermittels und der Reibung im Inneren der mechanischen Komponenten.
-
Nach dem Empfangen eines oder mehrerer Alarme kann ein Gebläsekontroller die Gebläsegeschwindigkeit erhöhen, um Luftstrompegel beizuhalten. Dies kann jedoch die Lebensdauer eines Gebläsemoduls oder einer Gebläseaufnahme reduzieren. Während der Gebläsekontroller die Gebläsegeschwindigkeit erhöht zum Kompensieren der Kühlluftverluste, kann der Gebläsekontroller auch eine Warnbotschaft oder Triggeralarme aus dem Diagnosesystem liefern, korreliert mit einem Muster jeder Art, wie oben beschrieben. Eine solche Situation kann berichtet werden als eine verschlechterte Betriebsbedingung. Ein Fehlermodul kann die Rate und die Dauer der verschlechterten Betriebsbedingungen beobachten und ein Versagen in dem Kühlsystem vorhersagen, wie dies weiter oben beschrieben worden ist.
-
Eine beispielhafte Liste von Eigenschaften, die beobachtet werden können, weist auf:
- - Gebläseanlaufzeit
- - Start/Stopp-Zahl
- - Leistung über Stundenzahl
- - Leistungszyklen
- - Leistungsverbrauch
- - Temperatur
- - Drehhochstrom
- - Drehbuzz/Geräusch
- - abnormale hohe Drehgeschwindigkeit
- - Hochdruckdifferenz verursacht durch geänderten Luftstrom
-
Die 2A und 2B zeigen ein beispielhaftes Chassis 200 mit einer Gebläseaufnahme 202, die eine Reihe von Gebläsemodulen 204 aufweist, um Luft in das Innere des Chassis zu zwingen, das Schlitze 206 hat, in die Blätter eingesetzt werden können. Wie in 2C gezeigt, kann das Gebläsemodul 204 Luft in das Eingangsluftplenum 208 in das Innere des Chassis und aus dem Chassis heraus über ein Auslassluftplenum 210 zwingen.
-
3 zeigt ein beispielhaftes System 300 mit einem Fehlermodul 302, das ein Versagen für ein Verarbeitungsblatt 304 und einem Speicherblatt 206 beobachten und/oder vorhersagen kann, beispielsweise basierend auf den Betriebseigenschaften von den Sensoren in den Blättern und/oder in einem Kühlsystem 308, wie oben beschrieben. Das Verarbeitungsblatt 304 kann einen Prozessor 310, einen Speicher 312 und einen intelligenten Plattformmanagementkontroller (IPMC) 314 aufweisen. Das IPMC ist ein generischer Kontroller, der verschiedene Funktionen ausführt, einschließlich der Beobachtung von verschiedenen Betriebsparametern, etwa der Spannung und der Temperatur, der verschiedenen Komponenten auf der Plattform.
-
Das Speicherblatt 306 kann einen Prozessor 315, Scheiben 316a,b und ein IPMC 318 aufweisen. Die Blätter können eine Vielzahl von integrierten Schaltungen, wie Prozessoren, programmierbare logische Einheiten usw. und diskrete Komponente, wie Widerstände, Kondensatoren, Transistoren und Dioden aufweisen.
-
Das Fehlermodul 302 kann eine Reihe von Parametern zum Feststellen einer Fehlinformation aufweisen, die verwendet werden kann, um ein Versagen vorherzusagen. Die Parameter geben eine Information an, das Fehlermodul 302 zum Vorhersagen eines Versagens basierend auf dem Kühlsystem 308 und anderen Betriebseigenschaften. Bei dem dargestellten Beispiel ist ein Fehlervorhersageagent 320 mit einem IPMC 322 in dem Kühlsystem 308 gekoppelt. Ein erster Siliziumfehlervorhersageagent 324 ist mit dem IPMC 314 in dem Prozessorblatt 304 gekoppelt und ein zweiter Siliziumvorhersageagent 326 ist mit dem IPMC 318 im Speicherblatt 306 gekoppelt. Ein Speicherfehlervorhersageagent 312 ist mit dem Prozessor 310/Speicher 312 gekoppelt und ein Scheibenfehlervorhersageagent 330 ist mit dem Prozessor 315 in dem Speicherblatt 306 gekoppelt.
-
Integrierte Schaltungen auf den Blättern 304, 306 sind ausgebildet, um unter bestimmten Temperatur-, Spannungs- und Frequenzbedingungen zu arbeiten. Typischerweise sind diese Einrichtungen zum Arbeiten in allen Randbereichen des Betriebsbereichs validiert. Die Betriebsrandbereiche könnten, beispielsweise, das Arbeiten an oder bei dem oberen Grenzwert oder einer zulässigen Umgebungstemperatur oder anderen Parametern sein. Validierungspläne können Stresseinrichtungen beinhalten jenseits der normalen Betriebsbereiche in verschiedenen Kombinationen von tiefen, normalen und hohen Einstellungen. Beispielsweise wird eine Einrichtung getestet zum Betreiben seiner vollen Leistungsfähigkeit bei einem tiefen Spannungslimit, einem hohen Temperaturlimit und einem hohen Frequenzlimit einer vorgegebenen Spezifikation. Basierend auf der Höhe der Integration, der Funktion, der Leistungsfähigkeit, der Wärmeverteilung, lokaler Wärmesenken und lokaler Gebläseeinrichtungen und Einrichtungen auf den Gebläsen können Hotspots auf dem Blatt vorhanden sein.
-
Bei einem typischen Blatt mit einer hohen Leistungsfähigkeit sind die Sensoren für die Temperatur in verschiedene Bauelemente eingebaut, etwa einem Prozessor, einem Speichermodul und verschiedenen Chipsätzen. Die Temperatursensoren sind typischerweise in Form von Temperaturmessdioden, die mit einem Analog/Digital-Wandlern verbunden sind zum Schaffen von Temperaturdaten für das Silizium in diesen Einheiten. Die IPMC-Kontroller auf dem Blatt beobachten die Temperatursensoren und berichten diese Daten in einem vorgegebenen Intervall an die anfordernde Software. Bei einem Beispiel sind die Sensordatenberichte Teil der IPMC internen Datenstrukturen. Immer wenn die gemessene Temperatur eingestellte Schwellenwerte kreuzt, werden Fehleralarme von dem IPMC erzeugt. Spannungssensoren werden in einer ähnlichen Weise implementiert, diese beobachten die Spannungspegel auf den verschiedenen Spannungsversorgungsschienen auf der Plattform.
-
Die Spannungs- und Temperatursonden sollten so nahe wie möglich an der Quelle der Leistungsverteilung angeordnet sein. Es ist zu beachten, dass die Hardwarearchitektur des Blatts in der Plattform in Betracht bezogen werden kann, und die verschiedenen Toleranzen, die entstehen können aufgrund von Toleranzen der Funktionalität jedes einzelnen Bauelements. Die Ausbildung kann robust sein in Bezug auf die Leistungsfähigkeit unter verschiedenen Extremen der Spannung, Frequenz und Temperatur.
-
Obwohl eine Einheit/Komponente/System mit voller Leistungsfähigkeit arbeitet, beispielsweise einer 100% CPU (zentrale Recheneinheit) Last, kann eine erhöhte Wahrscheinlichkeit bestehen, dass die Einheit/Komponente/System weiterhin unter voller Leistungsfähigkeit arbeitet während Randbedingungen aufgrund des Vorhandenseins von anderen Einheiten in dem Gerät, sodass eine zusätzliche dynamische Veränderung der Parameter, der Spannung, Temperatur und auch Frequenz gegeben ist. Diese dynamischen Schwingungen verursachen wahrscheinlich, dass die Einheit jenseits der Raten betrieben wird und eventuell zu Fehlern führt.
-
Es sei angenommen, dass ein CPU eingestellt ist zum Arbeiten bei 2 GHz mit einer maximalen Chiptemperatur von 100°C und einer Kernbetriebsspannung von 1,9 V. Aufgrund einer plötzlichen Zunahme der Last des CPU steigt die Temperatur über 100°C, beispielsweise 105°C für ungefähr 30 Sekunden. Dieser Betrieb über 30 Sekunden bei 105°C ist ein Betrieb jenseits des zulässigen Betriebsbereichs. Dieses Auftreten von dynamischen Schwingungen über den Betriebsbereich für einen oder mehreren Parametern wird manchmal als kritisches Ereignis des Betriebs aufgefasst. Die Rate, mit der die Ereignisse auftreten, sind ein Indikator, wie die Überbelastung der Einheiten sind und wird verwendet zum Vorhersagen einer Verschlechterung des Systems und kann schließlich zu Fehlern führen. Der Begriff „Ereignis“, wie er hier bezeichnet wird, bezieht sich auf eine Betriebsbedingung, wenn einer oder mehrere Betriebsparameter über der zugelassenen Einstellung ist.
-
Die Vorhersageagenten 320, 324, 328, 326 und 330 nutzen Informationen von den Sensoren basierend auf einer Strategie, die die Schwellenwerte unterer und oberer Grenzen angibt. Das Fehlermodul 302 kann die Sensorinformation beobachten, um die Wahrscheinlichkeit von Fehlern vorherzusagen.
-
Bei einem Ausführungsbeispiel nimmt das Fehlermodul 302 eine Ereignisinformation auf und baut eine Datenbasis 350 auf, bei jedem Ereignis für jeden Ereignistyp und seiner Auftrittshäufigkeit. Die Datenbasis ist kompakt und beinhaltet die folgende Information:
- Sensor ID
- Sensor Typ
- Sensorstrategie
- Zeitangabe
- Zeitzähler
-
4 zeigt einen erfindungsgemäßen Vorgang zum Sammeln von Sensordaten. In dem Verarbeitungsblock 400 wird die Datenbasis zum Speichern der Sensorinformation initialisiert. In dem Block 402 werden Threads in den Vorhersageagenten initialisiert. Wie dem Fachmann bekannt ist, ist ein Thread ein Prozess, der ein Teil eines größeren Prozesses oder Programms ist. Die Vorhersageagententhreads werden dann beobachtet, etwa in einer umlaufenden Weise, um Sensordaten in dem Block 404 zu sammeln. Bei einem beispielhaften Ausführungsbeispiel beobachtet das Fehlermodul in einer regelmäßigen Frequenz die Datenbasis für neue Ereignisse und berechnet eine Rate von Ereignissen zum Bestimmen, ob ein Stresszustand überdacht worden ist aufgrund von extremen Grenzwerten der Temperatur, der Spannung und der Frequenz und Kombinationen von diesen. Stresszustände werden derselben oder einer anderen Datenbasis mitgeteilt, die Stressstellwerte, aktuelle Stresszahl/Rate, jeweilige Zeit usw. speichern kann.
-
In dem Verarbeitungsentscheidungsblock 406 wird bestimmt, ob ein Agent einen Fehlerzustand gemeldet hat, etwa das Überschreiten eines Schwellenwerts für ein bestimmten Parameter. Falls nicht, werden die Vorhersageagententhreads in dem Block 404 beobachtet. Falls ja, wird in dem Verarbeitungsblock 408 eine Alarminformation in der Datenbasis gespeichert für die entsprechende Einheit/Plattform/System, gemeinsam mit anderer Information, etwa dem Zeitpunkt.
-
In dem Verarbeitungsblock 410 werden die Heuristiken verglichen mit vorgegebenen Werten zum Bestimmen, ob eine Alarmrate für einen gegebenen Parameter größer ist als ein vorgegebener Wert in Übereinstimmung mit der Alarmstrategie. Der Begriff „Heuristiken“ wird hier verwendet als eine Anwendung eines vorgegebenen Mechanismus zum Bestimmen, ob eine Änderungsrate über oder unterhalb des eingestellten Schwellenwerts. Bei einem beispielhaften Ausführungsbeispiel besteht eine Einstellstrategie für jede Sensorart. Dies könnte eine Hardfehlercodierung sein für bestimmte Sensorentypen und programmierbar für andere.
-
In dem Verarbeitungsentscheidungsblock 412 wird bestimmt, ob die Fehlerrate oberhalb des Schwellenwerts ist. Falls nicht, wird der Verarbeitungsblock 414 die Datenbasis aufgefrischt mit Sensorfehlinformation und Threads werden wieder in dem Block 404 beobachtet. Falls die Rate oberhalb des Schwellenwerts ist, wird in dem Verarbeitungsblock 416 eine Aktion initiiert basierend auf der Strategie, die durch den Verwender bestimmt wird. Eine Aktion kann, beispielsweise, das Auslösen eines Operatoralarms beinhalten, der getriggert wird zum Anzeigen, dass das System überlastet ist und ersetzt werden muss.
-
Bei einem Ausführungsbeispiel verwendet das Fehlermodul 302 einen sogenannten „leaky bucket“-Zähler für jeden der oben genannten Sensoren, wie in 5 gezeigt. In dem Verarbeitungsblock 500 wird die Datenbasis initialisiert, und in dem Block 502 werden die Agententhreads initialisiert. In dem Verarbeitungsblock 505 werden die „leaky bucket“-Zähler initialisiert für die Ereignisse, für die eine Zahl beibehalten und beobachtet ist. In dem Block 506 wartet das System auf ein Stressereignisinterrupt, und die Zähler werden zu bestimmten Zeitintervallen dekrementiert. In dem Entscheidungsblock 508 wird bestimmt, ob die Ereigniszahl geringer ist als der Schwellenwert, der eingestellt ist. Falls ja, wird in dem Block 510 eine Aktion initialisiert basierend auf dieser Strategie. Falls nein, wird in dem Block 512 ein Zeitgeber gestartet zum Herabzählen eines vorgegebenen Zeitintervalls. In dem Entscheidungsblock 514 wird bestimmt, ob die Zeit auslaufend ist durch Prüfen des Wertes in dem Zeitgeber. Wenn der Zeitgeber nicht ausgelaufen ist, wird der Zeitwert erneut in dem Block 514 überprüft. Wenn der Zeitgeber ausgelaufen ist, wird in dem Verarbeitungsblock 516 der „leaky bucket“-Zähler (LBC) für ein gegebenes Ereignis inkrementiert. In dem Entscheidungsblock 518 wird bestimmt, ob der LBC-Wert größer ist als ein vorgegebener Wert, der von der Strategie vorgegeben ist. Falls ja, wird der LBC auf seinen Anfangswert, der von der Strategie in dem Block 512 eingestellt worden ist, eingestellt. Falls nicht, schreitet der Verarbeitungsblock zu Block 506 fort. Zusammenfassend dekrementiert ein LBC für ein Ereignis jedes Mal, wenn ein Stressereignis eingestellt ist und eine periodische Rate inkrementiert wird. Wenn das LBC unter einen vorgegebenen Wert absinkt, wird ein Fehleralarm abgegeben. Das LBC wird auf den unteren Grenzwert rückgestellt, wenn kein Stressereignis auftritt.
-
6 zeigt ein erfindungsgemäßes Gebläsekontrollersystem 260 mit einem Prozessor 262, der Befehle von einem Zählervorhersagecodemodul 264 abfährt, sowohl mit Austauschdaten mit einer Fehlerdatenbasis 266, die eine Fehler und/oder gesammelte Sensorinformation beinhaltet. Ein intelligenter Plattformmanagementkontroller (IPMC) kommuniziert mit einem Speicher mit wahlfreiem Zugriff (RAM) 270 und einer Firmware 272, um beispielhafte Sensoren einen Gebläsegeschwindigkeitssensor 273, einen Gebläsemotortemperatursensor 274, einen Gebläsespannungssensor 276, einen Gebläsevibrationssensor 278 und einen Geräuschsensor 280 einschließen. Es versteht sich, dass ein großer Bereich von weiteren Sensoren und Sensorarten, wie den oben beschriebenen Temperatur- und Spannungssensoren, vorgesehen sein können.
-
Andere Ausführungsbeispiele liegen in dem Schutzbereich der beiliegenden Ansprüche.