DE112006002313T5

DE112006002313T5 - Verfahren und Vorrichtung zum Beobachten von Stressbedingungen in einem System

Info

Publication number: DE112006002313T5
Application number: DE112006002313T
Authority: DE
Inventors: Rakesh Cupertino Dodeja; Neelam Beaverton Chandwani; Chetan Hillsboro Hiremath; Wen Beaverton Wei; Udayan Portland Mukherjee
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2005-09-26
Filing date: 2006-09-22
Publication date: 2008-12-24
Anticipated expiration: 2026-09-23
Also published as: DE112006002313B4; US20070089011A1; US7424396B2; WO2007038300A1

Abstract

Ein Verfahren zum Beobachten von Fehlern, mit:
Speichern von Information von einer Mehrzahl von Agenten für eine Mehrzahl von Sensoren, die auf einer Mehrzahl von gedruckten Schaltkarten angeordnet sind;
Speichern einer Politik mit einer Mehrzahl von Fehlereignisschwellenwerten, mit denen die gespeicherte Sensorinformation verglichen werden kann; und
Initiieren einer Aktion von einem Fehlermodul, wenn eines oder mehrere der Fehlereignisstellenwerte überschritten wird.

Description

HINTERGRUND
Es ist im Stand der Technik bekannt, dass Gebläse verwendet werden können, um einen Luftstrom über Schaltungen zum Verteilen von Wärme zuführen. Die erzwungene Luftkühlung ist ein gut bekannter thermischer Managementmechanismus, der für verschiedene Arten von elektronischen Ausrüstungen, die Schaltungen und gedruckte Schaltkarten haben, verwendet wird. Ein Chassis kann beispielsweise Schlitze für ein Feld von gedruckten Schaltkarten, d. h. Blättern, aufweisen. Ein Gebläseeinsatz, der eine Reihe von Fanmodulen hat, kann Luft in das Chassis zum Kühlen der Blätter einbringen.
Ein Versagen eines oder mehrerer der Fanmodule ist unerwünscht, da der Luftstrom reduziert wird. Bei einem reduzierten Luftstrom in das Chassis kann die Temperatur der Bauelemente und der integrierten Schaltungen auf dem Blatt schnell bestimmte, akzeptable Betriebstemperaturen übersteigen und die Komponenten belasten. Diese Bedingungen können die Zuverlässigkeit der Ausrüstung verringern und die mittlere Zeit zwischen Fehlern (MTBF) erhöhen.
KURZE ERLÄUTERUNG DER ZEICHNUNGEN
Die beispielhaften Ausführungsbeispiele, die hier beinhaltet sind, ergeben sich aus der nachfolgenden eingehenden Beschreibung in Verbindung mit den beiliegenden Zeichnungen. Dabei zeigt:
1 eine schematische Darstellung eines Gebläsemoduls mit Sensoren zum Messen von Betriebseigenschaften;
1A eine bildliche Darstellung eines Gebläsemoduls, das in einem Gebläseaufnahme angeordnet sein kann;
2A eine perspektivische Ansicht eines Chassis mit einem Gebläsemodul mit Sensoren;
2B eine Frontansicht eines Chassis mit einem Fanmodul mit Sensoren;
2C eine bildhafte Darstellung eines Luftstrom durch ein Chassis;
3 eine schematische Darstellung eines Systems mit einem Fehlermodul;
4 ein Flußdiagramm, das eine Sammlung von Sensordaten wiedergibt;
5 ein Flußdiagramm, das eine Leckage-Fehlervorhersageimplementation wiedergibt; und
6 ist ein Blockdiagramm eines Systems, das ein fehlerhaftes Modul hat.
EINGEHENDE BESCHREIBUNG
1 zeigt ein beispielhaftes Gebläsemodul 100 mit Sensoren zum Beobachten verschiedener Betriebseigenschaften eines Kühlgebläses 102 zum Erkennen und/oder Vorhersagen von Gebläseversagen. Wie in 1A gezeigt, kann das Gebläsemodul 100 entfernbar in eine Gebläseeinsatz 101 angeordnet sein, der mit einem Gerätechassis gekoppelt sein kann. Die Gebläsesensoren können einen Eingangstemperatursensor 104a zum Messen der Temperatur der Luft, die in das Gebläse strömt, und einen Ausgangstemperatursensor 104b zum Messen der Temperatur der Luft, die aus dem Gebläse ausströmt, aufweisen. Ein Stromsensor 106 kann den Strom messen, der von dem Fanmodul 100 verwendet werden, und ein Spannungssensor 107 kann eine Spannung messen, die an das Fanmodul angelegt ist. Ein Gebläseblattgeschwindigkeitsmotor 108, etwa ein Tachometer, kann die Geschwindigkeit des sich drehenden Gebläses messen. Ein Gebläsemodultemperatursensor 110 kann die Temperatur der Schaltung und/oder des Gebläsemotors in dem Gebläsemodul, das das Gebläse steuert, messen. Eingangs-/und Ausgangssensoren 112a, b können eine Druckdifferenz zwischen einer Eingangsseite und einer Ausgangsseite des Gebläses liefern. Ein Geräuschsensor 114, der als ein Mikrofon ausgebildet sein kann, misst die Umgebungstemperatur in der Nähe des Gebläsemoduls 100. Ein Vibrationssensor 116 misst den Vibrationspegel, der einen etwaigen mechanischen Fehler oder einer Anomalie angeben kann.
Die Gebläsesensoren sammeln verschiedene Information zum Beobachten der Ordnungsmäßigkeit des Kühlungssubsystems, das verwendet werden kann, um Fehler vorherzusagen. Beispielsweise kann die Strommenge und die Gebläsedrehgeschwindigkeitsinformation nach dem anfänglichen Betrieb erhalten werden. Wenn der Strom und/oder die gewährte Geschwindigkeit von der Grundlinie um mehr als einen vorgegebenen Betrag abweicht, kann ein Alarm erzeugt werden. Beispielsweise können Stellenwerte, die innerhalb von 30% Abweichung liegen, als unkritisch angesehen werden.
Der Geräuschsensor 114 kann Lagergeräusche des Gebläsemotors beobachten. Bei einem Ausführungsbeispiel kann die Geräuschinformation einen oder mehrere Stellenwerte haben. Wenn das Geräusch über einen ersten Stellenwert steigt, kann ein erster Alarm für einen ersten Pegel erzeugt werden, der angibt, dass eine Gebläsewartung vorgeschlagen wird. Ein Geräusch über einen zweiten Stellenwert kann einen zweiten Alarm für einen zweiten Pegel auslösen, der angibt, dass ein Gebläsefehler bevorsteht. Der Geräusch- oder Tonsensor 114 kann innerhalb oder außerhalb des Gebläses angeordnet sein. Die Signale, die aufzunehmen sind, repräsentieren sowohl die Geräuschleistung oder den Druck und die Geräuschqualität in einer Frequenzbandbreite, die verwendet werden kann, um die Arten der Fehler des Gebläses oder des Systems anzugeben zum Vergleichen des Geräuschmusters mit vorhandenen Geräuschmustern.
Das Paar von Drucksensoren 112a, b misst eine Differenz zwischen dem Gebläseeinlass- und Auslassluftdruck, die eine Basis bilden kann für Alarme, wenn der Druck oberhalb oder unterhalb eines oder mehrerer Stellwerteinstellungen ist. Bei einem alternativen Ausführungsbeispiel wird die Druckdifferenzinformation gesammelt durch messen des Drehmoments an den Gebläseblättern oder der Narbe durch einen oder mehrere Drehmomentsensoren in dem Blatt oder der Narbe. Bei einem Ausführungsbeispiel ist ein Chassis unter einer normalen Druckdifferenz von etwa 0,15'' Wassersäule. Ein abnormer Zustand aufgrund eines verstopften Filters wird die Druckdifferenz in Abhängigkeit von dem Zustand des Filters erhöhen.
Bei einem Ausführungsbeispiel korreliert der Druck/Drehmoment-Alarm mit einem reduzierten Freibereichsverhältnis (FAR), der sich aus einem verstopften Luftfilter, einer Kabelblockage, dem Einsetzen eines außerordentlich dicht besetzten Platz und/oder eine Art einer Störung des Luftstromeinlasses/Auslasses usw. ergibt. Die Verstopfung oder Blockierung kann einen reduzierten Luftstrom und in Folge dessen höhere Temperaturen im Inneren des Chassis bewirken.
Die Leistung kann unter Verwendung einer Information aus dem Strom und dem Spannungsmonitor 106, 107 beobachtet werden. Bei einem Ausführungsbeispiel wird ein Produkt des elektrischen Stroms I, der von dem Gebläse gezogen wird, und einer Spannung V, die an das Gebläse angelegt wird, beobachtet. Der Tachometer 108 kann eine Drehgeschwindigkeitsinformation liefern.
Die Arbeit, die von dem Gebläse bei dem Blasen der Luft ausgeübt wird, entspricht der Leistung (Watt), die pro Drehung in Umdrehungen pro Minute (RPM) des Gebläseblattes verbraucht wird. Es wird angenommen, dass die Arbeit W = V·I/RPM ist. Die berechnete Arbeit über die Zeit kann verwendet werden, um den Zustand des Gebläses zu evaluieren.
Eine graduelle Abnahme eines Absolutwerts von W über die Zeit legt nahe:

1) Eine mögliche Filterverstopfung – wenn der Arbeitspegel über einen vorgegebenen Stellenwert geht, ist es wahrscheinlich, dass der Filter ersetzt werden sollte.
2) Möglicher mechanischer Fehler des Gebläses – eine graduelle Zunahme der Arbeit kombiniert mit einer Zunahme der Gebläsemotortemperatur kann ein mögliches mechanisches Gebläseproblem anzeigen.
3) Möglicher mechanischer Fehler – eine Zunahme der Arbeit in Verbindung mit bestimmten Geräuschen und/oder einer Vibration kann einen bevorstehendes mechanisches Gebläseversagen anzeigen.

Eine plötzliche Zunahme der Arbeit, die von dem Gebläse ausgeübt wird, gibt eine plötzliche Änderung des Luftstroms an. Mögliche Ursachen einer plötzlichen Zunahme schließen ein:

1) Plötzliche Behinderung des Luftstroms in dem Chassis – zum Beispiel: Dies kann durch eine Installation einer nicht passenden Hardware verursacht sein.
2) Bevorstehendes Gebläselagerversagen – eine Zunahme der Arbeit und der Temperatur, des Geräusches oder der Vibration kann auf ein bevorstehendes Lagergebläseversagen hinweisen.
3) Mechanische Behinderung der Gebläseblattdrehung – dies kann verursacht sein durch ein teilweises Eindringen eines Fremdkörpers, der die freie Drehung des Gebläses behindert. Die Information vom Geräusch- und Vibrationssenor können dabei helfen, diese Art des Fehlers zu identifizieren.

Die Sensorinformation kann zum Bestimmen der Art des Fehlers kombiniert werden. Wenn, beispielsweise, das Gebläselager plötzlich aufgrund der hohen Temperatur, eines Austrocknens des Schmiermittels u. s. w. versagt, wird ein plötzlicher Anstieg des Stroms, der von dem Gebläsemotor gezogen wird, ein plötzlicher Abfall der Geschwindigkeit des Gebläses und möglicherweise eine Zunahme des Geräusches, das von dem Gebläse erzeugt wird und weiter eine Zunahme der Temperatur des Gebläsemotors auftreten. All diese Lesungen können korreliert werden, um ein bevorstehendes Gebläseversagen vorherzusagen.
Der Tachometer 108 kann zum Messen der Gebläseanlaufzeit, d. h. der Zeit, die das Gebläse benötigt, um seine Betriebsgeschwindigkeit zu erreichen, verwendet werden. Dieser Parameter kann über mehrere Einschaltzyklen erfasst werden. Die Zunahme der Anlaufzeit kann verwendet werden, um eine Verschlechterung des Gebläses zu erkennen und ein Gebläseversagen festzustellen. Blätter in einem Gebläse sind sich bewegene Teile, wenn eine Blattanordnung sich um die Mittelachse des Gebläses dreht. Dort ist typischerweise ein Lagermechanismus einem geeigneten Schmiermittel, das eine freie Drehung der Blattanordnung erlaubt. Dieser Lagermechanismus kann sich über die Zeit verschlechtern, und das Schmiermittel kann seine Viskosität verlieren. Der Gebläsemotor kann mehr Leistung und Zeit, um auf die Geschwindigkeit zu kommen, benötigen.
Die Sensorinformation kann gemeinsam mit einer diagnostischen Steuerung zum Messen der Eigenschaft des Kühlsubsystems verwendet werden. Beispielsweise kann während der Wartungsperioden und anderen Perioden mit geringer Last ein Gebläsediagnostmodul aktiviert werden und eine Online-Diagnostik an jedem Gebläse ausführen, was nacheinander für jedes Gebläse ausgeführt werden kann. Durch Ablaufen der Gebläsediagnostik wird die Gesamtkühleigenschaft des Chassis nicht betroffen, wenn die Diagnose relativ wenig Zeit, beispielsweise Sekunden, in Anspruch nimmt. Die Diagnostik kann die Leistung für die Gebläse zyklisch abfahren und die Geschwindigkeit der Zeit zum Aufzeichnen irgendwelcher Änderungen messen. Die aufgezeichnete Anlaufgeschwindigkeit schafft eine Angabe des Zustands des Schmiermittels und der Reibung im Inneren der mechanischen Komponenten.
Nach dem Empfangen eines oder mehrerer Alarme kann ein Gebläsekontroller die Gebläsegeschwindigkeit erhöhen, um Luftstrompegel beizuhalten. Dies kann jedoch die Lebensdauer eines Gebläsemoduls oder einer Gebläseaufnahme reduzieren. Während der Gebläsekontroller die Gebläsegeschwindigkeit erhöht zum Kompensieren der Kühlluftverluste, kann der Gebläsekontroller auch eine Warnbotschaft oder Triggeralarme aus dem Diagnosesystem liefern, korreliert mit einem Muster jeder Art, wie oben beschrieben. Eine solche Situation kann berichtet werden als eine verschlechterte Betriebsbedingung. Ein Fehlermodul kann die Rate und die Dauer der verschlechterten Betriebsbedingungen beobachten und ein Versagen in dem Kühlsystem vorhersagen, wie dies weiter oben beschrieben worden ist.
Eine beispielhafte Liste von Eigenschaften, die beobachtet werden können, weist auf:

– Gebläseanlaufzeit
– Start/Stopp-Zahl
– Leistung über Stundenzahl
– Leistungszyklen
– Leistungsverbrauch
– Temperatur
– Drehhochstrom
– Drehbuzz/Geräusch
– abnormale hohe Drehgeschwindigkeit
– Hochdruckdifferenz verursacht durch geänderten Luftstrom

Die 2A und 2B zeigen ein beispielhaftes Chassis 200 mit einer Gebläseaufnahme 202, die eine Reihe von Gebläsemodulen 204 aufweist, um Luft in das Innere des Chassis zu zwingen, das Schlitze 206 hat, in die Blätter eingesetzt werden können. Wie in 2C gezeigt, kann das Gebläsemodul 204 Luft in das Eingangsluftplenum 208 in das Innere des Chassis und aus dem Chassis heraus über ein Auslassluftplenum 210 zwingen.
3 zeigt ein beispielhaftes System 300 mit einem Fehlermodul 302, das ein Versagen für ein Verarbeitungsblatt 304 und einem Speicherblatt 206 beobachten und/oder vorhersagen kann, beispielsweise basierend auf den Betriebseigenschaften von den Sensoren in den Blättern und/oder in einem Kühlsystem 308, wie oben beschrieben. Das Verarbeitungsblatt 304 kann einen Prozessor 310, einen Speicher 312 und einen intelligenten Plattformmanagementkontroller (IPMC) 314 aufweisen. Das IPMC ist ein generischer Kontroller, der verschiedene Funktionen ausführt, einschließlich der Beobachtung von verschiedenen Betriebsparametern, etwa der Spannung und der Temperatur, der verschiedenen Komponenten auf der Plattform.
Das Speicherblatt 306 kann einen Prozessor 315, Scheiben 316a, b und ein IPMC 318 aufweisen. Die Blätter können eine Vielzahl von integrierten Schaltungen, wie Prozessoren, programmierbare logische Einheiten usw. und diskrete Komponente, wie Widerstände, Kondensatoren, Transistoren und Dioden aufweisen.
Das Fehlermodul 302 kann eine Reihe von Parameter zum Feststellen einer Fehlinformation aufweisen, die verwendet werden kann, um ein Versagen vorherzusagen. Die Parameter geben eine Information an, das Fehlermodul 302 zum Vorhersagen eines Versagens basierend auf dem Kühlsystem 308 und anderen Betriebseigenschaften. Bei dem dargestellten Ausführungsbeispiel ist ein Fehlervorhersageagent 320 mit einem IPMC 322 in dem Kühlsystem 308 gekoppelt. Ein erster Siliziumfehlervorhersageagent 324 ist mit dem IPMC 314 in dem Prozessorblatt 304 gekoppelt und ein zweiter Siliziumvorhersageagent 326 ist mit dem IPMC 318 im Speicherblatt 306 gekoppelt. Ein Speicherfehlervorhersageagent 312 ist mit dem Prozessor 310/Speicher 312 gekoppelt und ein Scheibenfehlervorhersageagent 330 ist mit dem Prozessor 315 in dem Speicherblatt 306 gekoppelt.
Integrierte Schaltungen auf den Blättern 304, 306 sind ausgebildet, um unter bestimmten Temperatur-, Spannungs- und Frequenzbedingungen zu arbeiten. Typischerweise sind diese Einrichtungen zum Arbeiten in allen Randbereichen des Betriebsbereichs validiert. Die Betriebsrandbereiche könnten, beispielsweise, das Arbeiten an oder bei dem oberen Grenzwert oder einer zulässigen Umgebungstemperatur oder anderen Parameter sein. Validierungspläne können Stresseinrichtungen beinhalten jenseits der normalen Betriebsbereiche in verschiedenen Kombinationen von tiefen, normalen und hohen Einstellungen. Beispielsweise wird eine Einrichtung getestet zum Betreiben seiner vollen Leistungsfähigkeit bei einem tiefen Spannungslimit, einem hohen Temperaturlimit und einem hohen Frequenzlimit einer vorgegebenen Spezifikation. Basierend auf der Höhe der Integration, der Funktion, der Leistungsfähigkeit, der Wärmeverteilung, lokaler Wärmesenken und lokaler Gebläseeinrichtungen und Einrichtungen auf den Gebläsen können Hotspots auf dem Blatt vorhanden sein.
Bei einem typischen Blatt mit einer hohen Leistungsfähigkeit sind die Sensoren für die Temperatur in verschiedene Bauelemente eingebaut, etwa einem Prozessor, einem Speichermodul und verschiedenen Chipsätzen. Die Temperatursensoren sind typischerweise in Form von Temperaturmessdioden, die mit einem Analog/Digital-Wandlern verbunden sind zum Schaffen von Temperaturdaten für das Silizium in diesen Einheiten. Die IPMC-Kontroller auf dem Blatt beobachten die Temperatursensoren und berichten diese Daten in einem vorgegebenen Intervall an die anfordernde Software. Bei einem Ausführungsbeispiel sind die Sensordatenberichte Teil der IPMC internen Datenstrukturen. Immer wenn die gemessene Temperatur eingestellte Stellenwerte kreuzt, werden Fehleralarme von dem IPMC erzeugt. Spannungssensoren werden in einer ähnlichen Weise implementiert, diese beobachten die Spannungspegel auf den verschiedenen Spannungsversorgungsschienen auf der Plattform.
Die Spannungs- und Temperatursonden sollten so nahe wie möglich an der Quelle der Leistungsverteilung angeordnet sein. Es ist zu beachten, dass die Hardwarearchitektur des Blatts in der Plattform in Betracht bezogen werden kann, und die verschiedenen Toleranzen, die entstehen können aufgrund von Toleranzen der Funktionalität jedes einzelnen Bauelements. Die Ausbildung kann robust sein in Bezug auf die Leistungsfähigkeit unter verschiedenen Extremen der Spannung, Frequenz und Temperatur.
Obwohl eine Einheit/Komponente/System mit voller Leistungsfähigkeit arbeitet, beispielsweise einer 100% CPU (zentrale Recheneinheit) Last, kann eine erhöhte Wahrscheinlichkeit bestehen, dass die Einheit/Komponente/System weiterhin unter voller Leistungsfähigkeit arbeitet während Randbedingungen aufgrund des Vorhandenseins von anderen Einheiten in dem Gerät, sodass eine zusätzliche dynamische Veränderung der Parameter, der Spannung, Temperatur und auch Frequenz gegeben ist. Diese dynamischen Schwingungen verursachen wahrscheinlich, dass die Einheit jenseits der Raten betrieben wird und eventuell zu Fehlern führt.
Es sei angenommen, dass ein CPU eingestellt ist zum Arbeiten bei 2 GHz mit einer maximalen Chiptemperatur von 100°C und einer Kernbetriebsspannung von 1,9 V. Aufgrund einer plötzlichen Zunahme der Last des CPU steigt die Temperatur über 100°C, beispielsweise 105°C für ungefähr 30 Sekunden. Dieser Betrieb über 30 Sekunden bei 105°C ist ein Betrieb jenseits des zulässigen Betriebsbereichs. Dieses Auftreten von dynamischen Schwingungen über den Betriebsbereich für einen oder mehreren Parameter wird manchmal als kritisches Ereignis des Betriebs aufgefasst. Die Rate, mit der die Ereignisse auftreten, sind ein Indikator, wie die Überbelastung der Einheiten sind und wird verwendet zum Vorhersagen einer Verschlechterung des Systems und kann schließlich zu Fehlern führen. Der Begriff "Ereignis", wie er hier bezeichnet wird, bezieht sich auf eine Betriebsbedingung, wenn einer oder mehrere Betriebsparameter über der zugelassenen Einstellung ist.
Die Vorhersageagenten 320, 324, 328, 326 und 330 nutzen Informationen von den Sensoren basierend auf einer Strategie, die die Schwellenwerte unterer und oberer Grenzen angibt. Das Fehlermodul 302 kann die Sensorinformation beobachten, um die Wahrscheinlichkeit von Fehlern vorherzusagen.
Bei einem Ausführungsbeispiel nimmt das Fehlermodul 302 eine Ereignisinformation auf und baut eine Datenbasis 350 auf, bei jedem Ereignis für jeden Ereignistyp und seiner Auftrittshäufigkeit. Die Datenbasis ist kompakt und beinhaltet die folgende Information:
Sensor ID
Sensor Typ
Sensorstrategie
Zeitangabe
Zeitzähler
4 zeigt einen beispielhaften Vorgang zum Sammeln von Sensordaten. In dem Verarbeitungsblock 400 wird die Datenbasis zum Speichern der Sensorinformation initialisiert. In dem Block 402 werden Threads in den Vorhersageagenten initialisiert. Wie dem Fachmann bekannt ist, ist ein Thread ein Prozess, der ein Teil eines größeren Prozesses oder Programms ist. Die Vorhersageagententhreads werden dann beobachtet, etwa in einer umlaufenden Weise, um Sensordaten in dem Block 404 zu sammeln. Bei einem beispielhaften Ausführungsbeispiel beobachtet das Fehlermodul in einer regelmäßigen Frequenz die Datenbasis für neue Ereignisse und berechnet eine Rate von Ereignissen zum Bestimmen, ob ein Stresszustand überdacht worden ist aufgrund von extremen Grenzwerten der Temperatur, der Spannung und der Frequenz und Kombinationen von diesen. Stresszustände werden derselben oder einer anderen Datenbasis mitgeteilt, die Stressstellwerte, aktuelle Stresszahl/Rate, jeweilige Zeit usw. speichern kann.
In dem Verarbeitungsentscheidungsblock 406 wird bestimmt, ob ein Agent einen Fehlerzustand gemeldet hat, etwa das Überschreiten eines Stellenwerts für ein bestimmten Parameter. Falls nicht, werden die Vorhersageagententhreads in dem Block 404 beobachtet. Falls ja, wird in dem Verarbeitungsblock 408 eine Alarminformation in der Datenbasis gespeichert für die entsprechende Einheit/Plattform/System, gemeinsam mit anderer Information, etwa dem Zeitpunkt.
In dem Verarbeitungsblock 410 werden die Heuristiken verglichen mit vorgegebenen Werte zum Bestimmen, ob eine Alarmrate für einen gegebenen Parameter größer ist als ein vorgegebener Wert in Übereinstimmung mit der Alarmstrategie. Der Begriff "Heuristiken" wird hier verwendet als eine Anwendung eines vorgegebenen Mechanismus zum Bestimmen der Rate Änderungen über oder unterhalb des eingestellten Stellenwerts. Bei einem beispielhaften Ausführungsbeispiel besteht eine Einstellstrategie für jede Sensorart. Dies könnte eine Hardfehlercodierung sein für bestimmte Sensorentypen und programmierbar für andere.
In dem Verarbeitungsentscheidungsblock 412 wird bestimmt, ob die Fehlerrate oberhalb des Stellenwerts ist. Falls nicht, wird der Verarbeitungsblock 414 die Datenbasis aufgefrischt mit Sensorfehlinformation und Threads werden wieder in dem Block 404 beobachtet. Falls die Rate oberhalb des Stellenwerts ist, wird in dem Verarbeitungsblock 416 eine Aktion initiiert basierend auf der Strategie, die durch den Verwender bestimmt wird. Eine Aktion kann, beispielsweise, das Auslösen eines Operatoralarms beinhalten, der getriggert wird zum Anzeigen, dass das System überlastet ist und ersetzt werden muss.
Bei einem Ausführungsbeispiel verwendet das Fehlermodul 302 einen sogenannten „Lecker Eimer"-Zähler für jeden der oben genannten Sensoren, wie in 5 gezeigt. In dem Verarbeitungsblock 500 wird die Datenbasis initialisiert, und in dem Block 502 werden die Agententhreads initialisiert. In dem Verarbeitungsblock 505 werden die Lecker-Eimer-Zähler initialisiert für die Ereignisse, für die eine Zahl beibehalten und beobachtet ist. In dem Block 506 wartet das System auf ein Stressereignisinterrupt, und die Zähler werden zu bestimmten Zeitintervallen dekrementiert. In dem Entscheidungsblock 508 wird bestimmt, ob die Ereigniszahl geringer ist als der Stellenwert, der eingestellt ist. Falls ja, wird in dem Block 510 eine Aktion initialisiert basierend auf dieser Strategie. Falls nein, wird in dem Block 512 ein Zeitgeber gestartet zum Herabzählen eines vorgegebenen Zeitintervalls. In dem Entscheidungsblock 514 wird bestimmt, ob die Zeit auslaufend ist durch Prüfen des Wertes in dem Zeitgeber. Wenn der Zeitgeber nicht ausgelaufen ist, wird der Zeitwert erneut in dem Block 514 überprüft. Wenn der Zeitgeber ausgelaufen ist, wird in dem Verarbeitungsblock 516 der Lecker-Eimer-Zähler (LBC) für ein gegebenes Ereignis inkrementiert. In dem Entscheidungsblock 518 wird bestimmt, ob der LBC-Wert größer ist als ein vorgegebener Wert, der von der Strategie vorgegeben ist. Falls ja, wird der LBC auf seinen Anfangswert, der von der Strategie in dem Block 512 eingestellt worden ist, eingestellt. Falls nicht, schreitet der Verarbeitungsblock zu Block 506 fort. Zusammenfassend dekrementiert ein LBC für ein Ereignis jedes Mal, wenn ein Stressereignis eingestellt ist und eine periodische Rate inkrementiert wird. Wenn das LBC unter einen vorgegebenen Wert absinkt, wird ein Fehleralarm abgegeben. Das LBC wird auf den unteren Grenzwert rückgestellt, wenn kein Stressereignis auftritt.
6 zeigt ein bespielhaftes Fankontrollersystem 260 mit einem Prozessor 262, der Befehle von einem Zählervorhersagecodemodul 264 abfahrt, sowohl mit Austauschdaten mit einer Fehlerdatenbasis 266, die eine Fehler und/oder gesammelte Sensorinformation beinhaltet. Ein intelligenter Plattformmanagementkontroller (IPMC) kommuniziert mit einem Speicher mit wahlfreiem Zugriff (RAM) 270 und einer Firmware 272, um beispielhafte Sensoren einen Gebläsegeschwindigkeitssensor 273, einen Gebläsemotortemperatursensor 274, einen Gebläsespannungssensor 276, einen Gebläsevibrationssensor 278 und einen Geräuschsensor 280 einschließen. Es versteht sich, dass ein großer Bereich von weiteren Sensoren und Sensorarten, wie den oben beschriebenen Temperatur- und Spannungssensoren, vorgesehen sein können.
Andere Ausführungsbeispiele liegen in dem Schutzbereich der beiliegenden Ansprüche.
ZUSAMMENFASSUNG
Fehler werden beobachten mit einer Information von Agenten für eine Mehrzahl von Sensoren, die auf einer Mehrzahl von gedruckten Schaltkarten angeordnet sind. Eine Strategie mit Fehlereignisschwellenwerten kann mit den gespeicherten Sensorinformationen verglichen werden. Aktionen können durch ein Fehlermodul initiiert werden, wenn ein oder mehrere Ereignissschwellenwerte überschritten werden.

Claims

Ein Verfahren zum Beobachten von Fehlern, mit: Speichern von Information von einer Mehrzahl von Agenten für eine Mehrzahl von Sensoren, die auf einer Mehrzahl von gedruckten Schaltkarten angeordnet sind; Speichern einer Politik mit einer Mehrzahl von Fehlereignisschwellenwerten, mit denen die gespeicherte Sensorinformation verglichen werden kann; und Initiieren einer Aktion von einem Fehlermodul, wenn eines oder mehrere der Fehlereignisstellenwerte überschritten wird.
Das Verfahren nach Anspruch 1, weiter einschließlich dem Vorhersagen eines Gerätefehlers basierend auf der Sensorinformation.
Das Verfahren nach Anspruch 1, weiter mit Speichern der Temperatur- und Spannungsinformation für eine Mehrzahl von integrierten Schaltungen und Zählereignissen, bei denen die bestimmte Temperatur- und/oder Spannungsparameter überschritten werden.
Das Verfahren nach Anspruch 3, weiter mit Speichern einer Frequenzinformation und der Zählereignisse, bei denen die bestimmte Temperatur-, Spannungs- und/oder Frequenzparameter überschritten werden.
Das Verfahren nach Anspruch 4, weiter mit dem Vorhersagen von Fehlern basierend auf den gezählten Ereignissen.
Das Verfahren nach Anspruch 5, weiter mit dem Vorhersagen von Fehlern basierend auf einem Lecker-Eimer-Zähler.
Das Verfahren nach Anspruch 4, weiter mit dem Vorhersagen von Fehlern basierend auf einer Rate, auf die sich die gezielten Ereignisse akkumulieren.
Das Verfahren nach Anspruch 1, wobei die Aktion das Erzeugen eines Operatoralarms einschließt.
Das Verfahren nach Anspruch 1, weiter mit Monitorsensoren für ein Chassiskühlgebläse.
Das Verfahren nach Anspruch 9, wobei die Gebläsesensoren wenigstens drei aus einem Sensor für den Gebläsestrom, einen Gebläsegeschwindigkeitsmonitor, einem Sensor für die Einlass- und Auslasslufttemperatur, die Gebläsemotortemperatur, die Einlass- und Auslassdifferenz, den Geräuschpegels und der Vibration einschließt.
Das Verfahren nach Anspruch 10, weiter mit dem Messen der Gebläseleistung über die Zeit.
Das Verfahren nach Anspruch 10, weiter mit Beobachten von drei oder mehreren aus der Gebläseanlaufzeit, der Start/Stop-Anzahl, der Stundenzahl der Leistung, der Leistungszyklen, der verbrauchten Leistung, der Temperatur, des Drehhochstroms, des Drehgeräusches, der Drehgeschwindigkeit und der Druckdifferenz.
Ein System mit: einer Mehrzahl von Sensoren zum Sammeln von Information für eine Mehrzahl von Betriebsparametern; einer Datenbasis zum Speichern der Sensorinformation; und einem Fehlermodul zum Prüfen der Sensorinformation und der gezählten Ereignisse, zu denen die für bestimmten Betriebsparameter überschritten werden, zum Vorhersagen von Fehlern.
Das System nach Anspruch 13, weiter mit einem Chassis zum Aufnehmen einer Mehrzahl von Blättern.
Das System nach Anspruch 13, wobei die bestimmten Betriebsparameter die Temperatur und die Spannung beinhalten.
Das System nach Anspruch 15, wobei bestimmte der Temperatur- und Spannungssensoren in der Nähe von integrierten Schaltungen angeordnet sind.
Das System nach Anspruch 13, wobei das Fehlermodul einen Leerer-Eimer-Zähler zum Vorhersagen von Fehlern aufweist.
Das System nach Anspruch 13, wobei das Fehlermodul implementiert ist als ein Befehlssatz auf dem Prozessor, optimiert zum Implementieren eines Fehlervorhersagemechanismus.
Das System nach Anspruch 13, wobei das Fehlermodul implementiert ist als ein funktioneller Hardwareblock in einer anwendungsspezifischen integrierten Schaltung.
Das System nach Anspruch 13, wobei das Fehlermodul als ein funktioneller Hardwareblock implementiert ist, der in einem Prozessorkern instanziiert ist.
Das System nach Anspruch 13, wobei das Fehlermodul als ein funktioneller Hardwareblock implementiert ist, der in einem Speicherkontrollerchipsatz instanziiert ist.
Das System nach Anspruch 13, wobei das Fehlermodul als eine Kombination von funktionellen Hardwareblöcken implementiert ist, die in einem Prozessorkern und einem Chipset instanziiert sind.
Das System nach Anspruch 13, wobei das Fehlermodul als ein funktioneller Hardwareblock in einem feldprogrammierbaren Gatearray implementiert ist.
Das System nach Anspruch 13, wobei das Fehlermodul auf einem zugewiesenen Kern in einem Mehrkern oder einer Mehrkernprozessorarchitektur implementiert ist.
Das System nach Anspruch 13, wobei die Mehrzahl von Sensoren Gebläsesensoren beinhalten zum Vorhersagen von Fehlern eines Kühlungsgebläses.
Das System nach Anspruch 25, wobei die Gebläsesensoren wenigstens drei aus den folgenden aufweisen: Gebläsestrom, Gebläsegeschwindigkeitsmonitor, Einlass- und Auslasslufttemperatur, Gebläsemotortemperatur, Einlass- und Auslassdifferenz, Geräuschpegel und Vibration.
Ein Artikel mit: einem Speichermedium, auf dem Befehle gespeichert sind, die bei ihrer Ausführung durch eine Maschine das folgende bewirken: Speichern von Information von einer Mehrzahl von Agenten von einer Mehrzahl von Sensoren, die auf einer Mehrzahl von gedruckten Schaltkarten angeordnet sind; Speichern einer Politik mit einer Mehrzahl von Fehlereieignisschwellenwerten, mit denen die gespeicherte Sensorinformation verglichen werden kann; Initiieren einer Aktion von dem Fehlermodul, wenn einer oder mehrere der Fehlerereignisschellwerte überschritten werden.
Der Artikel nach Anspruch 27, weiter mit Befehlen zum Vorhersagen eines Gerätefehlers basierend auf der Sensorinformation.
Der Artikel nach Anspruch 27, weiter mit Befehlen zum Speichern der Temperatur- und Spannungsinformation für eine Mehrzahl von integrierten Schaltungen und der Zahl von Ereignissen, bei denen ein bestimmter Temperatur- und/oder Spannungsparameter überschritten ist.
Der Artikel nach Anspruch 29, weiter mit Befehlen zum Speichern einer Frequenzinformation und der Anzahl der Ereignisse, bei denen eine bestimmte Temperatur, Spannung und/oder Frequenzparameter überschritten sind.
Der Artikel nach Anspruch 30, weiter mit Befehlen zum Vorhersagen von Fehlern basierend auf den aufgezählten Ereignissen.