DE102006048115B4 - System und Verfahren zum Aufzeichnen von behebbaren Fehlern - Google Patents
System und Verfahren zum Aufzeichnen von behebbaren Fehlern Download PDFInfo
- Publication number
- DE102006048115B4 DE102006048115B4 DE102006048115.1A DE102006048115A DE102006048115B4 DE 102006048115 B4 DE102006048115 B4 DE 102006048115B4 DE 102006048115 A DE102006048115 A DE 102006048115A DE 102006048115 B4 DE102006048115 B4 DE 102006048115B4
- Authority
- DE
- Germany
- Prior art keywords
- recoverable
- chipset
- status register
- bmc
- errors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2268—Logging of test results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/362—Software debugging
- G06F11/3648—Software debugging using additional hardware
Abstract
Ein Verfahren zum Aufzeichnen von behebbaren Fehlern in einem Informationsverarbeitungssystem, aufweisend die Schritte:periodisches Aufrufen eines System Management Interrupt (SMI) unter Verwendung eines Baseboard Management Controllers,wobei der System Management Interrupt das Überprüfen eines Statusregisters veranlasst, um festzustellen, ob ein behebbarer Fehler aufgetreten ist,Aufzeichnen eines behebbaren Fehlers, wenn ein behebbarer Fehler erkannt wurde, wobei das Aufzeichnen eines behebbaren Fehlers umfasst: Aufzeichnen von Informationen, die eine Quelle des behebbaren Fehlers und den Ort dieser Quelle angeben, in einer nicht flüchtigen Speichereinheit, die dem Baseboard Management Controller zugeordnet ist, oderÜbermitteln einer Nachricht an den Baseboard Management Controller, die angibt, dass keine behebbaren Fehler aufgetreten sind, wenn keine behebbaren Fehler erkannt wurden,weiterhin aufweisend den Schritt des Änderns, wie oft der SMI periodisch aufgerufen wird, basierend auf einem Ereignis während des Betriebs des Informationsverarbeitungssystems, undwobei das Ändern, wie oft der SMI periodisch aufgerufen wird, basierend auf einem Ereignis während des Betriebes des Informationsverarbeitungssystems umfasst: Verändern, wie oft der SMI periodisch aufgerufen wird, basierend darauf, ob ein behebbarer Fehler erkannt wurde.
Description
- Technisches Gebiet
- Die vorliegende Offenbarung bezieht sich allgemein auf Computersysteme und Informationsverarbeitungssysteme und insbesondere auf ein System und Verfahren zum Aufzeichnen von behebbaren Fehlern.
- Hintergrund
- Während der Wert und der Gebrauch von Informationen anhaltend wächst, suchen Einzelpersonen und Unternehmen nach zusätzlichen Wegen, um Informationen zu verarbeiten und zu speichern. Eine den Nutzern zugängliche Wahlmöglichkeit sind Informationsverarbeitungssysteme. Ein Informationsverarbeitungssystem verarbeitet, übersetzt, speichert und/oder kommuniziert im Allgemeinen Informationen oder Daten für geschäftliche, persönliche oder andere Zwecke, wobei es den Nutzern erlaubt, einen Vorteil aus dem Wert der Informationen zu ziehen. Da der Bedarf und die Anforderungen an Technologie und Informationsverarbeitung zwischen verschiedenen Nutzern und Anwendungen variieren, können Informationsverarbeitungssysteme ebenso variieren in Bezug darauf, welche Informationen verarbeitet werden, wie die Informationen verarbeitet werden, wie viel Informationen verarbeitet, gespeichert oder kommuniziert werden, und wie schnell und effizient die Informationen verarbeitet, gespeichert oder kommuniziert werden können. Die Abweichungen zwischen Informationsverarbeitungssystemen erlauben es, dass Informationsverarbeitungssysteme allgemein sind oder konfiguriert für einen bestimmten Nutzer oder einen bestimmten Gebrauch, wie z. B. die Abwicklung von Finanz-Transaktionen, Fluglinien-Reservierungen, Speicherung von Unternehmensdaten oder globale Kommunikation. Darüber hinaus können Informationsverarbeitungssysteme eine Vielfalt von Hardware- und Software-Komponenten beinhalten, die so konfiguriert werden können, dass sie Informationen verarbeiten, speichern und kommunizieren und ein oder mehrere Computersysteme, Datenspeichersysteme und Netzwerksysteme beinhalten können.
- Serversysteme können während des normalen Systembetriebs behebbare oder korrigierbare Fehler erfahren. Solche behebbaren Fehler können zum Beispiel auftreten, wenn Speichereinheiten ausfallen, die mit dem Serversystem verbunden sind. Um die Systemzuverlässigkeit zu erhöhen, sind Serversysteme oft so gestaltet, dass sie behebbare oder korrigierbare Fehler erfassen und aufzeichnen, wenn sie auftreten. Da behebbare Fehler oft Warnsignale für bevorstehende Speicherfehler sind, gibt dieses Verfahren des Erfassens und Aufzeichnens dem Anwender des Serversystems eine Möglichkeit, defekte Speichereinheiten zu ersetzen, bevor das gesamte System zusammenbricht. Serversysteme leiten aufzuzeichnende Fehler oft weiter, indem sie einen System Management Interrupt (SMI) über Seitenbandsignale (side band signals) erzeugen. Der SMI bewegt sich durch das Seitenband zur CPU, und die CPU friert dann laufende Serversystemprozesse ein. Diese Verarbeitungspausen, die durch den SMI verursacht werden, ermöglichen es dem Basic Input Output System (BIOS), das sich in dem Serversystem befindet, die behebbaren Fehler aufzuzeichnen, sobald sie auftreten, indem ein SMI-Steuerungsprogramm (Handler) verwendet wird. Sobald das BIOS die Fehler aufzeichnet, enden die SMIs, und das Serversystem kann die Ausführungen alle unterbrochenen Prozesse wieder aufnehmen. Der Baseboard Management Controller (BMC), der die Schnittstelle zwischen der Systemmanagementsoftware und der Plattformhardware steuert, verarbeitet die Fehleraufzeichnungskommandos, die von dem BIOS erhalten wurden, und führt das tatsächliche Schreiben in seinen nicht flüchtigen Speicher aus. Während des ganzen Aufzeichnungsprozesses ist dem Betriebssystem (Operating System, OS), das sich in dem Serversystem befindet, der Fehler und das darauf folgende Aufzeichnen des Fehlers nicht bekannt.
- Einige Serversysteme umfassen allerdings nicht die Möglichkeit von Seitenbandsignalen. Alle Nachrichten müssen sich über die Haupttransportverbindung bewegen. Da behebbare Fehler korrigierbar sind, erzeugt das Serversystem keine Mitteilung, wenn behebbare Fehler auftreten. Diese Serversysteme können deshalb so gestaltet sein, dass sie behebbare Fehler berichten, indem sie das BIOS des Serversystems oder den Chipsatz verwenden, um periodische Überprüfungen (Scans) wie etwa periodische SMIs durchzuführen. Ähnlich können diese Serversystem verlangen, dass das OS des Serversystems das System periodisch überprüft. Zum Beispiel könnte das OS das System periodisch überprüfen und jeden behebbaren Fehler aufzeichnen, der in dem Maschinen-Prüfstatusregister entdeckt wurde. Ein typisches OS prüft ungefähr einmal in jeder Minute. Allerdings hat die Verwendung des OS des Serversystems, um das System periodisch zu überprüfen, Nachteile. Zum Beispiel sind die meisten Hardwarefehler systemspezifisch. Typischerweise fehlt dem OS allerdings jedes Verständnis der spezifischen Architektur für das System. Das OS kann oft nicht feststellen, welche Komponente fehlerhaft ist, ohne Unterstützung von dem System-BIOS anzufordern, wobei es beide Ressourcen bindet. Anwender von Serversystemen verlangen oft spezifischere Angaben als eine generische Fehleraufzeichnung, die durch ein OS ausgeführt wird, insbesondere wenn das betreffende System ein High-End-Serversystem ist. Darüber hinaus zeichnet das OS oft Fehler in einem Maschinen-Prüfstatusregister auf, das keine Informationen bezüglich der Fehlerquelle speichert, und deshalb dem System oder dem Anwender nicht erlaubt, später den Ort der Fehlerquelle festzustellen. Obwohl einige OS-Versionen eine Aufzeichnung von bis zu 10 behebbaren Fehlern pro Überprüfung pflegen können, wird ein OS typischerweise weiteres Aufzeichnen von behebbaren Fehlern deaktivieren, sobald dies auftritt, wodurch der Anwender daran gehindert wird, Fehler im Zeitablauf anzusehen, um die Quelle der Problem festzustellen.
-
US 6 158 025 A offenbart ein System zum Detektieren und Berichten von Bitfehlern in einem fehlerkorrigierbaren flüchtigen Speicher. Das System umfasst einen Chipsatz, der den flüchtigen Speicher auswertet um ein Fehlerkorrektursignal zu erzeugen, wenn ein Bitfehler auftritt und ihn in ein Register zu schreiben. Ein Fehlerortungsgerät liest das Register aus und bestimmt aus dem Registereintrag an welchem Speichereinbauplatz der Bitfehler aufgetreten ist. -
US 6 119 248 A offenbart ein Computersystem mit einer Fehlerüberwachungsschaltung und einer Registerschaltung das den ACPI (Advanced Configuration and Power Interface) Standard verwendet, um das Betriebssystem über detektierte korrigierbare Fehler zu informieren. Die Fehlerüberwachungsschaltung detektiert korrigierbare und nichtkorrigierbare Fehler des Informationsflusses zwischen dem RAM und dem Prozessor und veranlasst das Speichern von korrigierbaren Fehlern in die Registerschaltung. Die Registerschaltung erhält den korrigierbaren Fehler über einen System Controller Interrupt (SCI) und bewirkt einen SCI des Prozessors beim Erhalten einer Fehlermeldung. - Die
US 2004/0143719 A1 - Der vorliegenden Anmeldung liegt das Problem zugrunde, ein Verfahren und ein System anzugeben, die das Aufzeichnen von behebbaren Fehlern eines Informationsverarbeitungssystems verbessern.
- Zusammenfassung
- Dieses Problem wird durch das Verfahren des unabhängigen Anspruchs 1 und das System des unabhängigen Anspruchs 9 gelöst. Das System umfasst eine zentrale Verarbeitungseinheit, einen Chipsatz, der mit der zentralen Verarbeitungseinheit verbunden ist, und wenigstens eine Chipsatz-Speichereinheit, die mit dem Chipsatz verbunden ist und diesem zugeordnet ist. Das System umfasst auch einen Baseboard Management Controller (BMC) und eine Speichereinheit, die ein Basic Input Output System (BIOS) enthält.
- Ein System Management Interrupt (SMI) wird periodisch aufgerufen. Fehlerstatusregister werden überprüft, um festzustellen, ob ein behebbarer Fehler aufgetreten ist. Wenn ein behebbarer Fehler erkannt wird, zeichnet das System den behebbaren Fehler in einer nicht flüchtigen Speichereinheit auf, die dem BMC zugeordnet ist. Das System zeichnet Informationen auf, die eine Quelle des behebbaren Fehlers und den Ort der Quelle angeben. Wenn keine behebbaren Fehler festgestellt werden, übermittelt das System eine Nachricht, die angibt, dass kein behebbarer Fehler aufgetreten ist.
- Das hier offenbarte System und das Verfahren ist vorteilhaft, da es dem Informationsverarbeitungssystem erlaubt, die Quelle von behebbaren Fehlern und den Ort der Quelle festzustellen, auch wenn dem Informationsverarbeitungssystem die Fähigkeit fehlt, Signale über ein Seitenband zu senden. Das BMC oder das BIOS, nicht das OS, identifiziert und zeichnet die Quelle der behebbaren Fehler auf. Das hier offenbarte System und das Verfahren sind auch vorteilhaft, da sie es ermöglichen, die Periodizität des SMI dynamisch anzupassen, basierend auf einem Ereignis während des Betriebs des Informationsverarbeitungssystems oder einer Änderung des Betriebs des Informationsverarbeitungssystems. Die periodische Überprüfung kann schneller sein als die Überprüfungsrate für behebbare Fehler des OS.
- Figurenliste
- Ein vollständigeres Verständnis der vorliegenden Ausführungsformen und Vorteile derselben können durch Bezug auf die folgende Beschreibung zusammen mit den beigefügten Zeichnungen gewonnen werden, in denen ähnliche Bezugszeichen ähnliche Merkmale bezeichnen und wobei:
-
1 ein Blockdiagramm einer beispielhaften Architektur für eine beispielhafte Hauptplatine ist; -
2 ein Flussdiagramm ist, das ein Beispielverfahren zum Anpassen der Frequenz darstellt, mit der das System eine periodische Überprüfung ausführt; und -
3 ein Blockdiagramm einer beispielhaften Architektur für eine beispielhafte Hauptplatine ist. - Detaillierte Beschreibung
- Für die Zwecke dieser Offenbarung kann ein Informationsverarbeitungssystem die Mittel oder Anordnungen von Mitteln beinhalten, die geeignet sind, jede Form von Information, Nachrichten oder Daten für geschäftliche, wissenschaftliche, Steuerungs- oder andere Zwecke zu berechnen, klassifizieren, verarbeiten, übermitteln, empfangen, abzufragen, erzeugen, schalten, speichern, darstellen, bekannt machen, ermitteln, aufnehmen, reproduzieren, verarbeiten oder zu nutzen. Zum Beispiel kann ein Informationsverarbeitungssystem ein Personal Computer, ein Netzwerkspeichergerät oder jedes andere geeignete Gerät sein und in Größe, Form, Leistung, Funktionalität und Preis variieren. Das Informationsverarbeitungssystem kann Random Access Memory (RAM) aufweisen, eine oder mehrere Verarbeitungsressourcen wie etwa eine zentrale Prozessoreinheit (CPU) oder Hardware- oder Software-Steuerlogik, ROM und/oder andere Typen von nicht-flüchtigem Speicher. Zusätzliche Komponenten des Informationsverarbeitungssystems können umfassen: ein oder mehrere Plattenlaufwerke, einen oder mehrere Netzwerkanschlüsse (Ports) zur Kommunikation mit externen Geräten sowie verschiedene Eingabe- und Ausgabe- (I/O-) Geräte wie etwa eine Tastatur, eine Maus und einen Bildschirm. Das Informationsverarbeitungssystem kann auch einen oder mehrere Busse aufweisen, die geeignet sind, um Nachrichten zwischen den verschiedenen Hardware-Komponenten zu übermitteln.
-
1 zeigt eine Architektur für eine Hauptplatine (Motherboard), die generell mit der Zahl100 bezeichnet wird, zum Gebrauch in einem Informationsverarbeitungssystem wie etwa einem Serversystem. Die in1 gezeigte Architektur ist nur beispielhafte und sollte so verstanden werden, dass sie nur eine von vielen möglichen Architekturen für Hauptplatinen zeigt. Wie in1 gezeigt, kann die Hauptplatine100 einen Mikroprozessor110 umfassen. Der Mikroprozessor110 kann als die CPU für die Hauptplatine agieren. Der Mikroprozessor110 kann über einen Prozessorbus120 mit einem Chip verbunden sein, der allgemein als der „Northbridge“ bezeichnet wird und in1 mit130 bezeichnet ist. Der Northbridge130 steuert typischerweise Nachrichten zwischen der CPU und anderen Komponenten des Informationsverarbeitungssystems wie etwa Speichereinheiten. Deshalb können eine oder mehrere Speichereinheiten und ein Speichercontroller, allgemein durch die Zahl140 bezeichnet, mit dem Northbridge130 verbunden sein. Ein Chip, der als der „Southbridge“ bekannt ist, in1 mit150 gekennzeichnet, kann auch mit der Northbridge130 verbunden sein. Der Southbridge150 implementiert typischerweise langsamere Dienste für die Hauptplatine als die, die durch die Northbridge130 implementiert werden, wie zum Beispiel Power Management und Betrieb des Peripheral Component Interface (PCI) Bus. Der Southbridge150 kann über einen Low Pin Count (LPC) Bus160 mit einer Speichereinheit verbunden sein, die ein BIOS170 enthält. Das BIOS wird manchmal als „Firmware“ bezeichnet. Der Northbridge130 und der Southbridge150 werden manchmal gemeinsam als der „Chipsatz“ der Hauptplatine100 bezeichnet. Wenn allerdings die Hauptplatine100 andere oder zusätzliche Chips enthält, könnten diese Komponenten ebenso Teil des Chipsatzes sein. - Ein BMC
180 kann auch mit dem LPC-Bus160 verbunden sein, wie unten in der1 angegeben. Ein Controller und eine oder mehrere Speichereinheiten, allgemein durch die Zahl190 bezeichnet, sind mit dem BMC180 verbunden. Die Speichereinheit oder -einheiten190 können vorzugsweise nicht flüchtige Speichereinheiten sein. Der BMC180 kann seine eigene Stromversorgung haben, obwohl in1 keine Stromversorgung angegeben ist. Wie früher in dieser Offenbarung besprochen, steuert der BMC180 typischerweise die Schnittstelle zwischen der Systemmanagement-Software und der Plattform-Hardware. Verschiedene Sensoren, die in das Informationsverarbeitungssystem eingebaut sind, können an den BMC180 Parameter berichten, die für den Status und die Betriebsfähigkeit des Informationsverarbeitungssystems wichtig sind, wie zum Beispiel Temperatur, Kühllüftergeschwindigkeiten und verschiedene Spannungen. Wenn der BMC180 eine Abweichung bei irgendeinem überwachten Parameter von den erwünschten vorgegebenen Grenzwerten feststellt, kann er eine Warnung an den Anwender oder den Systemadministrator senden. Der BMC180 kann deshalb mit einer Anzahl von Hardwarekomponenten und einem Netzwerk verbunden sein, die nicht in1 gezeigt sind, um diese Parameter zu überwachen und, falls nötig, Warnungen auszugeben. - Die in
1 gezeigte Architektur für die Hauptplatine100 umfasst keine Mögligkeit für Seitenbandsignale zwischen dem Mikroprozessor110 und dem Southbridge150 . Alle Nachrichten müssen sich über die Haupttransportverbindung bewegen, und ein Informationsverarbeitungssystem, das die Hauptplatine100 umfasst, kann sich nicht auf Seitenbandsignale für Berichte über behebbare Fehler stützen. Da außerdem behebbare Fehler korrigierbar sind, teilt dieses Informationsverarbeitungssystem im Allgemeinen dem Anwender nicht mit, dass ein solcher Fehler aufgetreten ist, außer wenn es periodisch nach Fehlern fragt. Deshalb könnte ein Informationsverarbeitungssystem, das auch die Hauptplatine100 umfasst, so gestaltet sein, dass es behebbare Fehler berichtet, indem es das BIOS170 einsetzt, um periodische Überprüfungen durchzuführen, wie zum Beispiel periodische SMIs. Ähnlich könnte ein Informationsverarbeitungssystem, das die Hauptplatine100 umfasst, so gestaltet sein, dass es sich auf das für das Informationsverarbeitungssystem vorhandene OS stützt, um die periodischen Überprüfungen aufzurufen. Allerdings sind diese Verfahren nicht ohne Nachteile, wie vorher in dieser Offenbarung besprochen. Zum Beispiel kann das OS typischerweise nicht identifizieren, welche Komponente die Quelle des behebbaren Fehlers ist, da OS-Pakete allgemein sind und keine Abbildungen der Architektur des bestimmten Systems enthalten, auf dem sie sich befinden. Darüber hinaus zeichnet das OS behebbare Fehler in dem Maschinen-Prüfstatusregister auf, das sich möglicherweise nicht am Ort der Komponente befindet, die den Fehler verursacht, und löscht dann das Maschinen-Prüfstatusregister. - Anstatt sich alleine auf das OS oder das BIOS
170 zum Steuern von periodischen Überprüfungen zu stützen, kann sich das Informationsverarbeitungssystem, das die Hauptplatine100 umfasst, auf den BMC180 zum Aufrufen von periodischen Soft-SMIs stützen. Dass heißt, sobald das Informationsverarbeitungssystem läuft, kann der BMC180 einen Soft-SMI nach einer vordefinierten Zeitdauer aufrufen. Eine Anfrageverbindung für Interrupts195 zwischen dem BMC180 und dem Chipsatz auf der Hauptplatine100 kann zum Aufrufen des Soft-SMI verfügbar gemacht werden. General Purpose Input Output (GPIO) Ports, die nicht in1 gezeigt sind, können so konfiguriert sein, um Nachichten zwischen dem BIOS170 und dem BMC180 zu erlauben. Wenn der BMC180 den Soft-SMI aufruft, sucht das BIOS170 nach behebbaren Fehlern, indem es, zum Beispiel, das Statusregister des Chipsatzes, das Speicherstatusregister und/oder das Statusregister des Mikroprozessors110 ausliest. Wenn das BIOS170 keine Fehler in dem Statusregister oder den Statusregistern findet, teilt das BIOS170 die Abwesenheit von Fehlern dem BMC180 mit. Wenn das BIOS170 einen Fehler findet, teilt das BIOS170 den Fehler dem BMC180 mit und löscht das Statusregister, das den Fehler enthält. Das BIOS170 kann den Fehler auch über den BMC180 in der Speichereinheit190 aufzeichnen, typischerweise in einem nicht-flüchtigen System Event Log (Aufzeichnung von Systemereignissen). Da dem BIOS170 die Architektur der Hauptplatine100 bekannt ist, kann das BIOS170 in der Aufzeichnung den Ort der Quelle des behebbaren Fehlers identifizieren. - Die Periode, mit der der BMC
180 den Soft-SMI aufruft, kann auf jede Periode festgesetzt werden, die durch den Hersteller oder Anwender gewünscht wird. Zum Beispiel, wie vorher in dieser Offenbarung besprochen, führen einige OS-Versionen periodische Überprüfungen des Maschinen-Prüfstatusregisters eines Systems einmal pro Minute durch. Deshalb kann die Periode, mit der der BMC180 den Soft-SMI aufruft, auf weniger als eine Minute festgesetzt werden, so dass das BIOS170 die Statusregister häufiger überprüft, als das vorhandene OS seine Überprüfungen durchführt, wodurch das Risiko verringert wird, dass das OS Fehler aus dem Maschinen-Prüfstatusregister löscht, bevor das BIOS170 sie entdecken kann. Der BMC180 kann den Soft-SMI häufig genug aufrufen, um zu verhindern, dass das OS jemals einen Fehler entdeckt. Allerdings sollte die Periode zwischen Soft-SMIs groß genug sein, um zu verhindern, dass das BIOS170 und der BMC180 unnötig gebunden sind und dadurch die Systemleistung verringern. - Alternativ kann der BMC
180 adaptiv die Frequenz des Soft-SMI verändern, nachdem er den Fehlerstatus von dem BIOS170 erfahren hat.2 umfasst ein Flussdiagramm, das ein mögliches Verfahren zum adaptiven Ändern der Frequenz des Soft-SMI zeigt. Wie in Block200 des Flussdiagramms gezeigt, kann der BMC180 zuerst einen Soft-SMI aufrufen. Das BIOS170 kann dann das oder die geeigneten Maschinen-Prüfstatusregister überprüfen, wie in Block210 des Flussdiagramms gezeigt. Das BIOS170 stellt fest, ob es einen Fehler gefunden hat, wie in Block220 angegeben. Wenn das BIOS170 keinen Fehler feststellt, sendet das BIOS170 eine 1-Bit-Nachricht an den BMC180 , die angibt, dass kein Fehler entdeckt wurde, wie in Block230 angegeben. Wie Block240 des Flussdiagramms zeigt, kann der BMC180 dann die Frequenz, mit der der Soft-SMI aufgerufen wird, verringern. Wenn stattdessen das BIOS170 einen Fehler entdeckt, ermittelt das BIOS170 zunächst, ob der Fehler behebbar ist. Wenn das BIOS170 einen oder mehrere behebbare Fehler feststellt, teilt das BIOS170 diese Tatsache dem BMC180 mit, wie in Block260 gezeigt. Der BMC180 kann die Frequenz, mit der Soft-SMI aufgerufen wird, erhöhen, wie in Block270 gezeigt. Wenn allerdings das BIOS170 nicht behebbare Fehler feststellt, teilt es diese Tatsache dem BMC180 mit. An diesem Punkt kann das gesamte System zurückgesetzt werden, und die Frequenz des Soft-SMI kann zum Beispiel auf die vorgegebene Einstellung zurückgesetzt werden, wie in Block290 gezeigt. - Die Erzeugung von Soft-SMIs kann durch Verwendung einer Systemtimers gesteuert werden. Die Häufigkeit von Fehlern erhöht oder verringert sich üblicherweise in Schritten, so dass keine extremen Änderungen der Frequenz des Soft-SMI nötig sind, um den korrekten Fehlerstatus des Systems zu erfassen. Für ein System, das die Frequenz der Soft-SMIs adaptiv ändert, sollte der Anwender oder Hersteller allerdings einen vorbestimmten Minimal- und Maximalwert für die Häufigkeit festlegen, mit der der BMC jeden SMI aufrufen kann.
-
3 zeigt eine alternative Architektur für eine Hauptplatine, die allgemein durch die Zahl300 bezeichnet ist, zum Gebrauch in einem Informationsverarbeitungssystem wie etwa einem Serversystem. Die in3 dargestellte Architektur ist ähnlich der in1 dargestellten Architektur. Deshalb werden ähnliche Komponenten in beiden Figuren durch dieselben Bezugszeichen identifiziert. Allerdings können auf der Hauptplatine300 der BMC180 und der Chipsatz oder sogar nur der Northbridge130 über einen Inter-Interconnect (I2C) Bus310 verbunden sein, wie in3 gezeigt. Die Hauptplatine300 kann auch so gestaltet sein, um Shadowing (doppelte Verarbeitung) oder Verfolgung des Statusregisters für die Speichereinheit140 durch den Chipsatz zu erlauben. Insbesondere kann die Hauptplatine300 so gestaltet sein, um dem Northbridge130 ein Shadowing des Statusregisters für die Speichereinheit140 in seinem eigenen Statusregister zu erlauben. Deshalb kann der BMC180 das Statusregister desNorthbridge 130 über den I2C Bus310 überwachen und feststellen, ob irgendwelche behebbaren Fehler für die Speichereinheit140 aufgetreten sind. Wenn der BMC180 einen behebbaren Speicherfehler entdeckt, kann er einen Soft-SMI aufrufen, um das BIOS170 anzuweisen, den behebbaren Fehler aufzuzeichnen. Wenn allerdings der BMC180 keinen behebbaren Speicherfehler entdeckt, stört er den Betrieb des BIOS170 nicht. Deshalb kann die Last auf dem BIOS170 verringert werden, da es nur erforderlich ist, auf wirkliche Fehler zu reagieren, die vorher von dem BMC180 entdeckt wurden. In bestimmten Systemen kann der BMC180 behebbare Fehler aufzeichnen. Für viele Systeme kann das BIOS170 allerdings die effizientere Wahl zum Aufzeichnen von behebbaren Fehlern bleiben, da in einem typischen BIOS bereits ein Algorithmus implementiert ist, um die Ursache des Fehlers und den Ort der Komponente, die für den Fehler verantwortlich ist, festzustellen. Wenn der BMC180 das BIOS170 informiert, dass er einen Fehler entdeckt hat, in dem er einen Soft-SMI erzeugt, kann das BIOS170 deshalb die Ursache des Fehlers feststellen und diese Information aufzeichnen. Die Frequenz, mit der BMC180 den Maschinen-Prüfstatus den Northbridge130 überwacht, kann vorher festgelegt sein. Alternativ kann die Frequenz adaptiv geändert werden, wie vorher in dieser Offenbarung beschrieben. Zum Beispiel kann die Frequenz erhöht werden, wenn 1-Bit-Fehler erkannt werden, oder sie kann verringert werden, wenn keine Fehler erkannt werden. - Obwohl die vorliegende Offenbarung ein System und Verfahren beschrieben hat, das adaptive Änderungen an Zeitintervallen zwischen periodischen Überprüfungen durch das BIOS
170 und/oder das BMC180 als Antwort auf entdeckte Fehler umfasst, können andere Faktoren verwendet werden, um die Frequenz dieser Überprüfungen anzupassen. Zum Beispiel kann die Last, die die Komponente erfährt, die die Überprüfung durchführt, sei es das BIOS170 oder der BMC180 , die Periode der Überprüfungen beeinflussen. Wenn die Komponente, die die Überprüfungen ausführt, zum Beispiel mit anderen Aufgaben überlastet ist, kann die Frequenz der Überprüfungen verringert werden, um die Last dieser Komponente zu verringern. Obwohl die vorliegende Offenbarung detailliert beschrieben wurde, können verschiedene Änderungen, Ersetzungen und Abwandlungen hieran ausgeführt werden, ohne von dem Geist und dem Bereich der Erfindung abzuweichen, wie er in den angehängten Ansprüchen festgelegt ist.
Claims (15)
- Ein Verfahren zum Aufzeichnen von behebbaren Fehlern in einem Informationsverarbeitungssystem, aufweisend die Schritte: periodisches Aufrufen eines System Management Interrupt (SMI) unter Verwendung eines Baseboard Management Controllers, wobei der System Management Interrupt das Überprüfen eines Statusregisters veranlasst, um festzustellen, ob ein behebbarer Fehler aufgetreten ist, Aufzeichnen eines behebbaren Fehlers, wenn ein behebbarer Fehler erkannt wurde, wobei das Aufzeichnen eines behebbaren Fehlers umfasst: Aufzeichnen von Informationen, die eine Quelle des behebbaren Fehlers und den Ort dieser Quelle angeben, in einer nicht flüchtigen Speichereinheit, die dem Baseboard Management Controller zugeordnet ist, oder Übermitteln einer Nachricht an den Baseboard Management Controller, die angibt, dass keine behebbaren Fehler aufgetreten sind, wenn keine behebbaren Fehler erkannt wurden, weiterhin aufweisend den Schritt des Änderns, wie oft der SMI periodisch aufgerufen wird, basierend auf einem Ereignis während des Betriebs des Informationsverarbeitungssystems, und wobei das Ändern, wie oft der SMI periodisch aufgerufen wird, basierend auf einem Ereignis während des Betriebes des Informationsverarbeitungssystems umfasst: Verändern, wie oft der SMI periodisch aufgerufen wird, basierend darauf, ob ein behebbarer Fehler erkannt wurde.
- Verfahren zum Aufzeichnen von behebbaren Fehlern nach
Anspruch 1 , wobei der Schritt des Überprüfens eines Statusregisters zum Erkennen, ob ein behebbarer Fehler aufgetreten ist, den Schritt des Überprüfens eines Statusregisters unter Verwendung des Basic Input Output System (BIOS) umfasst, das in einer Speichereinheit des Informationsverarbeitungssystems gespeichert ist. - Verfahren zum Aufzeichnen von behebbaren Fehlern nach
Anspruch 1 , wobei der Schritt des Überprüfens eines Statusregisters zum Erkennen, ob ein behebbarer Fehler aufgetreten ist, den Schritt des Überprüfens eines Statusregisters unter Verwendung des Baseboard Management Controllers umfasst. - Verfahren zum Aufzeichnen von behebbaren Fehlern nach
Anspruch 1 , wobei der Schritt des Überprüfens eines Statusregisters zum Erkennen, ob ein behebbarer Fehler aufgetreten ist, den Schritt des Überprüfens eines Statusregisters eines Prozessors umfasst, der einer zentralen Verarbeitungseinheit zugeordnet ist. - Verfahren zum Aufzeichnen von behebbaren Fehlern nach
Anspruch 1 , wobei der Schritt des Überprüfens eines Statusregisters zum Erkennen, ob ein behebbarer Fehler aufgetreten ist, den Schritt des Überprüfens eines Chipsatz-Statusregisters umfasst, das einem Chipsatz zugeordnet ist. - Verfahren zum Aufzeichnen von behebbaren Fehlern nach
Anspruch 1 , wobei der Schritt des Überprüfens eines Statusregisters zum Erkennen, ob ein behebbarer Fehler aufgetreten ist, den Schritt des Überprüfens eines Statusregisters eines Speichers umfasst, der wenigstens einer Speichereinheit zugeordnet ist, die mit einem Chipsatz verbunden ist. - Verfahren zum Aufzeichnen von behebbaren Fehlern nach
Anspruch 1 , weiterhin aufweisend: Dokumentieren von behebbaren Fehlern, die aus Fehlern während eines Betriebs von wenigstens einer Speichereinheit, die einem Chipsatz zugeordnet ist, entstehen, in einem Statusregister einer Speichereinheit, und Verfolgen von jedem behebbaren Fehler, der in dem Statusregister einer Speichereinheit dokumentiert ist, in einem Chipsatz-Statusregister. - Verfahren nach
Anspruch 7 , wobei das Überprüfen eines Statusregisters zum Erkennen, ob ein behebbarer Fehler aufgetreten ist, ein Überprüfen des Statusregisters eines Chipsatzes umfasst, um festzustellen, ob ein behebbarer Fehler aufgetreten ist. - Ein System zum Aufzeichnen von behebbaren Fehlern, aufweisend: eine zentrale Verarbeitungseinheit, einen Chipsatz, der mit der zentralen Verarbeitungseinheit verbunden ist, wenigstens eine Chipsatz-Speichereinheit, die mit dem Chipsatz verbunden ist und diesem zugeordnet ist, wenigstens eine Firmware-Speichereinheit, die ein Basic Input Output System (BIOS) enthält, wobei die wenigstens eine Firmware-Speichereinheit mit dem wenigstens einen Chipsatz verbunden ist, und einen Baseboard Management Controller (BMC), der mit dem Chipsatz und der wenigstens einen Firmware-Speichereinheit verbunden ist, wobei der BMC einen Interrupt aufrufen kann, der verlangt, dass das BIOS nach behebbaren Fehlern sucht und jeden erkannten behebbaren Fehler aufzeichnet, und wenigstens eine BMC-Speichereinheit, die mit dem BMC verbunden ist und diesem zugeordnet ist, wobei die wenigstens eine BMC-Speichereinheit eine Aufzeichnung der erkannten behebbaren Fehler speichern kann, wobei der BMC weiterhin ändert wie oft der SMI periodisch aufgerufen wird basierend auf einem Ereignis während des Betriebs des Informationsverarbeitungssystems, und wobei das Ändern, wie oft der SMI periodisch aufgerufen wird, basierend auf einem Ereignis während des Betriebes des Informationsverarbeitungssystems durch den BMC umfasst: Verändern, wie oft der SMI periodisch aufgerufen wird, basierend darauf, ob ein behebbarer Fehler erkannt wurde.
- System zum Aufzeichnen von behebbaren Fehlern nach
Anspruch 9 , weiterhin aufweisend eine Anforderungsverbindung für Interrupts, die den BMC mit dem Chipsatz verbindet, wobei der BMC einen Interrupt durch die Verbindungsleitung für Interrupts an den Chipsatz übermitteln kann. - System zum Aufzeichnen von behebbaren Fehlern nach
Anspruch 9 , weiterhin aufweisend ein Speicherstatusregister, das der wenigstens einen Chipsatz-Speichereinheit zugeordnet ist, wobei das BIOS das Speicherstatusregister überprüfen kann, um nach behebbaren Fehlern zu suchen. - System zum Aufzeichnen von behebbaren Fehlern nach
Anspruch 9 , weiterhin aufweisend ein Prozessorstatusregister, das der zentralen Verarbeitungseinheit zugeordnet ist, wobei das BIOS das Prozessorstatusregister überprüfen kann, um nach behebbaren Fehlern zu suchen. - System zum Aufzeichnen von behebbaren Fehlern nach
Anspruch 9 , weiterhin aufweisend ein Chipsatz-Statusregister, das dem Chipsatz zugeordnet ist, wobei das BIOS das Chipsatz-Statusregister überprüfen kann, um nach behebbaren Fehlern zu suchen. - Ein System zum Aufzeichnen von behebbaren Fehlern, aufweisend: eine zentrale Verarbeitungseinheit, einen Chipsatz, der mit der zentralen Verarbeitungseinheit verbunden ist, wenigstens eine Chipsatz-Speichereinheit, die mit dem Chipsatz verbunden ist und diesem zugeordnet ist, wobei die wenigstens eine Chipsatz-Speichereinheit einem Speicherstatusregister zugeordnet ist, einen Chipsatz-Statusregister, das dem Chipsatz zugeordnet ist, wobei das Chipsatz-Statusregister die Inhalte des Speicherstatusregisters verfolgen kann, wenigstens eine Firmware-Speichereinheit, die ein Basic Input Output System (BIOS) enthält, wobei die wenigstens eine Firmware-Speichereinheit mit dem wenigstens einen Chipsatz verbunden ist, einen Baseboard Management Controller (BMC), der mit dem Chipsatz und der wenigstens einen Firmware-Speichereinheit verbunden ist, wobei der BMC einen Interrupt aufrufen kann, das Chipsatz-Statusregister auf behebbare Fehler überprüfen kann und verlangen kann, dass das BIOS jeden erkannten behebbaren Fehler aufzeichnet, wenigstens eine BMC-Speichereinheit, die mit dem BMC verbunden ist und diesem zugeordnet ist, wobei die wenigstens eine BMC-Speichereinheit eine Aufzeichnung der erkannten behebbaren Fehler speichern kann, wobei der BMC weiterhin ändert, wie oft der SMI periodisch aufgerufen wird, basierend auf einem Ereignis während des Betriebs des Informationsverarbeitungssystems, und wobei das Ändern, wie oft der SMI periodisch aufgerufen wird, basierend auf einem Ereignis während des Betriebes des Informationsverarbeitungssystems durch den BMC umfasst: Verändern, wie oft der SMI periodisch aufgerufen wird, basierend darauf, ob ein behebbarer Fehler erkannt wurde.
- System zum Aufzeichnen von behebbaren Fehlern nach
Anspruch 14 , weiterhin aufweisend einen Inter-Interconnect-Bus, der den BMC mit dem Chipsatz verbindet.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/250,603 | 2005-10-14 | ||
US11/250,603 US20070088988A1 (en) | 2005-10-14 | 2005-10-14 | System and method for logging recoverable errors |
Publications (2)
Publication Number | Publication Date |
---|---|
DE102006048115A1 DE102006048115A1 (de) | 2007-06-06 |
DE102006048115B4 true DE102006048115B4 (de) | 2019-07-04 |
Family
ID=37491397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102006048115.1A Active DE102006048115B4 (de) | 2005-10-14 | 2006-10-11 | System und Verfahren zum Aufzeichnen von behebbaren Fehlern |
Country Status (11)
Country | Link |
---|---|
US (1) | US20070088988A1 (de) |
JP (1) | JP2007109238A (de) |
CN (1) | CN100440157C (de) |
AU (1) | AU2006228051A1 (de) |
DE (1) | DE102006048115B4 (de) |
FR (1) | FR2892210A1 (de) |
GB (1) | GB2431262B (de) |
HK (1) | HK1104631A1 (de) |
IT (1) | ITTO20060737A1 (de) |
SG (1) | SG131870A1 (de) |
TW (1) | TWI337707B (de) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7594144B2 (en) * | 2006-08-14 | 2009-09-22 | International Business Machines Corporation | Handling fatal computer hardware errors |
JP2009121832A (ja) * | 2007-11-12 | 2009-06-04 | Sysmex Corp | 分析装置、分析システム及びコンピュータプログラム |
CN101446915B (zh) * | 2007-11-27 | 2012-01-11 | 中国长城计算机深圳股份有限公司 | 一种bios级日志的记录方法及装置 |
JP4571996B2 (ja) * | 2008-07-29 | 2010-10-27 | 富士通株式会社 | 情報処理装置及び処理方法 |
US8122176B2 (en) * | 2009-01-29 | 2012-02-21 | Dell Products L.P. | System and method for logging system management interrupts |
JP5093259B2 (ja) | 2010-02-10 | 2012-12-12 | 日本電気株式会社 | Biosとbmcとの間の通信パス強化方法、その装置及びそのプログラム |
JP5459549B2 (ja) * | 2010-03-31 | 2014-04-02 | 日本電気株式会社 | コンピュータシステム及びその余剰コアを用いた通信エミュレート方法 |
TWI529525B (zh) * | 2010-04-30 | 2016-04-11 | 聯想企業解決方案(新加坡)有限公司 | 處理系統錯誤之方法及系統 |
CN102375775B (zh) * | 2010-08-11 | 2014-08-20 | 英业达股份有限公司 | 一种具有检测系统不可恢复错误指示信号的计算机系统 |
CN102446146B (zh) * | 2010-10-13 | 2015-04-22 | 淮南圣丹网络工程技术有限公司 | 服务器及其避免总线冲突的方法 |
CN102467440A (zh) * | 2010-11-09 | 2012-05-23 | 鸿富锦精密工业(深圳)有限公司 | 内存错误检测系统及方法 |
CN102467434A (zh) * | 2010-11-10 | 2012-05-23 | 英业达股份有限公司 | 利用基板管理控制器取得储存装置状态信号的方法 |
CN102467438A (zh) * | 2010-11-12 | 2012-05-23 | 英业达股份有限公司 | 利用基板管理控制器取得储存装置故障信号的方法 |
JP5532143B2 (ja) * | 2010-11-12 | 2014-06-25 | 富士通株式会社 | エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム |
CN102541787A (zh) * | 2010-12-15 | 2012-07-04 | 鸿富锦精密工业(深圳)有限公司 | 串口切换使用系统及方法 |
CN102567177B (zh) * | 2010-12-25 | 2014-12-10 | 鸿富锦精密工业(深圳)有限公司 | 计算机系统错误侦测系统及方法 |
WO2013027297A1 (ja) * | 2011-08-25 | 2013-02-28 | 富士通株式会社 | 半導体装置、管理装置、及びデータ処理装置 |
US9342393B2 (en) * | 2011-12-30 | 2016-05-17 | Intel Corporation | Early fabric error forwarding |
CN102681931A (zh) * | 2012-05-15 | 2012-09-19 | 天津市天元新泰科技发展有限公司 | 一种日志和异常探针的实现方法 |
CN103455455A (zh) * | 2012-05-30 | 2013-12-18 | 鸿富锦精密工业(深圳)有限公司 | 串口切换系统、服务器及串口切换方法 |
TW201405303A (zh) * | 2012-07-30 | 2014-02-01 | Hon Hai Prec Ind Co Ltd | 底板管理控制器監控系統及方法 |
CN103577298A (zh) * | 2012-07-31 | 2014-02-12 | 鸿富锦精密工业(深圳)有限公司 | 基板管理控制器监控系统及方法 |
US9804917B2 (en) | 2012-09-25 | 2017-10-31 | Hewlett Packard Enterprise Development Lp | Notification of address range including non-correctable error |
BR112015018459A2 (pt) * | 2013-03-07 | 2017-07-18 | Intel Corp | mecanismo para fornecer suporte para fluxos de confiabilidade, disponibilidade e capacidade de serviço (ras) em monitor de ponto |
CN104219105A (zh) * | 2013-05-31 | 2014-12-17 | 英业达科技有限公司 | 错误通报装置及方法 |
CN104424042A (zh) * | 2013-08-23 | 2015-03-18 | 鸿富锦精密工业(深圳)有限公司 | 错误处理系统和方法 |
CN104424041A (zh) * | 2013-08-23 | 2015-03-18 | 鸿富锦精密工业(深圳)有限公司 | 错误处理系统和方法 |
US9425953B2 (en) | 2013-10-09 | 2016-08-23 | Intel Corporation | Generating multiple secure hashes from a single data buffer |
US9389942B2 (en) | 2013-10-18 | 2016-07-12 | Intel Corporation | Determine when an error log was created |
NO3121726T3 (de) * | 2014-06-24 | 2018-06-30 | ||
CN104391765A (zh) * | 2014-10-27 | 2015-03-04 | 浪潮电子信息产业股份有限公司 | 一种自动诊断服务器启动故障的方法 |
FR3040523B1 (fr) * | 2015-08-28 | 2018-07-13 | Continental Automotive France | Procede de detection d'une erreur non corrigible dans une memoire non volatile d'un microcontroleur |
CN105183600A (zh) * | 2015-09-09 | 2015-12-23 | 浪潮电子信息产业股份有限公司 | 一种远程定位硬盘故障的装置和方法 |
US10157115B2 (en) * | 2015-09-23 | 2018-12-18 | Cloud Network Technology Singapore Pte. Ltd. | Detection system and method for baseboard management controller |
US9875165B2 (en) | 2015-11-24 | 2018-01-23 | Quanta Computer Inc. | Communication bus with baseboard management controller |
TWI654518B (zh) | 2016-04-11 | 2019-03-21 | 神雲科技股份有限公司 | 錯誤狀態儲存方法及伺服器 |
JP6504610B2 (ja) * | 2016-05-18 | 2019-04-24 | Necプラットフォームズ株式会社 | 処理装置、方法及びプログラム |
US10223187B2 (en) * | 2016-12-08 | 2019-03-05 | Intel Corporation | Instruction and logic to expose error domain topology to facilitate failure isolation in a processor |
US10296434B2 (en) * | 2017-01-17 | 2019-05-21 | Quanta Computer Inc. | Bus hang detection and find out |
CN108958965B (zh) * | 2018-06-28 | 2021-03-02 | 苏州浪潮智能科技有限公司 | 一种bmc监控可恢复ecc错误的方法、装置及设备 |
JP7081344B2 (ja) * | 2018-07-02 | 2022-06-07 | 富士通株式会社 | 監視装置,監視制御方法および情報処理装置 |
CN111221677B (zh) * | 2018-11-27 | 2023-06-09 | 环达电脑(上海)有限公司 | 侦错备份方法与服务器 |
CN110377469B (zh) * | 2019-07-12 | 2022-11-18 | 苏州浪潮智能科技有限公司 | 一种pcie设备的检测系统以及方法 |
US11403162B2 (en) * | 2019-10-17 | 2022-08-02 | Dell Products L.P. | System and method for transferring diagnostic data via a framebuffer |
EP3859526A1 (de) * | 2020-01-30 | 2021-08-04 | Hewlett-Packard Development Company, L.P. | Fehlerinformationsspeicherung |
US11132314B2 (en) * | 2020-02-24 | 2021-09-28 | Dell Products L.P. | System and method to reduce host interrupts for non-critical errors |
CN111488288A (zh) * | 2020-04-17 | 2020-08-04 | 苏州浪潮智能科技有限公司 | 一种测试bmc acd稳定性的方法、装置、终端及存储介质 |
CN112906009A (zh) * | 2021-03-09 | 2021-06-04 | 南昌华勤电子科技有限公司 | 工作日志生成方法、计算设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6119248A (en) | 1998-01-26 | 2000-09-12 | Dell Usa L.P. | Operating system notification of correctable error in computer information |
US6158025A (en) | 1997-07-28 | 2000-12-05 | Intergraph Corporation | Apparatus and method for memory error detection |
US20040143719A1 (en) | 2003-01-21 | 2004-07-22 | Vincent Nguyen | System and method for testing for memory errors in a computer system |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4627054A (en) * | 1984-08-27 | 1986-12-02 | International Business Machines Corporation | Multiprocessor array error detection and recovery apparatus |
US5267246A (en) * | 1988-06-30 | 1993-11-30 | International Business Machines Corporation | Apparatus and method for simultaneously presenting error interrupt and error data to a support processor |
US4996688A (en) * | 1988-09-19 | 1991-02-26 | Unisys Corporation | Fault capture/fault injection system |
JPH0355640A (ja) * | 1989-07-25 | 1991-03-11 | Nec Corp | 周辺制御装置の障害解析情報採取方式 |
US5287363A (en) * | 1991-07-01 | 1994-02-15 | Disk Technician Corporation | System for locating and anticipating data storage media failures |
EP0666530A3 (de) * | 1994-02-02 | 1996-08-28 | Advanced Micro Devices Inc | Periodische Systemverwaltungsinterruptquelle und Leistungsverwaltungssystem unter dessen Verwendung. |
US5600785A (en) * | 1994-09-09 | 1997-02-04 | Compaq Computer Corporation | Computer system with error handling before reset |
US6189117B1 (en) * | 1998-08-18 | 2001-02-13 | International Business Machines Corporation | Error handling between a processor and a system managed by the processor |
US7689875B2 (en) * | 2002-04-25 | 2010-03-30 | Microsoft Corporation | Watchdog timer using a high precision event timer |
US7389454B2 (en) * | 2002-07-31 | 2008-06-17 | Broadcom Corporation | Error detection in user input device using general purpose input-output |
US7299331B2 (en) * | 2003-01-21 | 2007-11-20 | Hewlett-Packard Development Company, L.P. | Method and apparatus for adding main memory in computer systems operating with mirrored main memory |
US7010630B2 (en) * | 2003-06-30 | 2006-03-07 | International Business Machines Corporation | Communicating to system management in a data processing system |
US7076708B2 (en) * | 2003-09-25 | 2006-07-11 | International Business Machines Corporation | Method and apparatus for diagnosis and behavior modification of an embedded microcontroller |
US7213176B2 (en) * | 2003-12-10 | 2007-05-01 | Electronic Data Systems Corporation | Adaptive log file scanning utility |
US7321990B2 (en) * | 2003-12-30 | 2008-01-22 | Intel Corporation | System software to self-migrate from a faulty memory location to a safe memory location |
JP2006178557A (ja) * | 2004-12-21 | 2006-07-06 | Nec Corp | コンピュータシステム及びエラー処理方法 |
US7350007B2 (en) * | 2005-04-05 | 2008-03-25 | Hewlett-Packard Development Company, L.P. | Time-interval-based system and method to determine if a device error rate equals or exceeds a threshold error rate |
-
2005
- 2005-10-14 US US11/250,603 patent/US20070088988A1/en not_active Abandoned
-
2006
- 2006-10-11 DE DE102006048115.1A patent/DE102006048115B4/de active Active
- 2006-10-12 AU AU2006228051A patent/AU2006228051A1/en not_active Abandoned
- 2006-10-12 GB GB0620260A patent/GB2431262B/en active Active
- 2006-10-12 FR FR0608925A patent/FR2892210A1/fr not_active Withdrawn
- 2006-10-12 JP JP2006278678A patent/JP2007109238A/ja not_active Withdrawn
- 2006-10-12 SG SG200607000-7A patent/SG131870A1/en unknown
- 2006-10-13 CN CNB2006101363525A patent/CN100440157C/zh active Active
- 2006-10-13 IT IT000737A patent/ITTO20060737A1/it unknown
- 2006-10-13 TW TW095137693A patent/TWI337707B/zh active
-
2007
- 2007-09-07 HK HK07109783.5A patent/HK1104631A1/xx unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6158025A (en) | 1997-07-28 | 2000-12-05 | Intergraph Corporation | Apparatus and method for memory error detection |
US6119248A (en) | 1998-01-26 | 2000-09-12 | Dell Usa L.P. | Operating system notification of correctable error in computer information |
US20040143719A1 (en) | 2003-01-21 | 2004-07-22 | Vincent Nguyen | System and method for testing for memory errors in a computer system |
Also Published As
Publication number | Publication date |
---|---|
HK1104631A1 (en) | 2008-01-18 |
GB2431262A (en) | 2007-04-18 |
GB2431262B (en) | 2008-10-22 |
US20070088988A1 (en) | 2007-04-19 |
AU2006228051A1 (en) | 2007-05-03 |
JP2007109238A (ja) | 2007-04-26 |
IE20060744A1 (en) | 2007-06-13 |
DE102006048115A1 (de) | 2007-06-06 |
CN1949182A (zh) | 2007-04-18 |
FR2892210A1 (fr) | 2007-04-20 |
TWI337707B (en) | 2011-02-21 |
TW200805056A (en) | 2008-01-16 |
CN100440157C (zh) | 2008-12-03 |
ITTO20060737A1 (it) | 2007-04-15 |
SG131870A1 (en) | 2007-05-28 |
GB0620260D0 (en) | 2006-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102006048115B4 (de) | System und Verfahren zum Aufzeichnen von behebbaren Fehlern | |
DE102016200514B4 (de) | Verfahren und Vorrichtungen für gesteuerte Wiederherstellung von Fehlerinformationen zwischen unabhängig voneinander betreibbaren Prozessoren | |
US8082471B2 (en) | Self healing software | |
DE60106467T2 (de) | Verfahren zum Installieren Überwachungsagenten, System und Computerprogramm von Objekten in einem IT-Netz Überwachung | |
US9026860B2 (en) | Securing crash dump files | |
US7574620B2 (en) | Method for operating an arrangement of a plurality of computers in the event of a computer failure | |
CN105357038A (zh) | 监控虚拟机集群的方法和系统 | |
DE102006062802B4 (de) | Informationsverarbeitungssystem und Verfahren zum Steuern von mehreren Hot Plug Vorgängen | |
US20110004791A1 (en) | Server apparatus, fault detection method of server apparatus, and fault detection program of server apparatus | |
EP1550036A2 (de) | Verfahren zur lösung von entscheidungslosigkeiten | |
JP6503174B2 (ja) | プロセス制御システムおよび方法 | |
DE102007046947B4 (de) | System und Verfahren zum Verwalten von Systemmanagement-Interrupts in einem Mehrprozessor-Computersystem | |
DE102012109614A1 (de) | Fehlerbehebung bei Stapel-Korruption in eingebetteten Softwaresystemen | |
DE60002908T2 (de) | Vorrichtung und verfahren zur verbesserten fehlerortung und diagnose in rechnern | |
DE112004000334T5 (de) | Auf Richtlinien basierende Reaktion auf Systemfehler, die während der Betriebssystemlaufzeit eintreten | |
CN107491373A (zh) | 一种任务栈溢出监测方法及系统 | |
DE112017007690T5 (de) | Verfahren und vorrichtungen zur durchführung einer fehlerdetektion und/oder korrektur in einer speichervorrichtung | |
DE112011106079T5 (de) | Frühe Weiterleitung von Gewebefehlern | |
US20150121144A1 (en) | Synchronized debug information generation | |
DE112013000330T5 (de) | In-Situ-Neubewertung von Prozessoren | |
DE112014000340T5 (de) | Vorablesezugriff auf Daten für einen Chip mit einem übergeordneten Kern und einem Scout-Kern | |
US11663094B2 (en) | Reducing recovery time of an application | |
US7684654B2 (en) | System and method for fault detection and recovery in a medical imaging system | |
DE69433947T2 (de) | Festgekoppelte Dual-Steuermodule benutzendes fehlertolerantes Speichersteuergerät | |
US20090235112A1 (en) | Information processing apparatus, information processing apparatus control method and control program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
R016 | Response to examination communication | ||
R016 | Response to examination communication | ||
R018 | Grant decision by examination section/examining division | ||
R020 | Patent grant now final |