DE68924923T2 - Expertensystem zur Identifizierung wahrscheinlicher Ausfallspunkte in einem digitalen Verarbeitungssystem. - Google Patents

Expertensystem zur Identifizierung wahrscheinlicher Ausfallspunkte in einem digitalen Verarbeitungssystem.

Info

Publication number
DE68924923T2
DE68924923T2 DE68924923T DE68924923T DE68924923T2 DE 68924923 T2 DE68924923 T2 DE 68924923T2 DE 68924923 T DE68924923 T DE 68924923T DE 68924923 T DE68924923 T DE 68924923T DE 68924923 T2 DE68924923 T2 DE 68924923T2
Authority
DE
Germany
Prior art keywords
failure
error
expert system
entries
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE68924923T
Other languages
English (en)
Other versions
DE68924923D1 (de
Inventor
Larry Emlich
James Nicholson
Herman Polich
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Equipment Corp
Original Assignee
Digital Equipment Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Equipment Corp filed Critical Digital Equipment Corp
Publication of DE68924923D1 publication Critical patent/DE68924923D1/de
Application granted granted Critical
Publication of DE68924923T2 publication Critical patent/DE68924923T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2257Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Debugging And Monitoring (AREA)

Description

    1. Gebiet der Erfindung
  • Die Erfindung betrifft im allgemeinen das Gebiet digitaler Datenverarbeitungssysteme und insbesondere Mechanismen zum Diagnostizieren von Ausfällen und Fehlern in solchen Systemen.
  • 2. Beschreibung des Stands der Technik
  • Während der letzten Jahre ist es verstärkt und merklich wichtiger geworden, Computer für Staat und Industrie zur Verfügung zu haben. Es wurden Computer für den Einsatz nicht nur in ziemlich konventionellen Tätigkeiten wie Buchhaltung, Rechnungswesen und Lagerbestandkontrolle entwickelt und angepaßt, sondern auch für mehr esoterische Gebiete wie Konstruktion, Maschinenbau und Produktion. Computer wurden auch an den Einsatz in vielen Bürotätigkeiten angepaßt wie die Dokumentenerstellung unter Verwendung von Textverarbeitung und Graphikdesign. Ebenso ist der Zugriff auf computerisierte Datenbanken entweder an Ort und Stelle oder über Telefonleitungen in wissensintensiven Tätigkeiten wichtig.
  • Beim Versuch, der stets steigenden Nachfrage sowohl nach Verarbeitungsleistung als auch danach, daß die Benutzer Information gemeinsam zur Verfügung haben, gerecht zu werden, wurden die einzelnen Computer schneller und komplexer gemacht und mehrere Computer in Gruppen (clusters) oder Netzwerken verbunden, um das gemeinsame Benutzen von Daten und Resourcen, wie beispielsweise Telekommunikationsverbindungen, Drucker etc., für die Benutzer zu vereinfachen. In dem Maß, in dem solche Computersysteme immer komplexer werden, wird auch die Wahrscheinlichkeit eines Ausfalls entweder in der Hardware oder in der Software immer größer. Eine Anzahl von Strategien wurde erdacht, um den Ausfall wie auch die Instandsetzungskosten, die als Ergebnis eines Aufalls auftreten können, zu minimieren. Typischerweise beruhen solche Strategien jedoch auf dem Auftreten eines Ausfalls, den ein Benutzer feststellen kann, wenn er eine Unterbrechung in der Bedienung oder, möglicherweise noch schlimmer, einen Datenverlust bemerkt. An diesem Punkt versucht ein Kundendiensttechniker normalerweise, die ausgefallene Komponente zu identifizieren und zu reparieren, was meherere Anfahrten des Kundendiensts an den Ort des Computers und umfassendes Laufenlassen von Diagnoseprogrammen zur Identifizierung der ausgefallenen Komponente erforderlich machen kann. Dadurch kann die Reparatur ziemlich kostspielig werden, nicht nur was die Kundendienstkosten anbelangt, sondern auch im Hinblick darauf, daß der Computer entweder nicht zur Verfügung steht oder nur ein niedrigeres Leistungsniveau bietet.
  • Zusammenfassung der Erfindung
  • Die Erfindung liefert ein neues und verbessertes Expertensystem zur Verwendung im Zusammenhang mit einem digitalen Computersystem, das die Operationen der verschiedenen Komponenten des Computersystems überwacht und erkennt, wann eine Komponente voraussichtlich ausfällt und so deren Ersetzung ermöglicht. Das Expertensystem identifiziert auf diese Weise wahrscheinliche Ausfallpunkte im Computersystem, bevor ein Ausfall von einem Benutzer oder Operator bemerkt werden kann. Darüber hinaus kann das Expertensystem das Betriebssystem des Computersystems über die wahrscheinlich ausfallende Komponente in Kenntnis setzen, so daß das Betriebssystem Maßnahmen ergreifen kann, um einen Datenverlust oder ein Herabsetzen der Systemleistung zu minimieren.
  • Kurz zusammengefaßt bestimmt das Expertensystem die Wahrscheinlichkeit eines Ausfalls einer Einheit in einem Computersystem. Das Betriebssystem eines Computersystems führt ein Protokoll über die Fehler, die in jeder Einheit im Computersystem auftreten. Wenn in das Protokoll für eine bestimmte Einheit eine vordefinierte Anzahl von Fehlern eingetragen wurde, sucht das Expertensystem die sich auf diese Einheit beziehenden Fehlereinträge heraus und verarbeitet sie, um festzustellen, ob voraussichtlich ein Ausfall auftreten wird. Dabei ist die vom Expertensystem durchgeführte Verarbeitung so koordiniert, daß Tests, die sich auf Komponenten mit zunehmender Besonderheit und abnehmender Allgemeinheit beziehen, nach den Tests durchgeführt werden, die sich auf allgemeinere Komponenten beziehen.
  • Kurze Beschreibung der Zeichnungen
  • Die Erfindung ist in den beigefügten Ansprüchen detailliert ausgeführt. Die unabhängigen Ansprüche sind in der zweigeteilten Form geschrieben und basieren auf der Lehre aus dem Dokument "HEWLETT-PACKARD JOURNAL, Band 37, Nr. 11, November 1986, Seiten 30 - 33, D.B. Wasmuth et al." mit dem Titel "Predictive support: anticipating hardware failures". Die oben genannten und weitere Vorteile der Erfindung können unter Bezugnahme auf die folgenden Beschreibung zusammen mit den beigefügten Zeichnungen besser verstanden werden, wobei
  • Fig. 1 ein funktionelles Blockdiagramm ist, das die Hauptkomponenten eines erfindungsgemäß aufgebauten Expertensystems darstellt; und
  • Fig. 2A bis 2D Flußdiagramme darstellen, die Ausfallanalysen, die das in Fig. 1 dargestellte Expertensystem durchführt, im Detail aufzeigen.
  • Detailierte Beschreibung eines veranschaulichenden Ausführungsbeispiels
  • Fig. 1 ist ein funktionelles Blockdiagramm eines Expertensystems zur Identifzierung wahrscheinlicher Ausfallpunkte in einem digitalen Datenverarbeitungssystem, d.h. einem Computersystem. Einleitend soll gesagt werden, daß einzusehen ist, daß das Expertensystem in Form eines vom Computersystem verarbeiteten Computerprogramms sein kann. Typischerweise umfaßt ein Computersystem einen oder mehrere Computer. Wenn das Computersystem eine Vielzahl von Computern umfaßt, sind die Computer über Kommunikationsverbindungen miteinander verbunden, so daß sie Gruppen oder Netzwerke bilden, um den unterschiedlichen Computern das gemeinsame Benutzen von Daten und Programmen zu ermöglichen.
  • Jeder Computer in einem Computersystem umfaßt eine Anzahl von Einheiten, einschließlich einem oder mehreren Prozessoren und Speichern, und kann auch Massenspeicher-Untersysteme enthalten wie beispielsweise Platten- und/oder Bandspeichersysteme als Backup- und Hilfsspeicher und Eingabe-/Ausgabesysteme wie beispielsweise Datensichtgeräte, Drucker, Telekommunikationsverbindungen usw., wobei alle Einheiten mit Bussen wahlweise miteinander verbunden werden. Das Expertensystem, das zusammen mit jedem der Computer im Netzwerk oder in der Gruppe laufen gelassen werden kann, erkennt wahrscheinliche Ausfälle aller darin enhaltenen Einheiten. In einem spezifischen Ausführungsbeispiel erkennt das Expertensystem wahrscheinliche Ausfälle eines spezifischen Einheitstyps, insbesondere eines Plattenspeicher-Untersystems, doch ist einzusehen, daß ähnliche Expertensysteme, die die Erfindung inkorporieren, zur Erkennung wahrscheinlicher Ausfälle in jedem Typ von Einheit, den das Computersystem umfassen kann, verwendet werden können.
  • Unter Bezugnahme auf Fig. 1 umfaßt das Expertensystem eine Vielzahl von Operationselementen, die über eine Vielzahl von Datenstrukturen Störungsinformationen übertragen, die sich auf intermittierende oder permanente Ausfälle in den verschiedenen, das System umfassenden Einheiten bezieht. Wie herkömmlich unterhält das Betriebssystem 10 des Computersystems, das die verschiedenen, im Computersystem beinhalteten Hardware- und Software-Resourcen verwaltet, ein Fehlerprotokoll 11, in dem es Indizes aufzeichnet, die die verschiedenen Ausfälle, Fehler etc. betreffen und vom Betrieb der Einheiten im Computersystem herrühren.
  • Wenn das Betriebssystem 10 einen Eintrag im Fehlerprotokoll 11 speichert, gibt es auch ein Überwachungsmodul 12, das ein Teil des Expertensystems ist, frei. Nach der Freigabe durch das Betriebssystem 10 kategorisiert das Überwachungsmodul die verschiedenen Einträge im Fehlerprotokoll 11, um festzulegen, ob ausreichend Einträge in Bezug auf einen möglichen Ausfall einer bestimmten Einheit vorhanden sind, so daß eine weitere Analyse gerechtfertigt ist, und wenn dies der Fall ist, erzeugt es eine Aufzeichnung zum Eintragen in eine Störungsschlange 13. Es ist einzusehen, daß der wahrscheinliche Ausfall einer Einheit oder einer Komponente davon von mehreren Fehlertypen angekündigt werden kann, die der Einheit direkt zugeschrieben werden können oder nicht oder mit der Einheit in Verbindung stehen oder nicht. Der bevorstehende Ausfall einer Businterface- Komponente einer Einheit oder einer Busleitung selbst kann Fehler auftreten lassen, die für verschiedene, mit dem Bus verbundene Einheiten angezeigt sind. Die Zuschreibung von Fehlern zur Ausfallwahrscheinlichkeit von bestimmten Einheiten hängt vom bestimmten Computersystem ab, in dem das Expertensystem läuft.
  • Das Überwachungsmodul 12 kategorisiert in jedem Fall nach der Freigabe durch das Betriebssystem 10 die verschiedenen Einträge im Fehlerprotokoll 11, um festzulegen, ob die darin aufgeführten Fehler zufällig oder vorübergehend sind oder ob sie angeben, daß eine bestimmte Einheit im Computersystem wahrscheinlich ausfällt. Bei dieser Operation kann das Überwachungsmodul 12 Einträge im Fehlerprotokoll mit einzelnen Einheiten davon in Verbindung bringen und festlegen, ob die Anzahl der Einträge, die mit einer bestimmten Einheit in Verbindung stehen, einen bestimmten vordefinierten Schwellenwert überschreitet. Wenn dies nicht der Fall ist, beendet das Überwachungsmodul 12 den Vorgang und wartet, daß das Betriebssystem 10 es erneut aktiviert.
  • Wenn andererseits das Überwachungsmodul 12 feststellt, daß die Anzahl der Einträge, die mit einer bestimmten Einheit in Verbindung stehen, einen vordefinierten Schwellenwert überschreiten, erzeugt das Überwachungsmodul 12 einen Störungseintrag und trägt ihn in die Störungsschlange 13 ein. Der Störungseintrag kennzeichnet die bestimmte Einheit und die Einträge im Fehlerprotokoll 11, die sich auf diejenige Einheit beziehen, die die Erzeugung des Störungseintrags auslöste. Darüber hinaus aktiviert das Überwachungsmodul, wenn der Störungseintrag der erste Eintrag in der Störungsschlange 13 ist, einen Störungsverwalter 14, der die Störungseinträge in der Störungsschlange 13 verarbeitet.
  • Der Störungsverwalter 14 umfaßt zwei Module, nämlich ein Erfassungsmodul 15 und ein Analysatormodul 16. Wenn das Erfassungsmodul anfangs vom Überwachungsmodul aktiviert wird, holt es einen Störungseintrag aus der Störungsschlange 13, identifiziert die Einheit im Computersystem, die die Erzeugung des Störungseintrags verursachte, und holt aus dem Fehlerprotokoll 11 diejenigen Fehlereinträge des Fehlerprokolls 11, die mit der Einheit in Verbindung stehen. Das Erfassungsmodul 15 erzeugt dann ein Fehlerteilprotokoll 17, das die Fehlereinträge aus dem Fehlerprotokoll 11 enthält, die mit der Einheit in Verbindung stehen, und aktiviert das Analysatormodul 16.
  • Das Analysatormodul 16 analysiert die vom Erfassungsmodul 15 bereitgestellten Fehlereinträge im Fehlerteilprotokoll 17, um festzustellen, ob die Einheit voraussichtlich ausfällt. Das Analysatormodul 16 führt die Analyse in Verbindung mit verschiedenen Ausfalltheorien, die sich auf die Einheit beziehen, durch, wie unten im Detail zusammen mit den Figuren 2A bis 2D beschrieben ist, und bestimmt die Wahrscheinlichkeit des Ausfalls der Einheit. Kurz gesagt stellt jeder Fehlertyp eine Aussage über die Wahrscheinlichkeit des Ausfalls der Einheit entsprechend einer oder mehrerer Ausfalltheorien dar. Jede Fehlertheorie ihrerseits bezieht sich auf eine spezifische Art aus einer Vielzahl von Arten, wie die Einheit ausfallen kann, wobei jede Ausfallart auf eine bestimmte Komponente in der Einheit, die ausfallen kann, gerichtet ist. Jede Ausfalltheorie erfordert, daß eine vordefinierte Anzahl von Fehlern, die sich auf die Komponente beziehen, auftritt, damit das Expertensystem und insbesondere das Analysatormodul 16 das Auftreten des Ausfalls für wahrscheinlich halten können.
  • Das Analysatormodul 16 bestimmt, ob das Fehlerteilprotokoll 17 genügend Fehlereinträge enthält, die sich auf eine der verschiedenen Ausfalltheorien beziehen, und erzeugt, wenn dies der Fall ist, einen Störungstheorieeintrag, der die Einheit und die Störungstheorie kennzeichnet, und speichert diese in einer Theoriedatei 20.
  • Nachdem das Analysatormodul 16 einen Störungstheorieeintrag erzeugt hat und diesen in der Theoriedatei gespeichert hat, aktiviert es ein Benachrichtungsmodul, fragt die Theoriedatei 20 ab und erzeugt unter Verwendung der darin gespeicherten Störungstheorieeinträge eine Operatorbenachrichtigungs-Nachricht um den Systemoperator von der Wahrscheinlichkeit eines Ausfalls in Kenntnis zu setzen. Die Operatorbenachrichtigungs-Nachricht erlaubt dem Operator, Wiederherstellungsmaßnamen im Zusammenhang mit dem hiermit angegebenen Ausfall einzuleiten. Das Benachrichtigungsmodul 21 erzeugt ebenfalls eine Kundendienstbenachrichtigungs-Nachricht, die Angaben der Fehlertypen beinhaltet, die zur Erfüllung einer Ausfalltheorie führten, sowie die Feststellung, daß wahrscheinlich ein Ausfall auftritt, was von einem Kundendiensttechniker während der Reparatur verwendet werden kann.
  • Nach der Aktivierung durch das Analysatormodul 16 fragt das Wiedergewinnungsmodul 22 auch die Theoriedatei 20 ab und startet ausgewählte Wiedergewinnungsoperationen, die in Reaktion auf die verschiedenen dort gespeicherten Störungstheorieeinträge angezeigt sein können. Besonders in einer Ausführungsform, in der das Expertensystem zur Bestimmung der Wahrscheinlichkeit von Ausfällen von verschiedenen Plattenspeichereinheiten in einem Computersystem verwendet wird, kann, wenn ein Störungstheorieeintrag in der Theoriedatei 20 angibt, daß eine Plattenspeichereinheit ausfallen kann, das Wiedergewinnungsmodul 22 das Betriebssystem aktivieren, um eine andere Plattenspeichereinheit als Schatten- oder Backup-Kopie zu verwenden. In diesem Fall gibt das Betriebssystem auf der ausfallenden Plattenspeichereinheit gespeicherte Daten frei, damit sie ebenfalls auf der anderen Plattenspeichereinheit gespeichert werden, wodurch die Wahrscheinlichkeit, daß Daten verloren gehen, verringert wird. Des weiteren stehen die so gespeicherten Daten auf der anderen Plattenspeichereinheit während der Reparatur zur Verfügung.
  • Wie oben erwähnt analysiert das Analysatormodul 16 die Fehlereinträge im Fehlerteilprotokoll 17 in Verbindung mit einer Vielzahl von Ausfalltheorien, um festzustellen, ob die Einheit wahrscheinlich ausfällt. Wenn das Analysatormodul 16 feststellt, daß die Fehlereinträge keiner der Ausfalltheorien entsprechen, gibt es die Steuerung an das Erfassungsmodul 15 zurück, das dann den nächsten Eintrag in der Störungsschlange 13 verarbeitet. Der Störungsverwalter 14 verarbeitet iterativ die vom Überwachungsmodul 12 bereitgestellten Einträge in der Störungsschlange 13, bis alle Einträge verarbeitet sind. Es ist einzusehen, daß im Computersystem das Überwachungsmodul 12 und die Module, die der Störungsverwalter 14 umfaßt, gleichzeitig laufen können und auf diese Weise das Überwachungsmodul 12 Einträge in die Störungsschlange 13 laden kann, während gleichzeitig Einträge durch den Störungsverwalter 14 und insbesondere durch das Erfassungsmodul 15 für die Verarbeitung entfernt werden.
  • Wie oben beschrieben, führt das Analysatormodul 16 Analysen unter Verwendung der Fehlereinträge im Fehlerteilprotokoll 17 in Verbindung mit einer Vielzahl von Ausfalltheorien durch. Die Ausfalltheorien werden hierarchisch angewendet, da Fehler, die vom Betriebssystem 10 einer Vielzahl von Komponenten desselben Typs in einer Einheit zugeschrieben werden können, tatsächlich den Nachweis für den wahrscheinlichen Ausfall einer anderen Komponente liefern können.
  • Beispielsweise können in einer Plattenspeichereinheit, während eine Anzahl von einem einzelnen Schreib-/Lesekopf zugeschriebenen Fehlern einen wahrscheinlichen Ausfall dieses Kopfes anzeigen kann, zufällige, einer Vielzahl von Schreib-/Leseköpfen zugeschriebene Fehler den wahrscheinlichen Ausfall einer anderen Komponente, die mit all diesen Köpfen verbunden sein kann, anzeigen, wie z.B. eine Schaltung, die den Köpfen die Energie zum Schreiben liefert oder die die Lesesignale von den Köpfen empfängt. Um sicherzustellen, daß es eher als alle Köpfe die andere Komponente ist, die als wahrscheinlich ausfallend gekennzeichnet ist, führt das Analysatormodul 16 die Analyse in Verbindung mit der anderen Komponente durch, bevor es die Analysen in Verbindung mit den Köpfen durchführt.
  • In einer Ausführungsform sind die Ausfalltheorien in drei Gruppen unterteilt, die allgemein als Kommunikations-Ausfalltheorien, beim Laufwerk identifizierte, nicht Datenträger (Medium)-bezogene Ausfalltheorien und als Datenträger (Medium)-bezogene Ausfalltheorien bezeichnet werden. Die Kommunikations- Ausfalltheorien richten sich im allgemeinen auf Fehler in Verbindung mit Informationen, die von der Laufwerk-Speichereinheit empfangen wurden; dazu gehören auch solche Fehler als Ausfallanzeichen der Plattenspeichereinheit, einen Befehl innerhalb eines ausgewählten Auszeit-Intervalls auszuführen, Anzeichen von Ausfällen von bestimmten Signalen von der Plattenspeichereinheit, von Paritätsfehlern in Signalen von der Plattenspeichereinheit usw. Die Steuerungseinrichtung im Massenspeicher-Subsystem, zu dem die Plattenspeichereinrichtung gehört, kann das Betriebssystem 10 über jegliche derartige Fehler in Kenntnis setzen in Verbindung mit Anfragen nach Fehlerwiedergewinnung mittels beispielsweise einem Unterbrechungsservice.
  • Die beim Laufwerk identifizierten, nicht Datenträger-bezogenen Ausfalltheorien richten sich im allgemeinen auf Fehler in Verbindung mit Informationsübertragungen an die Laufwerk-Speichereinheit durch andere Einheiten im Computersystem. Die Plattenspeichereinheit kann das Betriebssystem 10 über jegliche derartige Fehler in Kenntnis setzen in Verbindung mit Anforderungen nach Fehlerwiedergewinngung durch beispielsweise einen Unterbrechungsservice.
  • Die Datenträger-bezogenen Ausfalltheorien sind schließlich im allgemeinen auf solche Fehler gerichtet, die durch Zeitablauf, Kopf-/Plattenbewegung oder Fehlererkennung-/-korrekur-Schaltungen, die die Wahrscheinlichkeit eines Ausfalls von einem oder mehrerer Schreib-/Leseköpfe anzeigen können, sowie durch Schaltungen zum Erregen der Köpfe, Servoschaltungen, Ausfälle wie beispielsweise Kratzer in den Medien usw. innerhalb der Plattenspeichereinheit angezeigt werden können, und sie können ebenfalls die Wahrscheinlichkeit des Ausfalls der Fehlererkennung-/-korrektur-Schaltung selbst angeben.
  • Auf diesem Hintergrund sind die allgemeinen Operationen, die eine Ausführungsform des Analysatormoduls 16 in Verbindung mit den Fehlereinträgen im Fehlerteilprotokoll 17 durchführt, in den Figuren 2A-1 und 2A-2 gezeigt. Besonders ist dabei zu würdigen, daß die durchgeführten spezifischen Operationen auf spezifischen Einheiten und deren Komponenten basieren, mit denen das Expertensystem (Fig. 1) verwendet werden soll. Unter Bezugnahme auf Fig. 2A-1 führt das Analysatormodul 16 zunächst eine Analyseoperation in Zusammenhang mit den Kommunikations-Ausfalltheorien durch (Schritt 30). Die in Schritt 30 durchgeführte Analyseoperation ist unten in Zusammenhang mit Fig. 2B beschrieben. Wenn das Analysatormodul 16 feststellt, daß eine Kommunikations-Ausfalltheorie erfüllt ist (Schritt 31), erzeugt es einen Störungstheorieeintrag und speichert ihn in der Theoriedatei 20 (Schritt 32). Das Analysatormodul 16 aktiviert danach das Benachrichtigungsmodul 21 zur Erzeugung einer geeigneten Nachricht für den Operator und das Wiedergewinnungsmodul 22 zum Ergreifen passender Wiedergewinnungsoperationen (Schritt 33).
  • Wenn das Analysatormodul 16 in Schritt 31 feststellt, daß die Fehlerangaben keiner Kommunikations-Ausfalltheorie gerecht werden, fährt das Analysatormodul mit Schritt 34 fort, in dem es eine Analyseoperation in Verbindung mit den beim Laufwerk identifizierten, Datenträger-bezogenen Ausfalltheorien durchführt. Die in Schritt 34 durchgeführte Analyseoperation ist unten in Zusammenhang mit Fig. 2C beschrieben. Wenn das Analysatormodul 16 feststellt, daß einer beim Laufwerk identifizierten, Datenträger-bezogenen Ausfalltheorie entsprochen wird (Schritt 35), erzeugt es einen Störungstheorieeintrag und speichert ihn in der Theoriedatei 20 (Schritt 36). Das Analysatormodul 16 aktiviert danach das Benachrichtigungsmodul 21 zur Erzeugung einer geeigneten Nachricht für den Operator sowie das Wiedergewinnungsmodul 22 zum Ergreifen passender Wiedergewinnungsoperationen (Schritt 37).
  • Wenn auf der anderen Seite in Schritt 35 das Analysatormodul 16 feststellt, daß die Fehlerangaben keiner beim Laufwerk identifizierten, Datenträger- bezogenen Ausfalltheorie entsprechen, fährt das Analysatormodul mit Schritt 40 fort, in dem es eine Analyseoperation in Verbindung mit den Datenträger- bezogenen Ausfalltheorien durchführt. Die in Schritt 40 durchgeführten Analyseoperationen sind unten in Verbindung mit Fig. 2D beschrieben. Wenn das Analysatormodul 16 feststellt, daß einer Datenträger-bezogenen Ausfalltheorie Genüge geleistet wird (Schritt 41), erzeugt es einen Störungstheorieeintrag und speichert ihn in der Theoriedatei 20 (Schritt 42). Das Analysatormodul 16 aktiviert danach das Benachrichtigungsmodul 21 zur Erzeugung einer geeigneten Nachricht für den Operator sowie das Wiedergewinnungsmodul 22 zum Ergreifen passender Wiedergewinnungsoperationen (Schritt 43).
  • Wenn schließlich in Schritt 41 das Analysatormodul 16 feststellt, daß die Fehlerangaben keiner Datenträger-bezogenen Ausfalltheorie entsprechen, fährt es mit Schritt 44 fort, in dem es den Vorgang beendet und die Steuerung an Erfassungsmodul 15 zurückgibt. Das Erfassungsmodul 15 kann dann den nächsten Störungseintrag vom Überwachungsmodul 12 in der Störungsschlange 13 verarbeiten. Wie oben beschrieben wurde, beendet das Erfassungsmodul 15 die Operation, wenn die Störungsschlange 13 leer ist, bis zur Reaktivierung durch das Überwachungsmodul 12.
  • Wie oben erwähnt wurde, werden die vom Analysatormodul 16 durchgeführten Operationen im Zusammenhang mit den Kommunikations-Ausfalltheorien in Verbindung mit Fig. 2B beschrieben. Diese Theorien beziehen sich auf Fehler, die vom Hostcomputer oder der die Plattenspeichereinheit steuernde Steuerungseinrichtung erkannt werden, wie beispielsweise Befehls-Auszeiten, Fehler in der Übertragung von bestimmten Signalen, Paritäts- oder Protokollfehler in Übertragungen usw. Unter Bezugnahme auf Fig. 2B bestimmt das Analysatormodul 16, ob zumindest eine vorher festgelegte Anzahl von Fehlereinträgen in das Fehlerteilprotokoll 17 sich auf Kommunikationsfehler, wie sie von der die Plattenspeichereinheit steuernden Steuereinrichtung oder vom Hostcomputer festgestellt worden sind, beziehen (Schritt 50). Wenn die Anzahl solcher Fehlereinträge nicht genügend groß ist, beendet das Analysatormodul 16 die Kommunikations-Ausfallanalyse (Schritt 51).
  • Wenn auf der anderen Seite das Analysatormodul 16 feststellt, daß im Fehlerteilprotokoll 17 eine ausreichende Anzahl solcher Einträge enthalten ist, fährt es mit Schritt 51 fort, um verschiedene die Fehlereinträge betreffende Verhältniszahlen, die sich auf Kommunikations-Fehler und beim Laufwerk identifizierte, nicht Datenträger-bezogene Fehler beziehen, bereitzustellen (Schritt 52). Da Fehler, die Kommunikations-Einträge kennzeichnende Fehlereinträge verursachen, ebenso auch beim Laufwerk identifizierte, nicht Datenträger-bezogene Fehler kennzeichnende Fehlereinträge verursachen können, helfen die in Schritt 52 bereitgestellten Verhältniszahlen bei der Feststellung, was die Ursache der Fehler ist. Wenn die Verhältniszahlen nicht angeben, daß die Fehler aufgrund von Kommunikations- Ausfällen auftreten (Schritt 53), beendet das Analysatormodul 16 den Vorgang (Schritt 54).
  • Wenn andererseits das Analysatormodul 16 in Schritt 53 feststellt, daß die Verhältniszahlen angeben, daß die Fehler aufgrund von Kommunikations-Ausfall auftreten, erzeugt es einen Störungstheorieeintrag, und gibt auf diese Weise die Einfügung in die Theoriedatei 20 an (Schritt 55) und beendet den Vorgang (Schritt 56).
  • Wenn das Analysatormodul 16 entweder in Schritt 51 oder 53 den Vorgang beendet, fährt es mit der Durchführung der sich auf die beim Laufwerk identifizierten, nicht Datenträger-bezogenen Ausfalltheorien beziehenden Analysen (Schritt 34, Fig. 2A-1) fort, was in Fig. 2C dargestellt ist. Diese Theorien betreffen Fehler, die von der Plattenspeichereinheit erfaßt worden sind, wie beispielsweise Fehler in der Übertragung von bestimmten Signalen, Paritäts- oder Protokollfehlern in Übertragungen usw. Unter Bezugnahme auf Fig. 2C bestimmt das Analysatormodul anfangs, ob das Fehlerteilprotokoll 17 eine Schwellenzahl von Fehlereinträgen enthält, die sich auf beim Laufwerk identifizierten, nicht Datenträger-bezogenen Fehler beziehen. Wenn das Fehlerteilprotokoll 17 die Schwellenzahl solcher Fehlereinträge nicht enthält, fährt das Analysatormodul 16 mit Schritt 61 fort, in dem es den Vorgang beendet.
  • Wenn andererseits das Analysatormodul 16 feststellt, daß das Fehlerteilprotokoll 17 die Schwellenzahl solcher Fehlereinträge enthält, bestimmt es dann, ob sich die meisten Einträge auf einen besonderen Fehlertyp beziehen (Schritt 62), und, wenn dies der Fall ist, erzeugt es einen Störungstheorieeintrag, der den Fehlertyp für die Einfügung in die Theoriedatei 20 kennzeichnet (Schritt 63), und beendet den Vorgang (Schritt 64). Wenn kein einzelner Fehlertyp unter den Fehlereinträgen, die beim Laufwerk identifizierte, nicht Datenträger-bezogene Fehler kennzeichnen, vorherrscht, erzeugt das Analysatormodul 16 einen oder mehrere Störungstheorieeinträge, die die Fehlertypen kennzeichnen, die von der größten Anzahl von Fehlereinträgen gekennzeichnet sind, zum Speichern in der Theoriedatei 20 (Schritt 65). Nach Schritt 65 beendet das Analysatormodul den Vorgang (Schritt 66).
  • Wenn das Analysatormodul 16 in Schritt 61 den Vorgang beendet, fährt es mit der Durchführung der Analyse, die Datenträger-bezogenen Ausfalltheorien betrifft (Schritt 40, Fig. 2A-2), fort, die in Figuren 2D-1 bis 2D-8 beispielhaft dargestellt sind. Kurz gesagt beziehen sich die Datenträger-bezogenen Ausfalltheorien auf zwei allgemeine Fehlerklassen. Eine Klasse, nämlich zufällige Fehler, beinhaltet im allgemeinen die Erkennung von ungültigen Headern, den Verlust von Datensynchronisation, von der Fehlererkennungs-/ und -korrekturschaltung festgestellte korrigierbare und nicht-korrigierbare Datenfehler usw. Die zweite Klasse von Datenträger-bezogenen Ausfalltheorien, nämlich beim Laufwerk identifizierte Fehler, die sich im allgemeinen auf die Laufwerksschaltung oder andere Hardwareprobleme beziehen, beinhaltet Positionierfehler, Spurabweichungsfehler und Fehler, die auf Problemen mit der Lese- und Schreibschaltung beruhen, einschließlich der Köpfe, des Servosystems usw.
  • Figuren 2D-1 bis 2D-8 stellen eine Serie von acht veranschaulichenden Tests dar, die das Analysatormodul 16 der Reihe nach durchführt. Die Tests sind hierarchisch geordnet, so daß spätere Tests auf die Wahrscheinlichkeit eines Ausfalls von Komponenten mit zunehmender Besonderheit gerichtet sind, da wie oben erwähnt Fehler, die vom Betriebssystem 10 einer Vielzahl von Komponenten desselben Typs mit größerer Besonderheit in einer Einheit zugeschrieben werden können, tatsächlich einen Nachweis für den wahrscheinlichen Ausfall einer anderen Komponente mit allgemeinerer Anwendbarkeit liefern. Auf diese Weise führt das Analysatormodul 16 einen Test durch, um die Wahrscheinlichkeit eines Ausfalls einer Kopfmatrix festzustellen, wie in Fig. 2D-1 gezeigt ist, bevor es einen Test durchführt, um die Ausfallwahrscheinlichkeit eines einzelnen Kopfes festzustellen, wie in Fig. 2D-8 gezeigt ist, da eine Kopfmatrix eine Komponente ist, die sich auf eine Vielzahl von Köpfen bezieht. Wenn das Analysatormodul 16 den Kopf- Ausfalltest vor dem Kopfmatrix-Test durchführen müßte, würde es wahrscheinlich das Testen mit der Feststellung beenden, daß der einzelne Kopf wahrscheinlich ausgefallen wäre und würde nie den Kopfmatrix-Test erreichen. Besonders zu würdigen ist, daß, wenn einem Test Genüge geleistet wird, d.h., wenn das Analysatormodul 16 aus einem Test in einer der Figuren 2D-1 bis 2D-8 feststellt, daß ein Ausfall wahrscheinlich ist, es nicht zu den nachfolgenden Tests weiterschreitet.
  • Die Abfolgen der in den Figuren 2D-1 bis 2D-8 dargestellten Operationen erklären sich im allgemeinen von selbst und werden nicht im Detail beschrieben. In jedem Test führt das Analysatormodul 16 eine vorbestimmte Reihe von Operationen in Verbindung mit Fehlereinträgen im Fehlerteilprotokoll 17 durch. Wenn den in einem Test aufgeführten Kriterien Genüge geleistet wird, erzeugt das Modul einen den wahrscheinlichen Ausfall kennzeichnenden Störungstheorieeintrag und fügt ihn in die Theoriedatei 20 ein. Anderenfalls schreitet das Analysatormodul 16 zum nächsten Test fort oder beendet im Fall des letzten Tests den Vorgang und gibt die Steuerung an das Erfassungsmodul 15 zurück.
  • Im allgemeinen führt das Analysatormodul 16 in einem in Fig. 2D-1 dargestellten Kopfmatrix-Ausfalltest, da sich eine Kopfmatrix auf die Operation von vier Lese-/Schreibköpfen bezieht, eine Reihe von Schritten durch, erstens um zu bestimmen, ob das Fehlerteilprotokoll 17 Fehlereinträge enthält, die sich auf mehr als einen Kopf beziehen (Schritt 92), und zweitens um festzustellen, ob sich die meisten Fehlereinträge auf Köpfe beziehen, die eine bestimmte Kopfmatrix betreffen (Schritte 94, 96 und 100). Wenn dies der Fall ist, erzeugt das Modul einen Störungstheorieeintrag zum Speichern in der Theoriedatei 20, der die Kopfmatrix als wahrscheinlich ausfallend kennzeichnet (Schritt 102).
  • Wenn das Analysatormodul 16 in der Fig. 2D-1 dargestellten Sequenz feststellt, daß der Kopfmatrix-Ausfall unwahrscheinlich ist, startet es einen Test, wie in Fig. 2D-2 dargestellt, um die Wahrscheinlichkeit einer fehlerhaften Plattenoberfläche festzustellen, d.h. eines im allgemeinen fehlerhaften Speichermediums. Dieser Test erfordert Fehler, die im allgemeinen gleichmäßig unter den in Verbindung mit der Plattenoberfläche operierenden Schreib-/Leseköpfen verteilt sind.
  • Wenn das Analysatormodul 16 feststellt, daß eine fehlerhafte Plattenoberfläche in der in Fig. 2D-2 abgebildeten Sequenz nicht indiziert ist, fährt es mit der in Fig. 2D-3 dargestellten Sequenz mit der Durchführung eines Tests zur Feststellung der Wahrscheinlichkeit fort, ob ein Sektor der Platte fehlerhaft ist, was im allgemeinen als ein Ergebnis eines "Kopf-Schlags" auftritts, d.h. eines die Platte treffenden Kopfes, und dies verursacht im allgemeinen einen Defekt in einem Sektor. In einer Plattenspeichereinheit mit mehreren Schreib-/Leseköpfen für jede Plattenoberfläche stellt das Analysatormodul 16 fest, ob zumindest eine vorbestimmte Schwellenanzahl von Fehlereinträgen im Fehlerteilprotokoll 17 zumindest einige der Köpfe auf derselben Plattenoberfläche und einen im selben Sektor auftretenden Fehler kennzeichnet.
  • Wenn das Analysatormodul 16 feststellt, daß ein "Kopf-Schlag" in der in Fig. 2D-3 dargestellten Sequenz nicht indiziert ist, schreitet es zur in den Figuren 2D-4(a) und 2D-4(b) dargestellten Sequenz fort, um die Wahrscheinlichkeit eines Ausfalls des Servosystems der Plattenspeichereinheit zu bestimmen. In dieser Sequenz stellt das Analysatormodul 16 zunächst fest, daß Fehlereinträge Servofehler kennzeichnen und daß sie sich auf mehrere Köpfe in der Plattenspeichereinheit beziehen. Das Analysatormodul 16 stellt dann die Wahrscheinlichkeit eines peripheralen Kratzers (Schritt 156) oder eines Radialkratzers (Schritt 161) auf der Servooberfläche der Platte fest. Wenn das Analysatormodul 16 feststellt, daß weder ein Umfangs- noch ein Radialkratzer wahrscheinlich sind, bestimmt es, daß ein allgemeiner Servoausfall wahrscheinlich ist.
  • Danach führt das Analysatormodul 16 einen Lesepfad-Ausfalltest (Fig. 2D-5) durch, um die Wahrscheinlichkeit eines allgemeinen Lesepfad-Ausfalls zu bestimmen. Wenn eine vorbestimmte Anzahl von Fehlereinträgen zufällige Fehler kennzeichnen, die die Erkennung von ungültigen Headern, Verlust von Datensynchronisation, korrigierbaren und nicht-korrigierbaren Datenfehlern, die von der Fehlererkennungs-/ und -korrekturschaltung erkannt wurden, usw. indizieren, bestimmt das Analysatormodul 16, daß ein allgemeiner Lesepfad-Ausfall wahrscheinlich ist.
  • Drei zusätzliche Tests sind in den Figuren 2D-6 bis 2D-8 dargestellt. Nach dem Lesepfad-Ausfalltest (Fig. 2D-5) führt das Analysatormodul 16 einen Test durch zur Bestimmung, ob die Köpfe auf sich gegenüberliegenden, d.h. sich zugewandten Plattenoberflächen voraussichtlich ausfallen (Fig. 2D-6), zur Feststellung, ob ein Radialkratzer auf der Plattenoberfläche vorliegt (Fig. 2D-7), und eines Tests zur Angabe, ob ein bestimmter Schreib-/Lesekopf wahrscheinlich ausfällt (Fig. 2D- 8). Der in Fig. 2D-7 dargestellte Test wird iterativ in Verbindung mit jedem der Köpfe in der Plattenspeichereinheit durchgeführt.
  • Es ist einzusehen, daß die spezifischen Tests und die Reihenfolge, in der sie durchgeführt werden, in Verbindung mit dem Expertensystem von spezifischen Einheiten bestimmt werden, im Zusammenhang mit welchen das Expertensystem (Fig. 1) benutzt werden soll. Soll das Expertensystem im Zusammenhang mit der Steuerungseinrichtung einer Plattenspeichereinheit wie auch mit der Plattenspeichereinrichtung selbst verwendet werden, wird vom Expertensystem gefordert, zusätzliche Tests, die auf die Steuerungseinrichtung gerichtet sind, vor der Durchführung der Tests, die auf die Plattenspeichereinheit gerichtet sind, durchzuführen. Analog, wenn das Expertensystem in Zusammenhang mit einem Gruppen- oder Netzwerk-Computersystem, das eine Vielzahl von Computern umfaßt, die miteinander über eine oder mehrere Kommunikationsverbindungen kommunizieren, verwendet wird, kann das Expertensystem auf einem Computer in dem digitalen Datenverarbeitungssystem laufen und mit geeigneten Zusätzen zum Erkennen von Fehlern in einem Prozessor, Speicher und anderen Komponententypen eines Computers verwendet werden, um die Wahrscheinlichkeit von Ausfällen, die in anderen Computern im Computersystem auftreten, zu erkennen.
  • Die vorstehende Beschreibung war auf ein spezifisches Ausführungsbeispiel dieser Erfindung beschränkt. Es wird jedoch offensichtlich sein, daß die Erfindung variiert und verändert werden kann, wobei einige oder alle Vorteile der Erfindung erreicht werden können. Es ist daher Aufgabe der beigefügten Ansprüche, all diese Variationen und Änderungen abzudecken, die in den Schutzumfang der Erfindung fallen.

Claims (14)

1. Expertensystem zum Erkennen eines wahrscheinlichen Ausfalls aus einer Vielzahl von wahrscheinlichen Ausfällen von Komponenten in einem digitalen Datenverarbeitungssystem, das umfaßt:
ein Erfassungsmodul (15) zum Erfassen einer Vielzahl von gespeicherten Fehlereinträgen, wobei jeder Fehlereintrag eine Vielzahl von die Komponenten unterschiedlicher Typen kennzeichnenden, unterschiedlichen Indices enthält, die einem einzelnen Fehlerereignis in dem digitalen Datenverarbeitungssystem zugeordnet sind;
ein Analysatormodul (16) zum Analysieren der Vielzahl von unterschiedlichen Indices, die in den Fehlereinträgen enthalten sind;
wobei das Erfassungsmodul (15) und das Analysatormodul (16) für die Implementierung durch ein digitales Datenverarbeitungssystem angepaßt werden; dadurch gekennzeichnet, daß:
das Analysatormodul (16) Einrichtungen enthält, die - als mindestens ein Schritt bei der Identifzierung eines Musters von die Komponenten unterschiedlicher Typen kennzeichnenden Indices, das mit einer Ausfalltheorie aus einer Vielzahl von Ausfalltheorien übereinstimmt, - bestimmen, ob es eine im wesentlichen zufällige Verteilung der Indices im Hinblick auf eine Vielzahl von Komponenten eines gegebenen Typs oder eine Konzentration der Indices im Hinblick auf eine oder mehrere Komponenten eines gegebenen Typs gibt, wobei das Analysatormodul (16) einen der wahrscheinlichen Ausfälle einer der Komponenten auf der Basis der Ausfalltheorie identifiziert.
2. Expertensystem nach Anspruch 1, wobei das digitale Datenverarbeitungssystem eine Vielzahl von Einheiten umfaßt, wobei jede der Einheiten eine Vielzahl von Komponenten umfaßt.
3. Expertensystem nach Anspruch 2, wobei das Expertensystem des weiteren ein Überwachungsmodul (12) zum Überwachen der Fehlereinträge enthält, um zu bestimmen, ob die Anzahl der Fehlereinträge in Verbindung mit einer bestimmten Einheit einen Schwellenwert überschreitet, und wobei das Erfassungsmodul (15) die Fehlereinträge in Verbindung mit der bestimmten Einheit zum Zweck der Musteranalyse erfaßt.
4. Expertensystem nach Anspruch 3, wobei das Monitormodul (12) einen Störungseintrag für jede Einheit erzeugt, die Fehlereinträge aufweist, die den Schwellenwert überschreiten, und die Störungseinträge in eine Störungsschlange (13) einfügt.
5. Expertensystem nach Anspruch 4, wobei jeder der Störungseinträge eine Einheit und Fehlereinträge in Verbindung mit der Einheit kennzeichnet.
6. Expertensystem nach Anspruch 5, wobei das Erfassungsmodul (15) einen Störungseintrag aus der Störungsschlange (13) wiederauffindet, aus einem Fehlerprotokoll (11) die gespeicherten Fehlereinträge in Verbindung mit der in dem Störungseintrag gekennzeichneten Einheit wiederauffindet und die Fehlereinträge in ein Fehlerteilprotokoll (17) einfügt.
7. Expertensystem nach Anspruch 1, wobei das Analysatormodul (16) die Fehlereinträge in einer hierarchischen Abfolge von Musteranalyse-Schritten analysiert, in denen die Fehlereinträge für Muster getestet werden, die Fehler relativ allgemeiner Art betreffen, bevor die Fehlereinträge für Muster getestet werden, die Fehler relativ besonderer Art betreffen.
8. Expertensystem nach Anspruch 1, wobei das Expertensystem des weiteren ein Betriebssystem (10) zum Speichern der Fehlereinträge in einem Fehlerprotokoll (11) umfaßt.
9. Expertensystem nach Anspruch 1, wobei das Analysatormodul (16) die Ausfalltheorien in einer Theoriedatei (20) speichert.
10. Expertensystem nach Anspruch 9, wobei das Expertensystem des weiteren ein Benachrichtigungsmodul (21) zum Abfragen der Theoriedatei (20) umfaßt und auf der Basis einer Ausfalltheorie in der Theoriedatei (20) einen Benutzer über den wahrscheinlichen Ausfall der Komponente benachrichtigt.
11. Expertensystem nach Anspruch 9, wobei das Expertensystem des weiteren ein Wiedergewinnungsmodul (22) zum Abfragen der Theoriedatei (20) umfaßt und auf der Basis einer Ausfalltheorie in der Theoriedatei (20) Wiederauffindungsoperationen beginnt, um einen Datenverlust zu vermeiden.
12. Expertensystem nach Anspruch 1, wobei das Analysatormodul (16) den Ausfall einer Komponente vorhersagt, bevor in der Komponente tatsächlich ein Ausfall auftritt.
13. Expertensystem nach Anspruch 1, wobei das Analysatormodul (16) einen tatsächlichen Ausfall einer Komponente erkennt.
14. Verfahren zum Erkennen eines wahrscheinlichen Ausfalls aus einer Vielzahl von wahrscheinlichen Ausfällen von Komponenten in einem digitalen Datenverarbeitungssystem, das folgende Schritte umfaßt:
Speichern einer Vielzahl von gespeicherten Fehlereinträgen in einem Fehlerprotokoll (11), wobei jeder Fehlereintrag eine Vielzahl von die Komponenten unterschiedlicher Typen kennzeichnenden, unterschiedlichen Indices enthält, die einem einzelnen Fehlerereignis in dem digitalen Datenverarbeitungssystem zugeordnet sind;
Analysieren der Vielzahl von unterschiedlichen, in den Fehlereinträgen enthaltenen Indices durch ein Analysatormodul (16) des digitalen Expertensystems;
dadurch gekennzeichnet, daß der Schritt des Analysierens der Vielzahl von unterschiedlichen, in den Fehlereinträgen enthaltenen Indices umfaßt:
Bestimmen - als mindestens ein Schritt bei der Identifzierung eines Musters von die Komponenten unterschiedlicher Typen kennzeichnenden Indices, das mit einer Ausfalltheorie aus einer Vielzahl von Ausfalltheorien übereinstimmt -, ob es eine im wesentlichen zufällige Verteilung der Indices im Hinblick auf eine Vielzahl von Komponenten eines gegebenen Typs oder eine Konzentration der Indices im Hinblick auf eine oder mehrere Komponenten eines gegebenen Typs gibt; und
wobei das Verfahren des weiteren den Schritt der Identifizierung eines wahrscheinlichen Ausfalls einer der Komponenten auf der Basis der Ausfalltheorie umfaßt.
DE68924923T 1988-03-30 1989-03-02 Expertensystem zur Identifizierung wahrscheinlicher Ausfallspunkte in einem digitalen Verarbeitungssystem. Expired - Lifetime DE68924923T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US17548588A 1988-03-30 1988-03-30

Publications (2)

Publication Number Publication Date
DE68924923D1 DE68924923D1 (de) 1996-01-11
DE68924923T2 true DE68924923T2 (de) 1996-07-25

Family

ID=22640402

Family Applications (1)

Application Number Title Priority Date Filing Date
DE68924923T Expired - Lifetime DE68924923T2 (de) 1988-03-30 1989-03-02 Expertensystem zur Identifizierung wahrscheinlicher Ausfallspunkte in einem digitalen Verarbeitungssystem.

Country Status (5)

Country Link
US (1) US5469463A (de)
EP (1) EP0335507B1 (de)
JP (1) JPH0758474B2 (de)
CA (1) CA1318030C (de)
DE (1) DE68924923T2 (de)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU661685B2 (en) * 1991-02-05 1995-08-03 Storage Technology Corporation Hierarchical distributed knowledge based machine initiated maintenance system
US5828583A (en) * 1992-08-21 1998-10-27 Compaq Computer Corporation Drive failure prediction techniques for disk drives
US5535335A (en) * 1992-12-22 1996-07-09 International Business Machines Corporation Method and system for reporting the status of an aggregate resource residing in a network of interconnected real resources
US6446224B1 (en) * 1995-03-03 2002-09-03 Fujitsu Limited Method and apparatus for prioritizing and handling errors in a computer system
US6467054B1 (en) 1995-03-13 2002-10-15 Compaq Computer Corporation Self test for storage device
US5761411A (en) * 1995-03-13 1998-06-02 Compaq Computer Corporation Method for performing disk fault prediction operations
US5758057A (en) * 1995-06-21 1998-05-26 Mitsubishi Denki Kabushiki Kaisha Multi-media storage system
US5923876A (en) * 1995-08-24 1999-07-13 Compaq Computer Corp. Disk fault prediction system
US5845064A (en) * 1995-09-11 1998-12-01 Digital Equipment Corporation Method for testing and verification of a CPU using a reference model
US5850388A (en) * 1996-08-02 1998-12-15 Wandel & Goltermann Technologies, Inc. Protocol analyzer for monitoring digital transmission networks
US5850386A (en) * 1996-11-01 1998-12-15 Wandel & Goltermann Technologies, Inc. Protocol analyzer for monitoring digital transmission networks
US6125393A (en) * 1997-03-28 2000-09-26 International Business Machines Corporation System of compressing the tail of a sparse log stream of a multisystem environment
US5920875A (en) * 1997-03-28 1999-07-06 International Business Machines Corporation Tail compression of a sparse log stream of a computer system
US5999935A (en) * 1997-03-28 1999-12-07 International Business Machines Corporation Tail compression of a sparse log stream of a multisystem environment
US5956735A (en) * 1997-03-28 1999-09-21 International Business Machines Corporation System of compressing the tail of a sparse log stream of a computer system
US5983364A (en) * 1997-05-12 1999-11-09 System Soft Corporation System and method for diagnosing computer faults
US6311175B1 (en) 1998-03-06 2001-10-30 Perot Systems Corp. System and method for generating performance models of complex information technology systems
US6393387B1 (en) 1998-03-06 2002-05-21 Perot Systems Corporation System and method for model mining complex information technology systems
US6611877B2 (en) * 1998-06-30 2003-08-26 Sun Microsystems, Inc. System and method for aggregating registration of entities for notifications of events
US6529893B1 (en) 1999-02-26 2003-03-04 Mandel Foner Expert diagnostic system with inference generator
US6412089B1 (en) 1999-02-26 2002-06-25 Compaq Computer Corporation Background read scanning with defect reallocation
US6493656B1 (en) 1999-02-26 2002-12-10 Compaq Computer Corporation, Inc. Drive error logging
US6598179B1 (en) * 2000-03-31 2003-07-22 International Business Machines Corporation Table-based error log analysis
US6538453B1 (en) * 2000-03-31 2003-03-25 Nexpress Solutions Llc Detecting erratic resistance in temperature sensors
US6738928B1 (en) 2000-06-19 2004-05-18 Hewlett-Packard Development Company, L.P. Method and expert system for analysis of crash dumps
US20040225814A1 (en) * 2001-05-29 2004-11-11 Ervin Joseph J. Method and apparatus for constructing wired-AND bus systems
US7149838B2 (en) * 2001-05-29 2006-12-12 Sun Microsystems, Inc. Method and apparatus for configuring multiple segment wired-AND bus systems
US6842806B2 (en) 2001-05-29 2005-01-11 Sun Microsystems, Inc. Method and apparatus for interconnecting wired-AND buses
EP1378827A1 (de) * 2002-07-05 2004-01-07 Alcatel Verfahren zum Wechseln der Sprache einer graphischen Anwendung ohne die Anwendung zu verlassen und wieder zu starten
US7484125B2 (en) * 2003-07-07 2009-01-27 Hewlett-Packard Development Company, L.P. Method and apparatus for providing updated processor polling information
US7437704B2 (en) * 2003-08-28 2008-10-14 Ines Antje Dahne-Steuber Real-time generation of software translation
US7213176B2 (en) * 2003-12-10 2007-05-01 Electronic Data Systems Corporation Adaptive log file scanning utility
US20060026466A1 (en) * 2004-08-02 2006-02-02 Bea Systems, Inc. Support methodology for diagnostic patterns
JP4125274B2 (ja) * 2004-08-26 2008-07-30 キヤノン株式会社 画像入出力装置および情報処理方法およびコンピュータが読み取り可能なプログラムを格納した記憶媒体およびプログラム
US20060100806A1 (en) * 2004-11-10 2006-05-11 Matsushita Electric Industrial Co., Ltd. Enhanced system for electronic storage device calibrations
US7788205B2 (en) 2006-05-12 2010-08-31 International Business Machines Corporation Using stochastic models to diagnose and predict complex system problems
US7349826B2 (en) 2006-05-23 2008-03-25 International Business Machines Corporation Causal ladder mechanism for proactive problem determination, avoidance and recovery
US20090259890A1 (en) * 2008-04-14 2009-10-15 Turin Networks Method & apparatus for hardware fault management
DE102008019983B4 (de) 2008-04-21 2014-12-18 Maschinenbau Heinrich Hajek Gmbh & Co. Verfahren zum Betrieb einer Schneidemaschine mit Gehäuseüberdruck und Vorrichtung
CN103761173A (zh) * 2013-12-28 2014-04-30 华中科技大学 一种基于日志的计算机系统故障诊断方法及装置
US10044556B2 (en) * 2015-06-23 2018-08-07 International Business Machines Corporation Identifying performance-degrading hardware components in computer storage systems
CN105577440B (zh) * 2015-12-24 2019-06-11 华为技术有限公司 一种网络故障时间定位方法和分析设备
US10810103B2 (en) * 2016-12-14 2020-10-20 Vmware, Inc. Method and system for identifying event-message transactions
US11074121B2 (en) 2019-03-20 2021-07-27 International Business Machines Corporation Predicting failure of a magnetic tape head element

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3704363A (en) * 1971-06-09 1972-11-28 Ibm Statistical and environmental data logging system for data processing storage subsystem
US3815097A (en) * 1972-08-20 1974-06-04 Memorex Corp Disc drive diagnostic display apparatus
US3928830A (en) * 1974-09-19 1975-12-23 Ibm Diagnostic system for field replaceable units
DE2654389C3 (de) * 1976-12-01 1980-07-31 Ibm Deutschland Gmbh, 7000 Stuttgart Wartungssteuerung mit Prozessor und Speicher zur Fehleranalyse und -diagnose für elektronische Datenverarbeitungsanlagen und Verfahren zu deren Betrieb
JPS5431212A (en) * 1977-08-15 1979-03-08 Nec Corp Monitor circuit for digital signal transmission line
US4242751A (en) * 1978-08-28 1980-12-30 Genrad, Inc. Automatic fault-probing method and apparatus for checking electrical circuits and the like
JPS594054B2 (ja) * 1979-04-17 1984-01-27 株式会社日立製作所 マルチプロセツサ障害検出方式
US4339657A (en) * 1980-02-06 1982-07-13 International Business Machines Corporation Error logging for automatic apparatus
JPS56137455A (en) * 1980-03-31 1981-10-27 Fujitsu Ltd Maintenance system against failure
JPS57109061A (en) * 1980-12-26 1982-07-07 Mitsubishi Electric Corp Forecasting method for equipment deterioration of computer system
US4554661A (en) * 1983-10-31 1985-11-19 Burroughs Corporation Generalized fault reporting system
IL74952A0 (en) * 1984-05-04 1985-08-30 Gould Inc Method and system for improving the operational reliability of electronic systems formed of subsystems which perform different functions
US4633467A (en) * 1984-07-26 1986-12-30 At&T Bell Laboratories Computer system fault recovery based on historical analysis
US4644479A (en) * 1984-07-31 1987-02-17 Westinghouse Electric Corp. Diagnostic apparatus
US4754409A (en) * 1985-06-26 1988-06-28 International Business Machines Corporation Method for dynamically collecting current data from specified external processes and procedures for use in an expert system
US4710924A (en) * 1985-09-19 1987-12-01 Gte Sprint Communications Corp. Local and remote bit error rate monitoring for early warning of fault location of digital transmission system
US4713810A (en) * 1985-09-19 1987-12-15 Gte Sprint Communications Corp. Diagnostic technique for determining fault locations within a digital transmission system
US5060279A (en) * 1986-04-10 1991-10-22 Hewlett-Packard Company Expert system using pattern recognition techniques
JPS6359638A (ja) * 1986-08-25 1988-03-15 Mitsubishi Electric Corp エラ−ログ方式
US4841456A (en) * 1986-09-09 1989-06-20 The Boeing Company Test system and method using artificial intelligence control
US4769761A (en) * 1986-10-09 1988-09-06 International Business Machines Corporation Apparatus and method for isolating and predicting errors in a local area network
US4847795A (en) * 1987-08-24 1989-07-11 Hughes Aircraft Company System for diagnosing defects in electronic assemblies
US4817092A (en) * 1987-10-05 1989-03-28 International Business Machines Threshold alarms for processing errors in a multiplex communications system
JPH01118934A (ja) * 1987-10-31 1989-05-11 Nec Corp エラー情報の解析・編集出力方式
US4866712A (en) * 1988-02-19 1989-09-12 Bell Communications Research, Inc. Methods and apparatus for fault recovery
US5090014A (en) * 1988-03-30 1992-02-18 Digital Equipment Corporation Identifying likely failure points in a digital data processing system
US4932028A (en) * 1988-06-21 1990-06-05 Unisys Corporation Error log system for self-testing in very large scale integrated circuit (VLSI) units
US4922491A (en) * 1988-08-31 1990-05-01 International Business Machines Corporation Input/output device service alert function

Also Published As

Publication number Publication date
AU3088889A (en) 1989-10-05
DE68924923D1 (de) 1996-01-11
US5469463A (en) 1995-11-21
EP0335507B1 (de) 1995-11-29
JPH0758474B2 (ja) 1995-06-21
EP0335507A3 (de) 1991-06-12
CA1318030C (en) 1993-05-18
AU602808B2 (en) 1990-10-25
JPH0216640A (ja) 1990-01-19
EP0335507A2 (de) 1989-10-04

Similar Documents

Publication Publication Date Title
DE68924923T2 (de) Expertensystem zur Identifizierung wahrscheinlicher Ausfallspunkte in einem digitalen Verarbeitungssystem.
DE68924226T2 (de) Dienstwarnsignalfunktion für Eingangs-/Ausgangsgerät.
DE69700512T2 (de) Ereignisbenachrichtigung in einem Rechnersystem mit einer Mehrzahl von Speichergeräten
DE69700637T2 (de) Host-basierendes RAID-5 und nicht flüchtige RAM-Integration und Verfahren hierfür
DE69228986T2 (de) Durch hierarchisch verteilte wissenbasierte maschine ausgelöste wartungs-vorrichtung und -verfahren
DE69714507T2 (de) Einrichtung und Verfahren zur On-line-Überwachung von Speichern
US5090014A (en) Identifying likely failure points in a digital data processing system
DE68926130T2 (de) Diagnoseexpertensystem
DE69937768T2 (de) Externe Speichervorrichtung und Verfahren zur Datensicherung
DE69615611T2 (de) Externes Speichersystem mit redundanten Speichersteuerungen
DE68913629T2 (de) Satzverriegelungsprozessor für vielfachverarbeitungsdatensystem.
DE69601150T2 (de) Überwachungsmechanismus für Geräteein-/-ausgabe eines Computerbetriebssystems
DE69804099T2 (de) Initialisierung von unterteilten datenobjekten
DE69802833T2 (de) Diagnose redundanter steuerungen, die eine private lun verwenden
DE68929289T2 (de) Expertensystem für fehlerdiagnose
DE69702169T2 (de) Berechtigung zum abgetrennten Schreiben in einer Benutzer/Anbieter-Rechneranordnung
DE69502651T2 (de) Asynchrone Datenfernduplizierung
DE3629178C2 (de)
DE19747396A1 (de) Verfahren und Anordnung zur Schaffung einer Ferndiagnose für ein elektronisches System über ein Netz
DE19515661C2 (de) Halbleiter-Plattenvorrichtung
DE60002908T2 (de) Vorrichtung und verfahren zur verbesserten fehlerortung und diagnose in rechnern
DE3876459T2 (de) Speicher und deren pruefung.
DE19827432C2 (de) Verfahren zur Speicherung von Rechner-Zustandsdaten bei einem Störfall, der ein anschließendes Wieder-Hochfahren des Rechners erfordert
DE69927223T2 (de) Ausfallsicherheit eines Mehrrechnersystems
EP1358554A1 (de) Automatische inbetriebnahme eines clustersystems nach einem heilbaren fehler

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Free format text: GRUENECKER, KINKELDEY, STOCKMAIR & SCHWANHAEUSSER, 80538 MUENCHEN