DE68924923T2

DE68924923T2 - Expertensystem zur Identifizierung wahrscheinlicher Ausfallspunkte in einem digitalen Verarbeitungssystem.

Info

Publication number: DE68924923T2
Application number: DE68924923T
Authority: DE
Inventors: Larry Emlich; James Nicholson; Herman Polich
Original assignee: Digital Equipment Corp
Current assignee: Digital Equipment Corp
Priority date: 1988-03-30
Filing date: 1989-03-02
Publication date: 1996-07-25
Anticipated expiration: 2009-03-03
Also published as: AU3088889A; DE68924923D1; US5469463A; EP0335507B1; JPH0758474B2; EP0335507A3; CA1318030C; AU602808B2; JPH0216640A; EP0335507A2

Description

1. Gebiet der Erfindung

Die Erfindung betrifft im allgemeinen das Gebiet digitaler Datenverarbeitungssysteme und insbesondere Mechanismen zum Diagnostizieren von Ausfällen und Fehlern in solchen Systemen.

2. Beschreibung des Stands der Technik

Während der letzten Jahre ist es verstärkt und merklich wichtiger geworden, Computer für Staat und Industrie zur Verfügung zu haben. Es wurden Computer für den Einsatz nicht nur in ziemlich konventionellen Tätigkeiten wie Buchhaltung, Rechnungswesen und Lagerbestandkontrolle entwickelt und angepaßt, sondern auch für mehr esoterische Gebiete wie Konstruktion, Maschinenbau und Produktion. Computer wurden auch an den Einsatz in vielen Bürotätigkeiten angepaßt wie die Dokumentenerstellung unter Verwendung von Textverarbeitung und Graphikdesign. Ebenso ist der Zugriff auf computerisierte Datenbanken entweder an Ort und Stelle oder über Telefonleitungen in wissensintensiven Tätigkeiten wichtig.
Beim Versuch, der stets steigenden Nachfrage sowohl nach Verarbeitungsleistung als auch danach, daß die Benutzer Information gemeinsam zur Verfügung haben, gerecht zu werden, wurden die einzelnen Computer schneller und komplexer gemacht und mehrere Computer in Gruppen (clusters) oder Netzwerken verbunden, um das gemeinsame Benutzen von Daten und Resourcen, wie beispielsweise Telekommunikationsverbindungen, Drucker etc., für die Benutzer zu vereinfachen. In dem Maß, in dem solche Computersysteme immer komplexer werden, wird auch die Wahrscheinlichkeit eines Ausfalls entweder in der Hardware oder in der Software immer größer. Eine Anzahl von Strategien wurde erdacht, um den Ausfall wie auch die Instandsetzungskosten, die als Ergebnis eines Aufalls auftreten können, zu minimieren. Typischerweise beruhen solche Strategien jedoch auf dem Auftreten eines Ausfalls, den ein Benutzer feststellen kann, wenn er eine Unterbrechung in der Bedienung oder, möglicherweise noch schlimmer, einen Datenverlust bemerkt. An diesem Punkt versucht ein Kundendiensttechniker normalerweise, die ausgefallene Komponente zu identifizieren und zu reparieren, was meherere Anfahrten des Kundendiensts an den Ort des Computers und umfassendes Laufenlassen von Diagnoseprogrammen zur Identifizierung der ausgefallenen Komponente erforderlich machen kann. Dadurch kann die Reparatur ziemlich kostspielig werden, nicht nur was die Kundendienstkosten anbelangt, sondern auch im Hinblick darauf, daß der Computer entweder nicht zur Verfügung steht oder nur ein niedrigeres Leistungsniveau bietet.

Zusammenfassung der Erfindung

Die Erfindung liefert ein neues und verbessertes Expertensystem zur Verwendung im Zusammenhang mit einem digitalen Computersystem, das die Operationen der verschiedenen Komponenten des Computersystems überwacht und erkennt, wann eine Komponente voraussichtlich ausfällt und so deren Ersetzung ermöglicht. Das Expertensystem identifiziert auf diese Weise wahrscheinliche Ausfallpunkte im Computersystem, bevor ein Ausfall von einem Benutzer oder Operator bemerkt werden kann. Darüber hinaus kann das Expertensystem das Betriebssystem des Computersystems über die wahrscheinlich ausfallende Komponente in Kenntnis setzen, so daß das Betriebssystem Maßnahmen ergreifen kann, um einen Datenverlust oder ein Herabsetzen der Systemleistung zu minimieren.
Kurz zusammengefaßt bestimmt das Expertensystem die Wahrscheinlichkeit eines Ausfalls einer Einheit in einem Computersystem. Das Betriebssystem eines Computersystems führt ein Protokoll über die Fehler, die in jeder Einheit im Computersystem auftreten. Wenn in das Protokoll für eine bestimmte Einheit eine vordefinierte Anzahl von Fehlern eingetragen wurde, sucht das Expertensystem die sich auf diese Einheit beziehenden Fehlereinträge heraus und verarbeitet sie, um festzustellen, ob voraussichtlich ein Ausfall auftreten wird. Dabei ist die vom Expertensystem durchgeführte Verarbeitung so koordiniert, daß Tests, die sich auf Komponenten mit zunehmender Besonderheit und abnehmender Allgemeinheit beziehen, nach den Tests durchgeführt werden, die sich auf allgemeinere Komponenten beziehen.

Kurze Beschreibung der Zeichnungen

Die Erfindung ist in den beigefügten Ansprüchen detailliert ausgeführt. Die unabhängigen Ansprüche sind in der zweigeteilten Form geschrieben und basieren auf der Lehre aus dem Dokument "HEWLETT-PACKARD JOURNAL, Band 37, Nr. 11, November 1986, Seiten 30 - 33, D.B. Wasmuth et al." mit dem Titel "Predictive support: anticipating hardware failures". Die oben genannten und weitere Vorteile der Erfindung können unter Bezugnahme auf die folgenden Beschreibung zusammen mit den beigefügten Zeichnungen besser verstanden werden, wobei
Fig. 1 ein funktionelles Blockdiagramm ist, das die Hauptkomponenten eines erfindungsgemäß aufgebauten Expertensystems darstellt; und
Fig. 2A bis 2D Flußdiagramme darstellen, die Ausfallanalysen, die das in Fig. 1 dargestellte Expertensystem durchführt, im Detail aufzeigen.

Detailierte Beschreibung eines veranschaulichenden Ausführungsbeispiels

Fig. 1 ist ein funktionelles Blockdiagramm eines Expertensystems zur Identifzierung wahrscheinlicher Ausfallpunkte in einem digitalen Datenverarbeitungssystem, d.h. einem Computersystem. Einleitend soll gesagt werden, daß einzusehen ist, daß das Expertensystem in Form eines vom Computersystem verarbeiteten Computerprogramms sein kann. Typischerweise umfaßt ein Computersystem einen oder mehrere Computer. Wenn das Computersystem eine Vielzahl von Computern umfaßt, sind die Computer über Kommunikationsverbindungen miteinander verbunden, so daß sie Gruppen oder Netzwerke bilden, um den unterschiedlichen Computern das gemeinsame Benutzen von Daten und Programmen zu ermöglichen.
Jeder Computer in einem Computersystem umfaßt eine Anzahl von Einheiten, einschließlich einem oder mehreren Prozessoren und Speichern, und kann auch Massenspeicher-Untersysteme enthalten wie beispielsweise Platten- und/oder Bandspeichersysteme als Backup- und Hilfsspeicher und Eingabe-/Ausgabesysteme wie beispielsweise Datensichtgeräte, Drucker, Telekommunikationsverbindungen usw., wobei alle Einheiten mit Bussen wahlweise miteinander verbunden werden. Das Expertensystem, das zusammen mit jedem der Computer im Netzwerk oder in der Gruppe laufen gelassen werden kann, erkennt wahrscheinliche Ausfälle aller darin enhaltenen Einheiten. In einem spezifischen Ausführungsbeispiel erkennt das Expertensystem wahrscheinliche Ausfälle eines spezifischen Einheitstyps, insbesondere eines Plattenspeicher-Untersystems, doch ist einzusehen, daß ähnliche Expertensysteme, die die Erfindung inkorporieren, zur Erkennung wahrscheinlicher Ausfälle in jedem Typ von Einheit, den das Computersystem umfassen kann, verwendet werden können.
Unter Bezugnahme auf Fig. 1 umfaßt das Expertensystem eine Vielzahl von Operationselementen, die über eine Vielzahl von Datenstrukturen Störungsinformationen übertragen, die sich auf intermittierende oder permanente Ausfälle in den verschiedenen, das System umfassenden Einheiten bezieht. Wie herkömmlich unterhält das Betriebssystem 10 des Computersystems, das die verschiedenen, im Computersystem beinhalteten Hardware- und Software-Resourcen verwaltet, ein Fehlerprotokoll 11, in dem es Indizes aufzeichnet, die die verschiedenen Ausfälle, Fehler etc. betreffen und vom Betrieb der Einheiten im Computersystem herrühren.
Wenn das Betriebssystem 10 einen Eintrag im Fehlerprotokoll 11 speichert, gibt es auch ein Überwachungsmodul 12, das ein Teil des Expertensystems ist, frei. Nach der Freigabe durch das Betriebssystem 10 kategorisiert das Überwachungsmodul die verschiedenen Einträge im Fehlerprotokoll 11, um festzulegen, ob ausreichend Einträge in Bezug auf einen möglichen Ausfall einer bestimmten Einheit vorhanden sind, so daß eine weitere Analyse gerechtfertigt ist, und wenn dies der Fall ist, erzeugt es eine Aufzeichnung zum Eintragen in eine Störungsschlange 13. Es ist einzusehen, daß der wahrscheinliche Ausfall einer Einheit oder einer Komponente davon von mehreren Fehlertypen angekündigt werden kann, die der Einheit direkt zugeschrieben werden können oder nicht oder mit der Einheit in Verbindung stehen oder nicht. Der bevorstehende Ausfall einer Businterface- Komponente einer Einheit oder einer Busleitung selbst kann Fehler auftreten lassen, die für verschiedene, mit dem Bus verbundene Einheiten angezeigt sind. Die Zuschreibung von Fehlern zur Ausfallwahrscheinlichkeit von bestimmten Einheiten hängt vom bestimmten Computersystem ab, in dem das Expertensystem läuft.
Das Überwachungsmodul 12 kategorisiert in jedem Fall nach der Freigabe durch das Betriebssystem 10 die verschiedenen Einträge im Fehlerprotokoll 11, um festzulegen, ob die darin aufgeführten Fehler zufällig oder vorübergehend sind oder ob sie angeben, daß eine bestimmte Einheit im Computersystem wahrscheinlich ausfällt. Bei dieser Operation kann das Überwachungsmodul 12 Einträge im Fehlerprotokoll mit einzelnen Einheiten davon in Verbindung bringen und festlegen, ob die Anzahl der Einträge, die mit einer bestimmten Einheit in Verbindung stehen, einen bestimmten vordefinierten Schwellenwert überschreitet. Wenn dies nicht der Fall ist, beendet das Überwachungsmodul 12 den Vorgang und wartet, daß das Betriebssystem 10 es erneut aktiviert.
Wenn andererseits das Überwachungsmodul 12 feststellt, daß die Anzahl der Einträge, die mit einer bestimmten Einheit in Verbindung stehen, einen vordefinierten Schwellenwert überschreiten, erzeugt das Überwachungsmodul 12 einen Störungseintrag und trägt ihn in die Störungsschlange 13 ein. Der Störungseintrag kennzeichnet die bestimmte Einheit und die Einträge im Fehlerprotokoll 11, die sich auf diejenige Einheit beziehen, die die Erzeugung des Störungseintrags auslöste. Darüber hinaus aktiviert das Überwachungsmodul, wenn der Störungseintrag der erste Eintrag in der Störungsschlange 13 ist, einen Störungsverwalter 14, der die Störungseinträge in der Störungsschlange 13 verarbeitet.
Der Störungsverwalter 14 umfaßt zwei Module, nämlich ein Erfassungsmodul 15 und ein Analysatormodul 16. Wenn das Erfassungsmodul anfangs vom Überwachungsmodul aktiviert wird, holt es einen Störungseintrag aus der Störungsschlange 13, identifiziert die Einheit im Computersystem, die die Erzeugung des Störungseintrags verursachte, und holt aus dem Fehlerprotokoll 11 diejenigen Fehlereinträge des Fehlerprokolls 11, die mit der Einheit in Verbindung stehen. Das Erfassungsmodul 15 erzeugt dann ein Fehlerteilprotokoll 17, das die Fehlereinträge aus dem Fehlerprotokoll 11 enthält, die mit der Einheit in Verbindung stehen, und aktiviert das Analysatormodul 16.
Das Analysatormodul 16 analysiert die vom Erfassungsmodul 15 bereitgestellten Fehlereinträge im Fehlerteilprotokoll 17, um festzustellen, ob die Einheit voraussichtlich ausfällt. Das Analysatormodul 16 führt die Analyse in Verbindung mit verschiedenen Ausfalltheorien, die sich auf die Einheit beziehen, durch, wie unten im Detail zusammen mit den Figuren 2A bis 2D beschrieben ist, und bestimmt die Wahrscheinlichkeit des Ausfalls der Einheit. Kurz gesagt stellt jeder Fehlertyp eine Aussage über die Wahrscheinlichkeit des Ausfalls der Einheit entsprechend einer oder mehrerer Ausfalltheorien dar. Jede Fehlertheorie ihrerseits bezieht sich auf eine spezifische Art aus einer Vielzahl von Arten, wie die Einheit ausfallen kann, wobei jede Ausfallart auf eine bestimmte Komponente in der Einheit, die ausfallen kann, gerichtet ist. Jede Ausfalltheorie erfordert, daß eine vordefinierte Anzahl von Fehlern, die sich auf die Komponente beziehen, auftritt, damit das Expertensystem und insbesondere das Analysatormodul 16 das Auftreten des Ausfalls für wahrscheinlich halten können.
Das Analysatormodul 16 bestimmt, ob das Fehlerteilprotokoll 17 genügend Fehlereinträge enthält, die sich auf eine der verschiedenen Ausfalltheorien beziehen, und erzeugt, wenn dies der Fall ist, einen Störungstheorieeintrag, der die Einheit und die Störungstheorie kennzeichnet, und speichert diese in einer Theoriedatei 20.
Nachdem das Analysatormodul 16 einen Störungstheorieeintrag erzeugt hat und diesen in der Theoriedatei gespeichert hat, aktiviert es ein Benachrichtungsmodul, fragt die Theoriedatei 20 ab und erzeugt unter Verwendung der darin gespeicherten Störungstheorieeinträge eine Operatorbenachrichtigungs-Nachricht um den Systemoperator von der Wahrscheinlichkeit eines Ausfalls in Kenntnis zu setzen. Die Operatorbenachrichtigungs-Nachricht erlaubt dem Operator, Wiederherstellungsmaßnamen im Zusammenhang mit dem hiermit angegebenen Ausfall einzuleiten. Das Benachrichtigungsmodul 21 erzeugt ebenfalls eine Kundendienstbenachrichtigungs-Nachricht, die Angaben der Fehlertypen beinhaltet, die zur Erfüllung einer Ausfalltheorie führten, sowie die Feststellung, daß wahrscheinlich ein Ausfall auftritt, was von einem Kundendiensttechniker während der Reparatur verwendet werden kann.
Nach der Aktivierung durch das Analysatormodul 16 fragt das Wiedergewinnungsmodul 22 auch die Theoriedatei 20 ab und startet ausgewählte Wiedergewinnungsoperationen, die in Reaktion auf die verschiedenen dort gespeicherten Störungstheorieeinträge angezeigt sein können. Besonders in einer Ausführungsform, in der das Expertensystem zur Bestimmung der Wahrscheinlichkeit von Ausfällen von verschiedenen Plattenspeichereinheiten in einem Computersystem verwendet wird, kann, wenn ein Störungstheorieeintrag in der Theoriedatei 20 angibt, daß eine Plattenspeichereinheit ausfallen kann, das Wiedergewinnungsmodul 22 das Betriebssystem aktivieren, um eine andere Plattenspeichereinheit als Schatten- oder Backup-Kopie zu verwenden. In diesem Fall gibt das Betriebssystem auf der ausfallenden Plattenspeichereinheit gespeicherte Daten frei, damit sie ebenfalls auf der anderen Plattenspeichereinheit gespeichert werden, wodurch die Wahrscheinlichkeit, daß Daten verloren gehen, verringert wird. Des weiteren stehen die so gespeicherten Daten auf der anderen Plattenspeichereinheit während der Reparatur zur Verfügung.
Wie oben erwähnt analysiert das Analysatormodul 16 die Fehlereinträge im Fehlerteilprotokoll 17 in Verbindung mit einer Vielzahl von Ausfalltheorien, um festzustellen, ob die Einheit wahrscheinlich ausfällt. Wenn das Analysatormodul 16 feststellt, daß die Fehlereinträge keiner der Ausfalltheorien entsprechen, gibt es die Steuerung an das Erfassungsmodul 15 zurück, das dann den nächsten Eintrag in der Störungsschlange 13 verarbeitet. Der Störungsverwalter 14 verarbeitet iterativ die vom Überwachungsmodul 12 bereitgestellten Einträge in der Störungsschlange 13, bis alle Einträge verarbeitet sind. Es ist einzusehen, daß im Computersystem das Überwachungsmodul 12 und die Module, die der Störungsverwalter 14 umfaßt, gleichzeitig laufen können und auf diese Weise das Überwachungsmodul 12 Einträge in die Störungsschlange 13 laden kann, während gleichzeitig Einträge durch den Störungsverwalter 14 und insbesondere durch das Erfassungsmodul 15 für die Verarbeitung entfernt werden.
Wie oben beschrieben, führt das Analysatormodul 16 Analysen unter Verwendung der Fehlereinträge im Fehlerteilprotokoll 17 in Verbindung mit einer Vielzahl von Ausfalltheorien durch. Die Ausfalltheorien werden hierarchisch angewendet, da Fehler, die vom Betriebssystem 10 einer Vielzahl von Komponenten desselben Typs in einer Einheit zugeschrieben werden können, tatsächlich den Nachweis für den wahrscheinlichen Ausfall einer anderen Komponente liefern können.
Beispielsweise können in einer Plattenspeichereinheit, während eine Anzahl von einem einzelnen Schreib-/Lesekopf zugeschriebenen Fehlern einen wahrscheinlichen Ausfall dieses Kopfes anzeigen kann, zufällige, einer Vielzahl von Schreib-/Leseköpfen zugeschriebene Fehler den wahrscheinlichen Ausfall einer anderen Komponente, die mit all diesen Köpfen verbunden sein kann, anzeigen, wie z.B. eine Schaltung, die den Köpfen die Energie zum Schreiben liefert oder die die Lesesignale von den Köpfen empfängt. Um sicherzustellen, daß es eher als alle Köpfe die andere Komponente ist, die als wahrscheinlich ausfallend gekennzeichnet ist, führt das Analysatormodul 16 die Analyse in Verbindung mit der anderen Komponente durch, bevor es die Analysen in Verbindung mit den Köpfen durchführt.
In einer Ausführungsform sind die Ausfalltheorien in drei Gruppen unterteilt, die allgemein als Kommunikations-Ausfalltheorien, beim Laufwerk identifizierte, nicht Datenträger (Medium)-bezogene Ausfalltheorien und als Datenträger (Medium)-bezogene Ausfalltheorien bezeichnet werden. Die Kommunikations- Ausfalltheorien richten sich im allgemeinen auf Fehler in Verbindung mit Informationen, die von der Laufwerk-Speichereinheit empfangen wurden; dazu gehören auch solche Fehler als Ausfallanzeichen der Plattenspeichereinheit, einen Befehl innerhalb eines ausgewählten Auszeit-Intervalls auszuführen, Anzeichen von Ausfällen von bestimmten Signalen von der Plattenspeichereinheit, von Paritätsfehlern in Signalen von der Plattenspeichereinheit usw. Die Steuerungseinrichtung im Massenspeicher-Subsystem, zu dem die Plattenspeichereinrichtung gehört, kann das Betriebssystem 10 über jegliche derartige Fehler in Kenntnis setzen in Verbindung mit Anfragen nach Fehlerwiedergewinnung mittels beispielsweise einem Unterbrechungsservice.
Die beim Laufwerk identifizierten, nicht Datenträger-bezogenen Ausfalltheorien richten sich im allgemeinen auf Fehler in Verbindung mit Informationsübertragungen an die Laufwerk-Speichereinheit durch andere Einheiten im Computersystem. Die Plattenspeichereinheit kann das Betriebssystem 10 über jegliche derartige Fehler in Kenntnis setzen in Verbindung mit Anforderungen nach Fehlerwiedergewinngung durch beispielsweise einen Unterbrechungsservice.
Die Datenträger-bezogenen Ausfalltheorien sind schließlich im allgemeinen auf solche Fehler gerichtet, die durch Zeitablauf, Kopf-/Plattenbewegung oder Fehlererkennung-/-korrekur-Schaltungen, die die Wahrscheinlichkeit eines Ausfalls von einem oder mehrerer Schreib-/Leseköpfe anzeigen können, sowie durch Schaltungen zum Erregen der Köpfe, Servoschaltungen, Ausfälle wie beispielsweise Kratzer in den Medien usw. innerhalb der Plattenspeichereinheit angezeigt werden können, und sie können ebenfalls die Wahrscheinlichkeit des Ausfalls der Fehlererkennung-/-korrektur-Schaltung selbst angeben.
Auf diesem Hintergrund sind die allgemeinen Operationen, die eine Ausführungsform des Analysatormoduls 16 in Verbindung mit den Fehlereinträgen im Fehlerteilprotokoll 17 durchführt, in den Figuren 2A-1 und 2A-2 gezeigt. Besonders ist dabei zu würdigen, daß die durchgeführten spezifischen Operationen auf spezifischen Einheiten und deren Komponenten basieren, mit denen das Expertensystem (Fig. 1) verwendet werden soll. Unter Bezugnahme auf Fig. 2A-1 führt das Analysatormodul 16 zunächst eine Analyseoperation in Zusammenhang mit den Kommunikations-Ausfalltheorien durch (Schritt 30). Die in Schritt 30 durchgeführte Analyseoperation ist unten in Zusammenhang mit Fig. 2B beschrieben. Wenn das Analysatormodul 16 feststellt, daß eine Kommunikations-Ausfalltheorie erfüllt ist (Schritt 31), erzeugt es einen Störungstheorieeintrag und speichert ihn in der Theoriedatei 20 (Schritt 32). Das Analysatormodul 16 aktiviert danach das Benachrichtigungsmodul 21 zur Erzeugung einer geeigneten Nachricht für den Operator und das Wiedergewinnungsmodul 22 zum Ergreifen passender Wiedergewinnungsoperationen (Schritt 33).
Wenn das Analysatormodul 16 in Schritt 31 feststellt, daß die Fehlerangaben keiner Kommunikations-Ausfalltheorie gerecht werden, fährt das Analysatormodul mit Schritt 34 fort, in dem es eine Analyseoperation in Verbindung mit den beim Laufwerk identifizierten, Datenträger-bezogenen Ausfalltheorien durchführt. Die in Schritt 34 durchgeführte Analyseoperation ist unten in Zusammenhang mit Fig. 2C beschrieben. Wenn das Analysatormodul 16 feststellt, daß einer beim Laufwerk identifizierten, Datenträger-bezogenen Ausfalltheorie entsprochen wird (Schritt 35), erzeugt es einen Störungstheorieeintrag und speichert ihn in der Theoriedatei 20 (Schritt 36). Das Analysatormodul 16 aktiviert danach das Benachrichtigungsmodul 21 zur Erzeugung einer geeigneten Nachricht für den Operator sowie das Wiedergewinnungsmodul 22 zum Ergreifen passender Wiedergewinnungsoperationen (Schritt 37).
Wenn auf der anderen Seite in Schritt 35 das Analysatormodul 16 feststellt, daß die Fehlerangaben keiner beim Laufwerk identifizierten, Datenträger- bezogenen Ausfalltheorie entsprechen, fährt das Analysatormodul mit Schritt 40 fort, in dem es eine Analyseoperation in Verbindung mit den Datenträger- bezogenen Ausfalltheorien durchführt. Die in Schritt 40 durchgeführten Analyseoperationen sind unten in Verbindung mit Fig. 2D beschrieben. Wenn das Analysatormodul 16 feststellt, daß einer Datenträger-bezogenen Ausfalltheorie Genüge geleistet wird (Schritt 41), erzeugt es einen Störungstheorieeintrag und speichert ihn in der Theoriedatei 20 (Schritt 42). Das Analysatormodul 16 aktiviert danach das Benachrichtigungsmodul 21 zur Erzeugung einer geeigneten Nachricht für den Operator sowie das Wiedergewinnungsmodul 22 zum Ergreifen passender Wiedergewinnungsoperationen (Schritt 43).
Wenn schließlich in Schritt 41 das Analysatormodul 16 feststellt, daß die Fehlerangaben keiner Datenträger-bezogenen Ausfalltheorie entsprechen, fährt es mit Schritt 44 fort, in dem es den Vorgang beendet und die Steuerung an Erfassungsmodul 15 zurückgibt. Das Erfassungsmodul 15 kann dann den nächsten Störungseintrag vom Überwachungsmodul 12 in der Störungsschlange 13 verarbeiten. Wie oben beschrieben wurde, beendet das Erfassungsmodul 15 die Operation, wenn die Störungsschlange 13 leer ist, bis zur Reaktivierung durch das Überwachungsmodul 12.
Wie oben erwähnt wurde, werden die vom Analysatormodul 16 durchgeführten Operationen im Zusammenhang mit den Kommunikations-Ausfalltheorien in Verbindung mit Fig. 2B beschrieben. Diese Theorien beziehen sich auf Fehler, die vom Hostcomputer oder der die Plattenspeichereinheit steuernde Steuerungseinrichtung erkannt werden, wie beispielsweise Befehls-Auszeiten, Fehler in der Übertragung von bestimmten Signalen, Paritäts- oder Protokollfehler in Übertragungen usw. Unter Bezugnahme auf Fig. 2B bestimmt das Analysatormodul 16, ob zumindest eine vorher festgelegte Anzahl von Fehlereinträgen in das Fehlerteilprotokoll 17 sich auf Kommunikationsfehler, wie sie von der die Plattenspeichereinheit steuernden Steuereinrichtung oder vom Hostcomputer festgestellt worden sind, beziehen (Schritt 50). Wenn die Anzahl solcher Fehlereinträge nicht genügend groß ist, beendet das Analysatormodul 16 die Kommunikations-Ausfallanalyse (Schritt 51).
Wenn auf der anderen Seite das Analysatormodul 16 feststellt, daß im Fehlerteilprotokoll 17 eine ausreichende Anzahl solcher Einträge enthalten ist, fährt es mit Schritt 51 fort, um verschiedene die Fehlereinträge betreffende Verhältniszahlen, die sich auf Kommunikations-Fehler und beim Laufwerk identifizierte, nicht Datenträger-bezogene Fehler beziehen, bereitzustellen (Schritt 52). Da Fehler, die Kommunikations-Einträge kennzeichnende Fehlereinträge verursachen, ebenso auch beim Laufwerk identifizierte, nicht Datenträger-bezogene Fehler kennzeichnende Fehlereinträge verursachen können, helfen die in Schritt 52 bereitgestellten Verhältniszahlen bei der Feststellung, was die Ursache der Fehler ist. Wenn die Verhältniszahlen nicht angeben, daß die Fehler aufgrund von Kommunikations- Ausfällen auftreten (Schritt 53), beendet das Analysatormodul 16 den Vorgang (Schritt 54).
Wenn andererseits das Analysatormodul 16 in Schritt 53 feststellt, daß die Verhältniszahlen angeben, daß die Fehler aufgrund von Kommunikations-Ausfall auftreten, erzeugt es einen Störungstheorieeintrag, und gibt auf diese Weise die Einfügung in die Theoriedatei 20 an (Schritt 55) und beendet den Vorgang (Schritt 56).
Wenn das Analysatormodul 16 entweder in Schritt 51 oder 53 den Vorgang beendet, fährt es mit der Durchführung der sich auf die beim Laufwerk identifizierten, nicht Datenträger-bezogenen Ausfalltheorien beziehenden Analysen (Schritt 34, Fig. 2A-1) fort, was in Fig. 2C dargestellt ist. Diese Theorien betreffen Fehler, die von der Plattenspeichereinheit erfaßt worden sind, wie beispielsweise Fehler in der Übertragung von bestimmten Signalen, Paritäts- oder Protokollfehlern in Übertragungen usw. Unter Bezugnahme auf Fig. 2C bestimmt das Analysatormodul anfangs, ob das Fehlerteilprotokoll 17 eine Schwellenzahl von Fehlereinträgen enthält, die sich auf beim Laufwerk identifizierten, nicht Datenträger-bezogenen Fehler beziehen. Wenn das Fehlerteilprotokoll 17 die Schwellenzahl solcher Fehlereinträge nicht enthält, fährt das Analysatormodul 16 mit Schritt 61 fort, in dem es den Vorgang beendet.
Wenn andererseits das Analysatormodul 16 feststellt, daß das Fehlerteilprotokoll 17 die Schwellenzahl solcher Fehlereinträge enthält, bestimmt es dann, ob sich die meisten Einträge auf einen besonderen Fehlertyp beziehen (Schritt 62), und, wenn dies der Fall ist, erzeugt es einen Störungstheorieeintrag, der den Fehlertyp für die Einfügung in die Theoriedatei 20 kennzeichnet (Schritt 63), und beendet den Vorgang (Schritt 64). Wenn kein einzelner Fehlertyp unter den Fehlereinträgen, die beim Laufwerk identifizierte, nicht Datenträger-bezogene Fehler kennzeichnen, vorherrscht, erzeugt das Analysatormodul 16 einen oder mehrere Störungstheorieeinträge, die die Fehlertypen kennzeichnen, die von der größten Anzahl von Fehlereinträgen gekennzeichnet sind, zum Speichern in der Theoriedatei 20 (Schritt 65). Nach Schritt 65 beendet das Analysatormodul den Vorgang (Schritt 66).
Wenn das Analysatormodul 16 in Schritt 61 den Vorgang beendet, fährt es mit der Durchführung der Analyse, die Datenträger-bezogenen Ausfalltheorien betrifft (Schritt 40, Fig. 2A-2), fort, die in Figuren 2D-1 bis 2D-8 beispielhaft dargestellt sind. Kurz gesagt beziehen sich die Datenträger-bezogenen Ausfalltheorien auf zwei allgemeine Fehlerklassen. Eine Klasse, nämlich zufällige Fehler, beinhaltet im allgemeinen die Erkennung von ungültigen Headern, den Verlust von Datensynchronisation, von der Fehlererkennungs-/ und -korrekturschaltung festgestellte korrigierbare und nicht-korrigierbare Datenfehler usw. Die zweite Klasse von Datenträger-bezogenen Ausfalltheorien, nämlich beim Laufwerk identifizierte Fehler, die sich im allgemeinen auf die Laufwerksschaltung oder andere Hardwareprobleme beziehen, beinhaltet Positionierfehler, Spurabweichungsfehler und Fehler, die auf Problemen mit der Lese- und Schreibschaltung beruhen, einschließlich der Köpfe, des Servosystems usw.
Figuren 2D-1 bis 2D-8 stellen eine Serie von acht veranschaulichenden Tests dar, die das Analysatormodul 16 der Reihe nach durchführt. Die Tests sind hierarchisch geordnet, so daß spätere Tests auf die Wahrscheinlichkeit eines Ausfalls von Komponenten mit zunehmender Besonderheit gerichtet sind, da wie oben erwähnt Fehler, die vom Betriebssystem 10 einer Vielzahl von Komponenten desselben Typs mit größerer Besonderheit in einer Einheit zugeschrieben werden können, tatsächlich einen Nachweis für den wahrscheinlichen Ausfall einer anderen Komponente mit allgemeinerer Anwendbarkeit liefern. Auf diese Weise führt das Analysatormodul 16 einen Test durch, um die Wahrscheinlichkeit eines Ausfalls einer Kopfmatrix festzustellen, wie in Fig. 2D-1 gezeigt ist, bevor es einen Test durchführt, um die Ausfallwahrscheinlichkeit eines einzelnen Kopfes festzustellen, wie in Fig. 2D-8 gezeigt ist, da eine Kopfmatrix eine Komponente ist, die sich auf eine Vielzahl von Köpfen bezieht. Wenn das Analysatormodul 16 den Kopf- Ausfalltest vor dem Kopfmatrix-Test durchführen müßte, würde es wahrscheinlich das Testen mit der Feststellung beenden, daß der einzelne Kopf wahrscheinlich ausgefallen wäre und würde nie den Kopfmatrix-Test erreichen. Besonders zu würdigen ist, daß, wenn einem Test Genüge geleistet wird, d.h., wenn das Analysatormodul 16 aus einem Test in einer der Figuren 2D-1 bis 2D-8 feststellt, daß ein Ausfall wahrscheinlich ist, es nicht zu den nachfolgenden Tests weiterschreitet.
Die Abfolgen der in den Figuren 2D-1 bis 2D-8 dargestellten Operationen erklären sich im allgemeinen von selbst und werden nicht im Detail beschrieben. In jedem Test führt das Analysatormodul 16 eine vorbestimmte Reihe von Operationen in Verbindung mit Fehlereinträgen im Fehlerteilprotokoll 17 durch. Wenn den in einem Test aufgeführten Kriterien Genüge geleistet wird, erzeugt das Modul einen den wahrscheinlichen Ausfall kennzeichnenden Störungstheorieeintrag und fügt ihn in die Theoriedatei 20 ein. Anderenfalls schreitet das Analysatormodul 16 zum nächsten Test fort oder beendet im Fall des letzten Tests den Vorgang und gibt die Steuerung an das Erfassungsmodul 15 zurück.
Im allgemeinen führt das Analysatormodul 16 in einem in Fig. 2D-1 dargestellten Kopfmatrix-Ausfalltest, da sich eine Kopfmatrix auf die Operation von vier Lese-/Schreibköpfen bezieht, eine Reihe von Schritten durch, erstens um zu bestimmen, ob das Fehlerteilprotokoll 17 Fehlereinträge enthält, die sich auf mehr als einen Kopf beziehen (Schritt 92), und zweitens um festzustellen, ob sich die meisten Fehlereinträge auf Köpfe beziehen, die eine bestimmte Kopfmatrix betreffen (Schritte 94, 96 und 100). Wenn dies der Fall ist, erzeugt das Modul einen Störungstheorieeintrag zum Speichern in der Theoriedatei 20, der die Kopfmatrix als wahrscheinlich ausfallend kennzeichnet (Schritt 102).
Wenn das Analysatormodul 16 in der Fig. 2D-1 dargestellten Sequenz feststellt, daß der Kopfmatrix-Ausfall unwahrscheinlich ist, startet es einen Test, wie in Fig. 2D-2 dargestellt, um die Wahrscheinlichkeit einer fehlerhaften Plattenoberfläche festzustellen, d.h. eines im allgemeinen fehlerhaften Speichermediums. Dieser Test erfordert Fehler, die im allgemeinen gleichmäßig unter den in Verbindung mit der Plattenoberfläche operierenden Schreib-/Leseköpfen verteilt sind.
Wenn das Analysatormodul 16 feststellt, daß eine fehlerhafte Plattenoberfläche in der in Fig. 2D-2 abgebildeten Sequenz nicht indiziert ist, fährt es mit der in Fig. 2D-3 dargestellten Sequenz mit der Durchführung eines Tests zur Feststellung der Wahrscheinlichkeit fort, ob ein Sektor der Platte fehlerhaft ist, was im allgemeinen als ein Ergebnis eines "Kopf-Schlags" auftritts, d.h. eines die Platte treffenden Kopfes, und dies verursacht im allgemeinen einen Defekt in einem Sektor. In einer Plattenspeichereinheit mit mehreren Schreib-/Leseköpfen für jede Plattenoberfläche stellt das Analysatormodul 16 fest, ob zumindest eine vorbestimmte Schwellenanzahl von Fehlereinträgen im Fehlerteilprotokoll 17 zumindest einige der Köpfe auf derselben Plattenoberfläche und einen im selben Sektor auftretenden Fehler kennzeichnet.
Wenn das Analysatormodul 16 feststellt, daß ein "Kopf-Schlag" in der in Fig. 2D-3 dargestellten Sequenz nicht indiziert ist, schreitet es zur in den Figuren 2D-4(a) und 2D-4(b) dargestellten Sequenz fort, um die Wahrscheinlichkeit eines Ausfalls des Servosystems der Plattenspeichereinheit zu bestimmen. In dieser Sequenz stellt das Analysatormodul 16 zunächst fest, daß Fehlereinträge Servofehler kennzeichnen und daß sie sich auf mehrere Köpfe in der Plattenspeichereinheit beziehen. Das Analysatormodul 16 stellt dann die Wahrscheinlichkeit eines peripheralen Kratzers (Schritt 156) oder eines Radialkratzers (Schritt 161) auf der Servooberfläche der Platte fest. Wenn das Analysatormodul 16 feststellt, daß weder ein Umfangs- noch ein Radialkratzer wahrscheinlich sind, bestimmt es, daß ein allgemeiner Servoausfall wahrscheinlich ist.
Danach führt das Analysatormodul 16 einen Lesepfad-Ausfalltest (Fig. 2D-5) durch, um die Wahrscheinlichkeit eines allgemeinen Lesepfad-Ausfalls zu bestimmen. Wenn eine vorbestimmte Anzahl von Fehlereinträgen zufällige Fehler kennzeichnen, die die Erkennung von ungültigen Headern, Verlust von Datensynchronisation, korrigierbaren und nicht-korrigierbaren Datenfehlern, die von der Fehlererkennungs-/ und -korrekturschaltung erkannt wurden, usw. indizieren, bestimmt das Analysatormodul 16, daß ein allgemeiner Lesepfad-Ausfall wahrscheinlich ist.
Drei zusätzliche Tests sind in den Figuren 2D-6 bis 2D-8 dargestellt. Nach dem Lesepfad-Ausfalltest (Fig. 2D-5) führt das Analysatormodul 16 einen Test durch zur Bestimmung, ob die Köpfe auf sich gegenüberliegenden, d.h. sich zugewandten Plattenoberflächen voraussichtlich ausfallen (Fig. 2D-6), zur Feststellung, ob ein Radialkratzer auf der Plattenoberfläche vorliegt (Fig. 2D-7), und eines Tests zur Angabe, ob ein bestimmter Schreib-/Lesekopf wahrscheinlich ausfällt (Fig. 2D- 8). Der in Fig. 2D-7 dargestellte Test wird iterativ in Verbindung mit jedem der Köpfe in der Plattenspeichereinheit durchgeführt.
Es ist einzusehen, daß die spezifischen Tests und die Reihenfolge, in der sie durchgeführt werden, in Verbindung mit dem Expertensystem von spezifischen Einheiten bestimmt werden, im Zusammenhang mit welchen das Expertensystem (Fig. 1) benutzt werden soll. Soll das Expertensystem im Zusammenhang mit der Steuerungseinrichtung einer Plattenspeichereinheit wie auch mit der Plattenspeichereinrichtung selbst verwendet werden, wird vom Expertensystem gefordert, zusätzliche Tests, die auf die Steuerungseinrichtung gerichtet sind, vor der Durchführung der Tests, die auf die Plattenspeichereinheit gerichtet sind, durchzuführen. Analog, wenn das Expertensystem in Zusammenhang mit einem Gruppen- oder Netzwerk-Computersystem, das eine Vielzahl von Computern umfaßt, die miteinander über eine oder mehrere Kommunikationsverbindungen kommunizieren, verwendet wird, kann das Expertensystem auf einem Computer in dem digitalen Datenverarbeitungssystem laufen und mit geeigneten Zusätzen zum Erkennen von Fehlern in einem Prozessor, Speicher und anderen Komponententypen eines Computers verwendet werden, um die Wahrscheinlichkeit von Ausfällen, die in anderen Computern im Computersystem auftreten, zu erkennen.
Die vorstehende Beschreibung war auf ein spezifisches Ausführungsbeispiel dieser Erfindung beschränkt. Es wird jedoch offensichtlich sein, daß die Erfindung variiert und verändert werden kann, wobei einige oder alle Vorteile der Erfindung erreicht werden können. Es ist daher Aufgabe der beigefügten Ansprüche, all diese Variationen und Änderungen abzudecken, die in den Schutzumfang der Erfindung fallen.

Claims

1. Expertensystem zum Erkennen eines wahrscheinlichen Ausfalls aus einer Vielzahl von wahrscheinlichen Ausfällen von Komponenten in einem digitalen Datenverarbeitungssystem, das umfaßt:

ein Erfassungsmodul (15) zum Erfassen einer Vielzahl von gespeicherten Fehlereinträgen, wobei jeder Fehlereintrag eine Vielzahl von die Komponenten unterschiedlicher Typen kennzeichnenden, unterschiedlichen Indices enthält, die einem einzelnen Fehlerereignis in dem digitalen Datenverarbeitungssystem zugeordnet sind;

ein Analysatormodul (16) zum Analysieren der Vielzahl von unterschiedlichen Indices, die in den Fehlereinträgen enthalten sind;

wobei das Erfassungsmodul (15) und das Analysatormodul (16) für die Implementierung durch ein digitales Datenverarbeitungssystem angepaßt werden; dadurch gekennzeichnet, daß:

das Analysatormodul (16) Einrichtungen enthält, die - als mindestens ein Schritt bei der Identifzierung eines Musters von die Komponenten unterschiedlicher Typen kennzeichnenden Indices, das mit einer Ausfalltheorie aus einer Vielzahl von Ausfalltheorien übereinstimmt, - bestimmen, ob es eine im wesentlichen zufällige Verteilung der Indices im Hinblick auf eine Vielzahl von Komponenten eines gegebenen Typs oder eine Konzentration der Indices im Hinblick auf eine oder mehrere Komponenten eines gegebenen Typs gibt, wobei das Analysatormodul (16) einen der wahrscheinlichen Ausfälle einer der Komponenten auf der Basis der Ausfalltheorie identifiziert.

2. Expertensystem nach Anspruch 1, wobei das digitale Datenverarbeitungssystem eine Vielzahl von Einheiten umfaßt, wobei jede der Einheiten eine Vielzahl von Komponenten umfaßt.

3. Expertensystem nach Anspruch 2, wobei das Expertensystem des weiteren ein Überwachungsmodul (12) zum Überwachen der Fehlereinträge enthält, um zu bestimmen, ob die Anzahl der Fehlereinträge in Verbindung mit einer bestimmten Einheit einen Schwellenwert überschreitet, und wobei das Erfassungsmodul (15) die Fehlereinträge in Verbindung mit der bestimmten Einheit zum Zweck der Musteranalyse erfaßt.

4. Expertensystem nach Anspruch 3, wobei das Monitormodul (12) einen Störungseintrag für jede Einheit erzeugt, die Fehlereinträge aufweist, die den Schwellenwert überschreiten, und die Störungseinträge in eine Störungsschlange (13) einfügt.

5. Expertensystem nach Anspruch 4, wobei jeder der Störungseinträge eine Einheit und Fehlereinträge in Verbindung mit der Einheit kennzeichnet.

6. Expertensystem nach Anspruch 5, wobei das Erfassungsmodul (15) einen Störungseintrag aus der Störungsschlange (13) wiederauffindet, aus einem Fehlerprotokoll (11) die gespeicherten Fehlereinträge in Verbindung mit der in dem Störungseintrag gekennzeichneten Einheit wiederauffindet und die Fehlereinträge in ein Fehlerteilprotokoll (17) einfügt.

7. Expertensystem nach Anspruch 1, wobei das Analysatormodul (16) die Fehlereinträge in einer hierarchischen Abfolge von Musteranalyse-Schritten analysiert, in denen die Fehlereinträge für Muster getestet werden, die Fehler relativ allgemeiner Art betreffen, bevor die Fehlereinträge für Muster getestet werden, die Fehler relativ besonderer Art betreffen.

8. Expertensystem nach Anspruch 1, wobei das Expertensystem des weiteren ein Betriebssystem (10) zum Speichern der Fehlereinträge in einem Fehlerprotokoll (11) umfaßt.

9. Expertensystem nach Anspruch 1, wobei das Analysatormodul (16) die Ausfalltheorien in einer Theoriedatei (20) speichert.

10. Expertensystem nach Anspruch 9, wobei das Expertensystem des weiteren ein Benachrichtigungsmodul (21) zum Abfragen der Theoriedatei (20) umfaßt und auf der Basis einer Ausfalltheorie in der Theoriedatei (20) einen Benutzer über den wahrscheinlichen Ausfall der Komponente benachrichtigt.

11. Expertensystem nach Anspruch 9, wobei das Expertensystem des weiteren ein Wiedergewinnungsmodul (22) zum Abfragen der Theoriedatei (20) umfaßt und auf der Basis einer Ausfalltheorie in der Theoriedatei (20) Wiederauffindungsoperationen beginnt, um einen Datenverlust zu vermeiden.

12. Expertensystem nach Anspruch 1, wobei das Analysatormodul (16) den Ausfall einer Komponente vorhersagt, bevor in der Komponente tatsächlich ein Ausfall auftritt.

13. Expertensystem nach Anspruch 1, wobei das Analysatormodul (16) einen tatsächlichen Ausfall einer Komponente erkennt.

14. Verfahren zum Erkennen eines wahrscheinlichen Ausfalls aus einer Vielzahl von wahrscheinlichen Ausfällen von Komponenten in einem digitalen Datenverarbeitungssystem, das folgende Schritte umfaßt:

Speichern einer Vielzahl von gespeicherten Fehlereinträgen in einem Fehlerprotokoll (11), wobei jeder Fehlereintrag eine Vielzahl von die Komponenten unterschiedlicher Typen kennzeichnenden, unterschiedlichen Indices enthält, die einem einzelnen Fehlerereignis in dem digitalen Datenverarbeitungssystem zugeordnet sind;

Analysieren der Vielzahl von unterschiedlichen, in den Fehlereinträgen enthaltenen Indices durch ein Analysatormodul (16) des digitalen Expertensystems;

dadurch gekennzeichnet, daß der Schritt des Analysierens der Vielzahl von unterschiedlichen, in den Fehlereinträgen enthaltenen Indices umfaßt:

Bestimmen - als mindestens ein Schritt bei der Identifzierung eines Musters von die Komponenten unterschiedlicher Typen kennzeichnenden Indices, das mit einer Ausfalltheorie aus einer Vielzahl von Ausfalltheorien übereinstimmt -, ob es eine im wesentlichen zufällige Verteilung der Indices im Hinblick auf eine Vielzahl von Komponenten eines gegebenen Typs oder eine Konzentration der Indices im Hinblick auf eine oder mehrere Komponenten eines gegebenen Typs gibt; und

wobei das Verfahren des weiteren den Schritt der Identifizierung eines wahrscheinlichen Ausfalls einer der Komponenten auf der Basis der Ausfalltheorie umfaßt.