DE68924923T2 - Expertensystem zur Identifizierung wahrscheinlicher Ausfallspunkte in einem digitalen Verarbeitungssystem. - Google Patents
Expertensystem zur Identifizierung wahrscheinlicher Ausfallspunkte in einem digitalen Verarbeitungssystem.Info
- Publication number
- DE68924923T2 DE68924923T2 DE68924923T DE68924923T DE68924923T2 DE 68924923 T2 DE68924923 T2 DE 68924923T2 DE 68924923 T DE68924923 T DE 68924923T DE 68924923 T DE68924923 T DE 68924923T DE 68924923 T2 DE68924923 T2 DE 68924923T2
- Authority
- DE
- Germany
- Prior art keywords
- failure
- error
- expert system
- entries
- fault
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000012545 processing Methods 0.000 title claims description 14
- 238000004458 analytical method Methods 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 12
- 238000012544 monitoring process Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 description 33
- 238000012360 testing method Methods 0.000 description 31
- 238000004891 communication Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 10
- 238000011084 recovery Methods 0.000 description 10
- 230000008439 repair process Effects 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000002950 deficient Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000005624 perturbation theories Effects 0.000 description 2
- 101000606504 Drosophila melanogaster Tyrosine-protein kinase-like otk Proteins 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2257—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2205—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
- Debugging And Monitoring (AREA)
Description
- Die Erfindung betrifft im allgemeinen das Gebiet digitaler Datenverarbeitungssysteme und insbesondere Mechanismen zum Diagnostizieren von Ausfällen und Fehlern in solchen Systemen.
- Während der letzten Jahre ist es verstärkt und merklich wichtiger geworden, Computer für Staat und Industrie zur Verfügung zu haben. Es wurden Computer für den Einsatz nicht nur in ziemlich konventionellen Tätigkeiten wie Buchhaltung, Rechnungswesen und Lagerbestandkontrolle entwickelt und angepaßt, sondern auch für mehr esoterische Gebiete wie Konstruktion, Maschinenbau und Produktion. Computer wurden auch an den Einsatz in vielen Bürotätigkeiten angepaßt wie die Dokumentenerstellung unter Verwendung von Textverarbeitung und Graphikdesign. Ebenso ist der Zugriff auf computerisierte Datenbanken entweder an Ort und Stelle oder über Telefonleitungen in wissensintensiven Tätigkeiten wichtig.
- Beim Versuch, der stets steigenden Nachfrage sowohl nach Verarbeitungsleistung als auch danach, daß die Benutzer Information gemeinsam zur Verfügung haben, gerecht zu werden, wurden die einzelnen Computer schneller und komplexer gemacht und mehrere Computer in Gruppen (clusters) oder Netzwerken verbunden, um das gemeinsame Benutzen von Daten und Resourcen, wie beispielsweise Telekommunikationsverbindungen, Drucker etc., für die Benutzer zu vereinfachen. In dem Maß, in dem solche Computersysteme immer komplexer werden, wird auch die Wahrscheinlichkeit eines Ausfalls entweder in der Hardware oder in der Software immer größer. Eine Anzahl von Strategien wurde erdacht, um den Ausfall wie auch die Instandsetzungskosten, die als Ergebnis eines Aufalls auftreten können, zu minimieren. Typischerweise beruhen solche Strategien jedoch auf dem Auftreten eines Ausfalls, den ein Benutzer feststellen kann, wenn er eine Unterbrechung in der Bedienung oder, möglicherweise noch schlimmer, einen Datenverlust bemerkt. An diesem Punkt versucht ein Kundendiensttechniker normalerweise, die ausgefallene Komponente zu identifizieren und zu reparieren, was meherere Anfahrten des Kundendiensts an den Ort des Computers und umfassendes Laufenlassen von Diagnoseprogrammen zur Identifizierung der ausgefallenen Komponente erforderlich machen kann. Dadurch kann die Reparatur ziemlich kostspielig werden, nicht nur was die Kundendienstkosten anbelangt, sondern auch im Hinblick darauf, daß der Computer entweder nicht zur Verfügung steht oder nur ein niedrigeres Leistungsniveau bietet.
- Die Erfindung liefert ein neues und verbessertes Expertensystem zur Verwendung im Zusammenhang mit einem digitalen Computersystem, das die Operationen der verschiedenen Komponenten des Computersystems überwacht und erkennt, wann eine Komponente voraussichtlich ausfällt und so deren Ersetzung ermöglicht. Das Expertensystem identifiziert auf diese Weise wahrscheinliche Ausfallpunkte im Computersystem, bevor ein Ausfall von einem Benutzer oder Operator bemerkt werden kann. Darüber hinaus kann das Expertensystem das Betriebssystem des Computersystems über die wahrscheinlich ausfallende Komponente in Kenntnis setzen, so daß das Betriebssystem Maßnahmen ergreifen kann, um einen Datenverlust oder ein Herabsetzen der Systemleistung zu minimieren.
- Kurz zusammengefaßt bestimmt das Expertensystem die Wahrscheinlichkeit eines Ausfalls einer Einheit in einem Computersystem. Das Betriebssystem eines Computersystems führt ein Protokoll über die Fehler, die in jeder Einheit im Computersystem auftreten. Wenn in das Protokoll für eine bestimmte Einheit eine vordefinierte Anzahl von Fehlern eingetragen wurde, sucht das Expertensystem die sich auf diese Einheit beziehenden Fehlereinträge heraus und verarbeitet sie, um festzustellen, ob voraussichtlich ein Ausfall auftreten wird. Dabei ist die vom Expertensystem durchgeführte Verarbeitung so koordiniert, daß Tests, die sich auf Komponenten mit zunehmender Besonderheit und abnehmender Allgemeinheit beziehen, nach den Tests durchgeführt werden, die sich auf allgemeinere Komponenten beziehen.
- Die Erfindung ist in den beigefügten Ansprüchen detailliert ausgeführt. Die unabhängigen Ansprüche sind in der zweigeteilten Form geschrieben und basieren auf der Lehre aus dem Dokument "HEWLETT-PACKARD JOURNAL, Band 37, Nr. 11, November 1986, Seiten 30 - 33, D.B. Wasmuth et al." mit dem Titel "Predictive support: anticipating hardware failures". Die oben genannten und weitere Vorteile der Erfindung können unter Bezugnahme auf die folgenden Beschreibung zusammen mit den beigefügten Zeichnungen besser verstanden werden, wobei
- Fig. 1 ein funktionelles Blockdiagramm ist, das die Hauptkomponenten eines erfindungsgemäß aufgebauten Expertensystems darstellt; und
- Fig. 2A bis 2D Flußdiagramme darstellen, die Ausfallanalysen, die das in Fig. 1 dargestellte Expertensystem durchführt, im Detail aufzeigen.
- Fig. 1 ist ein funktionelles Blockdiagramm eines Expertensystems zur Identifzierung wahrscheinlicher Ausfallpunkte in einem digitalen Datenverarbeitungssystem, d.h. einem Computersystem. Einleitend soll gesagt werden, daß einzusehen ist, daß das Expertensystem in Form eines vom Computersystem verarbeiteten Computerprogramms sein kann. Typischerweise umfaßt ein Computersystem einen oder mehrere Computer. Wenn das Computersystem eine Vielzahl von Computern umfaßt, sind die Computer über Kommunikationsverbindungen miteinander verbunden, so daß sie Gruppen oder Netzwerke bilden, um den unterschiedlichen Computern das gemeinsame Benutzen von Daten und Programmen zu ermöglichen.
- Jeder Computer in einem Computersystem umfaßt eine Anzahl von Einheiten, einschließlich einem oder mehreren Prozessoren und Speichern, und kann auch Massenspeicher-Untersysteme enthalten wie beispielsweise Platten- und/oder Bandspeichersysteme als Backup- und Hilfsspeicher und Eingabe-/Ausgabesysteme wie beispielsweise Datensichtgeräte, Drucker, Telekommunikationsverbindungen usw., wobei alle Einheiten mit Bussen wahlweise miteinander verbunden werden. Das Expertensystem, das zusammen mit jedem der Computer im Netzwerk oder in der Gruppe laufen gelassen werden kann, erkennt wahrscheinliche Ausfälle aller darin enhaltenen Einheiten. In einem spezifischen Ausführungsbeispiel erkennt das Expertensystem wahrscheinliche Ausfälle eines spezifischen Einheitstyps, insbesondere eines Plattenspeicher-Untersystems, doch ist einzusehen, daß ähnliche Expertensysteme, die die Erfindung inkorporieren, zur Erkennung wahrscheinlicher Ausfälle in jedem Typ von Einheit, den das Computersystem umfassen kann, verwendet werden können.
- Unter Bezugnahme auf Fig. 1 umfaßt das Expertensystem eine Vielzahl von Operationselementen, die über eine Vielzahl von Datenstrukturen Störungsinformationen übertragen, die sich auf intermittierende oder permanente Ausfälle in den verschiedenen, das System umfassenden Einheiten bezieht. Wie herkömmlich unterhält das Betriebssystem 10 des Computersystems, das die verschiedenen, im Computersystem beinhalteten Hardware- und Software-Resourcen verwaltet, ein Fehlerprotokoll 11, in dem es Indizes aufzeichnet, die die verschiedenen Ausfälle, Fehler etc. betreffen und vom Betrieb der Einheiten im Computersystem herrühren.
- Wenn das Betriebssystem 10 einen Eintrag im Fehlerprotokoll 11 speichert, gibt es auch ein Überwachungsmodul 12, das ein Teil des Expertensystems ist, frei. Nach der Freigabe durch das Betriebssystem 10 kategorisiert das Überwachungsmodul die verschiedenen Einträge im Fehlerprotokoll 11, um festzulegen, ob ausreichend Einträge in Bezug auf einen möglichen Ausfall einer bestimmten Einheit vorhanden sind, so daß eine weitere Analyse gerechtfertigt ist, und wenn dies der Fall ist, erzeugt es eine Aufzeichnung zum Eintragen in eine Störungsschlange 13. Es ist einzusehen, daß der wahrscheinliche Ausfall einer Einheit oder einer Komponente davon von mehreren Fehlertypen angekündigt werden kann, die der Einheit direkt zugeschrieben werden können oder nicht oder mit der Einheit in Verbindung stehen oder nicht. Der bevorstehende Ausfall einer Businterface- Komponente einer Einheit oder einer Busleitung selbst kann Fehler auftreten lassen, die für verschiedene, mit dem Bus verbundene Einheiten angezeigt sind. Die Zuschreibung von Fehlern zur Ausfallwahrscheinlichkeit von bestimmten Einheiten hängt vom bestimmten Computersystem ab, in dem das Expertensystem läuft.
- Das Überwachungsmodul 12 kategorisiert in jedem Fall nach der Freigabe durch das Betriebssystem 10 die verschiedenen Einträge im Fehlerprotokoll 11, um festzulegen, ob die darin aufgeführten Fehler zufällig oder vorübergehend sind oder ob sie angeben, daß eine bestimmte Einheit im Computersystem wahrscheinlich ausfällt. Bei dieser Operation kann das Überwachungsmodul 12 Einträge im Fehlerprotokoll mit einzelnen Einheiten davon in Verbindung bringen und festlegen, ob die Anzahl der Einträge, die mit einer bestimmten Einheit in Verbindung stehen, einen bestimmten vordefinierten Schwellenwert überschreitet. Wenn dies nicht der Fall ist, beendet das Überwachungsmodul 12 den Vorgang und wartet, daß das Betriebssystem 10 es erneut aktiviert.
- Wenn andererseits das Überwachungsmodul 12 feststellt, daß die Anzahl der Einträge, die mit einer bestimmten Einheit in Verbindung stehen, einen vordefinierten Schwellenwert überschreiten, erzeugt das Überwachungsmodul 12 einen Störungseintrag und trägt ihn in die Störungsschlange 13 ein. Der Störungseintrag kennzeichnet die bestimmte Einheit und die Einträge im Fehlerprotokoll 11, die sich auf diejenige Einheit beziehen, die die Erzeugung des Störungseintrags auslöste. Darüber hinaus aktiviert das Überwachungsmodul, wenn der Störungseintrag der erste Eintrag in der Störungsschlange 13 ist, einen Störungsverwalter 14, der die Störungseinträge in der Störungsschlange 13 verarbeitet.
- Der Störungsverwalter 14 umfaßt zwei Module, nämlich ein Erfassungsmodul 15 und ein Analysatormodul 16. Wenn das Erfassungsmodul anfangs vom Überwachungsmodul aktiviert wird, holt es einen Störungseintrag aus der Störungsschlange 13, identifiziert die Einheit im Computersystem, die die Erzeugung des Störungseintrags verursachte, und holt aus dem Fehlerprotokoll 11 diejenigen Fehlereinträge des Fehlerprokolls 11, die mit der Einheit in Verbindung stehen. Das Erfassungsmodul 15 erzeugt dann ein Fehlerteilprotokoll 17, das die Fehlereinträge aus dem Fehlerprotokoll 11 enthält, die mit der Einheit in Verbindung stehen, und aktiviert das Analysatormodul 16.
- Das Analysatormodul 16 analysiert die vom Erfassungsmodul 15 bereitgestellten Fehlereinträge im Fehlerteilprotokoll 17, um festzustellen, ob die Einheit voraussichtlich ausfällt. Das Analysatormodul 16 führt die Analyse in Verbindung mit verschiedenen Ausfalltheorien, die sich auf die Einheit beziehen, durch, wie unten im Detail zusammen mit den Figuren 2A bis 2D beschrieben ist, und bestimmt die Wahrscheinlichkeit des Ausfalls der Einheit. Kurz gesagt stellt jeder Fehlertyp eine Aussage über die Wahrscheinlichkeit des Ausfalls der Einheit entsprechend einer oder mehrerer Ausfalltheorien dar. Jede Fehlertheorie ihrerseits bezieht sich auf eine spezifische Art aus einer Vielzahl von Arten, wie die Einheit ausfallen kann, wobei jede Ausfallart auf eine bestimmte Komponente in der Einheit, die ausfallen kann, gerichtet ist. Jede Ausfalltheorie erfordert, daß eine vordefinierte Anzahl von Fehlern, die sich auf die Komponente beziehen, auftritt, damit das Expertensystem und insbesondere das Analysatormodul 16 das Auftreten des Ausfalls für wahrscheinlich halten können.
- Das Analysatormodul 16 bestimmt, ob das Fehlerteilprotokoll 17 genügend Fehlereinträge enthält, die sich auf eine der verschiedenen Ausfalltheorien beziehen, und erzeugt, wenn dies der Fall ist, einen Störungstheorieeintrag, der die Einheit und die Störungstheorie kennzeichnet, und speichert diese in einer Theoriedatei 20.
- Nachdem das Analysatormodul 16 einen Störungstheorieeintrag erzeugt hat und diesen in der Theoriedatei gespeichert hat, aktiviert es ein Benachrichtungsmodul, fragt die Theoriedatei 20 ab und erzeugt unter Verwendung der darin gespeicherten Störungstheorieeinträge eine Operatorbenachrichtigungs-Nachricht um den Systemoperator von der Wahrscheinlichkeit eines Ausfalls in Kenntnis zu setzen. Die Operatorbenachrichtigungs-Nachricht erlaubt dem Operator, Wiederherstellungsmaßnamen im Zusammenhang mit dem hiermit angegebenen Ausfall einzuleiten. Das Benachrichtigungsmodul 21 erzeugt ebenfalls eine Kundendienstbenachrichtigungs-Nachricht, die Angaben der Fehlertypen beinhaltet, die zur Erfüllung einer Ausfalltheorie führten, sowie die Feststellung, daß wahrscheinlich ein Ausfall auftritt, was von einem Kundendiensttechniker während der Reparatur verwendet werden kann.
- Nach der Aktivierung durch das Analysatormodul 16 fragt das Wiedergewinnungsmodul 22 auch die Theoriedatei 20 ab und startet ausgewählte Wiedergewinnungsoperationen, die in Reaktion auf die verschiedenen dort gespeicherten Störungstheorieeinträge angezeigt sein können. Besonders in einer Ausführungsform, in der das Expertensystem zur Bestimmung der Wahrscheinlichkeit von Ausfällen von verschiedenen Plattenspeichereinheiten in einem Computersystem verwendet wird, kann, wenn ein Störungstheorieeintrag in der Theoriedatei 20 angibt, daß eine Plattenspeichereinheit ausfallen kann, das Wiedergewinnungsmodul 22 das Betriebssystem aktivieren, um eine andere Plattenspeichereinheit als Schatten- oder Backup-Kopie zu verwenden. In diesem Fall gibt das Betriebssystem auf der ausfallenden Plattenspeichereinheit gespeicherte Daten frei, damit sie ebenfalls auf der anderen Plattenspeichereinheit gespeichert werden, wodurch die Wahrscheinlichkeit, daß Daten verloren gehen, verringert wird. Des weiteren stehen die so gespeicherten Daten auf der anderen Plattenspeichereinheit während der Reparatur zur Verfügung.
- Wie oben erwähnt analysiert das Analysatormodul 16 die Fehlereinträge im Fehlerteilprotokoll 17 in Verbindung mit einer Vielzahl von Ausfalltheorien, um festzustellen, ob die Einheit wahrscheinlich ausfällt. Wenn das Analysatormodul 16 feststellt, daß die Fehlereinträge keiner der Ausfalltheorien entsprechen, gibt es die Steuerung an das Erfassungsmodul 15 zurück, das dann den nächsten Eintrag in der Störungsschlange 13 verarbeitet. Der Störungsverwalter 14 verarbeitet iterativ die vom Überwachungsmodul 12 bereitgestellten Einträge in der Störungsschlange 13, bis alle Einträge verarbeitet sind. Es ist einzusehen, daß im Computersystem das Überwachungsmodul 12 und die Module, die der Störungsverwalter 14 umfaßt, gleichzeitig laufen können und auf diese Weise das Überwachungsmodul 12 Einträge in die Störungsschlange 13 laden kann, während gleichzeitig Einträge durch den Störungsverwalter 14 und insbesondere durch das Erfassungsmodul 15 für die Verarbeitung entfernt werden.
- Wie oben beschrieben, führt das Analysatormodul 16 Analysen unter Verwendung der Fehlereinträge im Fehlerteilprotokoll 17 in Verbindung mit einer Vielzahl von Ausfalltheorien durch. Die Ausfalltheorien werden hierarchisch angewendet, da Fehler, die vom Betriebssystem 10 einer Vielzahl von Komponenten desselben Typs in einer Einheit zugeschrieben werden können, tatsächlich den Nachweis für den wahrscheinlichen Ausfall einer anderen Komponente liefern können.
- Beispielsweise können in einer Plattenspeichereinheit, während eine Anzahl von einem einzelnen Schreib-/Lesekopf zugeschriebenen Fehlern einen wahrscheinlichen Ausfall dieses Kopfes anzeigen kann, zufällige, einer Vielzahl von Schreib-/Leseköpfen zugeschriebene Fehler den wahrscheinlichen Ausfall einer anderen Komponente, die mit all diesen Köpfen verbunden sein kann, anzeigen, wie z.B. eine Schaltung, die den Köpfen die Energie zum Schreiben liefert oder die die Lesesignale von den Köpfen empfängt. Um sicherzustellen, daß es eher als alle Köpfe die andere Komponente ist, die als wahrscheinlich ausfallend gekennzeichnet ist, führt das Analysatormodul 16 die Analyse in Verbindung mit der anderen Komponente durch, bevor es die Analysen in Verbindung mit den Köpfen durchführt.
- In einer Ausführungsform sind die Ausfalltheorien in drei Gruppen unterteilt, die allgemein als Kommunikations-Ausfalltheorien, beim Laufwerk identifizierte, nicht Datenträger (Medium)-bezogene Ausfalltheorien und als Datenträger (Medium)-bezogene Ausfalltheorien bezeichnet werden. Die Kommunikations- Ausfalltheorien richten sich im allgemeinen auf Fehler in Verbindung mit Informationen, die von der Laufwerk-Speichereinheit empfangen wurden; dazu gehören auch solche Fehler als Ausfallanzeichen der Plattenspeichereinheit, einen Befehl innerhalb eines ausgewählten Auszeit-Intervalls auszuführen, Anzeichen von Ausfällen von bestimmten Signalen von der Plattenspeichereinheit, von Paritätsfehlern in Signalen von der Plattenspeichereinheit usw. Die Steuerungseinrichtung im Massenspeicher-Subsystem, zu dem die Plattenspeichereinrichtung gehört, kann das Betriebssystem 10 über jegliche derartige Fehler in Kenntnis setzen in Verbindung mit Anfragen nach Fehlerwiedergewinnung mittels beispielsweise einem Unterbrechungsservice.
- Die beim Laufwerk identifizierten, nicht Datenträger-bezogenen Ausfalltheorien richten sich im allgemeinen auf Fehler in Verbindung mit Informationsübertragungen an die Laufwerk-Speichereinheit durch andere Einheiten im Computersystem. Die Plattenspeichereinheit kann das Betriebssystem 10 über jegliche derartige Fehler in Kenntnis setzen in Verbindung mit Anforderungen nach Fehlerwiedergewinngung durch beispielsweise einen Unterbrechungsservice.
- Die Datenträger-bezogenen Ausfalltheorien sind schließlich im allgemeinen auf solche Fehler gerichtet, die durch Zeitablauf, Kopf-/Plattenbewegung oder Fehlererkennung-/-korrekur-Schaltungen, die die Wahrscheinlichkeit eines Ausfalls von einem oder mehrerer Schreib-/Leseköpfe anzeigen können, sowie durch Schaltungen zum Erregen der Köpfe, Servoschaltungen, Ausfälle wie beispielsweise Kratzer in den Medien usw. innerhalb der Plattenspeichereinheit angezeigt werden können, und sie können ebenfalls die Wahrscheinlichkeit des Ausfalls der Fehlererkennung-/-korrektur-Schaltung selbst angeben.
- Auf diesem Hintergrund sind die allgemeinen Operationen, die eine Ausführungsform des Analysatormoduls 16 in Verbindung mit den Fehlereinträgen im Fehlerteilprotokoll 17 durchführt, in den Figuren 2A-1 und 2A-2 gezeigt. Besonders ist dabei zu würdigen, daß die durchgeführten spezifischen Operationen auf spezifischen Einheiten und deren Komponenten basieren, mit denen das Expertensystem (Fig. 1) verwendet werden soll. Unter Bezugnahme auf Fig. 2A-1 führt das Analysatormodul 16 zunächst eine Analyseoperation in Zusammenhang mit den Kommunikations-Ausfalltheorien durch (Schritt 30). Die in Schritt 30 durchgeführte Analyseoperation ist unten in Zusammenhang mit Fig. 2B beschrieben. Wenn das Analysatormodul 16 feststellt, daß eine Kommunikations-Ausfalltheorie erfüllt ist (Schritt 31), erzeugt es einen Störungstheorieeintrag und speichert ihn in der Theoriedatei 20 (Schritt 32). Das Analysatormodul 16 aktiviert danach das Benachrichtigungsmodul 21 zur Erzeugung einer geeigneten Nachricht für den Operator und das Wiedergewinnungsmodul 22 zum Ergreifen passender Wiedergewinnungsoperationen (Schritt 33).
- Wenn das Analysatormodul 16 in Schritt 31 feststellt, daß die Fehlerangaben keiner Kommunikations-Ausfalltheorie gerecht werden, fährt das Analysatormodul mit Schritt 34 fort, in dem es eine Analyseoperation in Verbindung mit den beim Laufwerk identifizierten, Datenträger-bezogenen Ausfalltheorien durchführt. Die in Schritt 34 durchgeführte Analyseoperation ist unten in Zusammenhang mit Fig. 2C beschrieben. Wenn das Analysatormodul 16 feststellt, daß einer beim Laufwerk identifizierten, Datenträger-bezogenen Ausfalltheorie entsprochen wird (Schritt 35), erzeugt es einen Störungstheorieeintrag und speichert ihn in der Theoriedatei 20 (Schritt 36). Das Analysatormodul 16 aktiviert danach das Benachrichtigungsmodul 21 zur Erzeugung einer geeigneten Nachricht für den Operator sowie das Wiedergewinnungsmodul 22 zum Ergreifen passender Wiedergewinnungsoperationen (Schritt 37).
- Wenn auf der anderen Seite in Schritt 35 das Analysatormodul 16 feststellt, daß die Fehlerangaben keiner beim Laufwerk identifizierten, Datenträger- bezogenen Ausfalltheorie entsprechen, fährt das Analysatormodul mit Schritt 40 fort, in dem es eine Analyseoperation in Verbindung mit den Datenträger- bezogenen Ausfalltheorien durchführt. Die in Schritt 40 durchgeführten Analyseoperationen sind unten in Verbindung mit Fig. 2D beschrieben. Wenn das Analysatormodul 16 feststellt, daß einer Datenträger-bezogenen Ausfalltheorie Genüge geleistet wird (Schritt 41), erzeugt es einen Störungstheorieeintrag und speichert ihn in der Theoriedatei 20 (Schritt 42). Das Analysatormodul 16 aktiviert danach das Benachrichtigungsmodul 21 zur Erzeugung einer geeigneten Nachricht für den Operator sowie das Wiedergewinnungsmodul 22 zum Ergreifen passender Wiedergewinnungsoperationen (Schritt 43).
- Wenn schließlich in Schritt 41 das Analysatormodul 16 feststellt, daß die Fehlerangaben keiner Datenträger-bezogenen Ausfalltheorie entsprechen, fährt es mit Schritt 44 fort, in dem es den Vorgang beendet und die Steuerung an Erfassungsmodul 15 zurückgibt. Das Erfassungsmodul 15 kann dann den nächsten Störungseintrag vom Überwachungsmodul 12 in der Störungsschlange 13 verarbeiten. Wie oben beschrieben wurde, beendet das Erfassungsmodul 15 die Operation, wenn die Störungsschlange 13 leer ist, bis zur Reaktivierung durch das Überwachungsmodul 12.
- Wie oben erwähnt wurde, werden die vom Analysatormodul 16 durchgeführten Operationen im Zusammenhang mit den Kommunikations-Ausfalltheorien in Verbindung mit Fig. 2B beschrieben. Diese Theorien beziehen sich auf Fehler, die vom Hostcomputer oder der die Plattenspeichereinheit steuernde Steuerungseinrichtung erkannt werden, wie beispielsweise Befehls-Auszeiten, Fehler in der Übertragung von bestimmten Signalen, Paritäts- oder Protokollfehler in Übertragungen usw. Unter Bezugnahme auf Fig. 2B bestimmt das Analysatormodul 16, ob zumindest eine vorher festgelegte Anzahl von Fehlereinträgen in das Fehlerteilprotokoll 17 sich auf Kommunikationsfehler, wie sie von der die Plattenspeichereinheit steuernden Steuereinrichtung oder vom Hostcomputer festgestellt worden sind, beziehen (Schritt 50). Wenn die Anzahl solcher Fehlereinträge nicht genügend groß ist, beendet das Analysatormodul 16 die Kommunikations-Ausfallanalyse (Schritt 51).
- Wenn auf der anderen Seite das Analysatormodul 16 feststellt, daß im Fehlerteilprotokoll 17 eine ausreichende Anzahl solcher Einträge enthalten ist, fährt es mit Schritt 51 fort, um verschiedene die Fehlereinträge betreffende Verhältniszahlen, die sich auf Kommunikations-Fehler und beim Laufwerk identifizierte, nicht Datenträger-bezogene Fehler beziehen, bereitzustellen (Schritt 52). Da Fehler, die Kommunikations-Einträge kennzeichnende Fehlereinträge verursachen, ebenso auch beim Laufwerk identifizierte, nicht Datenträger-bezogene Fehler kennzeichnende Fehlereinträge verursachen können, helfen die in Schritt 52 bereitgestellten Verhältniszahlen bei der Feststellung, was die Ursache der Fehler ist. Wenn die Verhältniszahlen nicht angeben, daß die Fehler aufgrund von Kommunikations- Ausfällen auftreten (Schritt 53), beendet das Analysatormodul 16 den Vorgang (Schritt 54).
- Wenn andererseits das Analysatormodul 16 in Schritt 53 feststellt, daß die Verhältniszahlen angeben, daß die Fehler aufgrund von Kommunikations-Ausfall auftreten, erzeugt es einen Störungstheorieeintrag, und gibt auf diese Weise die Einfügung in die Theoriedatei 20 an (Schritt 55) und beendet den Vorgang (Schritt 56).
- Wenn das Analysatormodul 16 entweder in Schritt 51 oder 53 den Vorgang beendet, fährt es mit der Durchführung der sich auf die beim Laufwerk identifizierten, nicht Datenträger-bezogenen Ausfalltheorien beziehenden Analysen (Schritt 34, Fig. 2A-1) fort, was in Fig. 2C dargestellt ist. Diese Theorien betreffen Fehler, die von der Plattenspeichereinheit erfaßt worden sind, wie beispielsweise Fehler in der Übertragung von bestimmten Signalen, Paritäts- oder Protokollfehlern in Übertragungen usw. Unter Bezugnahme auf Fig. 2C bestimmt das Analysatormodul anfangs, ob das Fehlerteilprotokoll 17 eine Schwellenzahl von Fehlereinträgen enthält, die sich auf beim Laufwerk identifizierten, nicht Datenträger-bezogenen Fehler beziehen. Wenn das Fehlerteilprotokoll 17 die Schwellenzahl solcher Fehlereinträge nicht enthält, fährt das Analysatormodul 16 mit Schritt 61 fort, in dem es den Vorgang beendet.
- Wenn andererseits das Analysatormodul 16 feststellt, daß das Fehlerteilprotokoll 17 die Schwellenzahl solcher Fehlereinträge enthält, bestimmt es dann, ob sich die meisten Einträge auf einen besonderen Fehlertyp beziehen (Schritt 62), und, wenn dies der Fall ist, erzeugt es einen Störungstheorieeintrag, der den Fehlertyp für die Einfügung in die Theoriedatei 20 kennzeichnet (Schritt 63), und beendet den Vorgang (Schritt 64). Wenn kein einzelner Fehlertyp unter den Fehlereinträgen, die beim Laufwerk identifizierte, nicht Datenträger-bezogene Fehler kennzeichnen, vorherrscht, erzeugt das Analysatormodul 16 einen oder mehrere Störungstheorieeinträge, die die Fehlertypen kennzeichnen, die von der größten Anzahl von Fehlereinträgen gekennzeichnet sind, zum Speichern in der Theoriedatei 20 (Schritt 65). Nach Schritt 65 beendet das Analysatormodul den Vorgang (Schritt 66).
- Wenn das Analysatormodul 16 in Schritt 61 den Vorgang beendet, fährt es mit der Durchführung der Analyse, die Datenträger-bezogenen Ausfalltheorien betrifft (Schritt 40, Fig. 2A-2), fort, die in Figuren 2D-1 bis 2D-8 beispielhaft dargestellt sind. Kurz gesagt beziehen sich die Datenträger-bezogenen Ausfalltheorien auf zwei allgemeine Fehlerklassen. Eine Klasse, nämlich zufällige Fehler, beinhaltet im allgemeinen die Erkennung von ungültigen Headern, den Verlust von Datensynchronisation, von der Fehlererkennungs-/ und -korrekturschaltung festgestellte korrigierbare und nicht-korrigierbare Datenfehler usw. Die zweite Klasse von Datenträger-bezogenen Ausfalltheorien, nämlich beim Laufwerk identifizierte Fehler, die sich im allgemeinen auf die Laufwerksschaltung oder andere Hardwareprobleme beziehen, beinhaltet Positionierfehler, Spurabweichungsfehler und Fehler, die auf Problemen mit der Lese- und Schreibschaltung beruhen, einschließlich der Köpfe, des Servosystems usw.
- Figuren 2D-1 bis 2D-8 stellen eine Serie von acht veranschaulichenden Tests dar, die das Analysatormodul 16 der Reihe nach durchführt. Die Tests sind hierarchisch geordnet, so daß spätere Tests auf die Wahrscheinlichkeit eines Ausfalls von Komponenten mit zunehmender Besonderheit gerichtet sind, da wie oben erwähnt Fehler, die vom Betriebssystem 10 einer Vielzahl von Komponenten desselben Typs mit größerer Besonderheit in einer Einheit zugeschrieben werden können, tatsächlich einen Nachweis für den wahrscheinlichen Ausfall einer anderen Komponente mit allgemeinerer Anwendbarkeit liefern. Auf diese Weise führt das Analysatormodul 16 einen Test durch, um die Wahrscheinlichkeit eines Ausfalls einer Kopfmatrix festzustellen, wie in Fig. 2D-1 gezeigt ist, bevor es einen Test durchführt, um die Ausfallwahrscheinlichkeit eines einzelnen Kopfes festzustellen, wie in Fig. 2D-8 gezeigt ist, da eine Kopfmatrix eine Komponente ist, die sich auf eine Vielzahl von Köpfen bezieht. Wenn das Analysatormodul 16 den Kopf- Ausfalltest vor dem Kopfmatrix-Test durchführen müßte, würde es wahrscheinlich das Testen mit der Feststellung beenden, daß der einzelne Kopf wahrscheinlich ausgefallen wäre und würde nie den Kopfmatrix-Test erreichen. Besonders zu würdigen ist, daß, wenn einem Test Genüge geleistet wird, d.h., wenn das Analysatormodul 16 aus einem Test in einer der Figuren 2D-1 bis 2D-8 feststellt, daß ein Ausfall wahrscheinlich ist, es nicht zu den nachfolgenden Tests weiterschreitet.
- Die Abfolgen der in den Figuren 2D-1 bis 2D-8 dargestellten Operationen erklären sich im allgemeinen von selbst und werden nicht im Detail beschrieben. In jedem Test führt das Analysatormodul 16 eine vorbestimmte Reihe von Operationen in Verbindung mit Fehlereinträgen im Fehlerteilprotokoll 17 durch. Wenn den in einem Test aufgeführten Kriterien Genüge geleistet wird, erzeugt das Modul einen den wahrscheinlichen Ausfall kennzeichnenden Störungstheorieeintrag und fügt ihn in die Theoriedatei 20 ein. Anderenfalls schreitet das Analysatormodul 16 zum nächsten Test fort oder beendet im Fall des letzten Tests den Vorgang und gibt die Steuerung an das Erfassungsmodul 15 zurück.
- Im allgemeinen führt das Analysatormodul 16 in einem in Fig. 2D-1 dargestellten Kopfmatrix-Ausfalltest, da sich eine Kopfmatrix auf die Operation von vier Lese-/Schreibköpfen bezieht, eine Reihe von Schritten durch, erstens um zu bestimmen, ob das Fehlerteilprotokoll 17 Fehlereinträge enthält, die sich auf mehr als einen Kopf beziehen (Schritt 92), und zweitens um festzustellen, ob sich die meisten Fehlereinträge auf Köpfe beziehen, die eine bestimmte Kopfmatrix betreffen (Schritte 94, 96 und 100). Wenn dies der Fall ist, erzeugt das Modul einen Störungstheorieeintrag zum Speichern in der Theoriedatei 20, der die Kopfmatrix als wahrscheinlich ausfallend kennzeichnet (Schritt 102).
- Wenn das Analysatormodul 16 in der Fig. 2D-1 dargestellten Sequenz feststellt, daß der Kopfmatrix-Ausfall unwahrscheinlich ist, startet es einen Test, wie in Fig. 2D-2 dargestellt, um die Wahrscheinlichkeit einer fehlerhaften Plattenoberfläche festzustellen, d.h. eines im allgemeinen fehlerhaften Speichermediums. Dieser Test erfordert Fehler, die im allgemeinen gleichmäßig unter den in Verbindung mit der Plattenoberfläche operierenden Schreib-/Leseköpfen verteilt sind.
- Wenn das Analysatormodul 16 feststellt, daß eine fehlerhafte Plattenoberfläche in der in Fig. 2D-2 abgebildeten Sequenz nicht indiziert ist, fährt es mit der in Fig. 2D-3 dargestellten Sequenz mit der Durchführung eines Tests zur Feststellung der Wahrscheinlichkeit fort, ob ein Sektor der Platte fehlerhaft ist, was im allgemeinen als ein Ergebnis eines "Kopf-Schlags" auftritts, d.h. eines die Platte treffenden Kopfes, und dies verursacht im allgemeinen einen Defekt in einem Sektor. In einer Plattenspeichereinheit mit mehreren Schreib-/Leseköpfen für jede Plattenoberfläche stellt das Analysatormodul 16 fest, ob zumindest eine vorbestimmte Schwellenanzahl von Fehlereinträgen im Fehlerteilprotokoll 17 zumindest einige der Köpfe auf derselben Plattenoberfläche und einen im selben Sektor auftretenden Fehler kennzeichnet.
- Wenn das Analysatormodul 16 feststellt, daß ein "Kopf-Schlag" in der in Fig. 2D-3 dargestellten Sequenz nicht indiziert ist, schreitet es zur in den Figuren 2D-4(a) und 2D-4(b) dargestellten Sequenz fort, um die Wahrscheinlichkeit eines Ausfalls des Servosystems der Plattenspeichereinheit zu bestimmen. In dieser Sequenz stellt das Analysatormodul 16 zunächst fest, daß Fehlereinträge Servofehler kennzeichnen und daß sie sich auf mehrere Köpfe in der Plattenspeichereinheit beziehen. Das Analysatormodul 16 stellt dann die Wahrscheinlichkeit eines peripheralen Kratzers (Schritt 156) oder eines Radialkratzers (Schritt 161) auf der Servooberfläche der Platte fest. Wenn das Analysatormodul 16 feststellt, daß weder ein Umfangs- noch ein Radialkratzer wahrscheinlich sind, bestimmt es, daß ein allgemeiner Servoausfall wahrscheinlich ist.
- Danach führt das Analysatormodul 16 einen Lesepfad-Ausfalltest (Fig. 2D-5) durch, um die Wahrscheinlichkeit eines allgemeinen Lesepfad-Ausfalls zu bestimmen. Wenn eine vorbestimmte Anzahl von Fehlereinträgen zufällige Fehler kennzeichnen, die die Erkennung von ungültigen Headern, Verlust von Datensynchronisation, korrigierbaren und nicht-korrigierbaren Datenfehlern, die von der Fehlererkennungs-/ und -korrekturschaltung erkannt wurden, usw. indizieren, bestimmt das Analysatormodul 16, daß ein allgemeiner Lesepfad-Ausfall wahrscheinlich ist.
- Drei zusätzliche Tests sind in den Figuren 2D-6 bis 2D-8 dargestellt. Nach dem Lesepfad-Ausfalltest (Fig. 2D-5) führt das Analysatormodul 16 einen Test durch zur Bestimmung, ob die Köpfe auf sich gegenüberliegenden, d.h. sich zugewandten Plattenoberflächen voraussichtlich ausfallen (Fig. 2D-6), zur Feststellung, ob ein Radialkratzer auf der Plattenoberfläche vorliegt (Fig. 2D-7), und eines Tests zur Angabe, ob ein bestimmter Schreib-/Lesekopf wahrscheinlich ausfällt (Fig. 2D- 8). Der in Fig. 2D-7 dargestellte Test wird iterativ in Verbindung mit jedem der Köpfe in der Plattenspeichereinheit durchgeführt.
- Es ist einzusehen, daß die spezifischen Tests und die Reihenfolge, in der sie durchgeführt werden, in Verbindung mit dem Expertensystem von spezifischen Einheiten bestimmt werden, im Zusammenhang mit welchen das Expertensystem (Fig. 1) benutzt werden soll. Soll das Expertensystem im Zusammenhang mit der Steuerungseinrichtung einer Plattenspeichereinheit wie auch mit der Plattenspeichereinrichtung selbst verwendet werden, wird vom Expertensystem gefordert, zusätzliche Tests, die auf die Steuerungseinrichtung gerichtet sind, vor der Durchführung der Tests, die auf die Plattenspeichereinheit gerichtet sind, durchzuführen. Analog, wenn das Expertensystem in Zusammenhang mit einem Gruppen- oder Netzwerk-Computersystem, das eine Vielzahl von Computern umfaßt, die miteinander über eine oder mehrere Kommunikationsverbindungen kommunizieren, verwendet wird, kann das Expertensystem auf einem Computer in dem digitalen Datenverarbeitungssystem laufen und mit geeigneten Zusätzen zum Erkennen von Fehlern in einem Prozessor, Speicher und anderen Komponententypen eines Computers verwendet werden, um die Wahrscheinlichkeit von Ausfällen, die in anderen Computern im Computersystem auftreten, zu erkennen.
- Die vorstehende Beschreibung war auf ein spezifisches Ausführungsbeispiel dieser Erfindung beschränkt. Es wird jedoch offensichtlich sein, daß die Erfindung variiert und verändert werden kann, wobei einige oder alle Vorteile der Erfindung erreicht werden können. Es ist daher Aufgabe der beigefügten Ansprüche, all diese Variationen und Änderungen abzudecken, die in den Schutzumfang der Erfindung fallen.
Claims (14)
1. Expertensystem zum Erkennen eines wahrscheinlichen Ausfalls aus einer
Vielzahl von wahrscheinlichen Ausfällen von Komponenten in einem digitalen
Datenverarbeitungssystem, das umfaßt:
ein Erfassungsmodul (15) zum Erfassen einer Vielzahl von gespeicherten
Fehlereinträgen, wobei jeder Fehlereintrag eine Vielzahl von die Komponenten
unterschiedlicher Typen kennzeichnenden, unterschiedlichen Indices enthält, die
einem einzelnen Fehlerereignis in dem digitalen Datenverarbeitungssystem
zugeordnet sind;
ein Analysatormodul (16) zum Analysieren der Vielzahl von unterschiedlichen
Indices, die in den Fehlereinträgen enthalten sind;
wobei das Erfassungsmodul (15) und das Analysatormodul (16) für die
Implementierung durch ein digitales Datenverarbeitungssystem angepaßt werden;
dadurch gekennzeichnet, daß:
das Analysatormodul (16) Einrichtungen enthält, die - als mindestens ein
Schritt bei der Identifzierung eines Musters von die Komponenten
unterschiedlicher Typen kennzeichnenden Indices, das mit einer Ausfalltheorie aus einer
Vielzahl von Ausfalltheorien übereinstimmt, - bestimmen, ob es eine im wesentlichen
zufällige Verteilung der Indices im Hinblick auf eine Vielzahl von Komponenten
eines gegebenen Typs oder eine Konzentration der Indices im Hinblick auf eine
oder mehrere Komponenten eines gegebenen Typs gibt, wobei das
Analysatormodul (16) einen der wahrscheinlichen Ausfälle einer der Komponenten auf der Basis
der Ausfalltheorie identifiziert.
2. Expertensystem nach Anspruch 1, wobei das digitale
Datenverarbeitungssystem eine Vielzahl von Einheiten umfaßt, wobei jede der Einheiten eine Vielzahl
von Komponenten umfaßt.
3. Expertensystem nach Anspruch 2, wobei das Expertensystem des weiteren
ein Überwachungsmodul (12) zum Überwachen der Fehlereinträge enthält, um zu
bestimmen, ob die Anzahl der Fehlereinträge in Verbindung mit einer bestimmten
Einheit einen Schwellenwert überschreitet, und wobei das Erfassungsmodul (15)
die Fehlereinträge in Verbindung mit der bestimmten Einheit zum Zweck der
Musteranalyse erfaßt.
4. Expertensystem nach Anspruch 3, wobei das Monitormodul (12) einen
Störungseintrag für jede Einheit erzeugt, die Fehlereinträge aufweist, die den
Schwellenwert überschreiten, und die Störungseinträge in eine Störungsschlange
(13) einfügt.
5. Expertensystem nach Anspruch 4, wobei jeder der Störungseinträge eine
Einheit und Fehlereinträge in Verbindung mit der Einheit kennzeichnet.
6. Expertensystem nach Anspruch 5, wobei das Erfassungsmodul (15) einen
Störungseintrag aus der Störungsschlange (13) wiederauffindet, aus einem
Fehlerprotokoll (11) die gespeicherten Fehlereinträge in Verbindung mit der in dem
Störungseintrag gekennzeichneten Einheit wiederauffindet und die Fehlereinträge
in ein Fehlerteilprotokoll (17) einfügt.
7. Expertensystem nach Anspruch 1, wobei das Analysatormodul (16) die
Fehlereinträge in einer hierarchischen Abfolge von Musteranalyse-Schritten analysiert,
in denen die Fehlereinträge für Muster getestet werden, die Fehler relativ
allgemeiner Art betreffen, bevor die Fehlereinträge für Muster getestet werden, die
Fehler relativ besonderer Art betreffen.
8. Expertensystem nach Anspruch 1, wobei das Expertensystem des weiteren
ein Betriebssystem (10) zum Speichern der Fehlereinträge in einem
Fehlerprotokoll (11) umfaßt.
9. Expertensystem nach Anspruch 1, wobei das Analysatormodul (16) die
Ausfalltheorien in einer Theoriedatei (20) speichert.
10. Expertensystem nach Anspruch 9, wobei das Expertensystem des weiteren
ein Benachrichtigungsmodul (21) zum Abfragen der Theoriedatei (20) umfaßt und
auf der Basis einer Ausfalltheorie in der Theoriedatei (20) einen Benutzer über den
wahrscheinlichen Ausfall der Komponente benachrichtigt.
11. Expertensystem nach Anspruch 9, wobei das Expertensystem des weiteren
ein Wiedergewinnungsmodul (22) zum Abfragen der Theoriedatei (20) umfaßt und
auf der Basis einer Ausfalltheorie in der Theoriedatei (20)
Wiederauffindungsoperationen beginnt, um einen Datenverlust zu vermeiden.
12. Expertensystem nach Anspruch 1, wobei das Analysatormodul (16) den
Ausfall einer Komponente vorhersagt, bevor in der Komponente tatsächlich ein Ausfall
auftritt.
13. Expertensystem nach Anspruch 1, wobei das Analysatormodul (16) einen
tatsächlichen Ausfall einer Komponente erkennt.
14. Verfahren zum Erkennen eines wahrscheinlichen Ausfalls aus einer Vielzahl
von wahrscheinlichen Ausfällen von Komponenten in einem digitalen
Datenverarbeitungssystem, das folgende Schritte umfaßt:
Speichern einer Vielzahl von gespeicherten Fehlereinträgen in einem
Fehlerprotokoll (11), wobei jeder Fehlereintrag eine Vielzahl von die Komponenten
unterschiedlicher Typen kennzeichnenden, unterschiedlichen Indices enthält, die einem
einzelnen Fehlerereignis in dem digitalen Datenverarbeitungssystem zugeordnet
sind;
Analysieren der Vielzahl von unterschiedlichen, in den Fehlereinträgen
enthaltenen Indices durch ein Analysatormodul (16) des digitalen Expertensystems;
dadurch gekennzeichnet, daß der Schritt des Analysierens der Vielzahl von
unterschiedlichen, in den Fehlereinträgen enthaltenen Indices umfaßt:
Bestimmen - als mindestens ein Schritt bei der Identifzierung eines Musters
von die Komponenten unterschiedlicher Typen kennzeichnenden Indices, das mit
einer Ausfalltheorie aus einer Vielzahl von Ausfalltheorien übereinstimmt -, ob es
eine im wesentlichen zufällige Verteilung der Indices im Hinblick auf eine Vielzahl
von Komponenten eines gegebenen Typs oder eine Konzentration der Indices im
Hinblick auf eine oder mehrere Komponenten eines gegebenen Typs gibt; und
wobei das Verfahren des weiteren den Schritt der Identifizierung eines
wahrscheinlichen Ausfalls einer der Komponenten auf der Basis der Ausfalltheorie
umfaßt.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17548588A | 1988-03-30 | 1988-03-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE68924923D1 DE68924923D1 (de) | 1996-01-11 |
DE68924923T2 true DE68924923T2 (de) | 1996-07-25 |
Family
ID=22640402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE68924923T Expired - Lifetime DE68924923T2 (de) | 1988-03-30 | 1989-03-02 | Expertensystem zur Identifizierung wahrscheinlicher Ausfallspunkte in einem digitalen Verarbeitungssystem. |
Country Status (5)
Country | Link |
---|---|
US (1) | US5469463A (de) |
EP (1) | EP0335507B1 (de) |
JP (1) | JPH0758474B2 (de) |
CA (1) | CA1318030C (de) |
DE (1) | DE68924923T2 (de) |
Families Citing this family (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU661685B2 (en) * | 1991-02-05 | 1995-08-03 | Storage Technology Corporation | Hierarchical distributed knowledge based machine initiated maintenance system |
US5828583A (en) * | 1992-08-21 | 1998-10-27 | Compaq Computer Corporation | Drive failure prediction techniques for disk drives |
US5535335A (en) * | 1992-12-22 | 1996-07-09 | International Business Machines Corporation | Method and system for reporting the status of an aggregate resource residing in a network of interconnected real resources |
US6446224B1 (en) * | 1995-03-03 | 2002-09-03 | Fujitsu Limited | Method and apparatus for prioritizing and handling errors in a computer system |
US6467054B1 (en) | 1995-03-13 | 2002-10-15 | Compaq Computer Corporation | Self test for storage device |
US5761411A (en) * | 1995-03-13 | 1998-06-02 | Compaq Computer Corporation | Method for performing disk fault prediction operations |
US5758057A (en) * | 1995-06-21 | 1998-05-26 | Mitsubishi Denki Kabushiki Kaisha | Multi-media storage system |
US5923876A (en) * | 1995-08-24 | 1999-07-13 | Compaq Computer Corp. | Disk fault prediction system |
US5845064A (en) * | 1995-09-11 | 1998-12-01 | Digital Equipment Corporation | Method for testing and verification of a CPU using a reference model |
US5850388A (en) * | 1996-08-02 | 1998-12-15 | Wandel & Goltermann Technologies, Inc. | Protocol analyzer for monitoring digital transmission networks |
US5850386A (en) * | 1996-11-01 | 1998-12-15 | Wandel & Goltermann Technologies, Inc. | Protocol analyzer for monitoring digital transmission networks |
US6125393A (en) * | 1997-03-28 | 2000-09-26 | International Business Machines Corporation | System of compressing the tail of a sparse log stream of a multisystem environment |
US5920875A (en) * | 1997-03-28 | 1999-07-06 | International Business Machines Corporation | Tail compression of a sparse log stream of a computer system |
US5999935A (en) * | 1997-03-28 | 1999-12-07 | International Business Machines Corporation | Tail compression of a sparse log stream of a multisystem environment |
US5956735A (en) * | 1997-03-28 | 1999-09-21 | International Business Machines Corporation | System of compressing the tail of a sparse log stream of a computer system |
US5983364A (en) * | 1997-05-12 | 1999-11-09 | System Soft Corporation | System and method for diagnosing computer faults |
US6311175B1 (en) | 1998-03-06 | 2001-10-30 | Perot Systems Corp. | System and method for generating performance models of complex information technology systems |
US6393387B1 (en) | 1998-03-06 | 2002-05-21 | Perot Systems Corporation | System and method for model mining complex information technology systems |
US6611877B2 (en) * | 1998-06-30 | 2003-08-26 | Sun Microsystems, Inc. | System and method for aggregating registration of entities for notifications of events |
US6529893B1 (en) | 1999-02-26 | 2003-03-04 | Mandel Foner | Expert diagnostic system with inference generator |
US6412089B1 (en) | 1999-02-26 | 2002-06-25 | Compaq Computer Corporation | Background read scanning with defect reallocation |
US6493656B1 (en) | 1999-02-26 | 2002-12-10 | Compaq Computer Corporation, Inc. | Drive error logging |
US6598179B1 (en) * | 2000-03-31 | 2003-07-22 | International Business Machines Corporation | Table-based error log analysis |
US6538453B1 (en) * | 2000-03-31 | 2003-03-25 | Nexpress Solutions Llc | Detecting erratic resistance in temperature sensors |
US6738928B1 (en) | 2000-06-19 | 2004-05-18 | Hewlett-Packard Development Company, L.P. | Method and expert system for analysis of crash dumps |
US20040225814A1 (en) * | 2001-05-29 | 2004-11-11 | Ervin Joseph J. | Method and apparatus for constructing wired-AND bus systems |
US7149838B2 (en) * | 2001-05-29 | 2006-12-12 | Sun Microsystems, Inc. | Method and apparatus for configuring multiple segment wired-AND bus systems |
US6842806B2 (en) | 2001-05-29 | 2005-01-11 | Sun Microsystems, Inc. | Method and apparatus for interconnecting wired-AND buses |
EP1378827A1 (de) * | 2002-07-05 | 2004-01-07 | Alcatel | Verfahren zum Wechseln der Sprache einer graphischen Anwendung ohne die Anwendung zu verlassen und wieder zu starten |
US7484125B2 (en) * | 2003-07-07 | 2009-01-27 | Hewlett-Packard Development Company, L.P. | Method and apparatus for providing updated processor polling information |
US7437704B2 (en) * | 2003-08-28 | 2008-10-14 | Ines Antje Dahne-Steuber | Real-time generation of software translation |
US7213176B2 (en) * | 2003-12-10 | 2007-05-01 | Electronic Data Systems Corporation | Adaptive log file scanning utility |
US20060026466A1 (en) * | 2004-08-02 | 2006-02-02 | Bea Systems, Inc. | Support methodology for diagnostic patterns |
JP4125274B2 (ja) * | 2004-08-26 | 2008-07-30 | キヤノン株式会社 | 画像入出力装置および情報処理方法およびコンピュータが読み取り可能なプログラムを格納した記憶媒体およびプログラム |
US20060100806A1 (en) * | 2004-11-10 | 2006-05-11 | Matsushita Electric Industrial Co., Ltd. | Enhanced system for electronic storage device calibrations |
US7788205B2 (en) | 2006-05-12 | 2010-08-31 | International Business Machines Corporation | Using stochastic models to diagnose and predict complex system problems |
US7349826B2 (en) | 2006-05-23 | 2008-03-25 | International Business Machines Corporation | Causal ladder mechanism for proactive problem determination, avoidance and recovery |
US20090259890A1 (en) * | 2008-04-14 | 2009-10-15 | Turin Networks | Method & apparatus for hardware fault management |
DE102008019983B4 (de) | 2008-04-21 | 2014-12-18 | Maschinenbau Heinrich Hajek Gmbh & Co. | Verfahren zum Betrieb einer Schneidemaschine mit Gehäuseüberdruck und Vorrichtung |
CN103761173A (zh) * | 2013-12-28 | 2014-04-30 | 华中科技大学 | 一种基于日志的计算机系统故障诊断方法及装置 |
US10044556B2 (en) * | 2015-06-23 | 2018-08-07 | International Business Machines Corporation | Identifying performance-degrading hardware components in computer storage systems |
CN105577440B (zh) * | 2015-12-24 | 2019-06-11 | 华为技术有限公司 | 一种网络故障时间定位方法和分析设备 |
US10810103B2 (en) * | 2016-12-14 | 2020-10-20 | Vmware, Inc. | Method and system for identifying event-message transactions |
US11074121B2 (en) | 2019-03-20 | 2021-07-27 | International Business Machines Corporation | Predicting failure of a magnetic tape head element |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3704363A (en) * | 1971-06-09 | 1972-11-28 | Ibm | Statistical and environmental data logging system for data processing storage subsystem |
US3815097A (en) * | 1972-08-20 | 1974-06-04 | Memorex Corp | Disc drive diagnostic display apparatus |
US3928830A (en) * | 1974-09-19 | 1975-12-23 | Ibm | Diagnostic system for field replaceable units |
DE2654389C3 (de) * | 1976-12-01 | 1980-07-31 | Ibm Deutschland Gmbh, 7000 Stuttgart | Wartungssteuerung mit Prozessor und Speicher zur Fehleranalyse und -diagnose für elektronische Datenverarbeitungsanlagen und Verfahren zu deren Betrieb |
JPS5431212A (en) * | 1977-08-15 | 1979-03-08 | Nec Corp | Monitor circuit for digital signal transmission line |
US4242751A (en) * | 1978-08-28 | 1980-12-30 | Genrad, Inc. | Automatic fault-probing method and apparatus for checking electrical circuits and the like |
JPS594054B2 (ja) * | 1979-04-17 | 1984-01-27 | 株式会社日立製作所 | マルチプロセツサ障害検出方式 |
US4339657A (en) * | 1980-02-06 | 1982-07-13 | International Business Machines Corporation | Error logging for automatic apparatus |
JPS56137455A (en) * | 1980-03-31 | 1981-10-27 | Fujitsu Ltd | Maintenance system against failure |
JPS57109061A (en) * | 1980-12-26 | 1982-07-07 | Mitsubishi Electric Corp | Forecasting method for equipment deterioration of computer system |
US4554661A (en) * | 1983-10-31 | 1985-11-19 | Burroughs Corporation | Generalized fault reporting system |
IL74952A0 (en) * | 1984-05-04 | 1985-08-30 | Gould Inc | Method and system for improving the operational reliability of electronic systems formed of subsystems which perform different functions |
US4633467A (en) * | 1984-07-26 | 1986-12-30 | At&T Bell Laboratories | Computer system fault recovery based on historical analysis |
US4644479A (en) * | 1984-07-31 | 1987-02-17 | Westinghouse Electric Corp. | Diagnostic apparatus |
US4754409A (en) * | 1985-06-26 | 1988-06-28 | International Business Machines Corporation | Method for dynamically collecting current data from specified external processes and procedures for use in an expert system |
US4710924A (en) * | 1985-09-19 | 1987-12-01 | Gte Sprint Communications Corp. | Local and remote bit error rate monitoring for early warning of fault location of digital transmission system |
US4713810A (en) * | 1985-09-19 | 1987-12-15 | Gte Sprint Communications Corp. | Diagnostic technique for determining fault locations within a digital transmission system |
US5060279A (en) * | 1986-04-10 | 1991-10-22 | Hewlett-Packard Company | Expert system using pattern recognition techniques |
JPS6359638A (ja) * | 1986-08-25 | 1988-03-15 | Mitsubishi Electric Corp | エラ−ログ方式 |
US4841456A (en) * | 1986-09-09 | 1989-06-20 | The Boeing Company | Test system and method using artificial intelligence control |
US4769761A (en) * | 1986-10-09 | 1988-09-06 | International Business Machines Corporation | Apparatus and method for isolating and predicting errors in a local area network |
US4847795A (en) * | 1987-08-24 | 1989-07-11 | Hughes Aircraft Company | System for diagnosing defects in electronic assemblies |
US4817092A (en) * | 1987-10-05 | 1989-03-28 | International Business Machines | Threshold alarms for processing errors in a multiplex communications system |
JPH01118934A (ja) * | 1987-10-31 | 1989-05-11 | Nec Corp | エラー情報の解析・編集出力方式 |
US4866712A (en) * | 1988-02-19 | 1989-09-12 | Bell Communications Research, Inc. | Methods and apparatus for fault recovery |
US5090014A (en) * | 1988-03-30 | 1992-02-18 | Digital Equipment Corporation | Identifying likely failure points in a digital data processing system |
US4932028A (en) * | 1988-06-21 | 1990-06-05 | Unisys Corporation | Error log system for self-testing in very large scale integrated circuit (VLSI) units |
US4922491A (en) * | 1988-08-31 | 1990-05-01 | International Business Machines Corporation | Input/output device service alert function |
-
1989
- 1989-03-01 CA CA000592442A patent/CA1318030C/en not_active Expired - Fee Related
- 1989-03-02 EP EP89302072A patent/EP0335507B1/de not_active Expired - Lifetime
- 1989-03-02 DE DE68924923T patent/DE68924923T2/de not_active Expired - Lifetime
- 1989-03-30 JP JP1080198A patent/JPH0758474B2/ja not_active Expired - Fee Related
-
1991
- 1991-05-08 US US07/700,112 patent/US5469463A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
AU3088889A (en) | 1989-10-05 |
DE68924923D1 (de) | 1996-01-11 |
US5469463A (en) | 1995-11-21 |
EP0335507B1 (de) | 1995-11-29 |
JPH0758474B2 (ja) | 1995-06-21 |
EP0335507A3 (de) | 1991-06-12 |
CA1318030C (en) | 1993-05-18 |
AU602808B2 (en) | 1990-10-25 |
JPH0216640A (ja) | 1990-01-19 |
EP0335507A2 (de) | 1989-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE68924923T2 (de) | Expertensystem zur Identifizierung wahrscheinlicher Ausfallspunkte in einem digitalen Verarbeitungssystem. | |
DE68924226T2 (de) | Dienstwarnsignalfunktion für Eingangs-/Ausgangsgerät. | |
DE69700512T2 (de) | Ereignisbenachrichtigung in einem Rechnersystem mit einer Mehrzahl von Speichergeräten | |
DE69700637T2 (de) | Host-basierendes RAID-5 und nicht flüchtige RAM-Integration und Verfahren hierfür | |
DE69228986T2 (de) | Durch hierarchisch verteilte wissenbasierte maschine ausgelöste wartungs-vorrichtung und -verfahren | |
DE69714507T2 (de) | Einrichtung und Verfahren zur On-line-Überwachung von Speichern | |
US5090014A (en) | Identifying likely failure points in a digital data processing system | |
DE68926130T2 (de) | Diagnoseexpertensystem | |
DE69937768T2 (de) | Externe Speichervorrichtung und Verfahren zur Datensicherung | |
DE69615611T2 (de) | Externes Speichersystem mit redundanten Speichersteuerungen | |
DE68913629T2 (de) | Satzverriegelungsprozessor für vielfachverarbeitungsdatensystem. | |
DE69601150T2 (de) | Überwachungsmechanismus für Geräteein-/-ausgabe eines Computerbetriebssystems | |
DE69804099T2 (de) | Initialisierung von unterteilten datenobjekten | |
DE69802833T2 (de) | Diagnose redundanter steuerungen, die eine private lun verwenden | |
DE68929289T2 (de) | Expertensystem für fehlerdiagnose | |
DE69702169T2 (de) | Berechtigung zum abgetrennten Schreiben in einer Benutzer/Anbieter-Rechneranordnung | |
DE69502651T2 (de) | Asynchrone Datenfernduplizierung | |
DE3629178C2 (de) | ||
DE19747396A1 (de) | Verfahren und Anordnung zur Schaffung einer Ferndiagnose für ein elektronisches System über ein Netz | |
DE19515661C2 (de) | Halbleiter-Plattenvorrichtung | |
DE60002908T2 (de) | Vorrichtung und verfahren zur verbesserten fehlerortung und diagnose in rechnern | |
DE3876459T2 (de) | Speicher und deren pruefung. | |
DE19827432C2 (de) | Verfahren zur Speicherung von Rechner-Zustandsdaten bei einem Störfall, der ein anschließendes Wieder-Hochfahren des Rechners erfordert | |
DE69927223T2 (de) | Ausfallsicherheit eines Mehrrechnersystems | |
EP1358554A1 (de) | Automatische inbetriebnahme eines clustersystems nach einem heilbaren fehler |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8328 | Change in the person/name/address of the agent |
Free format text: GRUENECKER, KINKELDEY, STOCKMAIR & SCHWANHAEUSSER, 80538 MUENCHEN |