DE68924226T2 - Dienstwarnsignalfunktion für Eingangs-/Ausgangsgerät. - Google Patents
Dienstwarnsignalfunktion für Eingangs-/Ausgangsgerät.Info
- Publication number
- DE68924226T2 DE68924226T2 DE68924226T DE68924226T DE68924226T2 DE 68924226 T2 DE68924226 T2 DE 68924226T2 DE 68924226 T DE68924226 T DE 68924226T DE 68924226 T DE68924226 T DE 68924226T DE 68924226 T2 DE68924226 T2 DE 68924226T2
- Authority
- DE
- Germany
- Prior art keywords
- subsystem
- profile record
- record
- problem profile
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims description 136
- 230000009471 action Effects 0.000 claims description 57
- 238000011156 evaluation Methods 0.000 claims description 35
- 230000002093 peripheral effect Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 20
- 208000024891 symptom Diseases 0.000 description 29
- 230000008569 process Effects 0.000 description 22
- 238000001514 detection method Methods 0.000 description 17
- 230000004044 response Effects 0.000 description 14
- 208000011580 syndromic disease Diseases 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 8
- 238000012937 correction Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012854 evaluation process Methods 0.000 description 3
- 208000033748 Device issues Diseases 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 238000002405 diagnostic procedure Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000009474 immediate action Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2257—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0745—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in an input/output transactions management context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3485—Performance evaluation by tracing or monitoring for I/O devices
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Debugging And Monitoring (AREA)
Description
- Die vorliegende Erfindung bezieht sich auf die automatische Geräteanalyse und im einzelnen auf die Dienstunterstützungsanforderungen von Computereingangs-/-ausgangsgeräten (E/A-Geräte) mit eingebauter Fehlererkennung und Fehlerkorrektur.
- In "Predictive Support: Anticipating Computer Hardware Failures", Hewlett-Packard Journal, Band 37, Nr. 11, 1986, wird auf den Seiten 30-33 ein System beschrieben, das in regelmäßigen Abständen die Häufigkeit von weichen Fehlern in den verschiedenen Systemkomponenten prüft. Wenn diese Fehler so häufig auftreten, daß hierdurch die Verfügbarkeitszeit bedroht werden könnte, benachrichtigt das Predictive Support- System automatisch die entsprechende Person, damit Korrekturmaßnahmen getroffen werden können.
- Die vorliegende Erfindung wird in Zusammenhang mit einem Plattenspeicher-Subsystem zur Datenspeicherung in einem Rechner beschrieben. Ein solches Speichergerat kann als Direktzugriffsspeicher (DAS)-Subsystem bezeichnet werden. Trotzdem werden die Fachleute erkennen, daß die beschriebene Erfindung auch in andere Rechner-Geräte eingebaut werden kann, insbesondere in verschiedene E/A-Geräte mit eingebauter Fehlererkennung und Fehlerkorrektur.
- Das Vorkommen eines korrigierten Fehlerereignisses in einem E/A-Gerät kann anzeigen, daß eine Dienstmaßnahme zur Wiederherstellung des normalen Betriebs erforderlich ist oder nicht. Wenn die Leistung des E/A-Geräts durch einen Fehler dauernd beeinträchtigt ist, oder wenn Fehler so häufig auftreten, daß sie die Leistung des E/A-Geräts merklich versclilechtern, sollte eine Dienstmaßnahme eingeplant werden.
- Wenn jedoch die Leistung des E/A-Geräts nicht wesentlich beeinträchtigt ist, wird eine Dienstmaßnahme normalerweise nicht empfohlen.
- Die Entscheidung, ob eine Dienstmaßnahme erforderlich ist, oder nicht, erfolgt typischerweise in einem manuellen empirischen Verfahren. Ausführliche Fehlersymptomberichte werden aufgerufen und geprüft, um den Schweregrad und die Dauer des Problems im Hinblick auf eine Beeinflussung der Gerätefunktion zu bestimmen. Aufgrund dieses komplizierten Prozesses beruht die Entscheidung, eine Dienstmaßnahme anzufordern, oft auf einer nur unzureichenden Kenntnis des wirklichen Problems. Eine falsche Entscheidung kann Kosten verursachen, entweder durch einen Leistungsverlust oder wenn Teile ausgewechselt werden, die eigentlich fehlerfrei sind.
- Die Entscheidung, ob eine Dienstmaßnahme erforderlich ist, um die Ursache für einen möglicherweise nur sehr sporadisch auftretenden oder anwendungsmustersensitiven Fehler einzugrenzen, erfolgt im typischen Fall auch über eine manuelle und empirische Auswertung. Nach dem heutigen Stand der Technik erfolgt die Eingrenzung eines Fehlers durch Wartungsdiagnoseprogramme, in denen ein Fehlersymptom erneut erzeugt wird. Diese Technik ist jedoch für intermittierende Fehlersymptome ineffizient. Eine Alternative ist die manuelle Analyse einer Fehlersymptom-Vorgeschichte zur Ableitung eines Fehlersyndroms, das mit einer hinreichenden Dienstmaßnahme gleichgesetzt werden kann. Die Dienstmaßnahme besteht dann darin, systematisch verdächtige Teile auszuwechseln, bis keine Fehler mehr auftreten, was ein Zeichen dafür ist, daß die normale Funktion wiederhergestellt ist.
- FIG. 1 zeigt ein Eingangs-/Ausgangsgerät (E/A-Gerät) 11 nach dem Stand der Technik mit seinem Fehlerantwortmechanismus 13. Das E/A-Gerät empfängt einen Befehl für eine E/A-Operation, Daten zu lesen oder zu schreiben. Wenn das E/A-Gerät die Operation erfolgreich ausführt, kann es zurückmelden, daß die Operation fehlerfrei ausgeführt wurde (Antwort (1)). Wenn jedoch ein Fehler erkannt wird, führt das E/A-Gerät seine Fehlersymptomanalyse und sein Fehlerkorrekturverfahren durch, der Fehler wird entweder erfolgreich korrigiert oder nicht. Wenn die Operation erfolgreich korrigiert ist, kann eine Befehlsantwort zurückgemeldet werden, daß die Operation ausgeführt wurde, gleichzeitig wird jedoch gemeldet, daß ein Fehlersymptom korrigiert wurde (Antwort (2)). Wenn die Operation nicht korrigiert wird, gibt das E/A-Gerät eine Befehlsantwort aus, die besagt, daß die Operation nicht ausgeführt wurde; gleichzeitig erfolgt ein Schadensbericht und ein Bericht über das nicht korrigierte Fehlersymptom (Antwort (3)).
- Wenn das E/A-Gerät die erfolgreiche und fehlerfreie Ausführung der Operation meldet, gibt dieser Zustand den normalen Betriebsablauf des Geräts wieder. Eine Meldung, daß die Operation ausgeführt wurde, bei gleichzeitiger Meldung eines korrigierten Fehlersymptoms, gibt an, daß die Operationen des E/A-Geräts fortgesetzt werden können, daß jedoch die Fehlersymptomdaten geprüft werden sollten, um festzustellen, ob eine Dienstmaßnahme erforderlich ist. Eine Meldung, daß die Operation nicht ausgeführt wurde, mit einem Schadensbericht und dem nicht korrigierten Fehlersymptom, erfordert eine sofortige Maßnahme zur Wiederherstellung der normalen Funktion des E/A-Geräts. Aufgrund der beiden Fehlersymptom-Meldungen kann eine Dienstmaßnahme erforderlich werden oder nicht. Ob eine Dienstmaßnahme erforderlich ist, muß immer außerhalb des E/A-Geräts durch manuelle Analyse der Fehlersymptomdaten festgestellt werden.
- In einem DAS-Subsystem eines Rechnersystems werden zum Beispiel, wenn der Benutzer Schreib- und Leseoperationen ausführt und Daten in das Subsystem und aus dem Subsystem überträgt, vom Plattenspeicher regelmäßig und in der bekannten Weise Datenprüfmeldungen oder Geräteprüfmeldungen erzeugt, aus denen hervorgeht, daß neben den Routineereignissen noch andere Ereignisse stattgefunden haben. Datenprüfungen sind in vielen Plattenspeichern Ereignisse, mit denen gewissermaßen gerechnet wird; sie werden demnach beim üblichen bookkeeping des DAS-Subsystems gezählt und aufgezeichnet und deuten nicht notwendigerweise darauf hin, daß eine Dienstmaßnahme erforderlich ist.
- Außerdem werden auf das DAS-Subsystem bezogene Nutzungsdaten gesammelt. Diese Daten können zum Beispiel Aussagen darüber enthalten, welche E/A-Geräte genutzt werden, sowie Hinweise auf Suchzählungen und Datenübertragungsberichte. Diese Daten werden manchmal als Nutzungsinformationen bezeichnet.
- Normalerweise wird ein Bericht in regelmäßigen Abständen erstellt (beispielsweise täglich oder wöchentlich); in ihm sind alle korrigierten Ausnahmen oder andere mögliche Fehlerereignisse, die seit dem letzten Bericht stattgefunden haben, aufgezeichnet. Dieser Bericht wird von einer Person analysiert, um festzustellen, ob die aufgezeichneten Ereignisse auf ein Problem mit dem E/A-Gerät hindeuten, ob Korrektivmaßnahmen erforderlich sind und wie diese aussehen könnten. Trotzdem inuß bei den heutigen Systemen diese Analyse ausschließlich anhand gedruckter Berichte durchgeführt werden, um Ausnahmeereignisse herauszufinden und Trendfehler zu erkennen.
- Die vorliegende Erfindung stellt ein Verfahren zur automatischen Erkennung und Analyse von Ausnahmeereignissen bereit, die in einem peripheren Rechner-Subsystem auftreten, das an ein Host-Rechnersystem angeschlossen ist, wobei das Verfahren durch die folgenden Schritte gekennzeichnet ist: Führen einer Subsystemumgebungs-Datenbank, die Daten über die aktuelle Konfiguration des genannten peripheren Rechner-Subsystems sowie Nutzungs- und Fehlerdaten enthält, die sich auf das genannte periphere Subsystem beziehen; bedingungsabhängiges Aufrufen einer Problembeschreibungsprozedur, wenn die Daten in der genannten Subsystemumgebungs-Datenbank auf ein Ausnahmeereignis hinweisen, das darauf hinweist, daß für das genannte periphere Subsystem eindeutig oder wahrscheinlich eine Dienstmaßnahme erforderlich ist, wobei die genannte Problembeschreibungsprozedur folgendes umfaßt: Entwicklung eines aktuellen Problemprofil-Datensatzes, in dem das genannte Ausnahmeereignis beschrieben wird; Erzeugen einer Betrachtung einer Problemprofil-Datenbank für das genannte Ausnahmeereignis aus gespeicherten Regeln; Abfragen einer Problemprofil- Datenbank, die die Problemprofil-Datensätze von bereits vorher aufgetretenen Ausnahmeereignissen enthält, um den genannten aktuellen Problemprofil-Datensatz mit einem Problemprofil-Datensatz zu vergleichen, der bereits in der genannten Problemprofil-Datenbank vorhanden ist; wenn der genannte aktuelle Problemprofil-Datensatz mit einem vorhandenen Problemprofil-Datensatz in der genannten Problemprofil-Datenbank übereinstimmt, und der genannte vorhandene Problemprofil-Datensatz angibt, daß für das betreffende Problem eine Dienstmaßnahme ansteht, Aktualisieren des genannten vorhandenen Problemprofil-Datensatzes; wenn der genannte aktuelle Problemprofil-Datensatz mit einem vorhandenen Problemprofil-Datensatz in der genannten Problemprofil-Datenbank übereinstimmt und der genannte vorhandene Problemprofil-Datensatz angibt, daß für das betreffende Problem keine Dienstmaßnahme ansteht, Aktualisieren des genannten vorhandenen Problemprofil-Datensatzes und Aufrufen einer Problemauswertungsprozedur; wenn der genannte aktuelle Problemprofil-Datensatz nicht mit einem vorhandenen Problemprofil-Datensatz in der genannten Problemprofil-Datenbank übereinstimmt, Hinzufügen des genannten Problemprofil-Datensatzes zu der genannten Problemprofil-Datenbank und Aufrufen einer Problemauswertungsprozedur; wobei die genannte Problemauswertungsprozedur folgende Schritte umfaßt: Prüfen des genannten aktuellen Problemprofil-Datensatzes hinsichtlich gespeicherter Regeln, die sich auf eine akzeptable Subsystemleistung beziehen; und, wenn die Funktionen des genannten peripheren Subsystems unterbrochen wurden oder sich die Leistung des Subsystems über eine akzeptable Grenze hinaus verschlechtert hat, Erzeugen einer Dienstwarnmeldung und Einfügen der genannten Dienstwarnmeldung in den genannten Problemprofil-Datensatz, Aktualisieren des genannten vorhandenen Problemprofil-Datensatzes in der genannten Problemprofil-Datenbank und Übertragen der genannten Dienstwarnmeldung zum genannten Host-System.
- Die vorliegende Erfindung stellt außerdem ein System zur automatischen Erkennung und Analyse von Ausnahmeereignissen bereit, die in dem peripheren Subsystem eines Rechners auftreten, gemäß Definition in Anspruch 6.
- Die Ausführungsbeispiele der vorliegenden Erfindung machen ein externes manuelles Verfahren, in dem festgestellt wird, ob Dienstmaßnahmen erforderlich sind, überflüssig. Das externe manuelle Verfahren wird durch eine in das E/A-Gerät eingebaute Dienstwarnfunktion ersetzt. Die Dienstwarnfunktion arbeitet gleichlaufend mit anderen E/A-Gerätefunktionen. Die interne Dienstwarnfunktion der Erfindung überwacht die E/A- Operationen der Geräte und registriert Ausnahmeereignis-Datensätze zur Erkennung eines Fehlersyndroms, das eine Dienstmaßnahme erfordert, zur Bestimmung, ob Dienstmaßnahmen erforderlich sind und zur Einleitung einer Dienstmaßnahme über eine asynchrone Dienstwarnmeldung an das E/A-Gerät.
- Ein Ausführungsbeispiel der vorliegenden Erfindung stellt ein Verfahren zur automatischen Erkennung und Analyse von Ausnahme- oder Fehlerereignissen bereit, die im periphären Subsystem eines Rechners auftreten, das an ein Host-Rechnersystem angeschlossen ist. Das Verfahren der Erfindung beinhaltet das Führen einer Subsystemumgebungs-Datenbank, welche Informationen enthält, die sich auf die aktuelle Konfiguration des periphären Rechner-Subsystems beziehen, und Nutzungs- und Fehlerinformationen, die sich auf das Peripherie-Subsystem beziehen.
- Eine Problembeschreibungsprozedur wird bedingungsabhängig aufgerufen, wenn die Daten in der Subsystemumgebungs-Datenbank auf ein Ausnahmeereignis hinweisen, das entweder eine eindeutige oder eine wahrscheinliche Notwendigkeit für eine Dienstmaßnahme in dem peripheren Subsystem anzeigt. Die Problembeschreibungsprozedur umfaßt die Erzeugung einer Betrachtung der Subsystemumgebungs-Datenbank aus gespeicherten Regeln, bezogen auf das Ausnahmeereignis, und die Entwicklung eines aktuellen Problemprofil-Datensatzes, der das Ausnahmeereignis beschreibt.
- Eine Problemprofil-Datenbank mit den Problemprofil-Datensätzen von zuvor aufgetretenen Ausnahmereignissen wird abgefragt, um den aktuellen Problemprofil-Datensatz mit einem bereits in der Problemprofil-Datenbank vorhandenen Problemprofil-Datensatz zu vergleichen. Wenn der aktuelle Problemprofil-Datensatz mit einem vorhandenen Problemprofil-Datensatz in der Problemprofil-Datenbank übereinstimmt, und der bereits vorhandene Problemprofil-Datensatz anzeigt, daß für das betreffende Problem bereits eine Dienstmaßnahme ansteht, wird der vorhandene Problemprofil-Datensatz aktualisiert. Wenn der aktuelle Problemprofil-Datensatz mit einem vorhandenen Problemprofil-Datensatz in der Problemprofil-Datenbank übereinstimmt, und der vorhandene Problemprofil-Datensatz anzeigt, daß für das betreffende Problem keine Dienstmaßnahme ansteht, wird der vorhandene Problemprofil-Datensatz aktualisiert und eine Problemauswertungsprozedur aufgerufen. Wenn der aktuelle Problemprofil-Datensatz nicht mit einem bereits vorhandenen Problemprofil-Datensatz in der Problemprofil-Datenbank übereinstimmt, wird der aktuelle Problemprofil-Datensatz der Problemprofil-Datenbank hinzugefügt.
- In der Problemauswertungsprozedur wird der aktuelle Problemprofil-Datensatz hinsichtlich der gespeicherten Regeln, die sich auf eine akzeptable Subsystem-Leistung beziehen, geprüft. Wenn die Funktionen des peripheren Subsystems unterbrochen wurden, oder wenn die Grenzen im Hinblick auf eine akzeptable Subsystem-Leistung überschritten wurden, wird eine Dienstwarnmeldung erzeugt. Die Dienstwarnmeldung wird in den Problemprofil-Datensatz in der Problemprofil-Datenbank eingefügt. Der vorhandene Problemprofil-Datensatz in der Problemprofil-Datenbank wird aktualisiert und die Dienstwarnmeldung wird an das Host-System übertragen.
- Im folgenden findet sich eine ausführliche Beschreibung eines bevorzugten Ausführungsbeispiels der vorliegenden Erfindung unter Bezugnahme auf die Zeichnungen; es zeigt
- FIG. 1 ein Blockdiagramm eines E/A-Geräts mit einem Fehlerkorrekturmechanismus, in dem die verschiedenen Arten von Statusmeldungen erläutert werden, die auf einen Befehl für eine E/A-Operation ausgegeben werden können,
- FIG. 2 ein Blockdiagramm eines E/A-Geräts mit der Dienstwarnfunktion der Erfindung,
- FIG. 3 ein Konzept-Diagramm der Erstellung der Subsystemumgebungs-Datenbank und der Anwendung der Problemerkennungsprozedur,
- FIG. 4 ein Blockdiagramm, welches das Anwendungskonzept der Problembeschreibungsprozedur erläutert, und
- FIG. 5 ein Konzept-Blockdiagramm, welches das Anwendungskonzept der Problemauswertungsprozedur erläutert.
- Wie in FIG. 2 erläutert wird, umfaßt das periphäre Subsystem eines Rechners 21 ein oder mehrere Eingangs-/Ausgangsgeräte (E/A-Geräte) 23, die Operationsbefehle und Daten vom Host- Rechnersystem empfangen. Im typischen Fall sind das maximal 64 Geräte pro Subsystem. Das Subsystem umfaßt außerdem einen Fehlererkennungs- und -korrekturmechanismus 25. Wie nach dem bisherigen Stand der Technik wird, wenn die Operation erfolgreich ausgeführt ist, eine Antwort erzeugt, daß die Operation fehlerfrei ausgeführt wurde (Antwort (1)). Wird jedoch ein Fehler erkannt, wird der interne Fehlererkennnungs-, -bestimmungs- und -korrekturmechanismus 25 des E/A-Geräts aufgerufen. Der Fehlererkennungs-, -bestimmungs- und -korrekturmechanismus 25 ist ein Mechanismus, der typischerweise für alle Geräte des Subsystems gemeinsam arbeitet. Wenn der Fehler erfolgreich korrigiert ist, wird eine Meldung "Operation ausgeführt" ausgegeben, jedoch ohne die Meldung "korrigiertes Fehlersymptom" (Antwort (2)). Für das Host-Rechnersystem stellen also die Antworten (1) und (2) die gleiche Meldung dar. Ein Unterschied wird lediglich als ein Unterschied in der Befehlsantwortzeit gesehen. Wenn eine Operation nicht abgeschlossen ist, weil ein Fehler nicht erfolgreich korrigiert wurde, wird von dem E/A-Gerät eine Meldung ausgegeben, die eine unvollständig ausgeführte Operation anzeigt, sowie ein Schadensbericht (Antwort (3)). In den beiden Fällen, in denen ein Fehler erkannt wird, werden die Fehlersymptom-Daten nur intern von der Dienstwarnfunktion 27 des E/A-Geräts genutzt. Die Dienstwarnfunktion erzeugt bedingungsabhängig eine asynchrone Dienstwarnmeldung, die alle Dienstmaßnahmeanforderungen enthält, die zur Wiederaufnahme des normalen Betriebs des E/A-Geräts notwendig sind. Ein Subsystemspeicher 29 speichert Daten, welche die physische Konfiguration des Subsystems, ein Subsystem-Nutzungsprotokoll, ein Ausnahmeereignis-Protokoll, Fehlerkriterien, Problemprozeduren und eine Problemprofil (Datensatz)-Datenbank darstellen. Die physische Konfiguration des Subsystems, das Subsystem-Nutzungsprotokoll und das Ausnahmeereignis-Protokoll bilden zusammen eine Subsystemumgebungs-Datenbank.
- Die Dienstwarnfunktion 27 ist eine Programmierte Einrichtung, die mit den E/A-Geräten im Subsystem eine Schnittstelle bildet und detaillierte Eingangsdaten vom Subsystem empfängt. Der Erzeugungsprozeß für die Dienstwarnmeldung wird von der Dienstwarnfunktion 27 ausgeführt und ist in drei Hauptprozeduren aufgeteilt:
- 1. Die Problemerkennung ist ein "systemresidentes" Subsystemprogramm, das eine Subsystemumgebungs-Datenbank verwaltet, und zwar so, daß die Datenbank immer die aktuellen Konfigurations-, Nutzungs- und Fehlerumgebungen für das Subsystem des Direktzugriffspeichers (DAS) beschreibt. Eine Problembeschreibungsprozedur wird bedingungsabhängig immer dann aufgerufen, wenn die Subsystemumgebung auf eine eindeutige oder eine wahrscheinliche Notwendigkeit für eine Subsystem-Dienstmaßnahme hinweist.
- 2. Die Problembeschreibungsprozedur ERZEUGT eine BETRACHTUNG der Subsystemumgebungs-Datenbank, wobei diese Betrachtung für die aktuelle Ausnahmegrenze innerhalb des Subsystems relevant ist. Die Daten aus der Betrachtung der Ausnahmegrenze werden zur Entwicklung eines Problemprofils herangezogen, welches den aktuellen Problemstatus für das Subsystem effizient beschreibt. Diese Profildaten werden entweder in die Problemprofil-Datenbank als Datensatz "neues Problem" EINGEFÜGT, oder sie werden zur AKTUALI- SIERUNG eines anderen Datensatzes verwendet, der eine bereits früher stattgefundene Erkennung derselben Problemsituation beschreibt. Eine Problemauswertungsprozedur wird immer dann aufgerufen, wenn es sich bei dem Problemstatus um einen "neuen" oder "regelmäßig wiederkehrenden" Problemstatus handelt. Die Problemauswertungsprozedur wird nicht aufgerufen, wenn das erkannte Problem dem Host-System bereits mitgeteilt wurde und wenn eine Dienstmaßnahme bereits ansteht.
- 3. Die Problemauswertungsprozedur bestimmt zunächst Art und Schweregrad des Fehlers sowie die Dienstanforderungen für einen Problemprofil-Datensatz. Diese Information wird mit dem Problemprofil-Datensatz in der Datenbank VERBUNDEN. WENN in der Problemauswertung festgestellt wird, daß Systemoperationen unterbrochen wurden ODER bestimmte Grenzen im Hinblick auf eine akzeptable Subsystem-Leistung überschritten wurden, DANN wird die Dienstwarnmeldung "Daten erfassen" erzeugt, mit dem Problemprofil-Datensatz VERBUNDEN und auch einem Host-System mitgeteilt, so daß eine Dienstmaßnahme eingeleitet werden kann.
- Die Problemerkennungsprozedur überwacht die Aktivität des DAS-Subsystems im Hinblick auf Veränderungen in der Subsystem-Konfiguration, zum Beispiel durch die Installation/den Ausbau einer Einheit, durch Datenformatmodus-Anderungen, durch Installation von technischen Veränderungen sowie Fehler aufgrund von Betriebsmittelreservierung/-schonung; außerdem die Such-/Lese-/Schreibnutzung von Subsystem-Steuerpfaden und -geräten und die Subsystem-Ausnahmeaktivitäten, die durch Fehlerbedingungen verursacht werden, die während der Abarbeitung von System-Tasks erkannt und abgewickelt werden. Die überwachten Daten werden in einer Subsystemumgebungs-Datenbank festgehalten, die immer die aktuelle Subsystem-Konfiguration, die aktuelle Nutzung und den aktuellen Fehlerstatus für das DAS-Subsystem beschreibt.
- Die Problemerkennungsprozedur wird in der Pseudo-Code-Sequenz in Anhang 1 ausführlicher beschrieben. Der Problemerkennungsmechanismus ist schematisch in FIG. 3 dargestellt.
- Im Normalbetrieb (fehlerfreien Betrieb), führt die Problemerkennungsstufe das "Housekeeping" aus, um die normale Beschreibung (Modellbeschreibung) der Subsystemumgebung zu pflegen.
- Die aktuellen Nutzungsdaten werden von dem Plattenspeicher- Subsystem als Eingangsprotokolldatensatz empfangen. Die aktuelle Zeit wird auf den Eingangsprotokolldatensatz angewendet, um die Daten mit einer Zeitmarkierung zu versehen. Mit dem Eingangsprotokolldatensatz werden außerdem ausgewählte Vorgeschichtsdaten aus der Subsystemumgebungs-Datenbank verbunden. Die miteinander verbundenen Informationen werden in den Abschnitt 43 für aktuelle Ereignisse und Trends der Subsystemumgebungs-Datenbank 29 (a) (b) (c) eingelesen.
- In dem Subsystem-Nutzungsprotokoll oder der Datenbank (die ein Teil der Subsystemumgebungs-Datenbank ist) werden also Daten darüber gespeichert, welche Geräte genutzt werden, welche Geräte stärker genutzt werden als andere, welche durchgängig auf einem bestimmten Level genutzt werden, bei welchen Geräten zwischenzeitlich Perioden mit sehr intensiver Nutzung auftreten, sowie andere Informationen, die sich auf die Verteilung und den Umfang der Nutzung der Geräte im System beziehen. Diese Informationen sind für die Bestimmung des Fehler- beziehungsweise Ausnahmetyps der vom Subsystem möglicherweise gemeldeten Fehler wichtig. In einem bestimmten Abschnitt der Datenbank werden Muster der aktuellen Nutzungshäufigkeit gespeichert.
- Die gemeldeten Daten über aktuelle Zeit und aktuelle Nutzung (Eingangsprotokoll-Datensatz) werden in den Abschnitt 43 für aktuelle Ereignisse und Trends im Speicher der Subsystemnutzungs-Datenbank 29 (a) (b) (c) eingelesen. Auch das aktuelle Nutzungshäufigkeitsmuster wird Teil der Datenbank bzw. des Protokolls der Subsystemnutzung bzw. - vorgeschichte. Eine Vergleichsbetrachtung 47 wird auf die Subsystemumgebungs-Datenbank angewendet, um eine vergleichende Konfigurations- und Nutzungsvorgeschichte zu erhalten. Die neuen Nutzungsdaten werden also immer auf Trends oder Muster im Hinblick auf die physische Konfiguration des Subsystems und die bisherige Nutzungsvorgeschichte geprüft. Hierdurch entsteht ein ständig aktualisierter Datensatz über die Subsystemnutzung und die Trends und Muster der Subsystemnutzung.
- Die Vergleichsbetrachtung 47 wird nach den Regeln 45 entwickelt, die in einem Regelspeicher gespeichert sind, der Teil der Problemprozeduren 29 (e) ist. Der Eingangsprotokoll- Datensatz wird auf die Regeln angewendet, um den Befehl für die Vergleichsbetrachtung zu erzeugen, der zur Erstellung der Vergleichsbetrachtung 47 der Vorgeschichtsdaten in der Subsystemumgebungs-Datenbank für die aktuelle Nutzung verwendet wird. Die Regelauswahl wird vom Nutzungstyp bestimmt (zum Beispiel Steuereinheit, Pfad, Gerätedaten oder Gerätezugriff) sowie von der physischen Adressengrenze. Die im Regelspeicher gespeicherten Regeln werden von Fachleuten bestimmt und eingegeben; sie legen fest, in welcher Weise die Nutzungsvorgeschichte in dem jeweils analysierten Gerät geprüft werden soll. Diese Information ist somit ausschließlich eine Funktion des geprüften Geräts und ist für die verschiedenen Geräte und Subsysteme unterschiedlich. Die Regeln können zum Beispiel festlegen, daß, wenn ein bestimmter Nutzungstyp vorkommt, ein bestimmter Teil der Nutzungsdatenbank als möglicherweise oder wahrscheinlich mit dieser Nutzung verbundener Teil aufgerufen wird.
- Ein Eingangsprotokoll-Datensatz kann auch vom DAS-Subsystem geliefert werden, wenn die physische Subsystemkonfiguration geändert wird. Ein solcher Eingangsprotokoll-Datensatz dient der Aktualisierung der Subsystemumgebungs-Datenbank, so daß hierin die aktuelle Subsystemkonfiguration wiedergegeben wird.
- Wenn in die Datenbank ein "unerwartetes" Ausnahmeereignis eingegeben wird, wird eine Entscheidung getroffen, die Problembeschreibungsprozedur entweder auf zurufen oder nicht aufzurufen.
- FIG. 3 ist ebenfalls ein Konzept-Diagramm der Speicherung und der Analyse von Daten, die sich auf Ausnahmeereignisberichte oder Fehlerberichte beziehen, die aus verschiedenen Teilen des Speichersubsystems empfangen werden können, wie zum Beispiel vom Gerät, vom Kanal, oder von dem Pfad zwischen Kanal und Gerät. Ein Journal beziehungsweise eine Datenbank 29 (c) mit Ausnahmeereignissen und Trends wird entwickelt und im Fehlerereignisprotokoll-Speicher des E/A-Geräts gespeichert. Das Protokoll enthält einen Unterabschnitt 43 mit dem aktuellen Ausnahmeereignis und den Trenddaten.
- Wenn ein neuer Ausnahmerereignisbericht (aktuelles Ausnahmeereignis oder aktueller Fehler) als Eingangsprotokoll-Datensatz eingeht, erhält er einen Zeitstempel und wird in dem Abschnitt oder der Datenbank für aktuelle Ausnahmeereignisse des Ausnahmeereignisprotokolls in der Subsystemumgebungs-Datenbank aufgezeichnet. Der Bericht über aktuelle Ausnahmeereignisse wird auch auf den Regelsatz 45 angewendet, der zuvor im Gerätespeicher als Teil der Problemprozeduren 29 (e) gespeichert wurde. Diese Regeln erzeugen einen Befehl, der eine Vergleichsbetrachtung 47 darstellt, die auf die Subsystemumgebungs-Datenbank im Hinblick auf den Eingangsprotokoll-Datensatz angewendet wird, der den zuletzt eingegangenen Ausnahmeereignisbericht enthält. Wenn die Subsystemumgebungs-Datenbank durch diese Vergleichsbetrachtung gelesen wird, erhält man Vorgeschichtsdaten über den Maschinenbereich, der jeweils von Interesse ist, was durch das aktuelle Ausnahmeereignis bestimmt wird. Hierdurch kann festgestellt werden, wie das neue Ausnahmeereignis beziehungsweise der Ausfall oder Fehler mit der zurückliegenden Vorgeschichte des Subsystems und mit der physischen Konfiguration des Subsystems in Verbindung stehen. Dies ist wichtig bei der Betrachtung und der Bestimmung von Mustern und Trends in den Fehlerberichten. Wenn man diese Vergleichsbetrachtung auf die Subsystemumgebungs-Datenbank anwendet, können mit dem aktuellen Ereignis verbundene Daten gefunden und auf das aktuelle Ausnahme- oder Fehlerereignis angewendet werden.
- Auf die Regeln 45 zur Erzeugung der Vergleichsbetrachtung 47 der Subsystemumgebungs-Datenbank wird von dem Bericht über aktuelle Ausnahmeereignisse vorzugsweise in Form einer Rückwärtskette zugegriffen, so daß die Regeln nacheinander von dem Fehlerereignisbericht adressiert werden. Hierdurch wird, wie bekannt ist, die erste Regel, wenn sie angetroffen wird und ihre Bedingung erfüllt ist, zum Befehl der Vergleichsbetrachtung, wenn nicht, wird die nächste Regel geprüft und so weiter. Die Reihenfolge der Regeln für die Prüfung und die Regeln selbst sind wiederum eine Funktion des Geräts, in dem sich die Dienstwarnfunktion befindet; beides wird von Fachleuten erstellt, die mit den Fehler- und Ausnahmemerkmalen des jeweiligen E/A-Geräts bestens vertraut sind.
- Die Daten über das aktuelle Fehlerereignis und den aktuellen Trend werden auf einen Regelsatz für das Analysewarnsignal 29 (d) angewendet; diese Regeln enthalten Fehlerkriterien. Der Ausgang der Regeln für das Analysewarnsignal steuert ein Gatter 49, durch das die aktuellen Ausnahmeereignis- und Trenddaten zur nächsten Stufe für die Problembeschreibung durchgeschaltet werden.
- Die Entscheidung, die Problembeschreibungsprozedur aufzurufen, ist eindeutig, wenn der Ausnahmetyp auf einen "harten" Fehler hinweist. Der Systembetrieb ist unterbrochen und eine Dienstmaßnahme ist höchstwahrscheinlich notwendig. Wahrscheinlicher jedoch sind "weiche" Ausnahmetypen, die keine wesentliche Unterbrechung verursachen, jedoch aufgrund einer reparaturfähigen Fehlerbedingung auftreten können.
- Bei "weichen" Ausnahmebedingungen wird die Entscheidung, die Problembeschreibungsprozedur aufzurufen, getroffen, wenn in dem EINFÜGE- und AKTUALISIERUNGS-Prozeß der Datenbank eine häufig wiederkehrende Sequenz von "weichen" Fehlerereignissen erkannt wird, die durch Symptom UND Quelle miteinander in Beziehung stehen. Das Ziel ist, nicht auf beliebige, sich nicht wiederholende Ausnahmeereignisse, die höchstwahrscheinlich von der externen Subsystemumgebung verursacht wurden, zu reagieren.
- Die Fehlerkriterien 29 (d) können als ein rückwärts verketteter Satz von Regeln aufgebaut sein, mit denen die aktuellen Ereignisse und Trends betrachtet werden. Die Regeln sollten so beschaffen sein, daß bei Antreffen eines "harten" Fehlers (bei dem zur Wiederherstellung des ordentlichen Subsystembetriebs Korrektivmaßnahmen erforderlich sind) oder bei Erkennen einer Ausnahmebedingung "weich, Musterschwelle überschritten" ein Analysewarnsignal erzeugt wird und das Gatter 49 die aktuellen Ereignis- und Trenddaten an die Problembeschreibungsprozedur durchschaltet. Zur Erstellung eines Regelsatzes mit den entsprechenden Fehlerkriterien ist Fachwissen über das analysierte Subsystem erforderlich. Im allgemeinen wird die Kette nach Ausnahmepriorität geordnet, so daß das gravierendste erkannte Fehlersymptom zuerst abfeuert.
- Die Regeln für das Analysewarnsignal müssen so aufgestellt werden, daß eine Analysewarnmeldung erzeugt wird, die die aktuellen Ausnahmeereignis- und Trenddaten weitergibt und so die Problembeschreibungsprozedur häufiger aufruft, als wenn es wirklich ein Problem gäbe, so daß die Daten weiter analysiert werden können, wenn irgendein Zweifel besteht.
- Der Mechanismus zur Implementierung der Problembeschreibungsprozedur ist in FIG. 4 im Konzept erläutert. Die Problembeschreibungsprozdur wird in der Aufstellung der Pseudo-Codes in Anhang 2 beschrieben.
- Wenn der aktuelle Fehlerereignis-Datensatz durch das Signal "Problembeschreibungsprozedur aufrufen" an die Problembeschreibungsprozedur weitergegeben wird, wird er auf einen Regelsatz 51 angewendet, der Teil der Problemprozeduren 29 (e) ist und eine Vergleichsbetrachtung 53 der Problemprofil-Datenbank 29 (f) von Ausnahmedatensätzen der Subsystemfehler erzeugt, für die eine Analyse im Gange ist und für die ein Dienst ansteht oder abgeschlossen ist. Diese Vergleichsbetrachtung gewährleistet, daß nur der Teil der Datenbank, der sich auf das aktuell betrachtete Ausnahmeereignis bezieht, verwendet wird, wenn die Auswahlregeln auf das aktuelle Ausnahmeereignis angewendet werden. Dies wiederum geschieht, um die bei der Auswahl erforderliche Rechenleistung zu reduzieren. Wie vorher, werden die Regeln 51 zur Erzeugung der Betrachtung 53 aufgrund von Expertenwissen erstellt, und zwar bezogen auf die Faktoren in Verbindung mit dem jeweiligen Subsystem und den Geräten, in denen die Dienstwarnfunktion enthalten ist, und bezüglich der verschiedenen Arten von Fehlerereignissen, die möglicherweise damit verglichen oder verbunden werden.
- Der Auswahlprozessor 61 vergleicht den aktuellen Ausnahmedatensatz mit der Vergleichsbetrachtung der Problemprofil-Datenbank 29 (f), um eine Auswahl aus den folgenden Möglichkeiten zu treffen:
- a) neuer Fehler;
- b) Wiederholfehler;
- c) Wiederholaufruf;
- d) bekannter Fehler (Analyse im Gange); oder
- e) bekannter Fehler (Dienstmaßnahme anstehend).
- Wenn der aktuelle Ausnahmedatensatz einen neuen Fehler darstellt, wird ein Statusanzeiger oder ein Steuersignal auf der Leitung A plaziert. Die Prozedur "Problemprofil aufbauen/aktualisieren" wird dann aufgerufen und das Signal auf der Leitung A wird ein Befehl zur Analyse eines neuen Fehlers.
- Wenn eine Verknüpfung zu einem vorhandenen Problemprofil-Datensatz gefunden wird, für den eine Analyse im Gange ist (der Fehler wurde dem Host-System noch nicht mitgeteilt), wird auf der Leitung B ein Steuersignal oder ein Statusanzeiger plaziert. Die Prozedur "Problemprofil aufbauen/aktualisieren" wird dann aufgerufen und das Signal auf der Leitung B wird ein Befehl zur Analyse eines bekannten Fehlers.
- Wenn in dem Vergleich festgestellt wird, daß der aktuelle Ausnahmedatensatz einen Wiederholfehler oder einen Wiederholaufruf darstellt, bewirken die Auswahlregeln das Plazieren eines Steuersignals auf der Ausgangsleitung A. Ein Wiederholfehler ist ein Fehler, für den eine Dienstwarnmeldung zum Host-System gesendet wurde, eine Dienstmaßnahme jedoch noch nicht eingeleitet ist. Ein Wiederholaufruf ist ein Fehler, für den eine Dienstmaßnahme durchgeführt wurde, und der anzeigt, daß die Dienstmaßnahme nicht erfolgreich war. Obwohl ein Wiederholfehler oder ein Wiederholaufruf bedeuten, daß ein Datensatz des Fehlers in der Problemprofil-Datenbank vorhanden ist, sind diese Problemprofil-Daten eine alte Vorgeschichte, die von der Problemauswertungsprozedur aktuell nicht verwendet werden soll. Daher baut die Prozedur "Problemprofil aufbauen/aktualisieren" einen neuen Problemprofil-Datensatz auf, als ob die aktuelle Ausnahme ein neuer Fehler wäre. Die weitere Analyse erfolgt durch Aufrufen der Problemauswertungsprozedur.
- Wenn der Vergleich eine Verknüpfung zwischen dem Datensatz des aktuellen Ausnahmeereignisses und einem Problemprofil-Datensatz findet, für den eine Dienstmaßnahme ansteht, zählt der Zähler für regelmäßig wiederkehrende Probleme in dem Problemprofil-Datensatz hoch und die Problembeschreibungsprozedur wird beendet. In diesem Fall wird die Problemauswertungsprozedur nicht aufgerufen.
- Die Prozedur "Problemprofil aufbauen/aktualisieren" wird als eine Subroutine der Problembeschreibungsprozedur aufgerufen. Die Prozedur dient zum Aufbau eines Problemprofil-Datensatzes für die Problemprofil-Datenbank, wenn in der Datenbank kein Problemprofil-Datensatz gefunden wird, der mit dem aktuellen Ausnahmedatensatz übereinstimmt, und zur Aktualisierung des Problemprofil-Datensatzes, wenn ein Problemprofil-Datensatz in der Datenbank gefunden wird, der mit dem aktuellen Ausnahmedatensatz übereinstimmt.
- Die Problemprofil-Datensätze in der Problemprofil-Datenbank 29 (f) haben vorzugsweise ein gemeinsames Datensatzformat. Unterschiedliche Bytes in dem Datensatz zeigen an, ob eine Analyse für den durch diesen Problemprofil-Datensatz dargestellten Fehler im Gange ist, oder ob eine Dienstmaßnahme ansteht, oder ob an das Host-System eine Dienstwarnmeldung übertragen wurde, oder ob eine Dienstmaßnahme abgeschlossen wurde, oder andere Informationen, die sich auf die Analyse und die Behandlung von Subsystemfehlern beziehen.
- Die Prozedur "Problemprofil-Datensatz aufbauen" ist als das Element 71 (FIG. 4) dargestellt; sie wird in der Aufstellung der Pseudo-Codes im Anhang 3 ausführlicher beschrieben. Diese Prozedur baut einen Problemprofil-Datensatz in der Problemprofil-Datenbank 29 (f) auf oder aktualisiert diesen.
- Der aktuelle Ausnahme- oder Problemprofil-Datensatz wird auf die Prozedur "Problemprofil-Datensatz aufbauen" angewendet. Wenn ein bekannter Fehler, für den eine Analyse im Gange ist, beteiligt ist, wird der aktualisierte Problemprofil-Datensatz von der Problemprofil-Datenbank (die nicht den aktuellen Ausnahmedatensatz enthält) auf die Prozedur "Problemprofil-Datensatz aufbauen" angewendet, so daß er mit dem aktuellen Problemprofil-Datensatz (Ausnahmedatensatz) aktualisiert werden kann. Das Steuersignal für einen bekannten Fehler (Analyse im Gange) bewirkt, daß ein Regelsatz 65 aufgerufen und eine Betrachtung 66 der Subsystemumgebungs-Datenbank 29 (a) (b) (c) erzeugt wird, die sich auf die aktuelle Ausnahme bezieht. Die betrachteten Daten werden der Prozedur 71, "Problemprofil aufbauen/aktualisieren", zusammen mit dem aktuellen Datensatz und dem vorhandenen Problemprofil-Datensatz von der Problemprofil-Datenbank 29 (f) bereitgestellt. Nachdem der Problemprofil-Datensatz aktualisiert ist, kehrt der Prozeß anschließend an den Punkt in der Problembeschreibungsprozedur zurück, an dem die Problemauswertungsprozedur (Profildatensatz, regelmäßig wiederkehrendes Problem) aufgerufen wird. Bezieht sich der aktuelle Ausnahmedatensatz auf einen neuen Fehler, wird mit der Prozedur "Problemprofil-Datensatz aufbauen", 71, ein Problemprofil-Datensatz aufgebaut. Das Steuersignal für einen neuen Fehler bewirkt, daß ein Satz von Regeln 63 aufgerufen wird, um eine Betrachtung 66 der Subsystemumgebungs-Datenbank 29 (a) (b) (c) für die aktuelle Ausnahme zu erzeugen. Die betrachteten Daten werden der Prozedur 71, "Problemprofil aufbauen/aktualisieren", zusammen mit dem aktuellen Datensatz bereitgestellt. Für einen neuen Fehler existiert in der Problemprofil-Datenbank 29 (f) kein bereits vorhandener Problemprofil-Datensatz. Nachdem der Problemprofil-Datensatz aufgebaut ist, kehrt der Prozeß zu der Problembeschreibungsprozedur zurück, und zwar zu dem Punkt, an dem die Problemauswertungsprozedur (Profildatensatz, neues Problem) aufgerufen wird.
- Bezieht sich der aktuelle Ausnahmedatensatz auf einen Wiederholfehler, wird der Problemprofil-Datensatz wie für einen neuen Fehler erzeugt, danach kehrt der Prozeß zu der Problembeschreibungsprozedur zurück, und zwar zu dem Punkt, an dem die Problemauswertungsprozedur (Profildatensatz, Wiederholwarnsignal) aufgerufen wird.
- Wenn der aktuelle Ausnahmedatensatz sich auf einen Wiederholaufruf bezieht, wird auch ein Problemprofil-Datensatz wie für einen neuen Fehler aufgebaut, danach kehrt der Prozeß an den Punkt in der Problembeschreibungsprozedur zurück, an dem die Problemauswertungsprozedur (Profildatensatz, Wiederholaufruf) aufgerufen wird.
- Die Problemauswertungsprozedur ist schematisch in FIG. 5 dargestellt und wird in der Pseudo-Code-Aufstellung im Anhang 4 beschrieben.
- Die Problemauswertungsprozedur wird aufgerufen, wenn der Eingangsparameter des Profildatensatzes neue Problemdaten enthält, die ausgewertet werden müssen. Die Auswertungs-Task besteht darin, entsprechende Dienstmaßnahmeanforderungen für die Problembedingung zu bestimmen sowie festzustellen, ob eine Dienstmaßnahme für eine Problemlösung einzuleiten ist.
- Der Problemauswertungsprozeß ist Regelgesteuert, das heißt, die Daten in dem Problemprofil-Datensatz bestimmen sowohl die REGEL-Auswahl als auch die REGEL-Produkte. Die durch die REGEL-Ausführung erzeugte Information wird mit dem Profildatensatz VERBUNDEN und wird Teil der Problemprofil-Datenbank. Das Ergebnis ist ein Datenbank-Datensatz, der sowohl das Problem als auch die Ergebnisse der Problemanalyse beschreibt.
- Wenn der Auswertungsprozeß feststellt, daß eine Dienstmaßnahme (noch) nicht erforderlich ist, wird der aktualisierte Problemprofil-Datensatz an die Problemprofil-Datenbank zurückgegeben. Ein späterer Aufruf des Dienstanalyse-Meldungsprozesses kann das Problem aktualisieren und neu bewerten. Andernfalls wird der Datensatz schließlich aus der Datenbank gelöscht.
- Zur Analyse der Fehler wird ein Regelsatz 73 installiert. Die Regeln 73 werden auf den Problemprofil-Datensatz angewendet, der von der Prozedur "Problemprofil aufbauen/aktualisieren", 71, empfangen (aktualisiert) wird (siehe FIG. 4). Ist der aktuelle Fehler ein bekannter Fehler, für den eine Analyse im Gange ist, ist in dem Problemprofil-Datensatz eine Dienstwarnmeldung enthalten. Diese Dienstwarnmeldung wird in dem Meldungsdatenraum 83 plaziert, aus dem sie in die Analyseregeln 73 eingelesen wird. Die Steuerbefehle auf den Leitungen (A) oder (B) instruieren die Regeln 73, ob ein neuer Fehler (einschließlich Wiederholfehler und Wiederholaufrufe) oder ein bekannter Fehler analysiert werden soll, für den eine Analyse im Gange ist. Bei einem neuen Fehler erzeugen die Regeln eine Dienstwarnmeldung, die in den Meldungsdatenraum 83 eingelesen wird. Bei einem bekannten Fehler verändern die Regeln die vorhandene, aus dem Datenraum 83 eingelesene Meldung und lesen die in dem Datenraum befindliche neue Meldung.
- Die Regeln 73 grenzen den Fehler ein, bestimmen den Schweregrad des Fehlers und eine empfohlene Dienstmaßnahme. Der Ausgang von den Regeln ist eine Steuerinformation für einen Bericht und die Aktualisierung der Datenbank, die auf die Dienstwarnsignal- und Datenbank-Aktualisierungssteuerung 81 angewendet wird.
- Die Dienstwarnsignal- und Datenbank-Aktualisierungssteuerung 81 empfängt den Bericht von den Fehleranalyseregeln 73 und die Dienstwarnmeldung. Der Ausgang von den Fehleranalyseregeln 73 bestimmt, ob die Dienstwarnsignal- und Datenbank- Aktualisierungssteuerung 81 einen Dienstwarnmeldungsbericht an den Host weiterleitet, oder ob er einfach an die Problemprofil-Datenbank 29 (f) zurückgegeben wird und Teil der Beobachtung für später auftretende Fehler wird. Wenn der Bericht an den Host gesendet werden soll, dann wird die Problemprofil-Datenbank auch um diesen Bericht erweitert.
- Wenn in dem Problemauswertungsprozeß beschlossen wird, daß eine Dienstmaßnahme erforderlich ist, wird eine Prozedur zur Erzeugung einer Dienstanalysemeldung "Daten erfassen" für eine entsprechende Dienstanalyse-Textmeldung aufgerufen. Die Dienstanalysemeldung "Daten erfassen" wird mit dem Problemprofil-Datensatz VERBUNDEN und auch an ein Host-System weitergegeben.
- (* Der Prozeß zur Erzeugung der Dienstwarnmeldung erfordert, daß das Subsystem in regelmäßigen Abständen Pfad- und Gerätenutzungszählwerte mitteilt und daß Veränderungen in der Subsystemkonfiguration und Ausnahmeereignisse, sobald sie auftreten, mitgeteilt werden. Die Informationen werden in Form eines Protokolldatensatzes mitgeteilt, wobei jeder Protokolldatensatz aus den folgenden Komponenten besteht:
- Protokolltyp, Protokollquelle, Protokolldaten und Zeitstempel *)
- (Eingangsprotokoll-Datensatz)
- Subsystemumgebung.Nächster Datensatz (Protokolltyp, Protokollquelle, Protokolldaten, Zeitstempel)
- Aktueller Datensatz:= Nächster Datensatz
- Nächster Datensatz := Nächster Datensatz + 1
- FALL Aktueller Datensatz.Protokolltyp VON Gerätenutzungsbericht
- AKTUALISIEREN Protokollquelle (Nutzungsstatistik)
- (* Aktuellen Datensatz und Protokollquelle verwenden. Vorheriger Datensatz soll aktuellen aktualisieren und Nutzungshäufigkeitswerte benennen für: Pfadzugriff, Bewegungssuche, Datenschreiben und Datenlesen. *)
- Veränderte Subsystemkonfiguration
- AKTUALISIEREN Protokollquelle (Vitale Konfigurationsdaten)
- (* Den aktuellen Datensatz verwenden, um zu bestimmen, inwieweit sich die Konfiguration geändert hat; Gültigkeit der Änderung prüfen; und die entsprechenden Konfigurationsdatensätze aktualisieren. *)
- Ausnahmeereignis (Typ = "weich")
- AUSWÄHLEN Zeitstempel, Ausnahmesymptom, Symptom- Domäne, Fehlermuster
- AUS Subsystemumgebung
- WO Die Ausnahmedatenvergleichs-REGEL bestimmt wird aus:
- Aktueller Datensatz (Protokolldaten.Symptom * Protokollquelle.Grenze)
- AKTUALISIEREN Aktueller Datensatz (Fehlermuster)
- (* Der aktuelle Datensatz wird aktualisiert und enthält dann eine Fehlermusterbeschreibung, die aus der Vergleichsbetrachtung der Datenbank abgeleitet ist.
- Ein Fehlermuster ist gekennzeichnet durch: Symptom-Profil, Fehlerereignisse, Fehler- Periode. *)
- WENN Fehlermuster > Symptom (Schwellenkriterien)
- DANN GEHE ZU Problembeschreibung (Anhang 2)
- Ausnahmeereignis (Typ = "hart")
- GEHE ZU Problembeschreibung (Anhang 2)
- ENDE (des Falls)
- ENDE. (Prozedur Problemerkennung)
- (* Diese Prozedur versucht, den aktuellen Datensatz mit einem Profildatensatz zu verknüpfen, der bereits bei einem früheren Auftreten desselben Problems erzeugt wurde. Ist die Verknüpfung erfolgreich, werden, abhängig vom Profildatensatz.Status, die Profile aktualisiert und geben die neuen Daten aus der Subsystemumgebung wieder. Andernfalls wird ein neuer Profildatensatz erzeugt. *)
- AUSWÄHLEN Profildatensatz (*.ID, *.Status)
- AUS Problemprofil
- WO Die Profildatensatzvergleichs-REGEL bestimmt wird aus:
- Aktueller Datensatz (Protokolldaten.Symptom * Protokollquelle Grenze)
- FALL Auswählen Ergebnisse VON Leerer Satz (* Keine Vorgeschichts-Verknüpfung gefunden *)
- Profil aufbauen (Aktueller Datensatz) (Anhang 3)
- (* Die Prozedur erzeugt eine Vergleichsbetrachtung der Subsystemumgebung des aktuellen Datensatzes. Muster für einen neuen Profildatensatz werden aus den Daten in der Betrachtung aufgebaut. *)
- GEHE ZU Problemauswertung (Profildatensatz, neues Problem)
- Verknüpfung gefunden (*.Status = Nicht an das System gemeldet) (Analyse im Gange)
- Profil aktualisieren (Aktueller Datensatz, Profildatensatz) (Anhang 3)
- (* Die Prozedur erzeugt eine Vergleichsbetrachtung von neuen Einträgen (seit *.ID) in der Subsystemumgebungs-Datenbank des aktuellen Datensatzes. Die Profildatensatz-Muster werden aus den Daten in dieser Betrachtung aktualisiert. *)
- GEHE ZU Problemauswertung (Profildatensatz, regelmäßig wiederkehrendes Problem)
- Verknüpfung gefunden (*.Status = Dienstmaßnahme anstehend) Profildatensatz.Anzahl der regelmäßig wiederkehrenden Probleme: *.* +1
- (* Zahl der wiederholten Ausnahmeereignisse pflegen. *)
- Verknüpfung gefunden (*.Status = keine Dienstantwort) (Wiederholfehler)
- Profil aktualisieren (Aktueller Datensatz, Profildatensatz) (Anhang 3)
- (* Dienstwarnmeldung aktualisieren ünd dem System erneut mitteilen. *)
- GEHE ZU Problemauswertung (Profildatensatz, Wiederhol- Warnsignal)
- Verknüpfung gefunden (*.Status = Dienstmaßnahme abgeschlossen) (Wiederholaufruf)
- Profil aufbauen (Aktueller Datensatz) (Anhang 3) (* Dienstmaßnahme nicht erfolgreich. Neue Dienstwarnmeldung für Maßnahme durch hierfür geschulten Kundendiensttechniker aufbauen. *)
- GEHE ZU Problemauswertung (Profildatensatz, Wiederholaufruf)
- ENDE
- ENDE. (Prozedur Problembeschreibung)
- INITIALISIEREN Profildatensatz (Zeitstempel = Null) (* Aufbau eines neuen Profildatensatzes vorbereiten. *)
- (* Diese Prozedur baut einen Profildatensatz auf oder aktualisiert einen Profildatensatz, der eine Vergleichsbetrachtung der Subsystemumgebung des aktuellen Datensatzes darstellt. *)
- AUSWÄHLEN SCU-Konfiguration, String-Konfiguration, Geräte- Konfiguration
- AUS Subsystemumgebung (Zeitstempel > Profildatensatz.Zeitstempel)
- WO Die Konfigurationsdatenvergleichs-REGEL bestimmt wird aus: Aktueller Datensatz (Protokolldaten Symptom * Protokollquelle Grenze)
- PROFIL (* Subsystemkanäle, SP Controller, String- Pfad-Controller, Spindeln, Geräte und Modell/Funktionsmerkmale, eingebaut und (nicht reserviert) innerhalb der "relevanten" Subsystem-Grenze. *)
- AUSWÄHLEN SP-Nutzung, String-Nutzung, Pfad-Nutzung, Spindel- Nutzung, Geräte-Nutzung
- AUS Subsystemumgebung (Zeitstempel > Profildatensatz. Zeitstempel)
- WO Die Nutzungsstatistikvergleichs-REGEL bestimmt wird aus: Aktueller Datensatz (Protokolldaten.Symptom * Protokollquelle.Grenze)
- PROFIL (* Nutzungsmuster für Subsystemkomponenten, die innerhalb der "relevanten" Subsystem- Grenze installiert und betriebsfähig sind. *)
- AUSWÄHLEN ERP-Maßnahme, ERP-Ressource, ERP-Ergebnis
- AUS Subsystemumgebung (Zeitstempel > Profildatensatz. Zeitstempel)
- WO Die ERP-Datenvergleichs-REGEL bestimmt ward aus:Aktueller Datensatz (Protokolldaten.Symptom * Protokollquelle. Grenze)
- PROFIL (* Ergebnisse von Ausnahmekorrekturmaßnahmen,
- die für "relevante" Ausnahmen aufgerufen wurden, und Verwendung von Komponenten innerhalb der "relevanten" Subsystem-Grenze. *)
- AUSWÄHLEN Befehlsausnahme, Ausnahme-Symptom, Sub-Symptom- Parameter, Symptom-Domäne, Strom-Status
- AUS Subsystemumgebung (Zeitstempel > Profildatensatz. Zeitstempel)
- WO Die Ausnahmedaten-Vergleichs-REGEL bestimmt wird aus: Aktueller Datensatz (Protokolldaten. Symptom * Protokollquelle Grenze)
- PROFIL (* Syndrom-Muster, die für "relevante" Ausnahmen erkannt wurden, und Verwendung von Komponenten innerhalb der "relevanten" Subsystem-Grenze. Die Profilmuster liefern eine Knotenpunkt-Eingrenzung für (einen) wahrscheinliche(n) Fehlermodus(modi). und (eine) mögliche Fehlergrenze(n). *)
- Profildatensatz.Zeitstempel := Aktuelle Zeit
- ENDE (Prozedur Profil aufbauen/aktualisieren) (Rückkehr zur Prozedur Problembeschreibung)
- (* Diese Prozedur verarbeitet Daten in dem Profildatensatz zur Erzeugung von Dienstanforderungen für das erkannte Problem. Anschließend wird die Dienstwarnmeldung "Daten erfassen" erzeugt und einem Host-System mitgeteilt, WENN die Dienstanforderungen anzeigen, daß das erkannte und ausgewertete Problem eine Dienstmaßnahme erfordert. Die durch diese Prozedur erzeugte Problemauswertungsinformation wird mit dem Profildatensatz VERBUNDEN und in der Problemprofil -Datenbank gespeichert. *)
- LADEN REGEL-Satz für Profildatensatz.Ausnahmeklassen- Gruppe
- (* Ausnahmeklassen-Gruppe kennzeichnet die ausgefallene DAS-Funktion. Der REGEL-Satz wird ausgeführt, um die Dienstmaßnahmeanforderungen zu bestimmen. *)
- AUSFÜHREN REGEL-Satz. Fehlereingrenzung
- PROFILIEREN Eingrenzungsstatus IN Profildatensatz.Dienstanforderungen
- Gewißheit eingrenzen= SATZ VON 1..10
- Kundendienstdiagnoseverfahren = SATZ VON 1..n
- Primäre FRU = Keine _ SATZ VON 1..n
- Sekundäre FRU = Keine _ SATZ VON 1..n
- Defekte Stelle auf dem Medium = Keine _ Medienadresse (Grenzparameter)
- Medienwartungsverfahren = Keines _ SATZ VON 1..n
- (* REGEL-Satz verarbeitet die Daten des Profildatensatzes, um das aufgezeichnete Fehlersyndrom-Muster mit der höchsten Wertigkeit auszuwählen. Zum Beispiel: der Nachweis eines Stromfehlersyndroms hat Vorrang vor einem möglicherweise auch aufgezeichneten Logikfehlersyndrom; oder: der Nachweis eines Logik- oder Analogfehlersyndroms hat Vorrang gegenüber einem möglicherweise auch aufgezeichneten Datenfehlersyndrom.
- Der Mindest-Eingrenzstatus ist eine Eingrenzgewißheit von = 1 und ein Verweis auf ein Kundendienst-Diagnoseverfahren.
- Der Höchst-Eingrenzstatus ist eine Eingrenzgewißheit von = 10 und ein Verweis auf eine einzelne Primäre FRU oder eine Defekte Stelle auf dem Medium. *)
- AUSFÜHREN REGEL-Satz. Fehlerschweregrad
- PROFILIEREN Schweregrad-Status IN Profildatensatz.Dienstanforderungen
- Permanenz = SATZ VON (Hart, Weich)
- Fortbestehen = SATZ VON (Ereignis, Burst, Regelmäßig Wiederkehrend, Intermittierend)
- Unterbrechung = SATZ VON (Keine, Unterstützung, Kanal, Pfad, Gerät, Daten)
- Umfang = SATZ VON 0..n
- (* REGEL-Satz verarbeitet die Daten des Profildatensatzes, um den Schweregrad-Status für das durch die Fehlereingrenzung bestimmte Fehlersyndrom zu bestimmen. Der Schweregrad-Status wird dem Profildatensatz hinzugefügt. *)
- AUSFÜHREN REGEL-Satz.Dienstmaßnahme
- PROFILIEREN Dienststatus IN Profildatensatz.Dienstanforderungen
- Dienststatus = SATZ VON (Wahrscheinlicher Fehler, Reparaturfehler)
- (* Dieser REGEL-Satz verarbeitet die Prozedur-Eingangsparameter (Neues Problem, Regelmäßg wiederkehrendes Problem, Wiederhol-Warnsignal, Wiederholaufruf) zusammen mit dem Eingrenzstatus und dem Schweregrad-Status, um den Verlauf der Maßnahmen für diesen Profildatensatz zu bestimmen. *)
- FALL Dienststatus VON Wahrscheinlicher Fehler
- AKTUALISIEREN Profildatensatz (Problemstatus := Analyse im Gange)
- (* Der Dienstwarnmeldungsprozeß für den Aktuellen Datensatz wird durch Rücksenden des Profildatensatzes in die Problemprofil-Datenbank beendet. Wenn das Problem erneut auftritt, wird der Rekursiv-Prozeß der Aktualisierung und Neubewertung nochmals aufgerufen. Wenn das Problem innerhalb einer vorgegebenen Zeit nicht wieder auftritt, dann wird der Profildatensatz aus der Problemprofil-Datenbank gelöscht. *)
- Reparaturfehler
- AKTUALISIEREN Profildatensatz (Problemstatus := Problem gemeldet)
- Dienstwarnmeldung erzeugen (Profildatensatz.Dienstanforderungen)
- Dienstwarnmeldung "Daten erfassen" MIT Profildatensatz. Dienstwarnmeldung VERBINDEN
- Dienstwarnmeldung an Host melden (Profildatensatz-Dienstwarnmeldung)
- (* Der Dienstwarnmeldungsprozeß für den Aktuellen Datensatz wird beendet durch Erzeugen eines Datensatzes mit der Dienstwarnmeldung "Daten erfassen" aus den Daten im Profildatensatz. Die Dienstwarnmeldung "Daten erfassen" wird dann an ein Host-System gesendet, um den Dienstprozeß der Maschine einzuleiten. Der Meldeprozeß wird in bestimmten Intervallen wiederholt, bis die Dienstmaßnahme eingeleitet ist, oder bis ein vorgegebenes Meldefenster abgelaufen ist. *)
- ENDE
- ENDE. (Prozedur Problemauswertung)
Claims (8)
1. Ein Verfahren zur automatischen Erfassung und Analyse
von Ausnahmeereignissen, die in dem peripheren Subsystem
eines Rechners auftreten, das an ein Host-Rechnersystem
angeschlossen ist, wobei das Verfahren durch folgende
Schritte gekennzeichnet ist:
Pflegen einer Subsystemumgebungs-Datenbank, die
Informationen bezüglich der aktuellen Konfiguration des
genannten peripheren Rechner-Subsystems sowie Nutzungs- und
Fehlerinformationen bezüglich des genannten peripheren
Subsystems enthält;
bedingungsabhängiges Aufrufen einer
Problembeschreibungsprozedur, wenn die Daten in der genannten
Subsystemumgebungs-Datenbank ein Ausnahmeereignis
wiedergeben, das entweder eine eindeutige oder eine
wahrscheinliche Notwendigkeit für eine Dienstmaßnahme an dem
genannten peripheren Subsystem anzeigt, wobei die
genannte Problembeschreibungsprozedur folgendes umfaßt:
Entwicklung eines aktuellen Problemprofil-Datensatzes,
der das genannte Ausnahmeereignis beschreibt;
Erzeugen einer Betrachtung einer Problemprofil-Datenbank
für das genannte Ausnahmeereignis aus gespeicherten
Regeln;
Abfragen einer Problemprofil-Datenbank, die
Problemprofil-Datensätze von bereits früher aufgetretenen
Ausnahmeereignissen enthält, um den genannten aktuellen
Problemprofil-Datensatz mit einem Problemprofil-Datensatz
zu vergleichen, der bereits in der genannten
Problemprofil-Datenbank vorhanden ist;
wenn der genannte aktuelle Problemprofil-Datensatz mit
einem bereits in der genannten Problemprofil-Datenbank
vorhandenen Problemprofil-Datensatz übereinstimmt, und
der genannte bereits vorhandene Problemprofil-Datensatz
anzeigt, daß eine Dienstmaßnahme für das betreffende
Problem bereits ansteht, Aktualisieren des genannten
vorhandenen Problemprofil-Datensatzes;
wenn der genannte aktuelle Problemprofil-Datensatz mit
einem in der genannten Problemprofil-Datenbank bereits
vorhandenen Problemprofil-Datensatz übereinstimmt, und
der genannte bereits vorhandene Problemprofil-Datensatz
anzeigt, daß eine Dienstmaßnahme für das betreffende
Problem nicht ansteht, Aktualisieren des genannten
vorhandenen Problemprofil-Datensatzes und Aufrufen einer
Problemauswertungsprozedur;
wenn der genannte aktuelle Problemprofil-Datensatz nicht
mit einem in der genannten Problemprofil-Datenbank
bereits vorhandenen Problemprofil-Datensatz übereinstimmt,
Hinzufügen des genannten Problemprofil-Datensatzes zu
der genannten Problemprofil-Datenbank und Aufrufen einer
Problemauswertungsprozedur;
wobei die genannte Problemauswertungsprozedur folgendes
umfaßt:
Prüfen des genannten aktuellen Problemprofil-Datensatzes
im Hinblick auf gespeicherte Regeln, die sich auf eine
akzeptable Subsystem-Leistung beziehen; und
wenn die Funktionen des genannten peripheren Subsystems
unterbrochen wurden oder sich soweit verschlechtert
haben, daß bestimmte Grenzwerte im Hinblick auf eine
akzeptable Subsystem-Leistung überschritten sind, Erzeugen
einer Dienstwarnmeldung und Einfügen der genannten
Dienstwarnmeldung in den genannten
Problemprofil-Datensatz, Aktualisieren des genannten vorhandenen
Problemprofil-Datensatzes in der genannten
Problemprofil-Datenbank und Übertragen der genannten Dienstwarnmeldung zu
dem genannten Host-System.
2. Die Methode nach Anspruch 1, bei der der genannte
Schritt des bedingungsabhängigen Aufrufens der genannten
Problembeschreibungsprozedur die Prüfung der genannten
Subsystemumgebungs-Datenbank im Hinblick auf Regeln
umfaßt, die eine normale Leistung und mögliche
Ausnahmeereignisse beschreiben.
3. Das Verfahren nach Anspruch 2, bei dem der genannte
Schritt des bedingungsabhängigen Aufrufens der genannten
Problembeschreibungsprozedur außerdem das Prüfen der
Daten umfaßt, die sich auf das genannte Ausnahmeereignis
beziehen, um festzustellen, ob es sich bei dem genannten
Ausnahmeereignis um ein weiches oder ein hartes Ereignis
handelt, und bei dem:
wenn das genannte Ausnahmeereignis ein hartes Ereignis
ist, die genannte Problembeschreibungsprozedur
aufgerufen wird; und
wenn das genannte Ausnahmeereignis ein weiches Ereignis
ist, das genannte Ausnahmeereignis geprüft und mit einem
Regelsatz verglichen wird, um festzustellen, ob ein
Schwellenkriterium überschritten wurde, und die genannte
Problembeschreibungsprozedur aufgerufen wird, wenn das
genannte Schwellenkriterium überschritten wurde.
4. Das Verfahren nach Anspruch 3, bei dem der genannte
Schritt des Prüfens des genannten Ausnahmeereignisses im
Vergleich mit einem Regelsatz, um festzustellen, ob ein
Schwellenkriterium überschritten wurde, das Prüfen des
genannten Ausnahmeereignisses im Vergleich mit einem
Regel-Nebensatz umfaßt, der sich auf den Typ des
Ausnahmeereignisses und den Abschnitt des genannten peripheren
Rechner-Subsystems beziehen, der sich auf das genannte
Ausnahmeereignis bezieht.
5. Das Verfahren nach Anspruch 4, bei dem das Feststellen,
ob ein Schwellenkriterium überschritten wurde, die
Feststellung umfaßt, ob ein Trend von miteinander
verglichenen Ausnahmeereignissen in einem gemeinsamen
Abschnitt des genannten peripheren Rechner-Subsystems
erkannt wurde.
6. Ein System zur automatischen Erkennung und Analyse von
Ausnahmeereignissen, die in einem peripheren Rechner-
Subsystem auftreten, das an ein Host-Rechnersystem
angeschlossen ist, wobei das System durch folgende Schritte
gekennzeichnet ist:
Mittel zur Pflege einer Subsystemumgebungs-Datenbank,
die Informationen bezüglich der aktuellen Konfiguration
des genannten peripheren Rechner-Subsystems sowie
Nutzungs- und Fehlerinformationen bezüglich des genannten
peripheren Subsystems enthält;
Mittel zum bedingungsabhängigen Aufrufen eines
Problembeschreibungsprozedur-Mittels, wenn die Daten in der
genannten Subsystemumgebungs-Datenbank auf ein
Ausnahmeereignis hinweisen, das entweder eine eindeutige oder eine
wahrscheinliche Notwendigkeit einer Dienstmaßnahme an
dem genannten peripheren Subsystem anzeigt, wobei das
genannte Problembeschreibungsprozedur-Mittel folgendes
umfaßt:
Mittel zur Entwicklung eines aktuellen
Problemprofil-Datensatzes, der das genannte Ausnahmeereignis beschreibt;
Mittel zur Erzeugung einer Betrachtung einer
Problemprofil-Datenbank bezüglich des genannten
Ausnahmeereignisses aus gespeicherten Regeln;
Mittel zum Abfragen einer Problemprofil-Datenbank, die
Problemprofil-Datensätze von bereits früher
aufgetretenen Ausnahmeereignissen enthält, um den genannten
aktuellen Problemprofil-Datensatz mit einem Problemprofil-
Datensatz zu vergleichen, der bereits in der genannten
Problemprofil-Datenbank vorhanden ist;
wenn der genannte aktuelle Problemprofil-Datensatz mit
einem in der genannten Problemprofil-Datenbank
vorhandenen Problemprofil-Datensatz übereinstimmt, und der
genannte vorhandene Problemprofil-Datensatz anzeigt, daß
für das betreffende Problem eine Dienstmaßnahme ansteht,
Aktualisieren des genannten vorhandenen Problemprofil-
Datensatzes;
wenn der genannte aktuelle Problemprofil-Datensatz mit
einem vorhandenen Problemprofil-Datensatz in der
genannten Problemprofil-Datenbank übereinstimmt, und der
genannte vorhandene Problemprofil-Datensatz anzeigt, daß
für das betreffende Problem keine Dienstmaßnahme
ansteht, Aktualisieren des genannten vorhandenen
Problemprofil-Datensatzes und Aufrufen eines
Problemauswertungsprozedur-Mittels;
wenn der genannte aktuelle Problemprofil-Datensatz nicht
mit einem in der genannten Problemprofil-Datenbank
bereits vorhandenen Problemprofil-Datensatz übereinstimmt,
Hinzufügen des genannten aktuellen
Problemprofil-Datensatzes zu der genannten Problemprofil-Datenbank und
Aufrufen eines Problemauswertungsprozedur-Mittels;
wobei das genannte Problemauswertungsprozedur-Mittel
folgendes umfaßt:
Mittel zum Prüfen des genannten aktuellen Problemprofil-
Datensatzes im Hinblick auf gespeicherte Regeln, die
sich auf eine akzeptable Subsystem-Leistung beziehen;
und
Mittel, um festzustellen, ob Funktionen des genannten
peripheren Subsystems unterbrochen wurden oder sich
soweit verschlechtert haben, daß eine bestimmte Grenze im
Hinblick auf eine akzeptable Subsystem-Leistung
überschritten wurde, Mittel zum Erzeugen einer
Dienstwarnmeldung und Einfügen der genannten Dienstwarnmeldung in
den genannten Problemprofil-Datensatz, Aktualisieren des
genannten Problemprofil-Datensatzes in der genannten
Problemprofil-Datenbank und Übertragen der genannten
Dienstwarnmeldung an das genannte Host-System.
7. Ein System nach Anspruch 6, bei dem das genannte Mittel
zum bedingungsabhängigen Aufrufen der genannten
Problembeschreibungsprozedur Mittel zum Prüfen der genannten
Subsystemumgebungs-Datenbank im Hinblick auf Regeln
umfaßt, die eine normale Leistung und mögliche
Ausnahmeereignisse beschreiben.
8. Ein System nach jedem der Ansprüche 6 oder 7, bei dem
das genannte Mittel zum bedingungsabhängigen Aufrufen
der genannten Problembeschreibungsprozedur zusätzlich
Mittel zur Prüfung der Daten des genannten
Ausnahmeereignisses umfaßt, um festzustellen, ob es sich bei dem
genannten Ausnahmeereignis um ein weiches oder ein
hartes Ereignis handelt, und bei dem:
wenn das genannte Ausnahmeereignis ein hartes Ereignis
ist, das genannte Problembeschreibungsprozedur-Mittel
aufgerufen wird; und
wenn das genannte Ausnahmeereignis ein weiches Ereignis
ist, das genannte Ausnahmeereignis mit einem Regelsatz
verglichen wird, um festzustellen, ob ein
Schwellenkriterium überschritten wurde, und, wenn das genannte
Schwellenkriterium überschritten wurde, Aufrufen der
genannten Problembeschreibungsprozedur-Mittels.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/239,154 US4922491A (en) | 1988-08-31 | 1988-08-31 | Input/output device service alert function |
Publications (2)
Publication Number | Publication Date |
---|---|
DE68924226D1 DE68924226D1 (de) | 1995-10-19 |
DE68924226T2 true DE68924226T2 (de) | 1996-05-02 |
Family
ID=22900845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE68924226T Expired - Fee Related DE68924226T2 (de) | 1988-08-31 | 1989-07-24 | Dienstwarnsignalfunktion für Eingangs-/Ausgangsgerät. |
Country Status (5)
Country | Link |
---|---|
US (1) | US4922491A (de) |
EP (1) | EP0357573B1 (de) |
JP (1) | JPH02105947A (de) |
BR (1) | BR8904416A (de) |
DE (1) | DE68924226T2 (de) |
Families Citing this family (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5090014A (en) * | 1988-03-30 | 1992-02-18 | Digital Equipment Corporation | Identifying likely failure points in a digital data processing system |
CA1318030C (en) * | 1988-03-30 | 1993-05-18 | Herman Polich | Expert system for identifying failure points in a digital data processing system |
US5047977A (en) * | 1988-04-08 | 1991-09-10 | International Business Machines Corporation | Methods of generating and retrieving error and task message records within a multitasking computer system |
US5067107A (en) * | 1988-08-05 | 1991-11-19 | Hewlett-Packard Company | Continuous computer performance measurement tool that reduces operating system produced performance data for logging into global, process, and workload files |
US5063535A (en) * | 1988-11-16 | 1991-11-05 | Xerox Corporation | Programming conflict identification system for reproduction machines |
JP2714091B2 (ja) * | 1989-01-09 | 1998-02-16 | 株式会社日立製作所 | フィールド計器 |
EP0389729A1 (de) * | 1989-03-28 | 1990-10-03 | International Business Machines Corporation | Datenübertragungssystem mit Hilfsmitteln zur Leitungsproblembestimmung für alle Anschlüsse |
US5023873A (en) * | 1989-06-15 | 1991-06-11 | International Business Machines Corporation | Method and apparatus for communication link management |
US5138617A (en) * | 1990-02-21 | 1992-08-11 | Honeywell Bull Inc. | Method for masking false bound faults in a central processing unit |
US5159597A (en) * | 1990-05-21 | 1992-10-27 | International Business Machines Corporation | Generic error recovery |
JPH0695324B2 (ja) * | 1990-08-17 | 1994-11-24 | インターナショナル・ビジネス・マシーンズ・コーポレイション | コンピュータ・システム用の柔軟なサービス・ネットワーク |
US5175679A (en) * | 1990-09-28 | 1992-12-29 | Xerox Corporation | Control for electronic image processing systems |
US5170340A (en) * | 1990-09-28 | 1992-12-08 | Xerox Corporation | System state controller for electronic image processing systems |
US5528759A (en) * | 1990-10-31 | 1996-06-18 | International Business Machines Corporation | Method and apparatus for correlating network management report messages |
JPH04245751A (ja) * | 1991-01-31 | 1992-09-02 | Nec Corp | イベント処理分散型網監視システム |
US5127012A (en) * | 1991-02-19 | 1992-06-30 | Eastman Kodak Company | Diagnostic and administrative device for document production apparatus |
US5307484A (en) * | 1991-03-06 | 1994-04-26 | Chrysler Corporation | Relational data base repository system for managing functional and physical data structures of nodes and links of multiple computer networks |
CA2075774C (en) * | 1991-08-27 | 2000-10-17 | Jeff D. Pipkins | Bidirectional parallel protocol |
JPH05158876A (ja) * | 1991-12-06 | 1993-06-25 | Hitachi Ltd | 評価データ蓄積・収集および出力システム |
US5680541A (en) * | 1991-12-16 | 1997-10-21 | Fuji Xerox Co., Ltd. | Diagnosing method and apparatus |
US5388218A (en) * | 1992-02-14 | 1995-02-07 | Advanced Micro Devices, Inc. | Apparatus and method for supporting a transfer trapping discipline for a non-enabled peripheral unit within a computing system |
US5471631A (en) * | 1992-10-19 | 1995-11-28 | International Business Machines Corporation | Using time stamps to correlate data processing event times in connected data processing units |
US5729397A (en) * | 1992-12-31 | 1998-03-17 | International Business Machines Corporation | System and method for recording direct access storage device operating statistics |
ATE156606T1 (de) * | 1993-11-18 | 1997-08-15 | Siemens Ag | Rechnergestütztes entwurfsverfahren für ein programmierbares automatisierungssystem |
JP3675851B2 (ja) * | 1994-03-15 | 2005-07-27 | 富士通株式会社 | 計算機監視方式 |
US5553237A (en) * | 1994-12-13 | 1996-09-03 | Base Ten Systems, Inc. | Safety critical monitoring of microprocessor controlled embedded systems |
JPH08249133A (ja) * | 1994-12-15 | 1996-09-27 | Internatl Business Mach Corp <Ibm> | ディスク・ドライブ・アレイの故障対策の方法及びシステム |
US5530705A (en) * | 1995-02-08 | 1996-06-25 | International Business Machines Corporation | Soft error recovery system and method |
US5852746A (en) * | 1995-06-26 | 1998-12-22 | Canon Kabushiki Kaisha | System for transmitting a message using status button to system administrator by using a signal comprising predetermined number of changes effected over a period |
US5778184A (en) * | 1996-06-28 | 1998-07-07 | Mci Communications Corporation | System method and computer program product for processing faults in a hierarchial network |
US5913036A (en) * | 1996-06-28 | 1999-06-15 | Mci Communications Corporation | Raw performance monitoring correlated problem alert signals |
US5872912A (en) * | 1996-06-28 | 1999-02-16 | Mciworldcom, Inc. | Enhanced problem alert signals |
US6009246A (en) * | 1997-01-13 | 1999-12-28 | International Business Machines Corporation | Method and system for evaluating intrusive repair for plurality of devices |
GB2368689B (en) * | 2000-06-28 | 2004-12-01 | Ibm | Performance profiling in a data processing system |
JP2003114811A (ja) * | 2001-10-05 | 2003-04-18 | Nec Corp | 自動障害復旧方法及びシステム並びに装置とプログラム |
US7290247B2 (en) | 2001-10-25 | 2007-10-30 | Aol, Llc, A Delaware Limited Liability Company | Help center and filtering applications |
US7350146B2 (en) * | 2001-10-25 | 2008-03-25 | Aol Llc, A Delaware Limited Liability Company | Help center and condition-based applications |
US7742999B2 (en) * | 2001-10-25 | 2010-06-22 | Aol Inc. | Help center and print center applications |
US7353140B2 (en) * | 2001-11-14 | 2008-04-01 | Electric Power Research Institute, Inc. | Methods for monitoring and controlling boiler flames |
US20030182600A1 (en) * | 2001-12-31 | 2003-09-25 | Globespanvirata Incorporated | System and method for analyzing buffer usage |
US7093284B2 (en) | 2002-02-12 | 2006-08-15 | International Business Machines Corporation | Method, system, and storage medium for preventing recurrence of a system outage in a computer network |
US7334001B2 (en) * | 2003-06-13 | 2008-02-19 | Yahoo! Inc. | Method and system for data collection for alert delivery |
US7360114B2 (en) * | 2003-06-17 | 2008-04-15 | International Business Machines Corporation | Logging of exception data |
US7328376B2 (en) * | 2003-10-31 | 2008-02-05 | Sun Microsystems, Inc. | Error reporting to diagnostic engines based on their diagnostic capabilities |
US7171337B2 (en) * | 2005-06-21 | 2007-01-30 | Microsoft Corpoartion | Event-based automated diagnosis of known problems |
US7814372B2 (en) * | 2007-09-07 | 2010-10-12 | Ebay Inc. | Method and system for exception detecting and alerting |
US8407686B2 (en) | 2007-09-07 | 2013-03-26 | Ebay Inc. | Method and system for problem notification and processing |
US7958387B2 (en) * | 2008-05-30 | 2011-06-07 | Spirent Communications, Inc. | Realtime test result promulgation from network component test device |
US20090300291A1 (en) * | 2008-06-03 | 2009-12-03 | Gerald Keith Bartley | Implementing Cache Coherency and Reduced Latency Using Multiple Controllers for Memory System |
US20090300411A1 (en) * | 2008-06-03 | 2009-12-03 | Gerald Keith Bartley | Implementing Redundant Memory Access Using Multiple Controllers for Memory System |
US8090997B2 (en) * | 2008-06-20 | 2012-01-03 | International Business Machines Corporation | Run-time fault resolution from development-time fault and fault resolution path identification |
US8595553B2 (en) * | 2010-06-03 | 2013-11-26 | Siemens Aktiengesellschaft | Error pattern identification in an installed base of systems |
US8719626B2 (en) * | 2011-09-28 | 2014-05-06 | International Business Machines Corporation | Proactively removing channel paths in error from a variable scope of I/O devices |
CN105306272B (zh) * | 2015-11-10 | 2019-01-25 | 中国建设银行股份有限公司 | 信息系统故障场景信息收集方法及系统 |
CN106469098A (zh) * | 2016-09-19 | 2017-03-01 | 广州日滨科技发展有限公司 | 一种设备的故障处理方法和装置 |
US11182399B2 (en) | 2018-09-04 | 2021-11-23 | Spirent Communications, Inc. | Effective correlation of multiple time-series result sets |
CN110162420B (zh) * | 2019-04-26 | 2022-10-11 | 平安科技(深圳)有限公司 | 数据辅助定位方法、装置、计算机设备及存储介质 |
EP4319086A1 (de) * | 2022-08-05 | 2024-02-07 | Nokia Technologies Oy | Kommunikationsnetzwerk |
CN115757457A (zh) * | 2022-12-09 | 2023-03-07 | 广州富莱星科技有限公司 | 一种数据比对方法、系统、设备及可存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3704363A (en) * | 1971-06-09 | 1972-11-28 | Ibm | Statistical and environmental data logging system for data processing storage subsystem |
GB1442665A (en) * | 1972-12-14 | 1976-07-14 | Siemens Ag | Data processing systems |
US3873819A (en) * | 1973-12-10 | 1975-03-25 | Honeywell Inf Systems | Apparatus and method for fault-condition signal processing |
JPS58136473A (ja) * | 1982-02-08 | 1983-08-13 | Hitachi Ltd | プリント装置 |
DE3272316D1 (en) * | 1982-08-30 | 1986-09-04 | Ibm | Device to signal to the central control unit of a data processing equipment the errors occurring in the adapters |
JPS60204050A (ja) * | 1984-03-27 | 1985-10-15 | Fujitsu Ltd | 入出力装置のエラ−回復方式 |
US4745602A (en) * | 1985-09-20 | 1988-05-17 | Minolta Camera Company, Ltd. | Printer error and control system |
JPS62212843A (ja) * | 1986-03-14 | 1987-09-18 | Fujitsu Ltd | エラ−・リカバリ処理方式 |
JPS63244143A (ja) * | 1987-03-30 | 1988-10-11 | Nec Corp | 情報処理方式 |
-
1988
- 1988-08-31 US US07/239,154 patent/US4922491A/en not_active Expired - Lifetime
-
1989
- 1989-07-24 DE DE68924226T patent/DE68924226T2/de not_active Expired - Fee Related
- 1989-07-24 EP EP89850236A patent/EP0357573B1/de not_active Expired - Lifetime
- 1989-08-28 JP JP89218778A patent/JPH02105947A/ja not_active Withdrawn
- 1989-09-01 BR BR898904416A patent/BR8904416A/pt unknown
Also Published As
Publication number | Publication date |
---|---|
EP0357573B1 (de) | 1995-09-13 |
EP0357573A3 (de) | 1991-07-24 |
BR8904416A (pt) | 1990-04-17 |
US4922491A (en) | 1990-05-01 |
DE68924226D1 (de) | 1995-10-19 |
EP0357573A2 (de) | 1990-03-07 |
JPH02105947A (ja) | 1990-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE68924226T2 (de) | Dienstwarnsignalfunktion für Eingangs-/Ausgangsgerät. | |
DE69228986T2 (de) | Durch hierarchisch verteilte wissenbasierte maschine ausgelöste wartungs-vorrichtung und -verfahren | |
DE69228803T2 (de) | Wartungs-vorrichtung und verfahren ausgelöst durch wissenbasiertemaschine | |
DE68924923T2 (de) | Expertensystem zur Identifizierung wahrscheinlicher Ausfallspunkte in einem digitalen Verarbeitungssystem. | |
DE60005861T2 (de) | Verfahren und system zur analyse von kontinuirlichen parameterdaten für diagnostik und reparaturen | |
DE69026425T2 (de) | Unterstützungsverfahren für den Betrieb einer Anlage | |
DE3486022T2 (de) | System zur verteilten verarbeitung mit fehlerdiagnose. | |
DE69428400T2 (de) | Verfahren zur Konfigurationsverwaltung | |
DE69522712T2 (de) | Fehlerüberwachung | |
DE69222705T2 (de) | CPU-Fehlerdetektionssystem | |
DE68920462T2 (de) | On-line-Problemverwaltung für Datenverarbeitungssysteme. | |
DE10217107B4 (de) | Erweiterte Gerätealarme in einem Prozesssteuersystem | |
DE3751284T2 (de) | Verfahren für die Abschätzung der Leistung eines Datenprozessorsystems. | |
DE68927705T2 (de) | Verfahren zum Entfernen unbestätigter Änderungen an gespeicherten Daten durch ein Datenbankverwaltungssystem | |
DE3751949T2 (de) | Verfahren zum Starten eines Untersystems in einem verteilten Verarbeitungssystem | |
DE69932654T2 (de) | Überwachungssystem für Anlagen | |
DE69627842T2 (de) | Fehleranzeige für ein Speichersystem mit auswechselbaren Speichereinheiten | |
WO2002013015A1 (de) | System zur ermittlung von fehlerursachen | |
DE10349784A1 (de) | Verfahren und Einrichtung zur Selbstdiagnose und Selbstreparatur | |
DE4305522C2 (de) | Einrichtung zur rechnergestützten Diagnose eines aus Modulen bestehenden technischen Systems | |
EP2056201A2 (de) | Verfahren, Rechnersystem und Computerprogrammprodukt | |
DE102004015503A1 (de) | Verfahren und Vorrichtung zum Korrigieren diagnostischer Analysekonzepte in komplexen Systemen | |
DE19827431C2 (de) | Verfahren zur Fehlererkennung in einem Prozessorsystem | |
DE102015225144A1 (de) | System und Verfahren zur Diagnose von zumindest einer wartungsbedürftigen Komponente eines Geräts und/oder Anlage | |
DE69023695T2 (de) | Initialisierungs-system und -methoden für Eingang/Ausgang-Verarbeitungseinheiten. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |