DE2227150C2

DE2227150C2 - Schaltungsanordnung zur Aufbereitung und Speicherung von Information für eine spätere Fehleranalyse

Info

Publication number: DE2227150C2
Application number: DE2227150A
Authority: DE
Inventors: Oscar Edwin Salmassy; Robert Emmett San Jose Calif. Sullivan
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1971-06-09
Filing date: 1972-06-03
Publication date: 1983-07-07
Also published as: GB1336704A; US3704363A; DE2227150A1; CA971280A; JPS523765B1

Description

Die Erfindung betrifft eine Schaltungsanordnung zur Aufbereitung und Speicherung von auf Benutzungshäufigkeit und Fehler von Komponenten in peripheren Subsystemen hinweisender Information für eine spätere Fehleranalyse, nach dem Oberbegriff des Anspruchs 1.

In modernen Datenverarbeitungsanlagen verarbeitet eine Zentraleinheit oder CPU, Instruktionen und Daten, die meist in Folge der beschränkten Kapazität des Hauptspeichers in der CPU, in einem oder mehreren externen Speichern gespeichert sind. Im allgemeinen ist eine Zentraleinheit an einen Datenkanal angeschlossen, der seinerseits mit den peripheren Speichern über eine Speichersteuereinheit verbunden ist. Eine Operation, die in der Zentraleinheit oder dem Kanal durchgeführt wird, bezeichnet man als Durchführung auf der Systemebene, während eine Operation, die in einem peripheren Speicher oder einer Steuereinheit durchgeführt wird, als eine Durchführung auf der Subsystemebene betrachtet wird.

Eine Anforderung für die Übertragung von Daten zwischen einem peripheren Speicher und der Zentraleinheit erfolgt im allgemeinen in der Form eines im Hauptspeicher der Zentraleinheit gespeicherten Kommandos oder Befehls, der als Kanalbefehlswert (CCW) bezeichnet wird- Eine Vielzahl solcher aufeinanerfolgender Anforderungen wird als eine Kette von CCWs bezeichnet, die in einer Vielzahl von Operationen s resultiert, wie beispielsweise Datenübertragungen zwischen dem peripheren Speicher und der Zentraleinheit In der Vergangenheit meldete die Speichersteuereinheit, wenn ein Fehler während der Datenübertragung von einer CCW-Kette festgestellt wurde, eine Daten prüfinformation an den Kanal, die zu einer Unterbre chung der Zentraleinheit führte, mit dem Ergebnis, daß die gesamte CCW-Kette erneut vom Beginn an wiederholt wurde, in der Hoffnung, daß nun die Datenübertragung ohne Fehler verlaufen würde, Kürz lieh hat man an Verbesserungen derartiger Systeme gedacht, bei denen, wenn ein Fehler in einer Operation auftritt, die von einer CCW-Kette herrührt, die Speichersteuereinheit die Fähigkeit der Wiederholung eines bestimmten CCW erhielt, ohne die gesamte CCW-Kette erneut auszuführen, wobei dieses dann so durchgeführt wird, daß die Wiederholung des CCW in dem System nur als ein normaler CCW-Speicherabruf erscheint, im Gegensatz zu einer Systemuntersuchung, die vorher üblich war. Während diese Verbesserung den Durchsatz und die Effizienz derartige Siysteme beträchtlich steigerte, trat nan das Problem auf, daß das System keine Möglichkeit mehr hatte, den Zustand der angeschlossenen Geräte und statistische Fehler- und Benutzungszustände der peripheren Speicher zu ken nen, insofern, als die meisten Fehler nun auf der Subsystemebene ohne Intervention des Systems behandelt werden.

Zur Analyse von fehlerhaften Systemkomponenten ist oftmals eine Information von Interesse, welche die Häufigkeit von auftretenden Fehlern angibt Von einer solchen Information wird beispielsweise Gebrauch gemacht, um die Leistungsverringerung eines Speichers festzustellen, der mit einer Fehlerkorrektur für Einzelfehler und'mit einem Detektor filr Doppelfehler ausgestattet ist, wobei die Einzelfehler gezählt werden und mit einem vorgegebenen Grenawert verglichen werden, wie im IBM Technical Disclosure Bulletin, Vol.

12, Nr. 6, November 1969, Seite 895 beschrieben ist

In der DE-AS 19 35 743 ist beschrieben, wie bei

Fernsprechvermittlungsanlagen mit Hilfe von Zählern das Verhältnis der Anzahl der auf Fehler hinweisenden Vorgänge zu der Anzahl der korrekt abgewickelten Vorgänge ermittelt wird. Ist dieses Verhältnis sehr groß, so ist offensichtlich der Betrieb sehr schlecht, so daß

so dieses Verhältnis zugleich als ein Maß für die Betriebsgüte aufgefaßt werden kann. Es wird erwähnt daß, um statistische Schwankungen unwirksam zu machen, eine Fehlermeldung selbstverständlich erst zulässig ist, wenn eine gewisse Mindestanzahl von Vorgängen erfaßt worden ist. Es kann aber mit diesem Verhältnis nicht nur die Betriebsgüte ermittelt sondern auch auf Reserveschaltungen umgeschaltet werden.

In der DE-OS 19 38 312 wird beschrieben, daß beispielsweise eine Registrierung fehlerhafter Vorgän-

ge auch in Speichern anstelle von Registern vorgenommen werden kann.

Im Ericsson Review, 1956, Heft 2, Seiten 34 bis 45 ist beschrieben, wie in einer Fernsprechvtirmittlungsanlage aus dei·' Gesamtanzahl der getätigten Verbindungen und der beobachteten Störungen Voraussagen für das zukünftige Störverhalten der Anlage gemacht werden können. Bei Speicher-Subsystemen der eingangs genannten

Art besitzen jedoch die Speicher im allgemeinen austauschbare Speichermedien, die als* Speichervolumen oder fcurz als Volumen bezeichnet werden. Der periphere Speicher kann beispielsweise eine rotierende Plattenspeichereinheit sein, die austauschbare Plattenstapel als Speichervolumen besitzt Er kann aber auch eine Bandspeichereinheit sein, die austauschbare Magnetbänder als Speicher volumen hat Als peripherer Speicher sind auch andere ähnliche Geräte denkbar. Bei einer rotierenden Plattenspeichereihheit als Beispiel zugrunde gelegt, kann ein Plattenstapel auf einer ersten Speichereinheit beschrieben und auf einer - zweiten gelesen werden. Die Plattenstapel können daher von einer Plattenspeichereraheit zur anderen ausgetauscht werden. Wenn eine unzulässige Zahl von Fehlern während einer Datenübertragung oder anderen Operationen nach oder von einer gegebenen Plattenspeichereinheit auftritt dann muß die Plattenspeichereinheit als fehlerhaft verdächtigt werden. Es ist jedoch auch möglich, daß der Fehler tatsächlich vom Speichermedium herrühren kann, d. h. vom Plattenstapel selbst Das bedeutet daß das Speichermedium zerstör: sein kann oder daß der Plattenstapel auf einer anderen Plaiteneinheit beschrieben wurde, die sich außerhalb ihrer Toleranz befindet mit dem Ergebnis, daß beispielsweise der Stapel nicht von einer anderen Plattenspeichereinheit gelesen werden kann, auf der er augenblicklich aufliegt Es ist daher manchmal nicht möglich, zu unterscheiden, ob die Fehler bei der Datenübertragung zu oder von einer gegebenen Plattenspeichereinheit von einer fehlerhaften Plattenspeichereinheit oder einem fehlerhaften Plattenstapel herrühren. Die bekannten, oben erwähnten Lösungen liefern somit keinen Beitrag für die Wartung und Fehlerbeseitigung in peripheren Speicher-Subsystemen.

Die vorliegende Erfindung hat sich daher die Aufgabe gestellt eine Lösung anzugeben, wie statistische Daten über Benutzungshäufigkeiten von Systemkomponenten und Fehlerarten automatisch von peripheren Subsystemen für deren Wartung bereitgehalten werden können.

Gelöst wird diese Aufgabe der Erfindung durch die im Hauptanspruch angegebenen Merkmale. Ausgestaltungen und Weiterbildungen des Erfindungsgegenstandes sind den Unteranspriichen zu entnehmen.

Mit den Mitteln der Erfindung wird der Vorteil erreicht Oaß bei elektronischen Datenverarbeitungsanlagen mit peripheren Subsystemen schon frühzeitig Wartungs- und Fehlerinforrnation bereitgestellt wird, die eine fehlerpräventive Zuntandsanalyse der peripheren Subsysteme ermöglicht und im Fehlerfalle durch Fehleranalyse die Lokalisierung des fehlerhaften Subsystems gemattet.

Im folgenden wird die Erfindung anhand eines durch Zeichnungen erläuterten Ausführungsbeispiels näher beschrieben. Es zeigt

F i g. 1 eine Blockdarstellung eines Datenspeicher* Subsystems, in dem die Erfindung verwendet werden kann,

Fig.2 eine Darstellung verschiedener Teile des Datenspeichersystems und der Art und Weise, wie die Erfindung in dieses System eingebaut werden kann,

F i g. 3 eine Darstellung der Fehler in den Benutzungszählern der Erfindung,

F i g. 4 eine Darstellung der Art und Weise, in der die Zähler nach F i g. 3 in dem beschreibbaren Steuerspeicher in der Speichersteuereinheit des Subsystems ausgelegt weden könnet,

F i g. 5 eine Darstellung der Art und Weise, in der das System darüber informiert wird, daß eine unzulässige Anzahl von Fehlern for ein gegebenes physikalisches Speichervolumen aufgetreten ist und
Fig,6 ein Ablaufdiagramm zur Darstellung des erfindungsgemäßen Verfahrens,

Vor der eigentlichen Beschreibung der Erfindung wird zum besseren Verständnis zuerst ein kurzer allgemeiner Oberblick über Informationsspeicher gegeben, in denen die Erfindung verwendet werden kann.

ίο Information wird im allgemeinen in den hier betrachteten Systemen in Plattenstapelvolumen auf Spuren und in Datensätzen gespeichert die aus drei Informationsfeldern bestehen: Einem Zählfeld, einem Schlüsselfeld und einem Datenfeld. Der Anfang eines Datensatzes wird für Steuerzwecke mit einer Adreßmarke gekennzeichnet Vor jeder Adreßmarke liegt ein Synchronisationsbereich zur Synchronisation der Zeitkomponenten, die für den Lesevorgang verwendet werden. Jeder Spur geht ein Spuradressenfeld voraus für die Adressenidentifiziening und ein Spurbeschreibusgsästz zur Angabe der physikalischen Bedingung _v»#ie beispielsweise gestört oder nicht gestört) der betreffenden Spur. Eine ausführliche Beschreibung der Art und Weise, in der die Information in Datensätzen dieser Art gespeichert wird, geht aus der US-Patentschrift 32 99 410 hervor.

We:".n Datenfehler dieser Art im System festgestellt werden, werden sie im allgemeinen von einem fehlerkorrigierenden Codesystem (ECC), wenn möglich, korrigiert das eine relative Adresse oder einen Bereich liefert für den Fehler in dem Informationsfeld und das Bitmuster, das für die Korrektur des Fehlers brauchbar ist Solche Fehler werden als ECC-korrigierbare Fehler bezeichnet Derartige ECC-Systeme sind an sich bekannt Ein Weg, eine derartige Fehlerkorrektur

j5 anzuwenden, besteht in der Wiederholung des Befehls, wenn der festgestellte Fehler sich innerhalb der relativ kurzen Spuradresse, dem Spurbeschreibungssatz oder den Zähl- oder Schlüsselfeldern anderer Datensätze befindet. Die fehlerhaften Daten können in einem Pufferbereich in der Speichersteuereinheit zwischengespeichert und dort von dem ECC-System korrigiert werden. Wenn der Befehl wiederholt wurde und der Abfühlmechanismus sich auf den gewünschten Datensatz auf der Spur eingestellt hat dann werden die korrigierten Daten im Puffer auf den Kmal übertragen, so daß das System nun bereit ist, um die Kanalbefehlswort-Kette (CCW-Kette) fortzusetzen. Wenn andererseits der Fehler sich in dem Datenfeld innerhalb eines anderen Datensatzes befindet als dem Spurbeschrei-

)ii bungssatz, dann können nur die fehlerhaften Daten und die relative Adresse und das Bitmuster direkt für die Korrektur zu dem System übertragen werden, da der Speicherplatz für die Korrektur eines langen Datenfel-Jes in der Steuereinheit nicht ausreicht Es ist aber möglich, die Fehlerkorrektur zu modifizieren und entsprechend den Erfordernissen des Systems, in dem die Erfindung verwendet werden soll, zu verändern, ohne von der Lehre der Erfindung abzuweichen.

Gelegentlich k*uin der Fall eintreten, daß ein Fehler festgestellt wird, der sich außerhalb der Fehlerkorrekturflhigkelten des fehlerkorrigierenden Codes befindet. Diese Fehler werden als nicht ECC-korrigierbare Datenprüfungen bezeichnet, und es wird ein Versuch unternommen, einen derartigen Fehler durch ein erneutes Lesen de. Daten mit Hilfe der Wiederholung des Befehls zu beseitigen, während dessen Ausführung der Fehler festgestellt wurde, in der Hoffnung, korrekte oder ECC-korrigierbare Daten zu erhalten. Das

Verfahren der Befehlswiederholung ist ebenfalls an sich bekannt. Während der Wiederholung des Befehls, wenn richtige oder ECC-korrigierbare Daten nach einer gegebenen Anzahl von Wiederholungen nicht erhalten werden, dann kann es für eine Situation, in der ein Plattenspeicher verwendet wird, wünschenswert sein, dem Zugriffsmechanismus mehrere Mikrometer in einer bestimmten Richtung zu versetzen und eine erneute Wiederholung vorzunehmen, in der Hoffnung richtige oder ECC-korrigierbare Daten zu erlangen. So kann beispielsweise während einer Befehlswiederholung der Zugriffsmechanismus um mehrere Mikrometer in einer ersten Richtung versetzt werden und der Befehl mehrmals wiederholt werden. Er kann dann um die gleiche Anzahl von Mikrometern in der entgegengesetzten Richtung zurückgestellt werden und der Befehl erneut mehrere Male wiederholt werden. Dieses könnte f.-.- ..„„„u:~

von einem Plattenstapel, der auf eine Platteneinheit montiert ist, beschrieben wird, so können auch andere Systeme die Erfindung benutzen, die z. B. Bandspulen besitzen, die auf Bandamrieben angebracht sind oder andere tragbare Speichermedien, die auf ihren Antriebselementen montiert sind.

F i g. 2 zeigt eine Übersicht über das System, in dem die Erfindung verwendet wird. Auf der Subsystemebene ist eine Speichersteuereinheit 5 und eine oder mehrere Platteneinheiten 1 Ober eine Schnittstelle 3, die aus Steuerleitungen zu und von beiden Einheiten besteht, miteinander verbunden. Die Steuereinheit 5 kann einen bekannten Aufbau besitzen, wie beispielsweise in der US-Patentschrift 35 44 966 beschrieben ist. Obwohl die Erfindung auch anhand einer Steuereinheit mit einem Festwertspeicher hätte erläutert werden können, wird sie im folgenden jedoch im Zusammenhang mit einer

chend den Erfordernissen eines bestimmten Speichersystems fortgesetzt werden. Die Durchführung auch dieses Verfahrens ist an sich bekannt.

Weiterhin können Datensätze der diskutierten Art so aufgezeichnet werden, daß der betreffende Sektor einer Platte, der sich am dichtesten am Anfang eines Datensatzes befindet, festgestellt und aufbewahrt wird. Die Sektornummer ist für mehrere Zwecke nützlich, vor allem für das Protokollieren vom Umgebungsdaten, die letztlich von dem Wartungsingenieur bei der Wartung des Systems benutzt werden. Einrichtungen für die Aufzeichnung und das Lesen von Datensätzen der diskutierten Art mit Hilfe von Sektornummern sind ebenfalls an sich bekannt.

Die vorliegende Erfindung kann, wie bereits erwähnt wurde, in Speichersubsystemen verwendet werden, wie beispielsweise solchen Systemen, die eine Speicher-Steuereinheit und eine Anzahl von Platteneinheiten verwenden, wobei auf jeder der Platteneinheiten ein Plattenstapel oder Speichervolumen montiert ist. Ein derartiges Subsystem ist in Fig. 1 dargestellt. Sie zeigt eine Steuereinheit und eine Gruppe von Platteneinheiten. Die Platteneinheiten sind auf zweierlei Weise bezeichnet Durch das reale Dateikennzeichen (ID) und durch das logische ID. Bezüglich der F i g. 1 ist das reale ID fest und ist mit Platteneinheit A bis //bezeichnet Für die Erfordernisse des Systems jedoch muß die Platteneinheit A nicht unbedingt die erste Platteneinheit in der Reihe sein, sondern sie kann logisch die dritte, vierte oder eine anders numerierte Platteneinheit in dieser Reihe sein. Sorge hierfür trägt die dargestellte logische Steckverbindung. In der US-Patentschrift 34 53 567 ist ein System mit derartigen logischen Steckverbindungen für die Änderung der logischen Adresse der realen Platteneinheit dargestellt und beschrieben. Bei der Terminologie, die in der Beschreibung dieser Erfindung verwendet wird, ist auch eine dritte ID vorgesehen, die sich auf das Volumen bezieht (Volumen ID). Das heißt daß jeder Plattenstapel der auf' eine Platteneinheit montiert ist, eine bestimmte Stapeloder Volumen ID besitzt die beispielsweise eine 6stellige alphanumerische Identifizierung sein kann, die in der Spur 0. im Zylinder 0 aufgezeichnet ist und zur Identifizierung des Volumens dient Es ist eine Funktion der Erfindung, letztlich statistische Daten zu erzeugen sowohl bezüglich der Volumen ID als auch der realen Platteneinheit ID, damit wenn eine unzulässige Zahl von Fehlern auftritt, die Quelle des Fehlers sowohl in der Fiatteneinheit wie auch im Volumen selbst verfolgt werden kann. Während die Erfindung in Abhängigkeit Schreibsteuerspeicher 7. beispielsweise einen monolithisch integrierten Steuerspeicher besitzt.

Der Lese-/Schreibsteuerspeicher 7 enthält ein Steuermikroprogramm 9 und einen Bereich für jede logische Platteneinheit in der Reihe für das Auflisten bestimmter Information dieser Einheit. Ein solcher Bereich 11 ist in F i g. 2 dargestellt. Dieser Bereich ist der logischen Einheit bei der laufenden Operation zugteilt und enthält die reale tinheitsadresse sowie die Benutzungs- und Fehlerzähler, die im Anschluß daran für die logische Einheit erläutert werden.

F i g. 2 zeigt ferner, daß eine zentrale Steuereinheit (CPU) 23 und ein Ein-/Ausgabekanal 21 miteinander verbunden sind. Die Ein-/Ausgabekanäle, die hier verwendet werden, sind beispielsweise aus den US-Patentschriften 33 03 476 und 35 50 133 bekannt. Die Speichersteuerung, der Ein-/Ausgabekanal (E/A-Kanal) und die CPU sind in geeigneter Weise mit Hilfe von Sammelleitungen und Schnittstellenschaltungen miteinander verbunden. Die CPU 23 hat einen Hauptspeicher 25, der das Steuerprogramm 27 sowie eine logische Einheitstabelle 29 für jede Einheit enthält. Schließlich ist die CPU mit einem Speichersystem 43 verbunden, das einen Speicherbereich 45 für die Aufzeichnung von Benutzungs-/Fehlerstatistiken und Umgebungsdaten aufweist Der Speicher 43 kann beispielsweise ein Plattenspeicher sein, der als Permanentsystemspeicher verwendet wird.

F i g. 3 zeigt eine Gruppe von Benutzungs-/Fehlerzählern. Diese Zähler zählen die Anzahl der ausgelesenen Informationsbytes (d.h. die Benutzung oder Benutzungsparameter), die Anzahl der ECC-korrigierbaren Datenfehler, die Anzahl der ECC- nicht korrigierbaren Datenfehler und die Anzahl von Suchoder Zugriffehlern je logische Einheit (d. h. die Fehler oder Fehlerparameter). Es kann ferner ein Schwellenwert für eine minimale Zahl von Benutzungen für eine gegebene Anzahl von Fehlern festgelegt werden. Wenn der Fehlerschwellwert vor dem Benutzungsschwellenwert erreicht wird, dann wird die statistische Information vom System für die letztliche Verwendung in einem Wartungsverfahren weggespeichert. Ein exemplarischer Satz von Schwellenwerten kann beispielsweise folgendermaßen sein: (2³¹-1) Bytes wurden gelesen bevor 512 ECC-korrigierbare Datenfehler oder 64 ECC-nicht korrigierbare Datenfehler gelesen wurden, und (2¹⁵—1) Zugriffsbewegungen wurden durchgeführt bevor acht Suchfehler auftreten. Jeder Zähler ist in dieser Figur mit einer Fortschalteleitung für die Inkrementierung und eine Rückstelleitung für die

Rückstellung auf 0 versehen sowie mit einer Überlaufleitung, zur Angabe, daß der Zähler überlief. Die hier als reale Zähler dargestellten Zähler können normalerweise Register sein, die sich in dem Schreib-/Lesesteuerspeicher 7 der Steuereinheit 5 in Fig.2 befinden. Jedesmal wenn eine bestimmte Operation, die gezählt wird, auftritt, dann wird dieser Abschnitt oHer dieses RegifKT des Steuerspeichers für diese bestimmte logische Einheit in Abhängigkeit von der Operation um 1 oder mehr erhöht. Das heißt, daß die Fehlerzähler einmal für jede Art eines festgesteü.'en Fehlers inkrementiert und die Benutzungszähler ebenfalls inkrementiert werden, um die Benutzung wiederzuspiegeln, d. h. die gelesenen Bytes und Zugriffsbewegungen zu zählen. Speichersteuereinheiten derart, wie sie in der genannten US-Patentschrift 35 44 966 beschrieben wurden, haben arithmetische und logische Einheiten, die unter anderem diese Inkrementierung durchführen. Daher wird jedssniä!, wenn ?inp hestimmte Operation, die zu einem Zähler gehört, auftritt, das Register, das die Zählung durchführt, ausgelesen, in der arithmetischen und logischen Einheit inkrementiert und zurück in den Lese-/Schreibsteuerspeicher gebracht. F i g. 4 zeigt ein Beispiel für acht logische Einheiten, bei dem für jede logische Einheit für die Akkumulierung der gewünschten Information ein Speicherbereich oder Register vorgesehen ist, wobei diese Information weiterhin durch die Einheiten ID identifiziert wird, die beispielsweise in einem 3 aus 6-Code dargestellt sein könnte.

Das Subsystem unterhält auf diese Weise eine stati . Jsche Datenaufzeichnung der Benutzungs- und Fehlerinformation für jede logische Einheit im Subsystem. Die Benutzungsinformation erzeugt einen akkumulierten Zählwert der Gesamtzahl von Zugriffsbewegungen und gelesenen Datenbytes. Die Fehlerinformation dagegen erzeugt einen akkumulierten Zählwert der Gesamtzahl der Suchfehler, ECC-korrigierbaren Datenfehler und ECC-nicht korrigierbaren Datenfehler.

Die Benutzungsfehlerinformation wird weggeladen und letztlich im Permanentsystemspeicher 43 jedesmal dann gespeichert, wenn die Benutzungs- oder Fehlerzähler einen vorgegebenen Schwellwert, wie oben beschrieben, erreichen. Das Mittel für das Wegladen kann beispielsweise darin bestehen, daß eine von der Steuereinheit erzeugte Einheitsprüfbedingung beim nächsten Ein-/Ausgabe-Start an die Einheit mit einer anstehenden Benutzungs-/Fehlerinformation ausgegeben wird. Das Startkommando für die Ein-/Ausgabe ist an sich bekannt und ebenfalls in den bereits genannten US-Patentschriften 33 03 476 und 35 50 133 näher beschrieben. Ferner werden geeignete Befehle vom Kanal selbst zur Verfügung gestellt, um dem benutzenden System das Wegladen der Benutzungs-ZFehlerinformation am Ende des Tages oder vor einem Plattenstapelwechsel zu gestatten.

Die Benutzungs-/Fehlerstatistiken in den Zählern werden bei folgenden Bedingungen gelöscht: (a) nachdem die Information des Zählers nach einem Zählerschwellenwertüberlauf zu dem Kanal übertragen wurde oder (b) nachdem die Zählerinformation am Tagesende oder bei einem Plattenstapelwechsel zu dem Kanal übertragen wurde oder (c) wenn die Steuereinheit eine Änderung in den Einheiten ID feststellt, die einer logischen Einheitenadresse zugeordnet ist (d.h. eine logische Adressensteckverbindungskennung wird von einer Platteneinheit auf eine andere umgeschaltet).

Wenn irgendeiner der Fehlerzähler seinen Schwellenwert erreicht bevor der ihm zugeordnete Benutzungszähler seinen Schwellwert erreicht, dann wird die Steuereinheit in den Fehlerprotokollbetrieb eingestellt. In dieser Betriebsart fährt die Steuereinheit fort, nachdem die Benutzungs-/Fehlerinformation weggeladen wurde, detaillierte diagnostische Abfühlinformation über die Art des Fehlers, der die Protokollbetriebsart einstellte, für beispielsweise die nächsten vier Fehler zu protokollieren. Die Anzahl der Protokollabspeicherungen kann von Systemtyp zu Systemtyp, abhängig von den Systemerfordernissen variieren. Im Protokollbetrieb zeichnet die Steuereinheit ausführliche diagnostische Information während der Ausführung des Wiederholungsbefehls der Steuereinheit oder während der Ausführung von Fehlerkorrektur bezüglich ECC-korrigierbarer Datenprüfungen im Datenfeldteil der Aufzeichnung auf. Die Information wird zu dem Kanal übertragen als Folge der Aktion der Steuereinheit 5, die die Einheitenprüfung in Abhängigkeit von dem nächsten F.in-/Ausgabe-Start zu der Einheit signalisiert, für die die Protokollbetriebsart eingestellt wird. Nachdem die Abfühlinformation für vier getrennte wieder heilbare Fehlerbedingungen zu dem System übertragen wurde, beendet die Steuereinheit die Protokollbetriebsart für die Einheit, für die diese Betriebsart eingestellt wurde.

Diese Operntionsart ist in Fig.5 für beispielsweise ECC-korrigierbare Datenfehler zu sehen. Der Bytezähler 65 und der Zähler 69 für ECC-korrigierbare Fehler sind so initialisiert, daß ein Überlauf stattfindet, wenn ihre jeweiligen Schwellenwerte erreicht werden. Wenn der korrigierbare Datenfehlerzähler 69 oder der gelesene Bytezähler überlaufen, stellt das ODER-Tor 67 die Verriegelungsschaltung 71 auf den »1«-Ausgang ein und bereitet die Durchschaltung des UNd-Tores 75 vor. Wenn das nächste Mal eine Ein-/Ausgabeeinheit-Start-Instruktion kurz Ein-/Ausgangsstart für diese Einheit empfangen wird, dann wird ein Einheitenprüfsignal erzeugt. Dieses dient ferner nach einer angemessenen Verzögerung zur Rückstellung der Verriegelungsschaltung 71. Wenn ferner der ZJhler 69 übergelaufen, der Zähler 65 aber noch nicht übergelaufen ist, dann gibt dieses an, daß der Zähler 69 für die korrigierbaren Datenfehler seinen Schwellenwert erreicht hat, bevor der gelesene Bytezähler seinen Schwellwert erreicht hat. Daher initialisiert und beseitigt das Ausgangssignal des UND-Tores 73 den Protokollbetrieb für das System bezüglich der statischen Benutzungs-ZFehlerinformation. Das heißt, daß es die Zahl der Suchvorgänge und gelesenen Bytes, die Zahl der Suchfehler, der ECC-korrigierbaren Fehler und der ECC-nicht korrigierbaren

so Fehler wegspeichert

Die Ablaufsteuerung für den vorstehend erläuterten Betrieb zeigt die F i g. 6 bezüglich jeder Operation einer gegebenen logischen Einheit Das System prüft zunächst, ob das Ende des Verarbeitungstages für eine gegebene Einheit vorliegt Dieses geschieht an der Stelle 101 in Fig.6A. In Wirklichkeit geschieht dieses dadurch, daß die CPU auf eine Tagesende-Angabe in ihrem Hauptspeicher aufprüft Wenn das Tagesende kurz bevorsteht gibt dieses der Operator an, indem er das Tagesende-Signal in das Speichersystem 25 in F i g. 2 über die Operatorkonsole eingibt Wenn die Tagesende-Angabe festgestellt wird, gibt die CPU ein Wegladungs- und Rückstellkommando 103 in Fig.6A, das bewirkt daß die Steuereinheit die Benutzungs-/Fehlerinformation für die Einheit und die Volumen ID von dem Kanal weglädt von dem es zu der CPU und schließlich zu dem Speicher 43 in F i g. 2 übertragen wurde. Wenn die Wegladung, wie beispielsweise bei 105

angegeben, stattfindet, werden die Werte der Benutzungs-/Fehlerzähler sowie die Einheitenadresse der logischen Einheit, die von dem System adressiert wurde, aus dem Teil 11 des Lese-ZSGhreibsteuerspeichers 7 in Fig.2 in die Tabelle der logischen Einheit für diese logische Einheit im Hauptspeicher eingelesen. Etwas vor der vorhergehenden Operation und zwar zu der Zeit, als die Einheit an die Leitung angsschbssen und Für das System verfügbar gemacht wurde, gab das System einen Strang von CCWs aus, um die Einheit zum Aufprüfen auf die Spur 0, Zylinder 0 zu veranlassen und die Volumen ID, V für das Speichermedium oder Volumen zu lesen und diese Identifizierung ID in den Abschnitt 35 des Hauptspeichers einzugeben. Sie befindet sich daher zu der Zeit, zu der das Wegladen auftritt, im Hauptspeicherabschnitt 35, so daß die statistische Information sowohl von der Einheiten ID als auch von der Volumen ID identifiziert wird. Nach dieser Wegladung werden alle Zähler, wie 105 zeigt, für diese Einheit im Lese-/Schreibsteuerspeicher der Steuereinheit 5 auf 0 zurückgestellt.

Wenn das Tagesende bei 101 noch nicht festgestellt wird, dann wird eine Prüfung auf Stapeländerung durchgeführt, wie 107 angibt. Wenn der Plattenstapel aus der Einheit entnommen wird, dann kann ein Signal, das diesen Vorgang angibt, festgestellt werden. Wenn ein solches Signal also festgestellt wird, dann wird angenommen, daß die logische ID der Einheit sich ändern wird und/oder daß das Volumen oder Speichermedium in dieser Einheit sich verändern wird. Daher ist es für das System notwendig, ein Weglade- und Rückstellkommando für diese logische Einheit, wie 103 zeigt, auszugeben, die bewirkt, daß die Steuereinheit die Daten weglädt, und zwar wieder die reale Einheitenadresse, die Volumen ID, wobei auch ferner wieder die Zähler für diese logische Einheit auf 0 zurückgestellt werden.

An dieser Stelle wird in der Steuereinheit, wie 109 zeigt, eine Prüfung durchgeführt, um festzustellen, ob ein Start-Ein/Aus-Kommando ausgegeben wurde. 1st dieses nicht der Fall, danr beginnt das Verfahren erneut, indem auf das Tagesende aufprüft

Wenn ein Start-Ein/Aus-Befehl festgestellt wird, findet normalerweise eine Suchoperation oder eine Kette von Datenübertragungsoperali onen statt Es ist jedoch notwendig, zuerst festzustellen, ob Daten der angeschlossenen Einheiten weggeladen müssen, wegen der Protokollbetriebsart eines Untersystems aus einer vorhergegangenen Operation. Dieses ist in Fig.6A an der Stelle 110 angedeutet Für den Augenblick wird aber angenommen, daß keine Wegladung eines angeschlossenen Gerätes stattfindet Daher wird die logische Einheit, für die das Start-Ein/Aus-Kommando festgestellt wird, identifiziert, wie 111 zeigt und der Bereich des Lese-ZSchreibsteuerspeichers, der die statistische Information für diese logische Einheit enthält in Tätigkeit versetzt Das erste CCW wird dann ausgeführt Nach jeder Auswahl ist es notwendig, auf ID-Veränderungen einer logischen Einheit aufzuprüfen, da, wenn die logischen Einheiten ID in eine andere Einheit bezüglich der letzten Operation dieser logischen Einheit geändert wurde, ist es notwendig, die statistischen Benutzungs-/Fehlerzähler für diese logische Einheit auf 0 zurückzustellen, denn eine ungenaue Information für die neue Einheiten ID, die mit der augenblicklich adressierten logischen Einheit verknüpft ist könnte sich dadurch ergeben. Diese Prüfung findet bei 113 statt Das Verfahren für die Ermittlung einer ID-Änderung eir.'er logischen Einheit: verläuft folgendermaßen: Wenn eine Start-Ein/Aiiis-Kommandoadresse identifiziert wird, dann wird! die laufende Einheiten ID für die adressierte logische Einheit gewonnen. Es sei hier daran erinnert, daß in der US-PS 34 53 567 ein Beispiel einer logischen Adiressensteckverbindung für eine Einheit der hier erwähnten Art, beschrieben ist. Wenn die logische Einheiten ID geändert wurde, wurde auch die Steckverbindung

to geändert, so daß auch das aktivierte Signal auf der Leitung in Fig.4 der genannten Patentschrift geändert wurde. Jede der Leitungen kann dazu verwendet werden, einen Adressenemitter zu aktivieren. Jede Leitung könnte beispielsweise als ein Eingang zu einer Einheit verwendet werden, die eine Adresse in einem 3 aus 6-Code aussendet. Jede Adresse wäre dann für jedes von acht Einheiten, die an der Leitung angeschlossen sind, kennzeichnend. Daher könnte die im 3 aus 6-Code dargestellten Adresse von der logischen Einheit durchgeschaltet werden zur Steuereinheit und mit der realen Einheiten ID verglichen werden, die sich im Bereich des Steuerspeichers 5 befindet, der, wie F i g. 4 dieser Anmeldung zeigt, der gerade adressierten Einheit zugeteilt ist. Wenn beide die gleichen sind, bedeutet dies, daß die logische ID nicht verändert ist und die Zählung für diese Operation weitergeführt werden kann. Wenn sich die beiden voneinander unterscheiden, dann müssen die Zähler, wie es in F i g. 6 an der Stelle 114 angedeutet ist zurückgestellt werden und das neue reale ID wird in

3d den zugeteilten Bereich eingegeben, woraufhin dann die Zählung für die Operation beginnen kann und wodurch angegeben wird, daß dieses eine Start-Ein/Aus-Operation ist.
Wenn andererseits an der Stelle 1131 des Ablaufdiagramms in Fig.6A keine Veränderung der logischen Einheiten ID festgestellt wird, dann werden Fehler an der Stelle 117 überwacht. Wenn ein Fehler festgestellt wird, dann wird er bezüglich seiner Art klassifiziert (Suche, ECC-korrigierbar, ECC-nicht korrigierbar), wie es an der Stelle 117 dargestellt ist. Der entsprechende Zählerfehler wird dann weitergeschaltet. Ferner wird auch der entsprechende Benutzungszahler erhöht, wie es im Ablaufdiagramm in Fig.6A an der Stelle 121 angegeben ist, um ein Anstieg um 1 in der Zahl der Vorgänge zu reflektieren, wenn ein Suchfehler festgestellt wurde, oder um die Zahl der gelesenen Bytes zu erhöhen, wenn der Fehler ein ECC-korrigierbarer oder ECC-nicht korrigierbarer Datenfehler ist
Es kann auch sein, daß der Protokollbetrieb für diese

so logische Einheit und diese Fehlerart eingestellt wurde. Wenn dieses der Fall ist, muß eine detaillierte diagnostische Abfühiinformation gesammelt werden. Dah«r wird auf die Protokollbetriebsart wie bei 123 angedeutet aufgeprüft Dieses kann dadurch geschehen,

daß der Protokollbetriebsindikator für diese Fehlerart der nachstehend noch beschrieben werden wird, abgefragt wird. Für das vorliegende Beispiel jedoch wird angenommen, daß der Protokollbstrieb noch nicht vorher eingestellt worden war. Daher wird bei 125 eine

Prüfung durchgeführt, um festzustellen, ob der Fehlerzähler für diese Fehlerart voll ist Dieses erfolgt durch Überprüfung des Überlaufs, der bereits erläutert wurde, wenn der Fehlerzähler nicht voll ist ciann wird an der Stelle 127 im Ablaufdiagramm eine Ftüfung durchgeführt, um festzustellen, ob der entsprechende Benutzungszähler voll ist Ist dieses nicht der Fall, dann wird an der Stelle 129 eine Prüfung durchgeführt, um festzustellen, ob die CCE-Kette vollständig ist wenn das

System augenblicklich eine Kornmandokette verarbeitst. Wenn sich keine Kommandokette in Bearbeitung befindet, kann dieser Schritt übersprungen werden und das Verfahren wird mit dem Auftrag 101 an eben dieser Stelle im Ablaufdiagramm fortgesetzt. Wenn das System aber eine Kette verarbeitet und die Kette vollständig ist, dann kehrt das Verfahren auf den Auftrag 101 im Ablaufdiagramm nach Fig.6A zurück und beginnt erneut. Ist die Kette aber nicht vollständig, dann wird das nächste CCW ausgeführt und das Verfahren kehrt in den Überwachungszustand zurück, wie zuvor bereits dargelegt wurde, und die Verarbeitung wird fortgesetzt.

Wenn die Prüfung bei 125 ergeben hat, daß der Fehlerzähler voll war, dann muß die statische Information in das System weggeladen und die Protokollbetriebsart eingestellt werden. Der Protokollbetrieb wird durch den Auftrag 131 eingestellt. Dieses erfolgt durch Einstellung des Protokollhetriehsindikators für diese Fehlerart und diese logische Einheit, der geprüft weruen kann. Ferner wird ein Proiokollzähler, beispielsweise ein Register im Steuerspeicher durch den Auftrag 133 eingestellt, das an der Stelle 4 überläuft, um zu zählen, wie oft detaillierte diagnostische Abfühlinformation gesammelt wird. Wie ebenfalls an der Stelle 135 des Ablaufdiagramms in Fig.6A zu sehen ist, werden die Protokollbetriebsindikatoren für die anderen Fehlerarten zurückgestellt oder abgeschaltet. Dieses ist deshalb notwendig, weil die Pro'okollbetriebsart nur für eine Fehlerart zu einer bestimmten Zeit bezüglich einer bestimmten logischen Einheit eingestellt werden soll. Daher löscht die Einstellung der Protokollbetriebsart für eine Fehlerart die Protokollbetriebsart für alle anderen Fehlerarten. Es wird angenommen, daß es zum normalen Wissen des Durchschnittsfachmann in der Mikroprogrammierung gehört, mit der Protokollbetriebsart für alle Fehlerarten gleichzeitig fortzufahren, ohne von der Lehre der Erfindung abzuweichen. Es hat sich jedoch in der Praxis gezeigt, daß die Bedingung, in der zwei oder mehr Fehlerarten ihre jeweiligen Zähler gleichzeitig zum Überlaufen bringen, so selten ist, daß es unökonomisch ist, besondere Mittel für diesen Fall vorzusehen.

Das Subsystem führt dann die Wegladung der Information für die logische Einheit mit Hilfe der realen ID und Volumen ID durch, wie es bereits erläutert wurde und wie es an der Stelle 139 im Ablaufdiagramm zu sehen ist Dieses kann beispielsweise dadurch erfolgen, daß eine Einheitenprüfung beim Auftreten des nächsten Start-Ein/Aus(-Befehls) für diese logische Einheit vorgenommen wird. Wenn der Kanal mit einem Abfühl-Ein/Aus(-Befehl) reagiert, wird die statistische Information weggeladen. Die Zähler werden wie 141 im Ablaufdiagramm zeigt, auf 0 zurückgestellt und die Operation beginnt erneut

Wenn aber der Fehlerzähler nicht überläuft, wird der entsprechende Benutzungszähler geprüft um festzustellen, ob er voll ist, was an der Stelle 127 dem Ablaufdiagramm in Fig.6A zu entnehmen ist Wenn der Benutzungszähler voll ist, dann führt das Subsystem wieder eine Wegspeicheroperation wie oben durch und stellt die Zähler auf 0 zurück.

Im folgenden wird die Protokollbetriebsart für Umgebungsdaten für die drei Arten von Fehlern beschrieben, die das System erkennen kann.

Wenn die Protokolfbetriebsart für ECC-korrigierbare Datenfehler eingestellt wird, dann sammelt die Speichersteuereinheit Umgebungs- oder diagnostische Abfühlinformation von verschiedenen Schlüsselbereichen des Subsystems für die nächsten vier Mal, in denen ein ECC-Korrigierbarer Datenfehler in der logischen Einheit, für die diese Information zusammengestellt wird, restgestellt wird, in Datensätzen, die in dem Lese-/Schreibsteuerspeicher nach Fig.2 gespeichert werden. Nachdem jeder Datensatz assembliert ist, wird er zu dem System weggeladen, wie bereits früher erläutert wurde, um schließlich zu dem Speicher 43 in

ίο F i g. 2 übertragen zu werden. Diese Information kann in der nachstehenden Tabelle 1 zusammengefaßt werden.

Tabelle 1
ι- Merkmal Information

1 Steuereinheitennummer und Einheiten ID

des Subsystems, das versucht, den Datensatz zu lesen

²" 2 Bereich des korrigierten Datensatzes

(Spuradresse, Zählung, Schlüssel, Daten)

3 Zylinderadresse

4 Kopfadresse

^2:1 5 Datensatznummer

6 Nummer des Sektors, in dem ein Fehler festgestellt wurde

7 Wie weit der Zugriff versetzt war, als die jo korrigierten Daten gelesen wurden

8 Anzahl der von Steuereinheit zwischen der Initialisierung der Datenübertragung und dem Ende des fehlerhaften Informationsfeldes verarbeitet wurden

Stelle des ersten fehlerhaften Bytes im Informationsfeld relativ zum Ende des Informationsfeldes

Fehlerkorrekturmuster

Angabe, ob der Kanal die Operation abgeschnitten hat, bei der der korrigierbare Fehler festgestellt wurde, während die Information gelesen wurde

Wie früher schon erwähnt, kann die meiste der oben zusammengestellten Information direkt von dem fehlerhaften Datensatz in der Spur gewonnen werden. Die reale Steuereinheit und die Einheiten ID kann von der Steuereinheit und der Speichereinheit, wie es oben

so geschah, abgeleitet werden, während die Sektornummer von einem Register gsliefert wird, das diese Nummer speichert Der Zugriffsversatz kann in ähnlicher Weise von einem Register bezogen werden, das ebenfalls diese Zahl speichert Die Anzahl der von der Steuereinheit zwischen der Initialisierung der Datenübertragung und dem Ende des fehlerhaften Informationsfeldes verarbeiteten Bytes kann nur dadurch gewonnen werden, daß die Zahl der verarbeiteten Bytes vom Beginn der Datenübertragung an bis zu einem solchen angegebenen Bereich gezählt werden. D'eses kann mit Hilfe von bekannten Zählern geschehen, oder durch Errichtung einfer Mikroprogrammschleife im Lese-/Schreibsteuerspeicher. Schließlich kann die Kanalabbrechoperation als Statistik gesammelt werden, indem nur eine Leitung des Kanals überwacht wird, die angibt daß die Operation aus bestimmten Gründen, wie beispielsweise Prioritätsunterbrechungen oder ähnlichen abgebrochen wurde.

Im folgenden wird die Umgebungsinformation angegeben, die für Situationen gesammelt wird, in denen der Protokollbetrieb für Umgebungsdaten eingeleitet wird, als Folge des Oberlaufs des Zählers, der die ECC-nicht korrigierbaren Datenfehler zählt

Tabelle 2 Merkmal Information Merkmal Information

1 Reale Sieuereinheitennummer und Einheiten ID der Steuereinheit und der Speichereinheit, die den Datensatz zu lesen versucht

2 In welchem Feld wird die Fehlerart festgestellt -

Spuradresse — ECC-nicht korrigierbare Zählung - ECC-nicht korrigierbarer Schlüssel - ECC-nicht korrigierbare Daten - ECC-nicht korrigierbare Spuradresse - Synchronisationsfehlerzählung - Synchronisationsfehlerschlüssel - Synchronisationsfehlerdaten -Synchronisationsfehleradressenmarke/ Erkennungsfehler bei Wiederholung

3 Zylinderadresse

4 Kopfadresse

5 Datensatznummer

6 Nummer des Sektors, in dem der fehlerhafte Datensatz festgestellt wurde

7 Wie weit ist der Zugriffsversatz in dem Augenblick, in dem die Daten richtig oder korrigierbar wurden

8 Zahl der Wiederholungen der Steuereinheit, die notwendig waren, um die Fehlerbedingung zu verarbeiten

9 Quelleneinheiten ID. Das ist die Identifizierung der realen Steuereinheit und Speichereinheit, die tatsächlich den Bereich aufzeichneten, in dem der Fehler festgestellt wurde.

Diese Information kann, wie vorher erwähnt wurde, gesammelt werden. Dieses erfolgt durch die Abfrage von Registern innerhalb der Speichereinheit oder der Steuereinheit, in denen solche Information gespeichert wird.

Die Quelleneinheiten ID kann zusammen mit dem Datenbereich gespeichert werden, wenn dieser geschrieben wird. Diese ID wird dann direkt aus dem Datenbereich, in dem der Datenfehler erkannt wird, gelesen.

Im folgenden ist eine Darstellung der Art der Information wiedergegeben, die gesammelt wird alls Protokollierung von Umgegungsdaten für Suchfehler.

Tabelle 3 Merkmal Information

1 Steuereinheitennummer und Speichereinheiten ID der Steuereinheit und Speichereinheit, die versucht die Suchoperation auszufuhren

2 der Fehler ist ein Suchfehler

3 Art der Erkennung des Suchfehlers

4 Information der Steuersammeischiene von der Steuereinheit zu der Speichereinheit zur Fehlerzeit

5 Information der Steuersammeischiene von der Speichereinheit zur Steuereinheit zur

Fehlerzeit

6 Inhalt der Steuerinformation, die die Information auf den Sammelschienen der beiden vorhergehenden Merkmale modi flziert

Die in Tabelle 3 angegebene Information erläutert sich selbst, mit Ausnahme des Merkmals 3. Die Art und Weise des Feststeilens eines. Suchfehlers könnte beispielsweise durch einen Leitung erfolgen, die von der Speichereinheit herführt und die angibt, daß die Suche unvollständig war. Alternativ hierzu könnte auch ein Datenmuster auf einer Datenspiur gespeichert werden, das die Suchadresse der Spur angibt Diese Adresse könnte mit der Suchadresse verglichen werden, auf die der Zugriffsmechanismus umzusetzen war. Wenn die beiden nicht übereinstimmen, wenn der Zugriff gestoppt wird, dann gibt dieses ebenfalls einen Suchfehler an. Daher gibt Merkmal 3 an, nach welchem dieser Wege der Suchfehler festgestellt wurde (oder daß er auf beide Wege festgestellt wurdet

Das Protokollierverfahren geht aus dem Ablaufdiagramm in Fig.6 hervor. Wenn an der Stelle 131 der Protokollbetrieb eingestellt wird, dann wird zum nächsten Mal, wenn ein Fehler dieser Art für diese logische Einheit festgestellt wird, die Prüfung an der Stelle 123 feststellen, daß der Protokollbetriebsindikator eingestellt ist Es sei in diesem Zusammenhang erinnert, daß der Protokollbetriebszähler an der Stelle 133 zuvor eingestellt wurde, so daß er während des vierten Males überläuft zu dem detaillierte Abfühlinformation für diese betreffende Fehlerart gesammelt wird. Während des Protokollbetriebs wird der Protokollzähler um 1 erhöht, wie es an der Stelle 14S dargestellt ist, und zwar jedesmal, wenn detaillierte Abfühlinformation gesammelt wird. An der Stelle 147 im Ablaufdiagramm wird eine Prüfung vorgenommen, um festzustellen, ob der Protokollzähler überlief. Wenn dieses der Fall war, dann ist dieses der letzte Durchlauf durch die Schleife

so und der Protokollbetriebsindikator für diese Fehlerart wird, wie bei 153 in Fig.6Bl zu sehen ist, auf 0 zurückgestellt Danach wird detaillierte Abfühlinformation (zum letztenmal) gesammelt, wie 149 im Ablaufdiagramm der Fig.6B zeigt. Wenn andererseits der

5$ Protokollzähler noch nicht übergelaufen ist, bedeutet dieses, daß die vierte und letzte Sammlung von detaillierten Abfühlinformationcn noch nicht aufgetreten ist und eine Sammlung wie in 149 angegeben, unverzüglich vorgenommen werden sollte. Wenn die

μ Abfohlinformation gesammelt und im Steuerspeicher gespeichert wurde, dann wird ein Protokollwegladeindikator für die Umgebungsdaten an der Stelle ISl eingestellt, der angibt, daß dieser Datensatz mit Umgebungsdaten bei dem nächsten Start-Ein/Aus- (-Kommando) an das System weggeladen werden soll. Wenn dieses nächste Kommando an der Stelle 109 im Ablaufdtagramm festgestellt wird, dann wird die Wegladeprüfung für die Umgebungsdaten an der Stelle

110 erfolgreich verlaufen und eine Eroheitenprüfung wird in die Zustandsantwort des Kanals, eingegeben, wie an der Stelle 155 angegeben ist.Der Kanal reagiert dann mit einem Abfühl-Etn/Aus( Kommando), und wenn dieses festgestellt wird an der Stelle 157, dann wird die ausfuhrliche Abfühlinforraation auf den Kanal weggejaden, wie 159 in F ig_t 6B zeigt und von dort zu der CPU übertragen in der sie letztlich .lurch die Speichereinheit und Volumen ID gesammelt und in der Speichereinheit 43 gespeichert wird.

Zu vorgegebenen Zeiten, beispielsweise am Tagesende, werden zusammenfassende Berichte der Leistung de: Systems in Tennen von Benutzungs-ZFehlerinformation und Umgebungsinformation, die gesammelt wurde, gegeben. Die Umgebungsdaten, wie beispielsweise die in den Tabellen 1 bis 3 angegebenen, werden vom Speicher 43 in F i g. 2 abgerufen und Ober ihre reale Einheiten ID und dann Ober ihre Volumen ID identifiziert und jeder Aufzeichnung der Umgebungsdaten ausgedruckt Daher ist jeder realen Speichereinheit ein Umgebungsdatenpaket zugeordnet, das jedesmal zusammengestellt wird, wenn ein Fehlerzähler der gegebenen Fehlerart überlief. Diese Information ist für den Wartungsingenieur auf folgende Weise nützlich: Da diese Information nur in solchen Situationen gesammelt wird, in denen die Schwellenwerte der Fehlerzähler erreicht wurden, ist es nützlich, die Aufmerksamkeit des Wartungsingenieurs auf ein potentielles Problem zu richten, das eine Wartungshandlung erfordert

Mit der ausführlichen Fehlerinformation, die in den Tabellen 1 bis 3 dargestellt ist, kann der Wartungsingenieus eine wirkungsvolle Wartung des Systems vornehmen, die auf dieser detaillierten Information als eine Voraussetzung für diese wirkungsvolle Benutzung basiert, um zu intermittierenden Fehlern führende Maschinenkomponenten zu isolieren oder abgenutzte zu reparieren.

Eine zweite Art der Zusammenstellung ist der statistische Datensatz. Es sei in diesem Zusammenhang daran erinnert, daß alle Zählerinformation für eine Einheit weggeladen wird, wenn das Tagesende erreicht wird, ein Plattenstapel ausgewechselt wurde oder ein Zähler überlief. Diese Information kann dann sortiert und gemischt werden, indem ein an sich bekanntes Programm verwendet wird, wobei dann ein Ausdruck erstellt werden kann, wie er beispielsweise in Fig,7 dargestellt ist Aus dieser Figur ist -χα sehen, daß Datensätze bezüglich der realen Einheitenadresse und auch bezüglich der Volumen ID ausgedruckt werden. Für das vorliegende Beispiel wird angenommen, daß eine reale Einheit bis zu 24 Volumen oder Speichermedien oder Datenträger besitzen kann, die ihr verschieden oft zugeordnet werden können. Daher wird die

ίο statistische .Information, die im Lese-ZSchreibsteuerspeicher gespeichert war, sortiert, gesammelt und bezüglich der Volumen ID ausgedruckt Es ist aus F i g. 7 ferner zu erkennen, daß zwei Verhältnisse gegeben werden als Teü des statistischen Datensatzes. Verhältnis 1 ist das Verhältnis der gelesenen Bytes zu den ECC-korrigierbaren Datenprüfungen und Verhältnis 2 ist das Verhältnis der gelesenen Bytes zu den ECC-nicht korrigierbaren Datenprüfungen. Wenn daher der Wartungsingenieur diesen zusammenfassenden Bericht untersucht, dann wird, wenn eine bestimmte Speichereinheit ein Verhältnis für entweder das Verhältnis 1 oder 2 aufweist, das niedriger liegt als ein gegebener Grenzwert der erwartenden gelesenen Bytes je Fehler der untersuchten Art, der Verdacht auf mögliche Gefahrenbedingungen verstärkt Dieser Verdacht kann dadurch untersucht werden, daß die Volumen ID's für eine bestimmte Speichereinheit, beispielsweise die Speichereinheit A notiert wird, die Verhältnisse hat, die unter den erwartenden liegen. Diese Volumen ID's können dann auf den Datensätzen für die anderen Speichereinheiten überprüft werden. Wenn es sich herausstellt, daß die Volumen ID's geringere Verhältnisse nur für die Speichereinheit A beispielsweise zeigen, dann liegt der Verdacht nahe, daß das Problem in der Speichereinheit A liegt und nicht in dem Speichermedium. Wenn andererseits auf diese Weise festgestellt wird, daß die notierten Volumen ID's ständig niedrigere Verhältnisse für alle Einheiten zeigen, dann liegt der Verdacht nahe, daß das Problem im Speichermedium liegt Auf diese Weise stellt die Erfindung ein sehr leistungsfähiges Werkzeug für die Wartung von elektronischen Datenverarbeitungssystemen dar. Diese Information kann in einer Tabelle gespeichert werden, die dann zu sinnvolleren Zeitpunkten, beispielsweise auf monatlicher Basis, ausgedruckt werden kann.

Hierzu S Blatt Zeichnungen

Claims

Patentansprüche:

1. Schaltungsanordnung zur Aufbereitung und Speicherung von auf Benutzungshäufigkeit und Fehler von Komponenten in peripheren Subsystemen hinweisender Information für eine spätere Fehleranalyse, mit Zählern zur Zählung der Benutzung und der dabei aufgetretenen Fehler, wobei Oberschreitungen vorgsbbarer Grenzwerte der Zählerinhalte erkennbar sind, dadurch gekennzeichnet, daß in der Steuereinheit (5) jedes Subsystems eine Anordnung (67,71,73,75, VZ; F i g. 5) vorgesehen ist, die ein Auslösesignal für die Abspeicherung der auf Benutzungshäufigkeit und Fehler hinweisenden Information in einen Fehlerspeicher (43) des Hauptsystems (23) erzeugt, wenn eine Grenzwertüberschreitung in mindestens einem der Zähler £-B. 15, 17; Fig.2) festgestellt wird, wobei in jedem Subsystem jeweils mehrere Zähler sowohl für austauschbare (z.B. Plattenstapel) als auch für feste Komponenten (z. B. Plattenlaufwerk) vorgesehen sind, sowie je Komponente mehrere Zähler für Benutzungs- und Fehlerart, und die das Auslösesignal bei Auftreten eines erneuten Startsignals für das periphere Subsystem wieder abschaltet (71,75,KZJl

2. Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet, daß bei Auftreten der Grenzwertüberschreitur-g in einem der Zähler außerdem der Schalter (71) so eingestellt wird, daß in Verbindung mit dem erneuten Startsignal über das Verknüpfungsglied (75) ein Signal erzeugt wird, durch welches zusätzliche Diagnosehirormation während der Laufzeit des Verzögerungsgliedes (VZ) aus dem Subsystem in den Fehlerspeicher (43) abgespeichert wird.

3. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß auch Fehlerarten, deren Fehler in den Subsystemen selbst korrigierbar sind, gezählt und im Hauptsystem protokolliert werden.