DE2227150C2 - Schaltungsanordnung zur Aufbereitung und Speicherung von Information für eine spätere Fehleranalyse - Google Patents

Schaltungsanordnung zur Aufbereitung und Speicherung von Information für eine spätere Fehleranalyse

Info

Publication number
DE2227150C2
DE2227150C2 DE2227150A DE2227150A DE2227150C2 DE 2227150 C2 DE2227150 C2 DE 2227150C2 DE 2227150 A DE2227150 A DE 2227150A DE 2227150 A DE2227150 A DE 2227150A DE 2227150 C2 DE2227150 C2 DE 2227150C2
Authority
DE
Germany
Prior art keywords
error
unit
errors
data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE2227150A
Other languages
English (en)
Other versions
DE2227150A1 (de
Inventor
Oscar Edwin Salmassy
Robert Emmett San Jose Calif. Sullivan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE2227150A1 publication Critical patent/DE2227150A1/de
Application granted granted Critical
Publication of DE2227150C2 publication Critical patent/DE2227150C2/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3485Performance evaluation by tracing or monitoring for I/O devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/88Monitoring involving counting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Description

Die Erfindung betrifft eine Schaltungsanordnung zur Aufbereitung und Speicherung von auf Benutzungshäufigkeit und Fehler von Komponenten in peripheren Subsystemen hinweisender Information für eine spätere Fehleranalyse, nach dem Oberbegriff des Anspruchs 1.
In modernen Datenverarbeitungsanlagen verarbeitet eine Zentraleinheit oder CPU, Instruktionen und Daten, die meist in Folge der beschränkten Kapazität des Hauptspeichers in der CPU, in einem oder mehreren externen Speichern gespeichert sind. Im allgemeinen ist eine Zentraleinheit an einen Datenkanal angeschlossen, der seinerseits mit den peripheren Speichern über eine Speichersteuereinheit verbunden ist. Eine Operation, die in der Zentraleinheit oder dem Kanal durchgeführt wird, bezeichnet man als Durchführung auf der Systemebene, während eine Operation, die in einem peripheren Speicher oder einer Steuereinheit durchgeführt wird, als eine Durchführung auf der Subsystemebene betrachtet wird.
Eine Anforderung für die Übertragung von Daten zwischen einem peripheren Speicher und der Zentraleinheit erfolgt im allgemeinen in der Form eines im Hauptspeicher der Zentraleinheit gespeicherten Kommandos oder Befehls, der als Kanalbefehlswert (CCW) bezeichnet wird- Eine Vielzahl solcher aufeinanerfolgender Anforderungen wird als eine Kette von CCWs bezeichnet, die in einer Vielzahl von Operationen s resultiert, wie beispielsweise Datenübertragungen zwischen dem peripheren Speicher und der Zentraleinheit In der Vergangenheit meldete die Speichersteuereinheit, wenn ein Fehler während der Datenübertragung von einer CCW-Kette festgestellt wurde, eine Daten prüfinformation an den Kanal, die zu einer Unterbre chung der Zentraleinheit führte, mit dem Ergebnis, daß die gesamte CCW-Kette erneut vom Beginn an wiederholt wurde, in der Hoffnung, daß nun die Datenübertragung ohne Fehler verlaufen würde, Kürz lieh hat man an Verbesserungen derartiger Systeme gedacht, bei denen, wenn ein Fehler in einer Operation auftritt, die von einer CCW-Kette herrührt, die Speichersteuereinheit die Fähigkeit der Wiederholung eines bestimmten CCW erhielt, ohne die gesamte CCW-Kette erneut auszuführen, wobei dieses dann so durchgeführt wird, daß die Wiederholung des CCW in dem System nur als ein normaler CCW-Speicherabruf erscheint, im Gegensatz zu einer Systemuntersuchung, die vorher üblich war. Während diese Verbesserung den Durchsatz und die Effizienz derartige Siysteme beträchtlich steigerte, trat nan das Problem auf, daß das System keine Möglichkeit mehr hatte, den Zustand der angeschlossenen Geräte und statistische Fehler- und Benutzungszustände der peripheren Speicher zu ken nen, insofern, als die meisten Fehler nun auf der Subsystemebene ohne Intervention des Systems behandelt werden.
Zur Analyse von fehlerhaften Systemkomponenten ist oftmals eine Information von Interesse, welche die Häufigkeit von auftretenden Fehlern angibt Von einer solchen Information wird beispielsweise Gebrauch gemacht, um die Leistungsverringerung eines Speichers festzustellen, der mit einer Fehlerkorrektur für Einzelfehler und'mit einem Detektor filr Doppelfehler ausgestattet ist, wobei die Einzelfehler gezählt werden und mit einem vorgegebenen Grenawert verglichen werden, wie im IBM Technical Disclosure Bulletin, Vol.
12, Nr. 6, November 1969, Seite 895 beschrieben ist
In der DE-AS 19 35 743 ist beschrieben, wie bei
Fernsprechvermittlungsanlagen mit Hilfe von Zählern das Verhältnis der Anzahl der auf Fehler hinweisenden Vorgänge zu der Anzahl der korrekt abgewickelten Vorgänge ermittelt wird. Ist dieses Verhältnis sehr groß, so ist offensichtlich der Betrieb sehr schlecht, so daß
so dieses Verhältnis zugleich als ein Maß für die Betriebsgüte aufgefaßt werden kann. Es wird erwähnt daß, um statistische Schwankungen unwirksam zu machen, eine Fehlermeldung selbstverständlich erst zulässig ist, wenn eine gewisse Mindestanzahl von Vorgängen erfaßt worden ist. Es kann aber mit diesem Verhältnis nicht nur die Betriebsgüte ermittelt sondern auch auf Reserveschaltungen umgeschaltet werden.
In der DE-OS 19 38 312 wird beschrieben, daß beispielsweise eine Registrierung fehlerhafter Vorgän-
ge auch in Speichern anstelle von Registern vorgenommen werden kann.
Im Ericsson Review, 1956, Heft 2, Seiten 34 bis 45 ist beschrieben, wie in einer Fernsprechvtirmittlungsanlage aus dei·' Gesamtanzahl der getätigten Verbindungen und der beobachteten Störungen Voraussagen für das zukünftige Störverhalten der Anlage gemacht werden können. Bei Speicher-Subsystemen der eingangs genannten
Art besitzen jedoch die Speicher im allgemeinen austauschbare Speichermedien, die als* Speichervolumen oder fcurz als Volumen bezeichnet werden. Der periphere Speicher kann beispielsweise eine rotierende Plattenspeichereinheit sein, die austauschbare Plattenstapel als Speichervolumen besitzt Er kann aber auch eine Bandspeichereinheit sein, die austauschbare Magnetbänder als Speicher volumen hat Als peripherer Speicher sind auch andere ähnliche Geräte denkbar. Bei einer rotierenden Plattenspeichereihheit als Beispiel zugrunde gelegt, kann ein Plattenstapel auf einer ersten Speichereinheit beschrieben und auf einer - zweiten gelesen werden. Die Plattenstapel können daher von einer Plattenspeichereraheit zur anderen ausgetauscht werden. Wenn eine unzulässige Zahl von Fehlern während einer Datenübertragung oder anderen Operationen nach oder von einer gegebenen Plattenspeichereinheit auftritt dann muß die Plattenspeichereinheit als fehlerhaft verdächtigt werden. Es ist jedoch auch möglich, daß der Fehler tatsächlich vom Speichermedium herrühren kann, d. h. vom Plattenstapel selbst Das bedeutet daß das Speichermedium zerstör: sein kann oder daß der Plattenstapel auf einer anderen Plaiteneinheit beschrieben wurde, die sich außerhalb ihrer Toleranz befindet mit dem Ergebnis, daß beispielsweise der Stapel nicht von einer anderen Plattenspeichereinheit gelesen werden kann, auf der er augenblicklich aufliegt Es ist daher manchmal nicht möglich, zu unterscheiden, ob die Fehler bei der Datenübertragung zu oder von einer gegebenen Plattenspeichereinheit von einer fehlerhaften Plattenspeichereinheit oder einem fehlerhaften Plattenstapel herrühren. Die bekannten, oben erwähnten Lösungen liefern somit keinen Beitrag für die Wartung und Fehlerbeseitigung in peripheren Speicher-Subsystemen.
Die vorliegende Erfindung hat sich daher die Aufgabe gestellt eine Lösung anzugeben, wie statistische Daten über Benutzungshäufigkeiten von Systemkomponenten und Fehlerarten automatisch von peripheren Subsystemen für deren Wartung bereitgehalten werden können.
Gelöst wird diese Aufgabe der Erfindung durch die im Hauptanspruch angegebenen Merkmale. Ausgestaltungen und Weiterbildungen des Erfindungsgegenstandes sind den Unteranspriichen zu entnehmen.
Mit den Mitteln der Erfindung wird der Vorteil erreicht Oaß bei elektronischen Datenverarbeitungsanlagen mit peripheren Subsystemen schon frühzeitig Wartungs- und Fehlerinforrnation bereitgestellt wird, die eine fehlerpräventive Zuntandsanalyse der peripheren Subsysteme ermöglicht und im Fehlerfalle durch Fehleranalyse die Lokalisierung des fehlerhaften Subsystems gemattet.
Im folgenden wird die Erfindung anhand eines durch Zeichnungen erläuterten Ausführungsbeispiels näher beschrieben. Es zeigt
F i g. 1 eine Blockdarstellung eines Datenspeicher* Subsystems, in dem die Erfindung verwendet werden kann,
Fig.2 eine Darstellung verschiedener Teile des Datenspeichersystems und der Art und Weise, wie die Erfindung in dieses System eingebaut werden kann,
F i g. 3 eine Darstellung der Fehler in den Benutzungszählern der Erfindung,
F i g. 4 eine Darstellung der Art und Weise, in der die Zähler nach F i g. 3 in dem beschreibbaren Steuerspeicher in der Speichersteuereinheit des Subsystems ausgelegt weden könnet,
F i g. 5 eine Darstellung der Art und Weise, in der das System darüber informiert wird, daß eine unzulässige Anzahl von Fehlern for ein gegebenes physikalisches Speichervolumen aufgetreten ist und
Fig,6 ein Ablaufdiagramm zur Darstellung des erfindungsgemäßen Verfahrens,
Vor der eigentlichen Beschreibung der Erfindung wird zum besseren Verständnis zuerst ein kurzer allgemeiner Oberblick über Informationsspeicher gegeben, in denen die Erfindung verwendet werden kann.
ίο Information wird im allgemeinen in den hier betrachteten Systemen in Plattenstapelvolumen auf Spuren und in Datensätzen gespeichert die aus drei Informationsfeldern bestehen: Einem Zählfeld, einem Schlüsselfeld und einem Datenfeld. Der Anfang eines Datensatzes wird für Steuerzwecke mit einer Adreßmarke gekennzeichnet Vor jeder Adreßmarke liegt ein Synchronisationsbereich zur Synchronisation der Zeitkomponenten, die für den Lesevorgang verwendet werden. Jeder Spur geht ein Spuradressenfeld voraus für die Adressenidentifiziening und ein Spurbeschreibusgsästz zur Angabe der physikalischen Bedingung v»#ie beispielsweise gestört oder nicht gestört) der betreffenden Spur. Eine ausführliche Beschreibung der Art und Weise, in der die Information in Datensätzen dieser Art gespeichert wird, geht aus der US-Patentschrift 32 99 410 hervor.
We:".n Datenfehler dieser Art im System festgestellt werden, werden sie im allgemeinen von einem fehlerkorrigierenden Codesystem (ECC), wenn möglich, korrigiert das eine relative Adresse oder einen Bereich liefert für den Fehler in dem Informationsfeld und das Bitmuster, das für die Korrektur des Fehlers brauchbar ist Solche Fehler werden als ECC-korrigierbare Fehler bezeichnet Derartige ECC-Systeme sind an sich bekannt Ein Weg, eine derartige Fehlerkorrektur
j5 anzuwenden, besteht in der Wiederholung des Befehls, wenn der festgestellte Fehler sich innerhalb der relativ kurzen Spuradresse, dem Spurbeschreibungssatz oder den Zähl- oder Schlüsselfeldern anderer Datensätze befindet. Die fehlerhaften Daten können in einem Pufferbereich in der Speichersteuereinheit zwischengespeichert und dort von dem ECC-System korrigiert werden. Wenn der Befehl wiederholt wurde und der Abfühlmechanismus sich auf den gewünschten Datensatz auf der Spur eingestellt hat dann werden die korrigierten Daten im Puffer auf den Kmal übertragen, so daß das System nun bereit ist, um die Kanalbefehlswort-Kette (CCW-Kette) fortzusetzen. Wenn andererseits der Fehler sich in dem Datenfeld innerhalb eines anderen Datensatzes befindet als dem Spurbeschrei-
)ii bungssatz, dann können nur die fehlerhaften Daten und die relative Adresse und das Bitmuster direkt für die Korrektur zu dem System übertragen werden, da der Speicherplatz für die Korrektur eines langen Datenfel-Jes in der Steuereinheit nicht ausreicht Es ist aber möglich, die Fehlerkorrektur zu modifizieren und entsprechend den Erfordernissen des Systems, in dem die Erfindung verwendet werden soll, zu verändern, ohne von der Lehre der Erfindung abzuweichen.
Gelegentlich k*uin der Fall eintreten, daß ein Fehler festgestellt wird, der sich außerhalb der Fehlerkorrekturflhigkelten des fehlerkorrigierenden Codes befindet. Diese Fehler werden als nicht ECC-korrigierbare Datenprüfungen bezeichnet, und es wird ein Versuch unternommen, einen derartigen Fehler durch ein erneutes Lesen de. Daten mit Hilfe der Wiederholung des Befehls zu beseitigen, während dessen Ausführung der Fehler festgestellt wurde, in der Hoffnung, korrekte oder ECC-korrigierbare Daten zu erhalten. Das
Verfahren der Befehlswiederholung ist ebenfalls an sich bekannt. Während der Wiederholung des Befehls, wenn richtige oder ECC-korrigierbare Daten nach einer gegebenen Anzahl von Wiederholungen nicht erhalten werden, dann kann es für eine Situation, in der ein Plattenspeicher verwendet wird, wünschenswert sein, dem Zugriffsmechanismus mehrere Mikrometer in einer bestimmten Richtung zu versetzen und eine erneute Wiederholung vorzunehmen, in der Hoffnung richtige oder ECC-korrigierbare Daten zu erlangen. So kann beispielsweise während einer Befehlswiederholung der Zugriffsmechanismus um mehrere Mikrometer in einer ersten Richtung versetzt werden und der Befehl mehrmals wiederholt werden. Er kann dann um die gleiche Anzahl von Mikrometern in der entgegengesetzten Richtung zurückgestellt werden und der Befehl erneut mehrere Male wiederholt werden. Dieses könnte f.-.- ..„„„u:~
von einem Plattenstapel, der auf eine Platteneinheit montiert ist, beschrieben wird, so können auch andere Systeme die Erfindung benutzen, die z. B. Bandspulen besitzen, die auf Bandamrieben angebracht sind oder andere tragbare Speichermedien, die auf ihren Antriebselementen montiert sind.
F i g. 2 zeigt eine Übersicht über das System, in dem die Erfindung verwendet wird. Auf der Subsystemebene ist eine Speichersteuereinheit 5 und eine oder mehrere Platteneinheiten 1 Ober eine Schnittstelle 3, die aus Steuerleitungen zu und von beiden Einheiten besteht, miteinander verbunden. Die Steuereinheit 5 kann einen bekannten Aufbau besitzen, wie beispielsweise in der US-Patentschrift 35 44 966 beschrieben ist. Obwohl die Erfindung auch anhand einer Steuereinheit mit einem Festwertspeicher hätte erläutert werden können, wird sie im folgenden jedoch im Zusammenhang mit einer
chend den Erfordernissen eines bestimmten Speichersystems fortgesetzt werden. Die Durchführung auch dieses Verfahrens ist an sich bekannt.
Weiterhin können Datensätze der diskutierten Art so aufgezeichnet werden, daß der betreffende Sektor einer Platte, der sich am dichtesten am Anfang eines Datensatzes befindet, festgestellt und aufbewahrt wird. Die Sektornummer ist für mehrere Zwecke nützlich, vor allem für das Protokollieren vom Umgebungsdaten, die letztlich von dem Wartungsingenieur bei der Wartung des Systems benutzt werden. Einrichtungen für die Aufzeichnung und das Lesen von Datensätzen der diskutierten Art mit Hilfe von Sektornummern sind ebenfalls an sich bekannt.
Die vorliegende Erfindung kann, wie bereits erwähnt wurde, in Speichersubsystemen verwendet werden, wie beispielsweise solchen Systemen, die eine Speicher-Steuereinheit und eine Anzahl von Platteneinheiten verwenden, wobei auf jeder der Platteneinheiten ein Plattenstapel oder Speichervolumen montiert ist. Ein derartiges Subsystem ist in Fig. 1 dargestellt. Sie zeigt eine Steuereinheit und eine Gruppe von Platteneinheiten. Die Platteneinheiten sind auf zweierlei Weise bezeichnet Durch das reale Dateikennzeichen (ID) und durch das logische ID. Bezüglich der F i g. 1 ist das reale ID fest und ist mit Platteneinheit A bis //bezeichnet Für die Erfordernisse des Systems jedoch muß die Platteneinheit A nicht unbedingt die erste Platteneinheit in der Reihe sein, sondern sie kann logisch die dritte, vierte oder eine anders numerierte Platteneinheit in dieser Reihe sein. Sorge hierfür trägt die dargestellte logische Steckverbindung. In der US-Patentschrift 34 53 567 ist ein System mit derartigen logischen Steckverbindungen für die Änderung der logischen Adresse der realen Platteneinheit dargestellt und beschrieben. Bei der Terminologie, die in der Beschreibung dieser Erfindung verwendet wird, ist auch eine dritte ID vorgesehen, die sich auf das Volumen bezieht (Volumen ID). Das heißt daß jeder Plattenstapel der auf' eine Platteneinheit montiert ist, eine bestimmte Stapeloder Volumen ID besitzt die beispielsweise eine 6stellige alphanumerische Identifizierung sein kann, die in der Spur 0. im Zylinder 0 aufgezeichnet ist und zur Identifizierung des Volumens dient Es ist eine Funktion der Erfindung, letztlich statistische Daten zu erzeugen sowohl bezüglich der Volumen ID als auch der realen Platteneinheit ID, damit wenn eine unzulässige Zahl von Fehlern auftritt, die Quelle des Fehlers sowohl in der Fiatteneinheit wie auch im Volumen selbst verfolgt werden kann. Während die Erfindung in Abhängigkeit Schreibsteuerspeicher 7. beispielsweise einen monolithisch integrierten Steuerspeicher besitzt.
Der Lese-/Schreibsteuerspeicher 7 enthält ein Steuermikroprogramm 9 und einen Bereich für jede logische Platteneinheit in der Reihe für das Auflisten bestimmter Information dieser Einheit. Ein solcher Bereich 11 ist in F i g. 2 dargestellt. Dieser Bereich ist der logischen Einheit bei der laufenden Operation zugteilt und enthält die reale tinheitsadresse sowie die Benutzungs- und Fehlerzähler, die im Anschluß daran für die logische Einheit erläutert werden.
F i g. 2 zeigt ferner, daß eine zentrale Steuereinheit (CPU) 23 und ein Ein-/Ausgabekanal 21 miteinander verbunden sind. Die Ein-/Ausgabekanäle, die hier verwendet werden, sind beispielsweise aus den US-Patentschriften 33 03 476 und 35 50 133 bekannt. Die Speichersteuerung, der Ein-/Ausgabekanal (E/A-Kanal) und die CPU sind in geeigneter Weise mit Hilfe von Sammelleitungen und Schnittstellenschaltungen miteinander verbunden. Die CPU 23 hat einen Hauptspeicher 25, der das Steuerprogramm 27 sowie eine logische Einheitstabelle 29 für jede Einheit enthält. Schließlich ist die CPU mit einem Speichersystem 43 verbunden, das einen Speicherbereich 45 für die Aufzeichnung von Benutzungs-/Fehlerstatistiken und Umgebungsdaten aufweist Der Speicher 43 kann beispielsweise ein Plattenspeicher sein, der als Permanentsystemspeicher verwendet wird.
F i g. 3 zeigt eine Gruppe von Benutzungs-/Fehlerzählern. Diese Zähler zählen die Anzahl der ausgelesenen Informationsbytes (d.h. die Benutzung oder Benutzungsparameter), die Anzahl der ECC-korrigierbaren Datenfehler, die Anzahl der ECC- nicht korrigierbaren Datenfehler und die Anzahl von Suchoder Zugriffehlern je logische Einheit (d. h. die Fehler oder Fehlerparameter). Es kann ferner ein Schwellenwert für eine minimale Zahl von Benutzungen für eine gegebene Anzahl von Fehlern festgelegt werden. Wenn der Fehlerschwellwert vor dem Benutzungsschwellenwert erreicht wird, dann wird die statistische Information vom System für die letztliche Verwendung in einem Wartungsverfahren weggespeichert. Ein exemplarischer Satz von Schwellenwerten kann beispielsweise folgendermaßen sein: (231-1) Bytes wurden gelesen bevor 512 ECC-korrigierbare Datenfehler oder 64 ECC-nicht korrigierbare Datenfehler gelesen wurden, und (215—1) Zugriffsbewegungen wurden durchgeführt bevor acht Suchfehler auftreten. Jeder Zähler ist in dieser Figur mit einer Fortschalteleitung für die Inkrementierung und eine Rückstelleitung für die
Rückstellung auf 0 versehen sowie mit einer Überlaufleitung, zur Angabe, daß der Zähler überlief. Die hier als reale Zähler dargestellten Zähler können normalerweise Register sein, die sich in dem Schreib-/Lesesteuerspeicher 7 der Steuereinheit 5 in Fig.2 befinden. Jedesmal wenn eine bestimmte Operation, die gezählt wird, auftritt, dann wird dieser Abschnitt oHer dieses RegifKT des Steuerspeichers für diese bestimmte logische Einheit in Abhängigkeit von der Operation um 1 oder mehr erhöht. Das heißt, daß die Fehlerzähler einmal für jede Art eines festgesteü.'en Fehlers inkrementiert und die Benutzungszähler ebenfalls inkrementiert werden, um die Benutzung wiederzuspiegeln, d. h. die gelesenen Bytes und Zugriffsbewegungen zu zählen. Speichersteuereinheiten derart, wie sie in der genannten US-Patentschrift 35 44 966 beschrieben wurden, haben arithmetische und logische Einheiten, die unter anderem diese Inkrementierung durchführen. Daher wird jedssniä!, wenn ?inp hestimmte Operation, die zu einem Zähler gehört, auftritt, das Register, das die Zählung durchführt, ausgelesen, in der arithmetischen und logischen Einheit inkrementiert und zurück in den Lese-/Schreibsteuerspeicher gebracht. F i g. 4 zeigt ein Beispiel für acht logische Einheiten, bei dem für jede logische Einheit für die Akkumulierung der gewünschten Information ein Speicherbereich oder Register vorgesehen ist, wobei diese Information weiterhin durch die Einheiten ID identifiziert wird, die beispielsweise in einem 3 aus 6-Code dargestellt sein könnte.
Das Subsystem unterhält auf diese Weise eine stati . Jsche Datenaufzeichnung der Benutzungs- und Fehlerinformation für jede logische Einheit im Subsystem. Die Benutzungsinformation erzeugt einen akkumulierten Zählwert der Gesamtzahl von Zugriffsbewegungen und gelesenen Datenbytes. Die Fehlerinformation dagegen erzeugt einen akkumulierten Zählwert der Gesamtzahl der Suchfehler, ECC-korrigierbaren Datenfehler und ECC-nicht korrigierbaren Datenfehler.
Die Benutzungsfehlerinformation wird weggeladen und letztlich im Permanentsystemspeicher 43 jedesmal dann gespeichert, wenn die Benutzungs- oder Fehlerzähler einen vorgegebenen Schwellwert, wie oben beschrieben, erreichen. Das Mittel für das Wegladen kann beispielsweise darin bestehen, daß eine von der Steuereinheit erzeugte Einheitsprüfbedingung beim nächsten Ein-/Ausgabe-Start an die Einheit mit einer anstehenden Benutzungs-/Fehlerinformation ausgegeben wird. Das Startkommando für die Ein-/Ausgabe ist an sich bekannt und ebenfalls in den bereits genannten US-Patentschriften 33 03 476 und 35 50 133 näher beschrieben. Ferner werden geeignete Befehle vom Kanal selbst zur Verfügung gestellt, um dem benutzenden System das Wegladen der Benutzungs-ZFehlerinformation am Ende des Tages oder vor einem Plattenstapelwechsel zu gestatten.
Die Benutzungs-/Fehlerstatistiken in den Zählern werden bei folgenden Bedingungen gelöscht: (a) nachdem die Information des Zählers nach einem Zählerschwellenwertüberlauf zu dem Kanal übertragen wurde oder (b) nachdem die Zählerinformation am Tagesende oder bei einem Plattenstapelwechsel zu dem Kanal übertragen wurde oder (c) wenn die Steuereinheit eine Änderung in den Einheiten ID feststellt, die einer logischen Einheitenadresse zugeordnet ist (d.h. eine logische Adressensteckverbindungskennung wird von einer Platteneinheit auf eine andere umgeschaltet).
Wenn irgendeiner der Fehlerzähler seinen Schwellenwert erreicht bevor der ihm zugeordnete Benutzungszähler seinen Schwellwert erreicht, dann wird die Steuereinheit in den Fehlerprotokollbetrieb eingestellt. In dieser Betriebsart fährt die Steuereinheit fort, nachdem die Benutzungs-/Fehlerinformation weggeladen wurde, detaillierte diagnostische Abfühlinformation über die Art des Fehlers, der die Protokollbetriebsart einstellte, für beispielsweise die nächsten vier Fehler zu protokollieren. Die Anzahl der Protokollabspeicherungen kann von Systemtyp zu Systemtyp, abhängig von den Systemerfordernissen variieren. Im Protokollbetrieb zeichnet die Steuereinheit ausführliche diagnostische Information während der Ausführung des Wiederholungsbefehls der Steuereinheit oder während der Ausführung von Fehlerkorrektur bezüglich ECC-korrigierbarer Datenprüfungen im Datenfeldteil der Aufzeichnung auf. Die Information wird zu dem Kanal übertragen als Folge der Aktion der Steuereinheit 5, die die Einheitenprüfung in Abhängigkeit von dem nächsten F.in-/Ausgabe-Start zu der Einheit signalisiert, für die die Protokollbetriebsart eingestellt wird. Nachdem die Abfühlinformation für vier getrennte wieder heilbare Fehlerbedingungen zu dem System übertragen wurde, beendet die Steuereinheit die Protokollbetriebsart für die Einheit, für die diese Betriebsart eingestellt wurde.
Diese Operntionsart ist in Fig.5 für beispielsweise ECC-korrigierbare Datenfehler zu sehen. Der Bytezähler 65 und der Zähler 69 für ECC-korrigierbare Fehler sind so initialisiert, daß ein Überlauf stattfindet, wenn ihre jeweiligen Schwellenwerte erreicht werden. Wenn der korrigierbare Datenfehlerzähler 69 oder der gelesene Bytezähler überlaufen, stellt das ODER-Tor 67 die Verriegelungsschaltung 71 auf den »1«-Ausgang ein und bereitet die Durchschaltung des UNd-Tores 75 vor. Wenn das nächste Mal eine Ein-/Ausgabeeinheit-Start-Instruktion kurz Ein-/Ausgangsstart für diese Einheit empfangen wird, dann wird ein Einheitenprüfsignal erzeugt. Dieses dient ferner nach einer angemessenen Verzögerung zur Rückstellung der Verriegelungsschaltung 71. Wenn ferner der ZJhler 69 übergelaufen, der Zähler 65 aber noch nicht übergelaufen ist, dann gibt dieses an, daß der Zähler 69 für die korrigierbaren Datenfehler seinen Schwellenwert erreicht hat, bevor der gelesene Bytezähler seinen Schwellwert erreicht hat. Daher initialisiert und beseitigt das Ausgangssignal des UND-Tores 73 den Protokollbetrieb für das System bezüglich der statischen Benutzungs-ZFehlerinformation. Das heißt, daß es die Zahl der Suchvorgänge und gelesenen Bytes, die Zahl der Suchfehler, der ECC-korrigierbaren Fehler und der ECC-nicht korrigierbaren
so Fehler wegspeichert
Die Ablaufsteuerung für den vorstehend erläuterten Betrieb zeigt die F i g. 6 bezüglich jeder Operation einer gegebenen logischen Einheit Das System prüft zunächst, ob das Ende des Verarbeitungstages für eine gegebene Einheit vorliegt Dieses geschieht an der Stelle 101 in Fig.6A. In Wirklichkeit geschieht dieses dadurch, daß die CPU auf eine Tagesende-Angabe in ihrem Hauptspeicher aufprüft Wenn das Tagesende kurz bevorsteht gibt dieses der Operator an, indem er das Tagesende-Signal in das Speichersystem 25 in F i g. 2 über die Operatorkonsole eingibt Wenn die Tagesende-Angabe festgestellt wird, gibt die CPU ein Wegladungs- und Rückstellkommando 103 in Fig.6A, das bewirkt daß die Steuereinheit die Benutzungs-/Fehlerinformation für die Einheit und die Volumen ID von dem Kanal weglädt von dem es zu der CPU und schließlich zu dem Speicher 43 in F i g. 2 übertragen wurde. Wenn die Wegladung, wie beispielsweise bei 105
angegeben, stattfindet, werden die Werte der Benutzungs-/Fehlerzähler sowie die Einheitenadresse der logischen Einheit, die von dem System adressiert wurde, aus dem Teil 11 des Lese-ZSGhreibsteuerspeichers 7 in Fig.2 in die Tabelle der logischen Einheit für diese logische Einheit im Hauptspeicher eingelesen. Etwas vor der vorhergehenden Operation und zwar zu der Zeit, als die Einheit an die Leitung angsschbssen und Für das System verfügbar gemacht wurde, gab das System einen Strang von CCWs aus, um die Einheit zum Aufprüfen auf die Spur 0, Zylinder 0 zu veranlassen und die Volumen ID, V für das Speichermedium oder Volumen zu lesen und diese Identifizierung ID in den Abschnitt 35 des Hauptspeichers einzugeben. Sie befindet sich daher zu der Zeit, zu der das Wegladen auftritt, im Hauptspeicherabschnitt 35, so daß die statistische Information sowohl von der Einheiten ID als auch von der Volumen ID identifiziert wird. Nach dieser Wegladung werden alle Zähler, wie 105 zeigt, für diese Einheit im Lese-/Schreibsteuerspeicher der Steuereinheit 5 auf 0 zurückgestellt.
Wenn das Tagesende bei 101 noch nicht festgestellt wird, dann wird eine Prüfung auf Stapeländerung durchgeführt, wie 107 angibt. Wenn der Plattenstapel aus der Einheit entnommen wird, dann kann ein Signal, das diesen Vorgang angibt, festgestellt werden. Wenn ein solches Signal also festgestellt wird, dann wird angenommen, daß die logische ID der Einheit sich ändern wird und/oder daß das Volumen oder Speichermedium in dieser Einheit sich verändern wird. Daher ist es für das System notwendig, ein Weglade- und Rückstellkommando für diese logische Einheit, wie 103 zeigt, auszugeben, die bewirkt, daß die Steuereinheit die Daten weglädt, und zwar wieder die reale Einheitenadresse, die Volumen ID, wobei auch ferner wieder die Zähler für diese logische Einheit auf 0 zurückgestellt werden.
An dieser Stelle wird in der Steuereinheit, wie 109 zeigt, eine Prüfung durchgeführt, um festzustellen, ob ein Start-Ein/Aus-Kommando ausgegeben wurde. 1st dieses nicht der Fall, danr beginnt das Verfahren erneut, indem auf das Tagesende aufprüft
Wenn ein Start-Ein/Aus-Befehl festgestellt wird, findet normalerweise eine Suchoperation oder eine Kette von Datenübertragungsoperali onen statt Es ist jedoch notwendig, zuerst festzustellen, ob Daten der angeschlossenen Einheiten weggeladen müssen, wegen der Protokollbetriebsart eines Untersystems aus einer vorhergegangenen Operation. Dieses ist in Fig.6A an der Stelle 110 angedeutet Für den Augenblick wird aber angenommen, daß keine Wegladung eines angeschlossenen Gerätes stattfindet Daher wird die logische Einheit, für die das Start-Ein/Aus-Kommando festgestellt wird, identifiziert, wie 111 zeigt und der Bereich des Lese-ZSchreibsteuerspeichers, der die statistische Information für diese logische Einheit enthält in Tätigkeit versetzt Das erste CCW wird dann ausgeführt Nach jeder Auswahl ist es notwendig, auf ID-Veränderungen einer logischen Einheit aufzuprüfen, da, wenn die logischen Einheiten ID in eine andere Einheit bezüglich der letzten Operation dieser logischen Einheit geändert wurde, ist es notwendig, die statistischen Benutzungs-/Fehlerzähler für diese logische Einheit auf 0 zurückzustellen, denn eine ungenaue Information für die neue Einheiten ID, die mit der augenblicklich adressierten logischen Einheit verknüpft ist könnte sich dadurch ergeben. Diese Prüfung findet bei 113 statt Das Verfahren für die Ermittlung einer ID-Änderung eir.'er logischen Einheit: verläuft folgendermaßen: Wenn eine Start-Ein/Aiiis-Kommandoadresse identifiziert wird, dann wird! die laufende Einheiten ID für die adressierte logische Einheit gewonnen. Es sei hier daran erinnert, daß in der US-PS 34 53 567 ein Beispiel einer logischen Adiressensteckverbindung für eine Einheit der hier erwähnten Art, beschrieben ist. Wenn die logische Einheiten ID geändert wurde, wurde auch die Steckverbindung
to geändert, so daß auch das aktivierte Signal auf der Leitung in Fig.4 der genannten Patentschrift geändert wurde. Jede der Leitungen kann dazu verwendet werden, einen Adressenemitter zu aktivieren. Jede Leitung könnte beispielsweise als ein Eingang zu einer Einheit verwendet werden, die eine Adresse in einem 3 aus 6-Code aussendet. Jede Adresse wäre dann für jedes von acht Einheiten, die an der Leitung angeschlossen sind, kennzeichnend. Daher könnte die im 3 aus 6-Code dargestellten Adresse von der logischen Einheit durchgeschaltet werden zur Steuereinheit und mit der realen Einheiten ID verglichen werden, die sich im Bereich des Steuerspeichers 5 befindet, der, wie F i g. 4 dieser Anmeldung zeigt, der gerade adressierten Einheit zugeteilt ist. Wenn beide die gleichen sind, bedeutet dies, daß die logische ID nicht verändert ist und die Zählung für diese Operation weitergeführt werden kann. Wenn sich die beiden voneinander unterscheiden, dann müssen die Zähler, wie es in F i g. 6 an der Stelle 114 angedeutet ist zurückgestellt werden und das neue reale ID wird in
3d den zugeteilten Bereich eingegeben, woraufhin dann die Zählung für die Operation beginnen kann und wodurch angegeben wird, daß dieses eine Start-Ein/Aus-Operation ist.
Wenn andererseits an der Stelle 1131 des Ablaufdiagramms in Fig.6A keine Veränderung der logischen Einheiten ID festgestellt wird, dann werden Fehler an der Stelle 117 überwacht. Wenn ein Fehler festgestellt wird, dann wird er bezüglich seiner Art klassifiziert (Suche, ECC-korrigierbar, ECC-nicht korrigierbar), wie es an der Stelle 117 dargestellt ist. Der entsprechende Zählerfehler wird dann weitergeschaltet. Ferner wird auch der entsprechende Benutzungszahler erhöht, wie es im Ablaufdiagramm in Fig.6A an der Stelle 121 angegeben ist, um ein Anstieg um 1 in der Zahl der Vorgänge zu reflektieren, wenn ein Suchfehler festgestellt wurde, oder um die Zahl der gelesenen Bytes zu erhöhen, wenn der Fehler ein ECC-korrigierbarer oder ECC-nicht korrigierbarer Datenfehler ist
Es kann auch sein, daß der Protokollbetrieb für diese
so logische Einheit und diese Fehlerart eingestellt wurde. Wenn dieses der Fall ist, muß eine detaillierte diagnostische Abfühiinformation gesammelt werden. Dah«r wird auf die Protokollbetriebsart wie bei 123 angedeutet aufgeprüft Dieses kann dadurch geschehen,
daß der Protokollbetriebsindikator für diese Fehlerart der nachstehend noch beschrieben werden wird, abgefragt wird. Für das vorliegende Beispiel jedoch wird angenommen, daß der Protokollbstrieb noch nicht vorher eingestellt worden war. Daher wird bei 125 eine
Prüfung durchgeführt, um festzustellen, ob der Fehlerzähler für diese Fehlerart voll ist Dieses erfolgt durch Überprüfung des Überlaufs, der bereits erläutert wurde, wenn der Fehlerzähler nicht voll ist ciann wird an der Stelle 127 im Ablaufdiagramm eine Ftüfung durchgeführt, um festzustellen, ob der entsprechende Benutzungszähler voll ist Ist dieses nicht der Fall, dann wird an der Stelle 129 eine Prüfung durchgeführt, um festzustellen, ob die CCE-Kette vollständig ist wenn das
System augenblicklich eine Kornmandokette verarbeitst. Wenn sich keine Kommandokette in Bearbeitung befindet, kann dieser Schritt übersprungen werden und das Verfahren wird mit dem Auftrag 101 an eben dieser Stelle im Ablaufdiagramm fortgesetzt. Wenn das System aber eine Kette verarbeitet und die Kette vollständig ist, dann kehrt das Verfahren auf den Auftrag 101 im Ablaufdiagramm nach Fig.6A zurück und beginnt erneut. Ist die Kette aber nicht vollständig, dann wird das nächste CCW ausgeführt und das Verfahren kehrt in den Überwachungszustand zurück, wie zuvor bereits dargelegt wurde, und die Verarbeitung wird fortgesetzt.
Wenn die Prüfung bei 125 ergeben hat, daß der Fehlerzähler voll war, dann muß die statische Information in das System weggeladen und die Protokollbetriebsart eingestellt werden. Der Protokollbetrieb wird durch den Auftrag 131 eingestellt. Dieses erfolgt durch Einstellung des Protokollhetriehsindikators für diese Fehlerart und diese logische Einheit, der geprüft weruen kann. Ferner wird ein Proiokollzähler, beispielsweise ein Register im Steuerspeicher durch den Auftrag 133 eingestellt, das an der Stelle 4 überläuft, um zu zählen, wie oft detaillierte diagnostische Abfühlinformation gesammelt wird. Wie ebenfalls an der Stelle 135 des Ablaufdiagramms in Fig.6A zu sehen ist, werden die Protokollbetriebsindikatoren für die anderen Fehlerarten zurückgestellt oder abgeschaltet. Dieses ist deshalb notwendig, weil die Pro'okollbetriebsart nur für eine Fehlerart zu einer bestimmten Zeit bezüglich einer bestimmten logischen Einheit eingestellt werden soll. Daher löscht die Einstellung der Protokollbetriebsart für eine Fehlerart die Protokollbetriebsart für alle anderen Fehlerarten. Es wird angenommen, daß es zum normalen Wissen des Durchschnittsfachmann in der Mikroprogrammierung gehört, mit der Protokollbetriebsart für alle Fehlerarten gleichzeitig fortzufahren, ohne von der Lehre der Erfindung abzuweichen. Es hat sich jedoch in der Praxis gezeigt, daß die Bedingung, in der zwei oder mehr Fehlerarten ihre jeweiligen Zähler gleichzeitig zum Überlaufen bringen, so selten ist, daß es unökonomisch ist, besondere Mittel für diesen Fall vorzusehen.
Das Subsystem führt dann die Wegladung der Information für die logische Einheit mit Hilfe der realen ID und Volumen ID durch, wie es bereits erläutert wurde und wie es an der Stelle 139 im Ablaufdiagramm zu sehen ist Dieses kann beispielsweise dadurch erfolgen, daß eine Einheitenprüfung beim Auftreten des nächsten Start-Ein/Aus(-Befehls) für diese logische Einheit vorgenommen wird. Wenn der Kanal mit einem Abfühl-Ein/Aus(-Befehl) reagiert, wird die statistische Information weggeladen. Die Zähler werden wie 141 im Ablaufdiagramm zeigt, auf 0 zurückgestellt und die Operation beginnt erneut
Wenn aber der Fehlerzähler nicht überläuft, wird der entsprechende Benutzungszähler geprüft um festzustellen, ob er voll ist, was an der Stelle 127 dem Ablaufdiagramm in Fig.6A zu entnehmen ist Wenn der Benutzungszähler voll ist, dann führt das Subsystem wieder eine Wegspeicheroperation wie oben durch und stellt die Zähler auf 0 zurück.
Im folgenden wird die Protokollbetriebsart für Umgebungsdaten für die drei Arten von Fehlern beschrieben, die das System erkennen kann.
Wenn die Protokolfbetriebsart für ECC-korrigierbare Datenfehler eingestellt wird, dann sammelt die Speichersteuereinheit Umgebungs- oder diagnostische Abfühlinformation von verschiedenen Schlüsselbereichen des Subsystems für die nächsten vier Mal, in denen ein ECC-Korrigierbarer Datenfehler in der logischen Einheit, für die diese Information zusammengestellt wird, restgestellt wird, in Datensätzen, die in dem Lese-/Schreibsteuerspeicher nach Fig.2 gespeichert werden. Nachdem jeder Datensatz assembliert ist, wird er zu dem System weggeladen, wie bereits früher erläutert wurde, um schließlich zu dem Speicher 43 in
ίο F i g. 2 übertragen zu werden. Diese Information kann in der nachstehenden Tabelle 1 zusammengefaßt werden.
Tabelle 1
ι- Merkmal Information
1 Steuereinheitennummer und Einheiten ID
des Subsystems, das versucht, den Datensatz zu lesen
2" 2 Bereich des korrigierten Datensatzes
(Spuradresse, Zählung, Schlüssel, Daten)
3 Zylinderadresse
4 Kopfadresse
2:1 5 Datensatznummer
6 Nummer des Sektors, in dem ein Fehler festgestellt wurde
7 Wie weit der Zugriff versetzt war, als die jo korrigierten Daten gelesen wurden
8 Anzahl der von Steuereinheit zwischen der Initialisierung der Datenübertragung und dem Ende des fehlerhaften Informationsfeldes verarbeitet wurden
Stelle des ersten fehlerhaften Bytes im Informationsfeld relativ zum Ende des Informationsfeldes
Fehlerkorrekturmuster
Angabe, ob der Kanal die Operation abgeschnitten hat, bei der der korrigierbare Fehler festgestellt wurde, während die Information gelesen wurde
Wie früher schon erwähnt, kann die meiste der oben zusammengestellten Information direkt von dem fehlerhaften Datensatz in der Spur gewonnen werden. Die reale Steuereinheit und die Einheiten ID kann von der Steuereinheit und der Speichereinheit, wie es oben
so geschah, abgeleitet werden, während die Sektornummer von einem Register gsliefert wird, das diese Nummer speichert Der Zugriffsversatz kann in ähnlicher Weise von einem Register bezogen werden, das ebenfalls diese Zahl speichert Die Anzahl der von der Steuereinheit zwischen der Initialisierung der Datenübertragung und dem Ende des fehlerhaften Informationsfeldes verarbeiteten Bytes kann nur dadurch gewonnen werden, daß die Zahl der verarbeiteten Bytes vom Beginn der Datenübertragung an bis zu einem solchen angegebenen Bereich gezählt werden. D'eses kann mit Hilfe von bekannten Zählern geschehen, oder durch Errichtung einfer Mikroprogrammschleife im Lese-/Schreibsteuerspeicher. Schließlich kann die Kanalabbrechoperation als Statistik gesammelt werden, indem nur eine Leitung des Kanals überwacht wird, die angibt daß die Operation aus bestimmten Gründen, wie beispielsweise Prioritätsunterbrechungen oder ähnlichen abgebrochen wurde.
Im folgenden wird die Umgebungsinformation angegeben, die für Situationen gesammelt wird, in denen der Protokollbetrieb für Umgebungsdaten eingeleitet wird, als Folge des Oberlaufs des Zählers, der die ECC-nicht korrigierbaren Datenfehler zählt
Tabelle 2 Merkmal Information Merkmal Information
1 Reale Sieuereinheitennummer und Einheiten ID der Steuereinheit und der Speichereinheit, die den Datensatz zu lesen versucht
2 In welchem Feld wird die Fehlerart festgestellt -
Spuradresse — ECC-nicht korrigierbare Zählung - ECC-nicht korrigierbarer Schlüssel - ECC-nicht korrigierbare Daten - ECC-nicht korrigierbare Spuradresse - Synchronisationsfehlerzählung - Synchronisationsfehlerschlüssel - Synchronisationsfehlerdaten -Synchronisationsfehleradressenmarke/ Erkennungsfehler bei Wiederholung
3 Zylinderadresse
4 Kopfadresse
5 Datensatznummer
6 Nummer des Sektors, in dem der fehlerhafte Datensatz festgestellt wurde
7 Wie weit ist der Zugriffsversatz in dem Augenblick, in dem die Daten richtig oder korrigierbar wurden
8 Zahl der Wiederholungen der Steuereinheit, die notwendig waren, um die Fehlerbedingung zu verarbeiten
9 Quelleneinheiten ID. Das ist die Identifizierung der realen Steuereinheit und Speichereinheit, die tatsächlich den Bereich aufzeichneten, in dem der Fehler festgestellt wurde.
Diese Information kann, wie vorher erwähnt wurde, gesammelt werden. Dieses erfolgt durch die Abfrage von Registern innerhalb der Speichereinheit oder der Steuereinheit, in denen solche Information gespeichert wird.
Die Quelleneinheiten ID kann zusammen mit dem Datenbereich gespeichert werden, wenn dieser geschrieben wird. Diese ID wird dann direkt aus dem Datenbereich, in dem der Datenfehler erkannt wird, gelesen.
Im folgenden ist eine Darstellung der Art der Information wiedergegeben, die gesammelt wird alls Protokollierung von Umgegungsdaten für Suchfehler.
Tabelle 3 Merkmal Information
1 Steuereinheitennummer und Speichereinheiten ID der Steuereinheit und Speichereinheit, die versucht die Suchoperation auszufuhren
2 der Fehler ist ein Suchfehler
3 Art der Erkennung des Suchfehlers
4 Information der Steuersammeischiene von der Steuereinheit zu der Speichereinheit zur Fehlerzeit
5 Information der Steuersammeischiene von der Speichereinheit zur Steuereinheit zur
Fehlerzeit
6 Inhalt der Steuerinformation, die die Information auf den Sammelschienen der beiden vorhergehenden Merkmale modi flziert
Die in Tabelle 3 angegebene Information erläutert sich selbst, mit Ausnahme des Merkmals 3. Die Art und Weise des Feststeilens eines. Suchfehlers könnte beispielsweise durch einen Leitung erfolgen, die von der Speichereinheit herführt und die angibt, daß die Suche unvollständig war. Alternativ hierzu könnte auch ein Datenmuster auf einer Datenspiur gespeichert werden, das die Suchadresse der Spur angibt Diese Adresse könnte mit der Suchadresse verglichen werden, auf die der Zugriffsmechanismus umzusetzen war. Wenn die beiden nicht übereinstimmen, wenn der Zugriff gestoppt wird, dann gibt dieses ebenfalls einen Suchfehler an. Daher gibt Merkmal 3 an, nach welchem dieser Wege der Suchfehler festgestellt wurde (oder daß er auf beide Wege festgestellt wurdet
Das Protokollierverfahren geht aus dem Ablaufdiagramm in Fig.6 hervor. Wenn an der Stelle 131 der Protokollbetrieb eingestellt wird, dann wird zum nächsten Mal, wenn ein Fehler dieser Art für diese logische Einheit festgestellt wird, die Prüfung an der Stelle 123 feststellen, daß der Protokollbetriebsindikator eingestellt ist Es sei in diesem Zusammenhang erinnert, daß der Protokollbetriebszähler an der Stelle 133 zuvor eingestellt wurde, so daß er während des vierten Males überläuft zu dem detaillierte Abfühlinformation für diese betreffende Fehlerart gesammelt wird. Während des Protokollbetriebs wird der Protokollzähler um 1 erhöht, wie es an der Stelle 14S dargestellt ist, und zwar jedesmal, wenn detaillierte Abfühlinformation gesammelt wird. An der Stelle 147 im Ablaufdiagramm wird eine Prüfung vorgenommen, um festzustellen, ob der Protokollzähler überlief. Wenn dieses der Fall war, dann ist dieses der letzte Durchlauf durch die Schleife
so und der Protokollbetriebsindikator für diese Fehlerart wird, wie bei 153 in Fig.6Bl zu sehen ist, auf 0 zurückgestellt Danach wird detaillierte Abfühlinformation (zum letztenmal) gesammelt, wie 149 im Ablaufdiagramm der Fig.6B zeigt. Wenn andererseits der
5$ Protokollzähler noch nicht übergelaufen ist, bedeutet dieses, daß die vierte und letzte Sammlung von detaillierten Abfühlinformationcn noch nicht aufgetreten ist und eine Sammlung wie in 149 angegeben, unverzüglich vorgenommen werden sollte. Wenn die
μ Abfohlinformation gesammelt und im Steuerspeicher gespeichert wurde, dann wird ein Protokollwegladeindikator für die Umgebungsdaten an der Stelle ISl eingestellt, der angibt, daß dieser Datensatz mit Umgebungsdaten bei dem nächsten Start-Ein/Aus- (-Kommando) an das System weggeladen werden soll. Wenn dieses nächste Kommando an der Stelle 109 im Ablaufdtagramm festgestellt wird, dann wird die Wegladeprüfung für die Umgebungsdaten an der Stelle
110 erfolgreich verlaufen und eine Eroheitenprüfung wird in die Zustandsantwort des Kanals, eingegeben, wie an der Stelle 155 angegeben ist.Der Kanal reagiert dann mit einem Abfühl-Etn/Aus( Kommando), und wenn dieses festgestellt wird an der Stelle 157, dann wird die ausfuhrliche Abfühlinforraation auf den Kanal weggejaden, wie 159 in F igt 6B zeigt und von dort zu der CPU übertragen in der sie letztlich .lurch die Speichereinheit und Volumen ID gesammelt und in der Speichereinheit 43 gespeichert wird.
Zu vorgegebenen Zeiten, beispielsweise am Tagesende, werden zusammenfassende Berichte der Leistung de: Systems in Tennen von Benutzungs-ZFehlerinformation und Umgebungsinformation, die gesammelt wurde, gegeben. Die Umgebungsdaten, wie beispielsweise die in den Tabellen 1 bis 3 angegebenen, werden vom Speicher 43 in F i g. 2 abgerufen und Ober ihre reale Einheiten ID und dann Ober ihre Volumen ID identifiziert und jeder Aufzeichnung der Umgebungsdaten ausgedruckt Daher ist jeder realen Speichereinheit ein Umgebungsdatenpaket zugeordnet, das jedesmal zusammengestellt wird, wenn ein Fehlerzähler der gegebenen Fehlerart überlief. Diese Information ist für den Wartungsingenieur auf folgende Weise nützlich: Da diese Information nur in solchen Situationen gesammelt wird, in denen die Schwellenwerte der Fehlerzähler erreicht wurden, ist es nützlich, die Aufmerksamkeit des Wartungsingenieurs auf ein potentielles Problem zu richten, das eine Wartungshandlung erfordert
Mit der ausführlichen Fehlerinformation, die in den Tabellen 1 bis 3 dargestellt ist, kann der Wartungsingenieus eine wirkungsvolle Wartung des Systems vornehmen, die auf dieser detaillierten Information als eine Voraussetzung für diese wirkungsvolle Benutzung basiert, um zu intermittierenden Fehlern führende Maschinenkomponenten zu isolieren oder abgenutzte zu reparieren.
Eine zweite Art der Zusammenstellung ist der statistische Datensatz. Es sei in diesem Zusammenhang daran erinnert, daß alle Zählerinformation für eine Einheit weggeladen wird, wenn das Tagesende erreicht wird, ein Plattenstapel ausgewechselt wurde oder ein Zähler überlief. Diese Information kann dann sortiert und gemischt werden, indem ein an sich bekanntes Programm verwendet wird, wobei dann ein Ausdruck erstellt werden kann, wie er beispielsweise in Fig,7 dargestellt ist Aus dieser Figur ist -χα sehen, daß Datensätze bezüglich der realen Einheitenadresse und auch bezüglich der Volumen ID ausgedruckt werden. Für das vorliegende Beispiel wird angenommen, daß eine reale Einheit bis zu 24 Volumen oder Speichermedien oder Datenträger besitzen kann, die ihr verschieden oft zugeordnet werden können. Daher wird die
ίο statistische .Information, die im Lese-ZSchreibsteuerspeicher gespeichert war, sortiert, gesammelt und bezüglich der Volumen ID ausgedruckt Es ist aus F i g. 7 ferner zu erkennen, daß zwei Verhältnisse gegeben werden als Teü des statistischen Datensatzes. Verhältnis 1 ist das Verhältnis der gelesenen Bytes zu den ECC-korrigierbaren Datenprüfungen und Verhältnis 2 ist das Verhältnis der gelesenen Bytes zu den ECC-nicht korrigierbaren Datenprüfungen. Wenn daher der Wartungsingenieur diesen zusammenfassenden Bericht untersucht, dann wird, wenn eine bestimmte Speichereinheit ein Verhältnis für entweder das Verhältnis 1 oder 2 aufweist, das niedriger liegt als ein gegebener Grenzwert der erwartenden gelesenen Bytes je Fehler der untersuchten Art, der Verdacht auf mögliche Gefahrenbedingungen verstärkt Dieser Verdacht kann dadurch untersucht werden, daß die Volumen ID's für eine bestimmte Speichereinheit, beispielsweise die Speichereinheit A notiert wird, die Verhältnisse hat, die unter den erwartenden liegen. Diese Volumen ID's können dann auf den Datensätzen für die anderen Speichereinheiten überprüft werden. Wenn es sich herausstellt, daß die Volumen ID's geringere Verhältnisse nur für die Speichereinheit A beispielsweise zeigen, dann liegt der Verdacht nahe, daß das Problem in der Speichereinheit A liegt und nicht in dem Speichermedium. Wenn andererseits auf diese Weise festgestellt wird, daß die notierten Volumen ID's ständig niedrigere Verhältnisse für alle Einheiten zeigen, dann liegt der Verdacht nahe, daß das Problem im Speichermedium liegt Auf diese Weise stellt die Erfindung ein sehr leistungsfähiges Werkzeug für die Wartung von elektronischen Datenverarbeitungssystemen dar. Diese Information kann in einer Tabelle gespeichert werden, die dann zu sinnvolleren Zeitpunkten, beispielsweise auf monatlicher Basis, ausgedruckt werden kann.
Hierzu S Blatt Zeichnungen

Claims (3)

Patentansprüche:
1. Schaltungsanordnung zur Aufbereitung und Speicherung von auf Benutzungshäufigkeit und Fehler von Komponenten in peripheren Subsystemen hinweisender Information für eine spätere Fehleranalyse, mit Zählern zur Zählung der Benutzung und der dabei aufgetretenen Fehler, wobei Oberschreitungen vorgsbbarer Grenzwerte der Zählerinhalte erkennbar sind, dadurch gekennzeichnet, daß in der Steuereinheit (5) jedes Subsystems eine Anordnung (67,71,73,75, VZ; F i g. 5) vorgesehen ist, die ein Auslösesignal für die Abspeicherung der auf Benutzungshäufigkeit und Fehler hinweisenden Information in einen Fehlerspeicher (43) des Hauptsystems (23) erzeugt, wenn eine Grenzwertüberschreitung in mindestens einem der Zähler £-B. 15, 17; Fig.2) festgestellt wird, wobei in jedem Subsystem jeweils mehrere Zähler sowohl für austauschbare (z.B. Plattenstapel) als auch für feste Komponenten (z. B. Plattenlaufwerk) vorgesehen sind, sowie je Komponente mehrere Zähler für Benutzungs- und Fehlerart, und die das Auslösesignal bei Auftreten eines erneuten Startsignals für das periphere Subsystem wieder abschaltet (71,75,KZJl
2. Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet, daß bei Auftreten der Grenzwertüberschreitur-g in einem der Zähler außerdem der Schalter (71) so eingestellt wird, daß in Verbindung mit dem erneuten Startsignal über das Verknüpfungsglied (75) ein Signal erzeugt wird, durch welches zusätzliche Diagnosehirormation während der Laufzeit des Verzögerungsgliedes (VZ) aus dem Subsystem in den Fehlerspeicher (43) abgespeichert wird.
3. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß auch Fehlerarten, deren Fehler in den Subsystemen selbst korrigierbar sind, gezählt und im Hauptsystem protokolliert werden.
DE2227150A 1971-06-09 1972-06-03 Schaltungsanordnung zur Aufbereitung und Speicherung von Information für eine spätere Fehleranalyse Expired DE2227150C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US15150371A 1971-06-09 1971-06-09

Publications (2)

Publication Number Publication Date
DE2227150A1 DE2227150A1 (de) 1972-12-14
DE2227150C2 true DE2227150C2 (de) 1983-07-07

Family

ID=22539062

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2227150A Expired DE2227150C2 (de) 1971-06-09 1972-06-03 Schaltungsanordnung zur Aufbereitung und Speicherung von Information für eine spätere Fehleranalyse

Country Status (5)

Country Link
US (1) US3704363A (de)
JP (1) JPS523765B1 (de)
CA (1) CA971280A (de)
DE (1) DE2227150C2 (de)
GB (1) GB1336704A (de)

Families Citing this family (113)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3828324A (en) * 1973-01-02 1974-08-06 Burroughs Corp Fail-soft interrupt system for a data processing system
US4142232A (en) * 1973-07-02 1979-02-27 Harvey Norman L Student's computer
JPS5248046B2 (de) * 1974-04-17 1977-12-07
US3906200A (en) * 1974-07-05 1975-09-16 Sperry Rand Corp Error logging in semiconductor storage units
US3999051A (en) * 1974-07-05 1976-12-21 Sperry Rand Corporation Error logging in semiconductor storage units
US4205370A (en) * 1975-04-16 1980-05-27 Honeywell Information Systems Inc. Trace method and apparatus for use in a data processing system
US4315311A (en) * 1975-10-28 1982-02-09 Compagnie Internationale Pour L'informatique Cii-Honeywell Bull (Societe Anonyme) Diagnostic system for a data processing system
DE2714481A1 (de) * 1976-04-15 1978-01-12 Xerox Corp Xerographisches reproduziergeraet mit fehlerermittlungssystem
US4062061A (en) * 1976-04-15 1977-12-06 Xerox Corporation Error log for electrostatographic machines
US4079453A (en) * 1976-08-20 1978-03-14 Honeywell Information Systems Inc. Method and apparatus to test address formulation in an advanced computer system
JPS6049354B2 (ja) * 1976-09-01 1985-11-01 株式会社日立製作所 事象発生記録方式
US4148098A (en) * 1976-10-18 1979-04-03 Xerox Corporation Data transfer system with disk command verification apparatus
US4100605A (en) * 1976-11-26 1978-07-11 International Business Machines Corporation Error status reporting
US4103338A (en) * 1977-02-28 1978-07-25 Xerox Corporation Self-diagnostic method and apparatus for disk drive
US4174537A (en) * 1977-04-04 1979-11-13 Burroughs Corporation Time-shared, multi-phase memory accessing system having automatically updatable error logging means
US4092732A (en) * 1977-05-31 1978-05-30 International Business Machines Corporation System for recovering data stored in failed memory unit
US4333142A (en) * 1977-07-22 1982-06-01 Chesley Gilman D Self-configurable computer and memory system
US4191996A (en) * 1977-07-22 1980-03-04 Chesley Gilman D Self-configurable computer and memory system
US4209846A (en) * 1977-12-02 1980-06-24 Sperry Corporation Memory error logger which sorts transient errors from solid errors
US4205374A (en) * 1978-10-19 1980-05-27 International Business Machines Corporation Method and means for CPU recovery of non-logged data from a storage subsystem subject to selective resets
DE2964624D1 (en) * 1978-10-23 1983-03-03 Ibm Data processing system with channel error logging
US4381540A (en) * 1978-10-23 1983-04-26 International Business Machines Corporation Asynchronous channel error mechanism
DE2948784A1 (de) * 1979-03-08 1980-09-18 Sundstrand Corp Pruefsystem fuer eine dynamische maschine
US4339657A (en) * 1980-02-06 1982-07-13 International Business Machines Corporation Error logging for automatic apparatus
US4380067A (en) * 1981-04-15 1983-04-12 International Business Machines Corporation Error control in a hierarchical system
US4775296A (en) * 1981-12-28 1988-10-04 United Technologies Corporation Coolable airfoil for a rotary machine
JPS58136473A (ja) * 1982-02-08 1983-08-13 Hitachi Ltd プリント装置
US4521884A (en) * 1982-11-08 1985-06-04 International Business Machines Corporation Method and apparatus for error data feedback in a diskette drive
US4573152A (en) * 1983-05-13 1986-02-25 Greene Richard E Switch matrix test and control system
JPS60238944A (ja) * 1984-05-14 1985-11-27 Mitsubishi Electric Corp トレ−ス用記憶装置
US4661953A (en) * 1985-10-22 1987-04-28 Amdahl Corporation Error tracking apparatus in a data processing system
US4866712A (en) * 1988-02-19 1989-09-12 Bell Communications Research, Inc. Methods and apparatus for fault recovery
CA1318030C (en) * 1988-03-30 1993-05-18 Herman Polich Expert system for identifying failure points in a digital data processing system
US5090014A (en) * 1988-03-30 1992-02-18 Digital Equipment Corporation Identifying likely failure points in a digital data processing system
US5121475A (en) * 1988-04-08 1992-06-09 International Business Machines Inc. Methods of dynamically generating user messages utilizing error log data with a computer system
US5047977A (en) * 1988-04-08 1991-09-10 International Business Machines Corporation Methods of generating and retrieving error and task message records within a multitasking computer system
US4922491A (en) * 1988-08-31 1990-05-01 International Business Machines Corporation Input/output device service alert function
US5109384A (en) * 1988-11-02 1992-04-28 Tseung Lawrence C N Guaranteed reliable broadcast network
US5287499A (en) * 1989-03-22 1994-02-15 Bell Communications Research, Inc. Methods and apparatus for information storage and retrieval utilizing a method of hashing and different collision avoidance schemes depending upon clustering in the hash table
US5142663A (en) * 1990-02-23 1992-08-25 International Business Machines Corporation Method for memory management within a document history log in a data processing system
US5128885A (en) * 1990-02-23 1992-07-07 International Business Machines Corporation Method for automatic generation of document history log exception reports in a data processing system
JPH0786811B2 (ja) * 1990-06-19 1995-09-20 富士通株式会社 アレイディスク装置のドライブ位置確認方式
US5181204A (en) * 1990-06-27 1993-01-19 Telefonaktienbolaget L M Ericsson Method and apparatus for error tracking in a multitasking environment
US5450609A (en) * 1990-11-13 1995-09-12 Compaq Computer Corp. Drive array performance monitor
US5392425A (en) * 1991-08-30 1995-02-21 International Business Machines Corporation Channel-initiated retry and unit check for peripheral devices
US5422890A (en) * 1991-11-19 1995-06-06 Compaq Computer Corporation Method for dynamically measuring computer disk error rates
US5313592A (en) * 1992-07-22 1994-05-17 International Business Machines Corporation Method and system for supporting multiple adapters in a personal computer data processing system
US5392290A (en) * 1992-07-30 1995-02-21 International Business Machines Corporation System and method for preventing direct access data storage system data loss from mechanical shock during write operation
US5828583A (en) * 1992-08-21 1998-10-27 Compaq Computer Corporation Drive failure prediction techniques for disk drives
US5502811A (en) * 1993-09-29 1996-03-26 International Business Machines Corporation System and method for striping data to magnetic tape units
US5586250A (en) * 1993-11-12 1996-12-17 Conner Peripherals, Inc. SCSI-coupled module for monitoring and controlling SCSI-coupled raid bank and bank environment
US5530705A (en) * 1995-02-08 1996-06-25 International Business Machines Corporation Soft error recovery system and method
US6467054B1 (en) 1995-03-13 2002-10-15 Compaq Computer Corporation Self test for storage device
US5761411A (en) * 1995-03-13 1998-06-02 Compaq Computer Corporation Method for performing disk fault prediction operations
US5633767A (en) * 1995-06-06 1997-05-27 International Business Machines Corporation Adaptive and in-situ load/unload damage estimation and compensation
US5923876A (en) * 1995-08-24 1999-07-13 Compaq Computer Corp. Disk fault prediction system
US5619644A (en) * 1995-09-18 1997-04-08 International Business Machines Corporation Software directed microcode state save for distributed storage controller
US5943640A (en) * 1995-10-25 1999-08-24 Maxtor Corporation Testing apparatus for digital storage device
US5872672A (en) * 1996-02-16 1999-02-16 International Business Machines Corporation System and method for monitoring and analyzing tape servo performance
JP3887062B2 (ja) * 1997-05-08 2007-02-28 株式会社東芝 ディスク装置及び同装置に適用されるスループット・パフォーマンス測定方法
JPH1153701A (ja) * 1997-08-05 1999-02-26 Hewlett Packard Japan Ltd 記録装置の測定装置
NL1010108C2 (nl) * 1997-09-30 2003-12-23 Sony Electronics Inc Werkwijze en inrichting voor het automatisch laden en opslaan van Internet-Webpagina's en voor overdracht van statistische consumenteninformatie en gegevens uit een netwerkstructuur.
US5978807A (en) * 1997-09-30 1999-11-02 Sony Corporation Apparatus for and method of automatically downloading and storing internet web pages
US6412089B1 (en) 1999-02-26 2002-06-25 Compaq Computer Corporation Background read scanning with defect reallocation
US6493656B1 (en) 1999-02-26 2002-12-10 Compaq Computer Corporation, Inc. Drive error logging
US6704330B1 (en) 1999-05-18 2004-03-09 International Business Machines Corporation Multiplexing system and method for servicing serially linked targets or raid devices
US6430714B1 (en) * 1999-08-06 2002-08-06 Emc Corporation Failure detection and isolation
US6618823B1 (en) 2000-08-15 2003-09-09 Storage Technology Corporation Method and system for automatically gathering information from different types of devices connected in a network when a device fails
US7237090B1 (en) 2000-12-29 2007-06-26 Mips Technologies, Inc. Configurable out-of-order data transfer in a coprocessor interface
US7287147B1 (en) * 2000-12-29 2007-10-23 Mips Technologies, Inc. Configurable co-processor interface
US6886108B2 (en) * 2001-04-30 2005-04-26 Sun Microsystems, Inc. Threshold adjustment following forced failure of storage device
US7069544B1 (en) 2001-04-30 2006-06-27 Mips Technologies, Inc. Dynamic selection of a compression algorithm for trace data
US6882861B2 (en) * 2001-04-30 2005-04-19 Texas Instruments Incorporated Wireless user terminal and system having signal clipping circuit for switched capacitor sigma delta analog to digital converters
US7178133B1 (en) 2001-04-30 2007-02-13 Mips Technologies, Inc. Trace control based on a characteristic of a processor's operating state
US7185234B1 (en) 2001-04-30 2007-02-27 Mips Technologies, Inc. Trace control from hardware and software
US7181728B1 (en) 2001-04-30 2007-02-20 Mips Technologies, Inc. User controlled trace records
US7134116B1 (en) 2001-04-30 2006-11-07 Mips Technologies, Inc. External trace synchronization via periodic sampling
US7168066B1 (en) 2001-04-30 2007-01-23 Mips Technologies, Inc. Tracing out-of order load data
US7124072B1 (en) 2001-04-30 2006-10-17 Mips Technologies, Inc. Program counter and data tracing from a multi-issue processor
US7065675B1 (en) 2001-05-08 2006-06-20 Mips Technologies, Inc. System and method for speeding up EJTAG block data transfers
US7231551B1 (en) 2001-06-29 2007-06-12 Mips Technologies, Inc. Distributed tap controller
US7043668B1 (en) 2001-06-29 2006-05-09 Mips Technologies, Inc. Optimized external trace formats
JP2004030534A (ja) * 2002-06-28 2004-01-29 Toshiba Corp ディスク記憶装置及び事象管理方法
US7159101B1 (en) 2003-05-28 2007-01-02 Mips Technologies, Inc. System and method to trace high performance multi-issue processors
US20050210161A1 (en) * 2004-03-16 2005-09-22 Jean-Pierre Guignard Computer device with mass storage peripheral (s) which is/are monitored during operation
US7225368B2 (en) * 2004-04-15 2007-05-29 International Business Machines Corporation Efficient real-time analysis method of error logs for autonomous systems
EP1605333B1 (de) * 2004-06-07 2008-12-10 Proton World International N.V. Programmausführungssteuerung
GB0412943D0 (en) * 2004-06-10 2004-07-14 Ibm A system for logging diagnostic information
US7702887B1 (en) * 2004-06-30 2010-04-20 Sun Microsystems, Inc. Performance instrumentation in a fine grain multithreaded multicore processor
CN100412855C (zh) * 2004-09-28 2008-08-20 精工爱普生株式会社 设备管理装置及设备管理方法
JP4899336B2 (ja) * 2004-09-28 2012-03-21 セイコーエプソン株式会社 複合デバイス管理装置及び方法
GB2422475A (en) * 2005-01-21 2006-07-26 Hewlett Packard Development Co Tape error log identifiying location of errors
US7493234B2 (en) * 2005-05-10 2009-02-17 International Business Machines Corporation Monitoring and reporting normalized device system performance
US7487407B2 (en) * 2005-07-12 2009-02-03 International Business Machines Corporation Identification of root cause for a transaction response time problem in a distributed environment
WO2007142326A1 (ja) * 2006-06-09 2007-12-13 Aisin Aw Co., Ltd. データ更新システム、端末装置、サーバ装置、及びデータ更新方法
US8832495B2 (en) 2007-05-11 2014-09-09 Kip Cr P1 Lp Method and system for non-intrusive monitoring of library components
US8650241B2 (en) 2008-02-01 2014-02-11 Kip Cr P1 Lp System and method for identifying failing drives or media in media library
US7974215B1 (en) 2008-02-04 2011-07-05 Crossroads Systems, Inc. System and method of network diagnosis
US9015005B1 (en) * 2008-02-04 2015-04-21 Kip Cr P1 Lp Determining, displaying, and using tape drive session information
US8024719B2 (en) 2008-11-03 2011-09-20 Advanced Micro Devices, Inc. Bounded hash table sorting in a dynamic program profiling system
US20100115494A1 (en) * 2008-11-03 2010-05-06 Gorton Jr Richard C System for dynamic program profiling
US8478948B2 (en) 2008-12-04 2013-07-02 Oracle America, Inc. Method and system for efficient tracing and profiling of memory accesses during program execution
US8489915B2 (en) * 2009-07-30 2013-07-16 Cleversafe, Inc. Method and apparatus for storage integrity processing based on error types in a dispersed storage network
US9866633B1 (en) 2009-09-25 2018-01-09 Kip Cr P1 Lp System and method for eliminating performance impact of information collection from media drives
US8843787B1 (en) 2009-12-16 2014-09-23 Kip Cr P1 Lp System and method for archive verification according to policies
JP5785455B2 (ja) * 2011-07-29 2015-09-30 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation リムーバブルメディアに関する処理を行う装置及び方法
US8780471B2 (en) 2011-10-27 2014-07-15 Hewlett-Packard Development Company, L.P. Linking errors to particular tapes or particular tape drives
US10533761B2 (en) * 2011-12-14 2020-01-14 Ademco Inc. HVAC controller with fault sensitivity
US10255121B1 (en) * 2012-02-21 2019-04-09 EMC IP Holding Company LLC Stackable system event clearinghouse for cloud computing
CN105653385B (zh) * 2015-12-31 2019-02-01 深圳市蓝泰源信息技术股份有限公司 一种车载录像方法
KR102502982B1 (ko) * 2016-03-03 2023-02-22 엘에스일렉트릭(주) 데이터 기록 장치
US10706101B2 (en) 2016-04-14 2020-07-07 Advanced Micro Devices, Inc. Bucketized hash tables with remap entries
CN110413492B (zh) * 2018-04-28 2023-07-04 伊姆西Ip控股有限责任公司 存储盘的健康评估方法、电子设备和计算机程序产品

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1131085A (en) * 1966-03-25 1968-10-23 Secr Defence Improvements in or relating to the testing and repair of electronic digital computers
US3496549A (en) * 1966-04-20 1970-02-17 Bell Telephone Labor Inc Channel monitor for error control
DE1935743B2 (de) * 1969-07-14 1970-12-03 Siemens Ag Verfahren zur selbsttaetigen Fehlerueberwachung und Fehlerauswertung fuer die Ersatzschaltung in Fernmeldeanlagen,insbesondere Fernsprechvermittlungsanlagen
DE1938312C3 (de) * 1969-07-28 1978-06-15 Siemens Ag, 1000 Berlin Und 8000 Muenchen Verfahren zum vorübergehenden Registrieren von fehlerhaften Zuständen mit Hilfe eines Speichers
BE757040A (fr) * 1969-10-06 1971-03-16 Western Electric Co Procede pour actionner un systeme de traitement de donnees
US3599091A (en) * 1969-10-24 1971-08-10 Computer Synectics Inc System utilization monitor for computer equipment

Also Published As

Publication number Publication date
GB1336704A (en) 1973-11-07
US3704363A (en) 1972-11-28
DE2227150A1 (de) 1972-12-14
CA971280A (en) 1975-07-15
JPS523765B1 (de) 1977-01-29

Similar Documents

Publication Publication Date Title
DE2227150C2 (de) Schaltungsanordnung zur Aufbereitung und Speicherung von Information für eine spätere Fehleranalyse
DE2614000C2 (de) Diagnoseeinrichtung zur Prüfung von Funktionseinheiten
DE2806024C2 (de)
DE3423090C2 (de)
DE2921387C2 (de) Verfahren zum Austauschen von Informationen zwischen einer Datenverarbeitungsanlage und einem Magnetplattenspeicher
DE2328058C2 (de) Fehlerdiagnoseeinrichtung in einer digitalen Datenverarbeitungsanordnung
CH654943A5 (de) Pruefeinrichtung fuer mikroprogramme.
DE2556556A1 (de) Verfahren und anordnung zur speicherung von informationen ueber den ort eines oder mehrerer fehlerhafter bits in einem einzelne fehler korrigierenden halbleiter-hauptspeicher
DE2539977A1 (de) Schaltungsanordnung zur erkennung des funktionszustandes peripherer einheiten in einer datenverarbeitungsanlage
DE2428348A1 (de) Verfahren und einrichtung zur weiterbenutzung eines fehlerhaften datenspeichers
DE112005002581T5 (de) Testvorrichtung und Testverfahren
DE2210325A1 (de) Datenverarbeitungssystem
EP0104635A2 (de) Verfahren und Anordnung zum Prüfen eines digitalen Rechners
DE2749888A1 (de) Einrichtung zur fehlermeldung
DE3045609A1 (de) Verfahren und schaltungsanordnung zur abgabe einer korrigierten datengruppe an eine bestimmungsschaltung
DE2325137C3 (de) Speichereinrichtung mit Bereitschaftsspeicherelementen
DE3036926A1 (de) Verfahren und anordnung zur steuerung des arbeitsablaufes in datenverarbeitungsanlagen mit mikroprogrammsteuerung
DE2655653C2 (de) Anordnung zur Feststellung der richtigen Zuordnung von Adresse und Speicherwort in einem wortorganisierten Datenspeicher
EP0141161A2 (de) Schaltungsanordnung zum Erkennen von statischen und dynamischen Fehlern in Schaltungsbaugruppen
DE2165589A1 (de) Anordnung zur programmgesteuerten bestimmung von fehlern in einer datenverarbeitungsanlage
DE2823457C2 (de) Schaltungsanordnung zur Fehlerüberwachung eines Speichers einer digitalen Rechenanlage
EP0009600A2 (de) Verfahren und Schnittstellenadapter zum Durchführen von Wartungsoperationen über eine Schnittstelle zwischen einem Wartungsprozessor und einer Mehrzahl einzeln zu prüfender Funktionseinheiten eines datenverarbeitenden Systems
DE3330835C2 (de)
DE2014729C3 (de) Datenverarbeitungssystem mit Einrichtungen zur Fehlerermittlung und zur Systemumkonfiguration unter Ausschluß fehlerhafter Systemeinheiten
EP0029216B1 (de) Datenübertragungseinrichtung mit Pufferspeicher und Einrichtungen zur Sicherung der Daten

Legal Events

Date Code Title Description
OD Request for examination
8125 Change of the main classification

Ipc: G06F 11/30

8126 Change of the secondary classification

Ipc: G11C 29/00

8125 Change of the main classification

Ipc: G06F 11/34

8126 Change of the secondary classification

Ipc: ENTFAELLT

D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee