DE3751284T2

DE3751284T2 - Verfahren für die Abschätzung der Leistung eines Datenprozessorsystems.

Info

Publication number: DE3751284T2
Application number: DE3751284T
Authority: DE
Inventors: Ackanaickenpalayam Chinnaswamy; James H Torrey; Stanley A Wilk
Original assignee: Digital Equipment Corp
Current assignee: Digital Equipment Corp
Priority date: 1986-09-02
Filing date: 1987-08-31
Publication date: 1996-02-15
Anticipated expiration: 2007-09-01
Also published as: JPS63126042A; AU584515B2; AU7617187A; IE872343L; JPH0762832B2; DK449187D0; US4849879A; EP0259224A3; IL83695A0; FI873792A; DE3751284D1; EP0259224B1; DK449187A; ATE122481T1; FI873792A0; EP0259224A2; CA1281427C

Description

1. Hintergrund der Erfindung

Die vorliegende Erfindung bezieht sich allgemein auf den Bereich der automatisierten Leistungsanalyse und insbesondere auf die automatisierte Leistungsanalyse von Datenprozessoren oder Datenprozessornetzwerken, die Expertensysteme verwenden.
Herkömmliche Datenprozessoren mit überdurchschnittlicher Komplexität enthalten ziemlich hochentwickelte Betriebssysteme, besonders wenn diese Prozessoren allgemein verwendbar sein müssen. Ein Hauptzweck eines Betriebssystems ist, sowohl einen Datenprozessor selbst als auch ein Gesamtsystem einschließlich diesem Datenprozessor fortlaufend zu kontrollieren. Z. B. kann ein Betriebssystem die Anzahl der Prozesse (d. h. die Benutzer) steuern, die im System resident sein können, und die Größe des jedem Prozeß zugewiesenen Speichers steuern. Das Betriebssystem kann auch die Eingabe von bzw. die Ausgabe an externe Geräte und einen sekundären Speicher, wie z. B. Festplatten, steuern.
Ein Betriebssystem übt seine Steuerung oft durch Einstellen bestimmter Parameter aus, wie z. B. die maximale Arbeitsspeichergröße, die jedem Prozeß zugeteilt wird, die Priorität eines Prozesses, die Größe des Cache-Speichers oder die Größe des gemeinsamen Speicherbereichs. Die Bezeichnung "Parameter" wird hier benutzt, um Systemwerte zu kennzeichnen, die entweder durch das Betriebssystem selbst oder durch einen Benutzer eingestellt werden können. Diese Bezeichnung wird im Unterschied zu der Bezeichnung "Meßwert" benutzt, welche sich auf Systemwerte bezieht, die gemessen werden können, wie z. B. Anzahl der Seitenfehler oder der Warteschlangenlänge.
Die Einstellung von Parametern beeinflußt den Betrieb des Systems. Z. B. kann der maximale Arbeitsmengengröße-Parameter für einen Prozeß festlegen, wie oft dieser Prozeß einen Seitenfehler haben wird, oder die maximale Zeitdauer, die ein Prozeß ununterbrochen laufen kann, kann die Seitenwechselmenge durch das System beeinflussen.
Außerdem ermöglicht ein wohlüberlegtes Einstellen von Parametern, ein Betriebssystem an unterschiedliche Arbeitsbelastungen anzupassen. Wenn z. B. eine Arbeitsbelastung hauptsächlich aus großen Programmabbildern besteht (die Bezeichnung "Abbild" oder "Programm" ["image"] bezieht sich auf Programme, die durch einen "Prozeß" oder einen Benutzer ablaufen), sollte das Betriebssystem idealerweise anders konfiguriert sein, als wenn die Arbeitsbelastung hauptsächlich aus verschiedenen kleinen, interaktiven Abbildern bzw. Programmen besteht.
Ein anderer Grund für das "Einstellen" (tuning) eines Betriebssystems durch Einstellen von Parametern ist, es an die Konfiguration eines Datenprozessorsystems oder an die Konfiguration eines Netzwerks mit einem Datenprozessorsystem anzupassen. Ein Betriebssystem sollte z. B. abhängig von der Speichermenge in einem Prozessorsystem und der Anzahl und Art von Ein- und Ausgangseinrichtungen in diesem System unterschiedlich arbeiten.
Um festzustellen, ob ein bestimmtes Betriebssystem gut funktioniert, ist es nötig, bestimmte Arbeitsbelastungseigenschaften wie z. B. die Menge der Seitenwechsel, des Swappings oder des freien Speichers, die Anzahl von berechenbaren Prozessen oder den Grad der Plattenbenutzung zu analysieren. Eine solche Analyse wird oft entsprechend den individuellen subjektiven Normen des betreffenden, die Analyse durchführenden Ingenieurs gemacht. Es wäre vorzuziehen, Messungen (d. h. das Festlegen der Meßwerte) zu machen, welche die Leistung eines Betriebssystems objektiv anzeigen könnten. Dies hat sich jedoch als schwierig erwiesen, weil Betriebssystemleistung kein leicht zu messender Wert ist. Oft sind die für eine Auswertung verfügbaren Daten kein präzises Maß der Leistung, sondern eher nur ein zweit-oder drittrangiger Hinweis.
Viele Betriebssysteme haben eingebaute Programme zur Ausführung von Betriebsmessungen eines Prozessors und seinem Betriebssystem. Z. B. ist in der VMS- Familie des Betriebssystems für die VAX-Computersysteme, die von Digital Equipment Corporation gebaut werden, ein Monitorprogramm verfügbar, um vorbestimmte Betriebssystemdaten zu messen. Solche Daten beinhalten Arbeitsspeichergrößen, bestimmte Warteschlangenlängen, die Anzahl von Plattenein- und/oder -ausgaben usw. Sogar mit der durch das Monitorprogramm bereitgestellten Information ist es jedoch immer noch schwierig, die Betriebssystemleistung genau zu bewerten und die richtigen Empfehlungen zu erstellen. Z. B. müssen sogar nach der Feststellung aus den gemessenen Daten, daß es in einem Datenprozessorsystem übermäßig vielen Seitenwechsel gibt, der Grund des übermäßig vielen Seitenwechsels isoliert werden, bevor hilfreiche Hinweise geäußert werden können.
Dieser Mangel an definitiver Messung war für die herkömmlichen Betriebssysteme ein Problem, selbst wo Handbücher bereitgestellt werden, welche Wege vorschlagen, wie die Betriebssystemleistung zu verbessern ist. Z. B. schlagen Handbücher im Zusammenhang mit den VMS-Betriebssystemen verschiedene Möglichkeiten der Analyse dieses Betriebssystems vor. Ein solches Handbuch ist der Guide to VAX/VMS Performance Management, Version 4.4 (April 1986), speziell Kapitel 4. Dieses Kapitel enthält verschiedene Diagramme, die allgemein erklären, welche Bedingungen zu prüfen sind, wie z. B. übermäßig viel Swapping oder Seitenwechsel.
Eine Beschränkung dieses Handbuchs ist jedoch, daß die den Diagrammen zugrundeliegende Analyse oft von den individuellen Ansichten der Ingenieure abhängt, die die Analyse durchführen. So können verschiedene Ingenieure, denen die gleichen Fakten vorgelegt werden, unterschiedliche Meinungen darüber haben, ob z. B. zu viel Seitenwechsel vorliegt.
Ein Unterschied in den Ergebnissen der Betriebssystemanalysen von unterschiedlichen Ingenieuren kann aus mehreren Gründen auftreten. Erstens ist nicht immer klar, was die verschiedenen Messungen darstellen. Außerdem können verschiedene Ingenieure die Messungen unterschiedlich interpretieren.Es gibt auch Meinungsverschiedenheit hinsichtlich des Gewichts, das den verschiedenen Messungen zu geben ist, wodurch es bei jedem Ingenieur zu einem "Ansichtssache"- Prozeß führt. Außerdem sind so die Ergebnisse von solchen Analysen, da jeder Ingenieur verschieden arbeitet, nicht gleich und können im allgemeinen nicht reproduziert werden.
Ein anderer bedeutender Nachteil dieser herkömmlichen Systeme, denen ein System der Datenfestlegung für Ingenieure zugrundeliegt, ist, daß solche Systeme gewöhnlich den Laien nicht viel nützen. Zusätzlich können sogar Personen mit einigen Kenntnissen über das Betriebssystem die Handbücher nur begrenzt hilfreich finden, da die Handbücher die Gründe für die Vornahme der vorgeschlagenen Aktionen oft nicht allgemein erklären.
Es gab mindestens einen Versuch, die Technologie der künstlichen Intelligenz oder der Expertensysteme an die Probleme der Leistungsanalyse anzupassen, aber dieser Versuch betrifft nicht alle Probleme der Handbücherbenutzung. Die intelligente Computerbaugruppe TIMM/TUNER, welche auf den Seiten 109-114 der "Digital Review" vom Mai 1986 beschrieben ist, benutzt bestimmte Messungen eines VAX-Computersystems mit einem VMS-Betriebssystem und präsentiert diese Messungen einem Benutzer zur Auswertung. Im Vergleich mit dem VAX/VMS Performance Management Guide bietet das TIMM/TUNER-System hingegen kleine zusätzliche Leistungsfähigkeiten, die über die automatischen Fragen hinausgehen. Außerdem ist der TIMM/TUNER auf einen einzigen Knoten begrenzt (d. h. einen VAX-Computer).
Das sogenannte Expertensystem, das in "Digital Review" beschrieben ist, verläßt sich auf die subjektiven Eingaben der Systemingenieure als einem unentbehrlichen und wesentlichen Bestandteil des Systemanalyseprozesses. Wie in der Druckschrift angegeben, "muß der Benutzer Antworten auf alle Fragen liefern, die eine tiefgreifende Analyse der erzeugten Systemdaten erfordern ...". Zusätzlich ist in "Digital Review" beschrieben, daß "ein Systemmanagerneuling nicht das Verständnis bereits haben kann,... das ... entweder für das Beantworten von Fragen oder für das Interpretieren der Ausgabedaten nötig ist, ... die falsche Beantwortung von nur einer Frage zu falschen Lösungen für die Leistungsprobleme des Benutzers führt...".
Dieser ernstzunehmende Fehler wird durch die vorliegende Erfindung, bei der die gesamte Analyse durch das Datenprozessorsystem erledigt wird, verringert und dadurch die Notwendigkeit beseitigt, einen Experten für die Bedienung des Expertensystems zu haben. Der neue technische Effekt ist, daß die Systemleistungsanalyse viel schneller durchgeführt werden kann, mit einem höheren Grad an Zuverlässigkeit und ohne sich auf die subjektiven Eingaben eines Systemmanagers verlassen zu müssen.
Daher ist es ein Ziel der vorliegenden Erfindung, ein Verfahren zur Leistungsverbesserung und -auswertung zu schaffen, welches die für die Analyse der Leistung eines Datenprozessorsystems oder des Netzwerks eines Datenprozessorsystems nötigen Daten mißt.
Ein anderes Ziel der vorliegenden Erfindung ist die Bereitstellung eines Verfahrens der Leistungsverbesserung und -auswertung, das die gemessenen Daten gemäß vorher festgelegter Regeln und Schwellwerte analysiert, und das Empfehlen von Aktionen, die entsprechend diesen Regeln durchzuführen sind.
Es ist noch ein weiteres Ziel der vorliegenden Erfindung, ein Verfahren zur Leistungsverbesserung und -auswertung zu schaffen, welches die Aktionen erklärt, die vorgeschlagen worden sind, und welches den Beweis liefert, der die Grundlage der Empfehlungen bildet.
Weitere Ziele und Vorteile der vorliegenden Erfindung werden teilweise in der nachfolgenden Beschreibung dargelegt und teilweise aus dieser Beschreibung klar werden, oder sie können durch die Anwendung der Erfindung erlernt werden. Die Ziele und Vorteile der Erfindung können durch die in den anhängenden Ansprüchen besonders aufgezeigten Verfahren verwirklicht und erzielt werden.

II. Zusammensetzung der Erfindung

Die vorliegende Erfindung überwindet die Probleme von herkömmlichen Systemen und erreicht die oben aufgeführten Ziele zunächst durch periodisches Sammeln einer Vielzahl von Meßwerten und Parametern von einem Datenprozessorsystem oder einem Netzwerk von solchen Systemen, dann durch Anwenden der Regeln auf diese Meßwerte und Parameter, um zu sehen, ob die Regeln gestartet werden, und zum Schluß durch Empfehlung bestimmter Aktionen, die durchgeführt werden müssen, wenn die Regeln genügend oft gestartet worden sind.
Um die Aufgaben zu lösen und gemäß dem Ziel dieser Erfindung, die hier verkörpert und ausführlich beschrieben wurde, umfaßt das Verfahren dieser Erfindung zum Betrieb eines Datenprozessorsystems zum Auswerten der Datenprozessorsystemleistung die im Anspruch 1 beschriebenen Schritte.
Die begleitenden Zeichnungen, welche in dieser Beschreibung enthalten sind und einen Teil derselben darstellen, zeigen ein Ausführungsbeispiel der Erfindung und erklären zusammen mit der Beschreibung die Prinzipien der Erfindung.

III. Kurze Beschreibung der Zeichnungen

Fig. 1 ist eine Zeichnung eines VAX-Cluster-Netzwerks von VAX-Computern, Plattenlaufwerken und Laufwerk-Steuerungen, welche zur Erklärung des Verfahrens dieser Erfindung benutzt wird;
Fig. 2 ist ein erläuterndes Diagramm von Komponenten eines Systems, welche das Verfahren dieser Erfindung anwenden können;
Fig. 3 ist ein erläuterndes Diagramm der in Fig. 2 gezeigten Datenbank;
Fig. 4 ist ein erläuterndes Diagramm der Einzelteile des in Fig. 2 gezeigten Benachrichtigungs- bzw. Beratungsuntersystems
Fig. 5 ist ein Flußdiagramm einer Initialisierungsroutine für die Datensammelprozedur;
Fig. 6 ist ein Flußdiagramm einer Hauptsteuerschleife für die Datensammelprozedur, die gemäß dieser Erfindung benutzt wird;
Fig. 7 ist ein Flußdiagramm einer Prozedur, die aufgerufen wird, wenn die Messung entsprechend der Hauptsteuerschleife für die Datensammelprozedur, deren Flußdiagramm in Fig. 6 erscheint, fortgesetzt wird;
Fig. 8 ist ein Flußdiagramm einer Prozedur, die aufgerufen wird, wenn die Messung entsprechend der Hauptsteuerschleife für die Datensammelprozedur, deren Flußdiagramm in Fig. 6 gezeigt wird, unterbrochen wird;
Fig. 9A-9I enthalten einen Entscheidungsbaum für die Speicherregeln, die gemäß der vorliegenden Erfindung festgelegt sind;
Fig. 10A und 10B enthalten eine Entscheidungsbaumstrukturfür die CPU- Regeln, die gemäß der vorliegenden Erfindung festgelegt sind;
Fig. 11A-11D enthalten eine Entscheidungsbaumstruktur für die I/O-Regeln, die gemäß der vorliegenden Erfindung festgelegt sind;
Fig. 12 ist eine schematische Darstellung des Speichers von übertragenen Daten in eine Nachweistabelle;
Fig. 13A-13D sind vier (4) Zustände der in Fig. 12 gezeigten Nachweistabelle für die ebenfalls in Fig. 12 gezeigten übertragenen Daten;
Fig. 14 und 15 sind Beispiele für Analyseprotokolle, die entsprechend der Lehren des bevorzugten Ausführungsbeispiels der vorliegenden Erfindung erzeugt wurden;
Fig. 16 und 17 sind Beispiele für Leistungsprotokolle, die entsprechend der Lehren des bevorzugten Ausführungsbeispiels der vorliegenden Erfindung erzeugt wurden; und
Fig. 18 ist ein Beispiel eines Histogramms der CPU-Verwendung, das entsprechend der Lehren des bevorzugten Ausführungsbeispiels der vorliegenden Erfindung erzeugt wurde.

IV. Beschreibung des bevorzugten Ausführungsbeispiels

Nun wird auf ein vorliegendes bevorzugtes Ausführungsbeispiel der Erfindung ausführlich Bezug genommen, von dem ein Beispiel in den begleitenden Zeichnungen gezeigt ist.

A. Überblick

Das Verfahren der Leistungsauswertung, das in dieser Erfindung benutzt wird, ist nicht auf irgendein besonderes Verarbeitungssystem begrenzt, sondern das Beispiel des in den begleitenden Zeichnungen gezeigten Verfahrens wird mit Verweis auf ein VAX-Cluster-Netzwerk der VAX-Computer, das von Digital Equipment Corporation gebaut wird, beschrieben. Es wird angenommen, daß die VAX-Computer ein von Digital Equipment Corporation geliefertes VMS-Betriebssystem, Version 4.4, benutzen.
Fig. 1 zeigt ein Beispiel eines VAX-Cluster-Netzwerks, das allgemein mit 100 bezeichnet wird. Im VAX-Cluster-Netzwerk 100 gibt es fünf Knoten, welche die VAX- Computer 110, 120 und 130 und die intelligenten Plattenlaufwerksteuerungen 140 und 150 enthalten. Die Laufwerksteuerungen 140 und 150 sind vorzugsweise die Modelle HSC 50 oder 70, die auch von Digital Equipment Corporation gefertigt sind. Obwohl auf die intelligenten Laufwerksteuerungen 140 und 150 als Knoten in der Fachsprache der VAX-Cluster-Netzwerke Bezug genommen wird, wird der Verweis auf Knoten in der Beschreibung dieser Erfindung sich, wenn nicht anders vermerkt, nur auf VAX-Computer beziehen. Die für die Steuerungen zugänglichen Laufwerke 142, 144 und 146 sind vorzugsweise herkömmliche Laufwerke, und in dem in Fig. 1 gezeigten VAX-Cluster-Netzwerk 100 könnten die Laufwerke RA81-Laufwerke sein.
Das Herz des VAX-Cluster-Netzwerks 100 ist ein Star Coupier bzw. Starkoppler 160, welcher mit jedem der Computer 110, 120, 130 und mit jedem der Laufwerksteuerungen 140 und 150 über eine Kommunikationsschnittstellen- ("CI") leitung verbunden ist. Der Star Coupler 160 ermöglicht Zwischenprozessor-Kommunikation zwischen den Computern 110, 120 und 130 und durch die VAX-Computer 110, 120 oder 130 ebenso Zugriff auf die Laufwerke 142, 144 und 146.
Die Auswertungsmethode dieser Erfindung ist sowohl auf Datenprozessoren wie z. B. die VAX-Computer 110, 120 und 130 als auch auf Prozessornetzwerke wie z. B. das VAX-Cluster-Netzwerk 100 anwendbar. Die Auswertung der Netzwerkleistung ist möglich, weil die Arten der Daten, die entsprechend dieser Erfindung gesammelt und analysiert wurden, mit herkömmlichen Verfahren der Leistungsauswertung im allgemeinen nicht verfügbar sind.
Fig. 2 zeigt ein Diagramm der Elemente eines Systems, allgemein 200 genannt, das für die Ausführung dieser Erfindung benutzt werden kann. Das System 200 muß lediglich als ein typisches System verstanden werden. Die verschiedenen gezeigten Untersysteme müssen nicht separate Prozessoren oder separate Programme sein. Tatsächlich sind bei der ausführlichen Besprechung des bevorzugten Ausführungsbeispiels bestimmte Optimierungen wie z. B. die Kombination des Regel- Untersystems 270 mit dem Schwellwert-Untersystem 280 gemacht worden. Das System 200 in Fig. 2 wird zu dem Zweck gezeigt, beim Verstehen der Erfindung als ganzes zu helfen.
Im System 200 wird ein Computer (mit Terminal) 210 benutzt, um Computerprogramme zu starten, die das Verfahren dieser Erfindung ausführen. Die Systemparameter, die eingestellt werden können, betreffen das Betriebssystem im Computer 210. Die im System 200 gezeigten Elemente beinhalten eine Daten-Sammel-Ablaufsteuerung 220, die entscheidet, wann das Sammeln der notwendigen gemessenen Daten geschehen wird, und eine Zuteilungsdatei 230, welche die Zeiten enthält, zu denen die Datensammlung stattfinden wird. Ein Datensammel-Untersystem 240 sammelt die Daten dann wirklich.
Die gesammelten Daten enthalten eine Mehrzahl von meßbaren statistischen Prozeß-, Prozessor- und Netzwerkmeßzahlen, "Meßwert" genannt, und ebenso einige laufende Parametereinstellungen. Die durch das Subsystem 240 gesammelten Meßwerte und Parameter sind in einer Datenbank 250 untergebracht. Die Datenbank 250 enthält auch bestimmte Parameterwerte, die für die Auswertung benötigt werden.
Ein Benachrichtigungs- bzw. Beratungs-Untersystem 260 benutzt die Meßwerte ebenso wie bestimmte Systemparameter in der Datenbank 250 zum Anwenden von Regeln im Regel-Untersystem 270. Diese Regeln enthalten meistens einen Vergleich der Meßwerte und Parameter in der Datenbank 250 mit Schwellwerten im Schwellwerte-Untersystem 280.
Wenn das Benachrichtigungs-Untersystem (260) feststellt, daß bestimmte Regeln im Regel-Untersystem 270 gestartet worden sind, und zwar genügend oft gestartet worden sind, dann werden diesen Regeln entsprechende Nachrichten mit Hilfe von Nachrichtenschablonen im Nachrichtenschablonen-Untersystem 290 erzeugt. Die Nachrichten enthalten auch bestimmte andere Daten, die benutzt werden, um im Protokoll-Untersystem 295 Protokolle zu bilden. Diese Protokolle sind für die Anzeige oder zum Ausdrucken verfügbar.
Fig. 3 ist eine schematische Darstellung der Datenbank 250. Fig. 3 ist auch nur als Darstellung der Datenbank gedacht und nicht dafür, festzulegen, wie eine solche Datenbank aussehen muß. Die Datenbank 250 beinhaltet, wie in Fig. 3 gezeigt, mehrere Dateien 300. In jeder der Dateien gibt es auch eine Identifizierung des Knotens (d. h. des Computers), den die Messungen in der Datei betreffen, und der Daten, von welchen die Messungen gemacht wurden.
Wie in Fig. 3 gezeigt, enthalten die Dateien 300 bestimmte Datensätze 310, von denen jede bestimmte Zeitintervalle der Messung enthält. Diese Zeitintervalle, die Hauptintervalle genannt werden, geben die Frequenz an, mit der die Messungen vorgenommen wurden. Für die Datensätze 310 werden diese Hauptintervalle als Zwei-Minuten-Intervalle dargestellt, was in dem bevorzugten Ausführungsbeispiel eine vorgegebene Bedingung ist. Es können auch andere Hauptintervalle gewählt werden.
Jeder der Datensätze 310 enthält Unter-Datensätze 320, von denen Beispiele auch in Fig. 3 gezeigt sind. Wie in Fig. 3 gezeigt, beinhalten Unter-Datensätze 320 Zeitstempel-Unter-Datensätze, welche die Zeit der Messung enthalten, Leistungs- Unter-Datensätze, die systemweite Leistungsmeßwerte enthalten, und Parameter- Unter-Datensätze, die systemweite Parameterwerte enthalten.
Die Unter-Datensätze 320 beinhalten auch Abbild- (image) und Prozeß-Unter- Datensätze, welche die Abbilder beschreiben, die durch jeden der Prozesse aktiviert wurden, wie z. B. ihre Arbeitsmengengrößen, ihre Fehlerraten und Benutzernamen. Wie oben erklärt, verweist die Bezeichnung "Prozesse" auf Benutzer, und die Bezeichnung "Abbilder" verweist auf durch Prozesse ablaufende Programme.
Die Platten-Unter-Datensätze in den Unter-Datensätzen 320 beschreiben die Tätigkeiten auf den Platten. Solch eine Tätigkeit könnte Eingabe-/Ausgabe- ("I/O") Geschwindigkeiten, I/O-Größen oder -Belegungszeiten beinhalten.
Die Meßwerte und Parameter, die in dem bevorzugten Ausführungsbeispiel gemessen und eingestellt werden, werden nicht getrennt beschrieben, da diese Parameter und Meßwerte jedem einzelnen System eigen sind. Stattdessen werden bestimmte Meßwerte und Parameter in dem nächsten Abschnitt als Teil der Erklärung der Regeln beschrieben.
Fig. 4 zeigt eine Darstellung der Einzelteile des Beraters 260. Der Berater 260 führt zwei Funktionen aus. Die erste ist die Analyse für die Verbesserung (Element 410). Um eine solche Analyse durchzuführen, vergleicht der Berater 260 Schwellwerte in der Schwellwerte- Unterabteilung 280 mit den Meßwerten und Parametern in der Datenbank 250 und ermittelt, ob die Regeln in der Regel-Unterabteilung 270 ausgelöst worden sind. Auf Grund dieser Regeln erzielt der Berater 260 bestimmte Ergebnisse über die Leistung des Systems 210. Vorzugsweise werden solche Ergebnisse nur dann erzielt, wenn bestimmten Regeln öfter als eine bestimmte Anzahl in einer Analysesitzung entsprochen wurde.
Die vom Benachrichtigungssystem 260 vorgelegte Analyse wird dem Benutzer angezeigt oder in Form von Nachrichten, die oft Empfehlungen enthalten, gedruckt. Wenn der Benutzer ihn anfordert, wird auch der "Nachweis" für die Empfehlungen ausgedruckt. Solch ein Nachweis geschieht in der Art einer Aussage der Regel, die von den Parametern, Schwellwerten und Meßwerten begleitet wird, welche benutzt werden, um zu entscheiden, daß die Regel erfüllt ist.
Das Benachrichtigungssystem 260 kann auch die Arbeitsbelastungs-Charakterisierungsdaten (Element 420) sowohl für die einzelnen Prozessoren als auch für das Netzwerk als ganzes organisieren. Solche Daten sind eine Zusammenstellung von Informationen über die Prozesse, wie z. B. den Prozentsatz der Benutzung der Zentralprozessoreinheit ("CPU"), die Charakterisierung der Arbeitsbelastung zwischen interaktiven Aufgaben, Stapelverarbeitungsaufträgen, Aufwand usw., oder der Größe der Plattenausnutzung. Die besondere Charakterisierung, die für diese Erfindung verfügbar ist, ist wegen des Typs und der Menge der gesammelten Daten recht ausführlich.

B. Datenerfassung

Die Fig. 5-8 zeigen Flußdiagramme eines Verfahrens der Datenerfassung gemäß der vorliegenden Erfindung. Das in den Fig. 5-8 gezeigte Verfahren ist in einem VAX-Cluster-Netzwerk mit VAX-Computern des Modells 780 verwendet worden, das die Version 4.4 des VMS-Betriebssystems benutzt.
Fig. 5 zeigt eine Initialisierungsfolge für die Datenerfassung. Die Folge beginnt bei Schritt 500, und die erste Frage ist, ob das betreffende Betriebssystem von dem Programm unterstützt wird, das für die Durchführung der Datenerfassung benutzt wird (Schritt 505). Wenn nicht, druckt das System eine Fehlermeldung aus (Schritt 515) und der Vorgang wird beendet (Schritt 510).
Wenn das Betriebssystem vom Programm unterstützt wird, so wird ein Parameter für die maximale Anzahl von Prozessen (z. B. MAXPROCESSCNT für das VMS-Betriebssystem) auf das Minimum entweder der Gesamtanzahl an Benutzern oder einer festen Anzahl, wie z. B. 512 für VMS-Betrieb gesetzt (Schritt 520). Der Hauptgrund für das Einstellen der maximalen Anzahl von Prozessorparametern ist, die Bildung von Datenstrukturen zu ermöglichen. Die bestimmte Anzahl beim Schritt 520 sollte auf den entsprechenden Computer und das Betriebssystem, die verwendet werden, festgelegt werden.
Der nächste Schritt beinhaltet das Einstellen einer Ablaufprioritätsebene (Schritt 525). In dem bevorzugten Ausführungsbeispiel der Erfindung ist diese Ebene auf 15 eingestellt. Die Ablaufprioritätsebene muß für die Datenerfassung genau eingestellt sein, so daß die Daten (Meßwerte und Parameter) der Echtzeit so nahe wie möglich eingesammelt werden können, ohne den Betrieb des Systems zu stören. Somit sollte die Prioritätsebene vorzugsweise unterhalb der Priorität des Swappers oder unterhalb aller Prozesse, die kritisch Echtzeitreaktion benötigen, eingestellt werden, aber die Priorität sollte oberhalb der meisten anderen Prozessen eingestellt werden.
Der nächste Schritt beinhaltet das Freigeben eines asynchronen Systemfilters ("AST"), um dem System zu signalisieren, daß ein Überprüfen der Meßtabelle benötigt wird (Schritt 530). Das AST ist eine VMS-Konstruktion, und es wird in Schritt 530 freigegeben, so daß das System bereit sein wird, wenn der Ablauf der Messungen sich ändert. Allgemein ist der Ablauf der Messungen in einer Zuteilungsdatei gespeichert. Der Zweck der Freigabe des AST ist, dem System zu empfehlen, die Zuteilungsdatei zu prüfen, wenn diese Meßdatei geändert worden ist.
Nach der Freigabe des AST werden die Datenmeßtabellen und -intervalle aus der Zuteilungsdatei gelesen (Schritt 535). Die Meßtabellen geben die Tageszeiten an, während der die Messungen stattfinden sollten, und die Intervalle geben an, wie oft die Messung stattfinden sollte. In den Datenmeßabläufen ist ein Parameter enthalten für die geplante Startzeit, und das System muß prüfen, ob diese Startzeit bevorsteht (Schritt 540). Wenn ja, geht das System bis zur geplanten Startzeit in den Standby-Zustand (Schritt 545).
Wenn die geplante Startzeit nicht in der Zukunft liegt, dann wird die geplante Startzeit geprüft, um zu sehen, ob sie in der Vergangenheit liegt (Schritt 550). Wenn die geplante Startzeit in der Vergangenheit liegt, dann geht das System unbegrenzt in den Standby-Zustand, oder bis die Zuteilungsdatei gewechselt hat (Schritt 555), und der Vorgang oder die Prozedur wird beendet (Schritt 560).
Wenn die geplante Startzeit weder in der Vergangenheit noch in der Zukunft liegt, dann wählt das System einen Zeitnehmer-Knoten, und der logische Clustertakt dieses Knotens wird initialisiert (Schritt 565). Ein Zeitnehmer-Knoten wird zum Synchronisieren der Messung durch ein Netzwerk von Prozessoren benutzt. In einem Netzwerk von Prozessoren, die gemäß des bevorzugten Ausführungsbeispiels arbeiten, hat jeder Prozessor seinen eigenen internen Takt, welcher nicht auf die anderen Prozessortakte synchronisiert werden muß. Anstatt den internen Takt jedes Prozessors zu ändern, wird eher ein Prozessor als Zeitnehmer-Knoten gewählt, und dieser Prozessor speichert einen logischen Clustertakt. Der logische Clustertakt ist nur mit den Messungen gemäß der Datenerfassungsmethode dieser Erfindung verknüpft. Jeder der anderen Prozessoren behält seinen eigenen logischen Takt und gewährleistet, wie nachfolgend genau beschrieben, daß dieser Takt mit dem logischen Clustertakt des Zeitnehmer-Knotens synchron ist.
Als nächstes initialisiert das System alle Messungen (Schritt 570). Diese Initialisierung bewirkt das Lesen der Meßwerte, so daß fortschaltende Werte während der Datenmeßschleifen später gemessen werden können. Schließlich wird die Initialisierungssequenz beendet (Schritt 575).
Fig. 6 zeigt die Hauptsteuerschleife für die Datenerfassung. In der in Fig. 6 gezeigten Hauptsteuerschleife gibt es zwei Meßintervalle. Eines ist ein Hauptintervall, während welchem die meisten der Systemmeßwerte gemessen und die Werte gespeichert werden. In dem bevorzugten Ausführungsbeispiel ist die vorgegebene Bedingung für dieses Intervall alle zwei Minuten.
Es gibt auch ein Nebenintervall zum Messen bestimmter Meßwerte, die sich für eine genaue Darstellung in jedem Hauptintervall zu schnell ändern. Solche sich schnell ändernde Meßwerte beinhalten oft bestimmte Prozessormeßwerte, wie z. B. die Arbeitsspeichergröße. Für solche sich schnell ändernden Meßwerte wird eine Messung je Nebenintervall durchgeführt. In dem bevorzugten Ausführungsbeispiel ist die vorgegebene Bedingung für das Nebenintervall fünf Sekunden. Ein Mittelwert- Meßlauf wird während eines Hauptintervalls von den Meßwerten, die während der Nebenintervalle gemessen wurden, durchgeführt.
In der in Fig. 6 gezeigten Hauptsteuerschleife wird der Vorgang gestartet (600) und der logische Clustertakt (d. h. der logische Takt an dem Zeitnehmer-Knoten) gelesen (Schritt 605). Dann eicht jeder einzelne Prozessor seinen eigenen logischen Takt auf den logischen Clustertakt periodisch nach, wie z. B. alle 30 Minuten (Schritt 610). Als nächstes wird die genaue Tageszeit berechnet, und verschiedene Taktgeber wie z. B. die Haupt- und Nebenintervalltaktgeber, werden unter Verwendung des logischen Takts rückgesetzt (Schritt 615).
Als nächstes wartet die Prozedur auf ein Nebenintervall. Außerdem wird, wenn das VMS-Betriebssystem bestimmte Aktionen ausführt, wie z. B. das Freimachen der Plattenspeichermessungen (Schritt 620), Schritt 620 ebenfalls vollzogen, so daß Messungen nur am Ende eines Nebenintervalls gemacht werden.
Am Ende eines Nebenintervalls wird die Frage gestellt, ob die Messung fortgesetzt wird (Schritt 635). Z. B. wird die Messung fortgesetzt, wenn sie vorher gestoppt worden ist, aber nun wieder beginnen soll. Wenn die Messung fortgesetzt wird, dann folgt die Prozedur A (Schritt 640). Die Prozedur A ist in Fig. 7 ausführlich gezeigt.
Wie in Fig. 7 gezeigt, wird die Prozedur A begonnen (Schritt 700) und die entsprechende tägliche Datenbankdatei wird entweder erstellt, wenn sie noch nicht existiert, oder erweitert, wenn sie schon existiert (Schritt 710). Danach werden die ungültigen Datenbankdateien, z. B. von vorherigen Tagen, gelöscht (Schritt 720).
Als nächstes wird der spezielle Meßcode für die Leistungsauswertung in den nicht in Seiten unterteilten (non-paged) Pool geladen, falls nötig (Schritt 730). Der nicht in Seiten unterteilte Pool ist ein gemeinsamer Speicherbereich, auf den durch jeden Prozeß zugegriffen werden kann. Der Meßcode ist ein Code, der durch ein Programm D ausgeführt wird, um bestimmte Programm- oder Prozeßmessungen vorzunehmen, wenn solche Messungen nicht auf andere Weise vorgenommen werden können. Programme können auf den Meßcode zugreifen, weil er in dem nicht in Seiten unterteilten Pool ist.
Als nächstes wird ein Programmablauf gemessen, falls dies nötig ist (Schritt 740). Bei diesem Schritt wird das VMS angewiesen, den speziellen Meßcode für einen Prozeß auszuführen, sooft ein Programm beendet wird. Der Programmablauf schließt bestimmte Fernmessungsfunktionen mit ein, wie z. B. das Schließen von Dateien, die geöffnet worden sind, und das Entziehen von Speicherraum.
Wenn nötig, wird dann die Platten-Ein-/Ausgabe-Durchführung gemessen (Schritt 750). Die Platten-Ein-/Ausgabe-Durchführung zeigt die Platten-Ein-/Ausgabe aktivität an oder mißt sie.
Die Prozedur A wird dann beendet und die Datenverarbeitung wird, wie in Fig. 5 gezeigt, bei Schritt 535 fortgesetzt, d. h. das Lesen der Datenmeßabläufe und -intervalle aus der Zuteilungsdatei.
In Fig. 6 muß, wenn die Prüfung in Schritt 635 zeigt, daß die Messung nicht fortgesetzt wird, eine Entscheidung gefällt werden, ob die Messung wegen des Ablaufs angehalten wird (Schritt 645). Wenn ja, muß die Prozedur B (Schritt 650) durchgeführt werden. Die Prozedur B ist in Fig. 8 ausführlich gezeigt.
Wie in Fig. 8 gezeigt, beginnt die Prozedur B (Schritt 800), und der Programmablauf wird dann nicht mehr gemessen (Schritt 810). Als nächstes wird das Messen der Platten-Ein-/Ausgabe-Durchführung beendet (Schritt 820). Schließlich wird die tägliche Datenbankdatei geschlossen (Schritt 830), und nach dem Warten auf das Ende der Stunde (Schritt 840) wird die Prozedur beendet (Schritt 850). Nach dem Verlassen der Prozedur B ist die nächste Entscheidung, die getroffen wird, ob die Messung fortgesetzt wird (Schritt 635).
Gemäß der Hauptsteuerschleife, die in Fig. 6 gezeigt ist, findet dann, wenn die Messung weder fortgesetzt noch unterbrochen wird, die Datenmessung statt. Um Mitternacht werden neue Tagesdateien erzeugt und ungültige Dateien gelöscht (Schritt 660). Als nächstes werden die oben beschriebenen, sich schnell ändernden Prozeßdaten gemessen und die Ebene in jedem Nebenintervall gemittelt (Schritt 665). Vorzugsweise beinhaltet das Mitteln der Ebene das Beibehalten eines Ausmittlungsablaufs über eine Hauptintervallzeitperiode.
Dann wird die nicht in Seiten unterteilte Datenbank, welche die Datenbank in dem nicht in Seiten unterteilten Pool ist und Meßinformationen enthält, geräumt (Schritt 670). Die nicht in Seiten unterteilte Datenbank enthält z. B. Informationen, die während des Stapelprogrammablaufs gemessen wurden. Das Räumen der Datenbank schließt ein Wiedereinschreiben der Daten in einen Datenerfassungspuffer, vorzugsweise in die Datenbank 250, mit ein.
Die in Fig. 6 gezeigte Hauptsteuerschleife macht dann die nötigen Messungen in jedem Hauptintervall. Diese Messungen beinhalten die Parameterwerte und den nicht in jedem Nebenintervall gemessenen Meßwerterest. Z. B. werden eine Zeitmarkierung (Schritt 675), ebenso wie die Betriebssystem-Statistikwerte (Schritt 680) in jedem Hauptintervall aufgezeichnet. Außerdem werden in jedem Hauptintervall auch Parameterwerte, Plattenprotokolle und Kommunikationsprotokolle aufgezeichnet (jeweils Schritt 683, 686 und 688). Die Parameterwerte sind, wie oben erklärt, jene Werte, welche entweder durch das Betriebssystem oder vom Benutzer eingestellt werden. Die Plattenprotokolle sind Meßwerte, die mit der Platten-Ein-/Ausgabe verknüpft und von den Betriebssystem-Statistikdaten oder -Meßwerten, die in Schritt 680 aufgezeichnet werden, getrennt sind. Die Kommunikationsprotokolle beziehen sich auf Kommunikationsmittel-Messungen und sind in der Erklärung der Regeln nachfolgend beschrieben.
Das Konfigurationsprotokoll wird auch am Ende des Hauptintervalls gelesen, wenn die Konfiguration des Netzwerks oder des Prozessors sich geändert hat (Schritt 690). Wenn z. B. ein Prozessor abgeschaltet hat oder eine Platte entfernt worden ist, dann hat sich die Konfiguration geändert und ein neues Protokoll wird gelesen.
Als nächstes wird dann die Prozeßdatenbank in dem nicht in Seiten unterteilten Pool für jeden Prozeß aktualisiert. Schließlich werden am Ende eines Hauptintervalls die statistischen Prozeß-Magnetplatten-Meßzahlen aufgezeichnet (Schritt 696).
Am Ende der Hauptsteuerschleife werden die aufgezeichneten statistischen Meßzahlen des nicht in Seiten unterteilten Pools in eine Datenbank geschrieben, wie z. B. in die Datenbank 250. Zusätzlich wird diese Datenbank einer Checkpoint-Operation unterzogen, was ein Aktualisieren der Prozeduren einschließt, um das ganze System zu informieren, daß neue Daten aufgezeichnet worden sind, und um die Größen der Datenbank einzustellen. Die Hauptsteuerschleife fährt dann bei Schritt 620 fort, wo das System auf das Ende eines Nebenintervalls wartet, bevor es weitermacht.

C. Analyse

Im allgemeinen beinhaltet der Analyseteil dieser Erfindung die Anwendung bestimmter Regeln auf die während der Datenerfassungsoperation gesammelten Meßwerte und Parameter. Die Regeln beinhalten im allgemeinen den Vergleich der Meßwerte und Parameter entweder mit sich selbst oder mit bestimmten Schwellwerten, um zu sehen, ob die Kriterien der Regeln (d. h. größer als, weniger als usw.) erfüllt worden sind. Wenn all die Kriterien für eine Regel erfüllt worden sind, dann wird die Regel gestartet. Wenn eine Regel öfter als vorher festgelegt startet, dann wird eine Empfehlung, als Teil in einer Nachricht enthalten, entsprechend der Regel abgegeben. Diese Empfehlung beinhaltet im allgemeinen Vorschläge an den Benutzer, daß die Einstellung einiger Parameter oder eine Änderung der Systemkonfiguration gemacht werden könnte, um die Systemleistung zu verbessern.
Die in dem bevorzugten Ausführungsbeispiel enthaltenen Regeln können im allgemeinen in Speicherregeln, CPU-Regeln, I/O-Regeln, Kanalregeln, Betriebsmittelregeln und Clusterregeln klassifiziert werden. Gegenwärtig wird wegen der Anzahl an Regeln in dem bevorzugten Ausführungsbeispiel die Realisierung der Regeln auf dem Wege der Programme ausgeführt, die sowohl die Schwellwerte als auch die Regeln zusammen beinhalten. Alternativ kann, besonders wenn ein System wächst, die Realisierung durch den Gebrauch einer Rückschlußvorrichtung und einer Wissensbasis an Regeln, die leichter modifiziert werden können, als es die Programme können, ersetzt werden.
Die Fig. 9A-9I beinhalten eine Entscheidungsbaumstruktur für die Regeln 1- 32, welche den Speicherregeln entsprechen. Fig. 10A und 10B beinhalten eine Entscheidungsbaumstruktur für die CPU-Regeln, die als Regeln 33-39 gezeigt sind, und die Fig. 11A-11D beinhalten eine Entscheidungsbaumstruktur für die I/O-Regeln, die in dem bevorzugten Ausführungsbeispiel als 40-51 gezeigt sind. Außerdem werden Kanalregeln, Betriebsmittelregeln und Clusterregeln, die sich selbst nicht für Entscheidungsbaumstrukturen eignen, stattdessen im Text beschrieben werden.
In dem in Fig. 9A-9I, 10A und 10B sowie 11A-11D gezeigten Entscheidungsbaum sind die kreisförmigen Elemente entweder Entscheidungspunkte oder Stoppunkte, die jeweils durchzuführende Tests oder Ausgänge eines bestimmten Entscheiungsbaums anzeigen. Die Tests, die gemacht werden können, sind entlang der Seite der kreisförmigen Knoten gedruckt und zusätzlich ausführlich im Text erklärt. Die Quadratkästchen enthalten Regelzahlen. Die Nachrichtenschablone für die Regeln befindet sich im Anhang 1-6 am Ende dieser Beschreibung.
Vorzugsweise einer der Prozessoren in dem Netzwerk testet die Regeln unter Verwendung aller Meßwerte und Parameter, welche die Prozessoren in einer Datenbank gespeichert haben. Jedes Protokoll wird einzeln getestet, und so werden die Regeln zunächst während des ersten Hauptintervalls unter Beobachtung auf die gesammelten Meßwerte angewendet. Die Regeln werden dann auf die während des zweiten Hauptintervalls angesammelten Meßwerte und Parameter angewandt getestet, und diese Ausführung setzt sich fort, bis alle der Hauptintervalle in der gewünschten Analysezeit behandelt sind. Vorzugsweise ein Systemmanager oder -ingeneur kann für das Analyseprogramm angeben, für welche Zeitperioden die Analyse gewünscht wird. In dem bevorzugten Ausführungsbeispiel des Verfahrens dieser Erfindung wird ein System während der Analyseprozeduren eine Datenstruktur schaffen, welche die Regeln aufzeigt, die initiiert wurden, ebenso wie der Nachweis für diese Regeln. Der Nachweis beinhaltet die Beträge der Meßwerte und Parameter, die getestet wurden, und ebenso die entsprechenden Schwellwerte, die für das Triggern der Regel Anlaß gaben. Diese Datenstrukturen werden im Kapitel D. Berichtgestaltung dieser Beschreibung ausführlicher beschrieben werden.
In Fig. 9 ist der erste für die Speicherregeln durchgeführte Test an dem Entscheidungspunkt 900. Dieser Test ermittelt, ob die Seitenfehlerrate der Platte größer oder gleich einem bestimmten Schwellwert ist, wie z. B. 10, ob die Seitenfehler des Cachespeichers größer oder gleich einem anderen Schwellwert sind, wie z. B. 100, ob die Einlagerungsrate größer oder gleich einem anderen Schwellwert ist, wie z. B. 1, oder ob die Summe von freecnt + mfycnt geringer oder gleich FCEEGOAL + HILIMIT ist (viele der in dieser Beschreibung eines Ausführungsbeispiels der Erfindung benutzten Parameter verwenden eine abgekürzte Form zur Erleichterung des Verweisens; somit ist "HILIMIT" korrekt "MPY_HILIMIT"). Grundsätzlich ist der Test am Entscheidungspunkt 900, ob es entweder zu viel Seitenwechsel oder zu viel Swapping gibt, oder ob es knappen freien Speicher gibt.
Der Test für zu viel Seitenwechsel beinhaltet einen Vergleich der Seitenfehlerraten mit jeweils unterschiedlicher Schwellwerte sowohl der Platte als auch des Cachespeichers, z. B. 10 bzw. 100. Seitenfehler von Platten werden schwere Fehler genannt, da sie im allgemeinen vom Zeitstandpunkt aus kostspieliger sind als Seitenfehler vom Cachespeicher, die leichte Fehler genannt werden. Die Seitenfehlerraten der Platte und die Seitenfehlerrate des Cachespeichers, die beide als Auftrittshäufigkeit pro Sekunde angegeben werden, sind während der Datenerfassungsoperation gemessene Meßwerte.
Die Entscheidung über zu viel Swapping wird durch die Einlagerungsrate festgelegt, welche feststellt, ob irgendwelche Programme ausgetauscht worden sind. Die Einlagerungsrate, welche auch ein Meßwert ist, mißt die Anzahl, wie oft diese Prozesse ausgetauscht worden sind.
Wie knapp der freie Speicher ist, wird durch den wiederholten Test festgestellt, der im Entscheidungspunkt 900 gezeigt ist. FREEGOAL und HILIMIT sind jeweils die Grenzen für die Anzahl der Seiten freien Speichers und der Anzahl der Seiten auf der geänderten Seitenliste, die im Speicher vorhanden ist. Eine Seite auf der geänderten Seitenliste enthält für einen Prozeß, der nicht länger aktiv ist als eine solche Seite, Änderungen, die auf die Platten zurückgeschrieben werden müssen. Die Meßwerte freecnt und mfycnt beziehen sich auf die aktuelle Anzahl von Seiten auf der Frei-Liste und auf die aktuelle Anzahl von Seiten auf der geänderten Seitenliste. Diese zwei Parameter zusammen repräsentieren die Menge an freiem Speicher, und wenn sie geringer als das gewünschte Ergebnis dieses freien Speichers sind, dann gibt es die Entscheidung, daß freier Speicher knapp ist.
Wenn weder zu viel Seitenwechsel, noch zu viel Swapping oder Knappheit an freiem Speicher besteht, dann erreicht die Prozedur zum Testen der Speicherregeln den Stoppunkt 902 und stoppt, da es während der entsprechenden Zeitperiode kein Speicherproblem gegeben hat.
Wenn es jedoch zu viel Seitenwechsel oder Swapping gegeben hat, oder der freie Speicher knapp ist, dann wird der Entscheidungsknoten 904 erreicht und es wird eine Ermittlung durchgeführt, ob ein Programm wenigstens eine Schwellwertzahl von Seitenfehlern gehabt hat (sowohl von der Platte als auch vom Cachespeicher), wie z. B. 500 Fehler, ob seine CPU-Zeit (ein Meßwert, der angibt, wie lang ein Programm im Ausführungsmodus ist) größer als oder gleich einem anderen Schwellwert ist, wie z. B. 4 Sekunden und ob diese Programm-Betriebszeit (ein Meßwert, der angibt, wie lange das Programm existiert) länger als oder gleich noch einem anderen Schwellwert ist, wie z. B. 30 Sekunden. Wenn ja, dann startet Regel 1. Die Nachrichtenschablone für diese Regel (Anhang 1) wird dann zusammen mit Informationen über den Namen des Programms, den Namen des Benutzers, die Zeit, die Programmfehlerrate und die Gesamtfehlerrate ausgedruckt. Im wesentlichen startet Regel 1, wenn ein Anwendungsprogramm entweder ein spezieller Typ oder schlecht konzipiert ist. Der in der Information WSQUOTA besprochene Parameter ist die Arbeitsmengenquote für einen bestimmten Prozeß. Dieser Parameter kann vergrößert werden, um zu ermöglichen, daß mehr Seiten für dieses Programm gespeichert werden, damit so weniger Seitenfehler auftreten.
Der Entscheidungsknoten 906 wird erreicht, ob Regel 1 gestartet wird oder nicht, und die gleichen Seitenwechselfragen werden wieder gestellt, die am Entscheidungspunkt 900 gestellt wurden, nämlich, ob die Seitenfehlerrate der Platte oder die Seitenfehlerrate des Cachespeichers zu hoch ist. Wenn ja, dann wird der Entscheidungspunkt 908 erreicht.
Der Entscheidungspunkt 908 beinhaltet den Vergleich der gesamten Programmaktivierungen für einen Schwellwert, z. B. 0,5 pro Sekunde. Wenn die Antwort ja ist, wird eine Entscheidung durchgeführt, daß es zu viele Programmaktivierungen gibt, und es wird am Entscheidungspunkt 910 wieder die Frage gestellt, ob irgend ein Prozeß mehr als eine bestimmte Anzahl von Aktivierungen pro Sekunde verursacht, in dem bevorzugten Ausführungsbeispiel 0,5. Wenn ja, so wird offensichtlich, daß die Aktivierungen durch einen Prozeß verursacht werden, und Regel 2 startet. Die Nachrichtenschablone für Regel 2 (Anhang 1) sagt aus, daß es zu viele Programmaktivierungen gibt, die zu viele Seitenfehler verursachen. Der Vorschlag dieser Nachricht ist, daß eine schlecht geschriebene Befehlsprozedur, die zu viele Programme aktiviert, der Grund dafür sein kann. Zusammen mit der Nachricht wird die Zeit, die Benutzernamen und die Anzahl an aktivierten Programmen ausgedruckt.
Wenn die Antwort am Entscheidungspunkt 910 nein ist, dann startet Regel 3, die angibt, daß es zu viele Seitenfehler verbunden mit zu vielen Programmaktivierungen in dem Gesamtsystem gibt. Wie die Nachrichtenschablone für Regel 3 anzeigt, kann der Grund dafür häufig entweder schlecht konzipierte Anwendungsprogramme oder Versuche, zu viele Befehlsprozeduren ablaufen zu lassen, sein. Zusammen mit der Information werden die Zeit, die Gesamtfehlerrate, die Rate schwerer Fehler und die Programmaktivierungsrate ausgedruckt.
Wenn die Antwort am Entscheidungspunkt 908 nein war, da es nicht zu viele Programmaktivierungen gab, dann werden am Entscheidungspunkt 912 die Seitenfehler der Platte wieder mit einem Schwellwert verglichen. Wenn die Platten- Seitenfehlerrate größer als der Schwellwert ist, was eine zu große Rate schwerer Fehler anzeigt, dann wird der Entscheidungspunkt 914 erreicht.
Am Entscheidungspunkt 914 werden die gesamten Seitenfehler mit einem Schwellwert verglichen, z. B. 100, und die Summe von FREEGOAL und HILIMIT wird mit dem kleineren Wert von entweder 3000 oder fünf Prozent der Benutzerseiten verglichen. Der Zweck dieser zweiten Entscheidung ist, den Seiten-Cachespeicher, welcher die Summe aus FREEGOAL + HILIMIT ist, mit entweder fünf Prozent des den Arbeitsmengen zugeordneten Speichers oder mit 3000 zu vergleichen. Dies ist eine Möglichkeit zu prüfen, ob der Seiten-Cachespeicher genügend groß ist. Wenn nicht, so wird der Entscheidungspunkt 916 erreicht.
Am Entscheidungspunkt 916 wird die Summe von freecnt und mfycnt wieder mit der Summe aus FREEGOAL und HILIMIT verglichen, um zu ermitteln, ob freier Speicher knapp ist. Wenn nicht, wird der Stoppunkt 918 erreicht und der Prozeß verläßt die Speicherregeln.
Wenn die Ermittlung am Entscheidungspunkt 916 so ausfällt, daß freier Speicher knapp ist, wird Regel 4 gestartet. Die der im Anhang 1 gezeigten Regel 4 zugeordnete Information gibt an, daß übermäßig schwere Fehler durch einen zu kleinen Seiten-Cachespeicher verursacht worden sein können, der durch Vergrößern der Parameter vergrößert werden kann, welche die Seiten-Cachespeichergröße spezifizieren, wie z. B. MPW_LOLIMIT, MPW_HILIMIT, MPW_THRESH, FREEGOAL und FREELIM.
Wenn am Entscheidungspunkt 912 die Rate schwerer Fehler als nicht zu hoch empfunden wurde, dann wird der Entscheidungspunkt 920 erreicht, welcher die Gesamtanzahl der Seitenfehler mit einem Schwellwert vergleicht, z. B. 100. Dies ist eine andere Möglichkeit zu prüfen, ob die leichte Seitenfehlerrate zu hoch ist. Wenn nicht, wird der Stoppunkt 922 erreicht, und es werden keine weiteren Speicherregeln mehr geprüft.
Wenn jedoch die leichte Seitenfehlerrate, die am Entscheidungspunkt 920 geprüft wurde, zu hoch ist, dann wird der Entscheidungspunkt 924 erreicht, welcher, wie in den Erklärungen über die Entscheidungspunkte 914 und 916 angegeben, ein Entscheidungspunkt dafür ist, ob der Seiten-Cachespeicher nun zu groß und freier Speicher nun knapp ist. Wenn ja, wird Regel 5 gestartet. Die zugehörige Nachrichtenschablone im Anhang 1 enthält Empfehlungen für das Verringern des Seiten-Cachespeichers. Ebenso werden die Zeit, die Gesamtfehlerrate, die Programmaktivierungsrate, die Rate schwerer Fehler und die Größe der freien Speicherliste (freecnt) ausgedruckt.
Der in Fig. 9C gezeigte Entscheidungspunkt 926 wird erreicht, wenn entweder der Entscheidungspunkt 914 erreicht ist (hohe leichte Fehlerrate oder genügend großer Seiten-Cachespeicher), oder wenn der Entscheidungspunkt 924 (kein großer Seiten-Gachespeicher oder nicht knapper Speicher) nicht erreicht ist. Am Entscheidungspunkt 926 werden zwei Ermittlungen durchgeführt. Die erste ist, Prozesse in der unteren Hälfte der fehlererzeugenden Prozesse zu finden, d. h. solche, die nicht zu viele Fehler erzeugen, die nicht in dem COM- (Auswertungs-) Modus sind. Die nächste Ermittlung ist, ob solche Prozesse einen Arbeitsmengenumfang haben, der größer als fünf Prozent des verwendbaren Speichers ist, weniger Seitenfehler als PFRATH (die maximale Rate, die das VMS-Betriebssystem für einen Prozeß festlegt) und einen Arbeitsmengenumfang hat, der kleiner als oder gleich ihrer Quote ist. Wenn diesen Bedingungen entsprochen wird, startet Regel 6. Da die Nachrichtenschablone im Anhang 1 für diese Regel das Starten dieser Regel ausdruckte, enthält eine Ermittlung, daß die gesamte systemumfassende Seitenfehlerrate hoch war, während bestimmte mäßig freie Prozessoren große Arbeitsmengen hatten. Der Vorschlag besteht darin, die Arbeitsmengenquotengröße WSQUOTA für bestimmte Benutzer zu verkleinern und diese Quote für unbeteiligte Prozesse zu verringern. Die mit der Information für diese Regel ausgedruckten Elemente sind der Benutzername, die entsprechenden Arbeitsmengenquoten und Arbeitsmengenausdehnungen, der Programmname, die Zeit und der Arbeitsmengenumfang. Auch ausgedruckt werden die Programmfehlerrate, die Gesamtfehlerrate und der Umfang der Frei-Liste.
Nachdem Regel 6 zutrifft, wird am Entscheidungspunkt 930 eine Ermittlung durchgeführt, ob ein bestimmter Prozeß mehr als zweimal so viele Seitenfehler hat wie sein oberster Grenzwert ist, und entweder eine um eine bestimmte Zahl größere CPU-Zeit als 0,5 Sekunden hat, oder seine COM variabel ist, und der die Anzahl der Male angibt, die der Prozeß im Auswertungsmodus mehr als 1 war. Wenn diese Bedingungen zutreffen und wenn dieser Prozeß einen Arbeitsmengenumfang hat, der größer als WSEXTENT ist, was die maximale Größe der Arbeitsmenge weniger 2/3 WSINC ist, was der Anzahl von Seiten entspricht, die das VMS-Betriebssystem hinzufügen wird, wenn man zusätzlichen Platz braucht, startet Regel 7. Regel 7 startet auch bei den gleichen Bedingungen, die beim Entscheidungspunkt 928 geprüft wurden, welcher erreicht wird, wenn die Bedingungen beim Entscheidungspunkt 928 nicht zutreffen.
Die Ermittlung bei den Entscheidungspunkten 928 und 930 ist, ob die Benutzer-Arbeitsumfangausdehnungen zu gering sind. Regel 7 startet, wenn offensichtlich wird, daß die Benutzer-Arbeitsumfangausdehnungen zu gering waren. Die Schlußfolgerung basiert auf der Tatsache, daß bestimmte Benutzer Programme ablaufen ließen, die mehr Speicher als zulässig verlangten, und, wie in der Schablone für Regel 7 im Anhang 1 erklärt, WSEXTENT für bestimmte Benutzer inkrementiert werden sollte. Mit der Nachrichtenschablone ebenfalls ausgedruckt werden Benutzernamen, Arbeitsmengenquoten und -ausdehnungen, Programmnamen, Zeiten, Arbeitsmengengrößen, Programmfehlerraten, Gesamtfehlerraten und die Größe der Frei-Liste.
Wenn die Antwort beim Entscheidungspunkt 930 nein ist, dann wird der Stoppunkt 931 erreicht. Wenn die Antwort bei der Entscheidung 928 nein ist, dann wird der Entscheidungspunkt 932 erreicht, an dem gefragt wird, ob die Gesamtzahl der Prozesse größer als BALSETCNT ist. BALSETCNT ist ein Parameter, der die Anzahl der Prozesse anzeigt, die mit Datenstrukturen vorkonfiguriert werden. Außerdem wird eine Frage gestellt, ob es zusätzlichen freien Speicher (freemem) gibt, der gleich (freecnt + mfycnt) minus (FREEGOAL + HILIMIT) ist, und ob die Einlagerungsrate größer als null war. Diese letzten zwei Fragen dienen zum Feststellen, ob es irgendwelchen zusätzlichen freien Speicher gibt, und ob es Prozesse gibt, die ausgetauscht werden.
Wenn ja, dann wird Regel 8 gestartet, die angibt, daß es übermäßig viele Seitenfehler gibt, obwohl genügend freier Speicher vorhanden ist. Die Nachrichtenschablone für Regel 8 (Anhang 1) zeigt an, daß die Ein-/Auslagerungssteuerung offensichtlich die Arbeitsmengen unnötigerweise beschneidet, um sie für einen Austausch vorzubereiten. Die Empfehlung in der Nachrichtenschablone ist, daß der Parameter BALSETCNT inkrementiert wird, um die Ein-/Auslagerungssteuerung daran zu hindern, die Prozesse zu beschneiden, wenn es genügend Speicher gibt, und dabei die Seitenfehler verringert. Die zusammen mit der Information ausgedruckten Daten beinhalten die Zeit, die Gesamtfehlerrate, die Rate schwerer Fehler, die Programmaktivitätsrate, die Größe der Frei-Liste und die Anzahl an Prozessen in dem System.
Wenn die Antwort beim Entscheidungspunkt 932 nein ist, dann wird der Entscheidungspunkt 934 erreicht, der die Parameter BORROWLIM und GROWLIM vergleicht. Der Parameter BORROWLIM gibt an, ob ein Prozeß sich eignet, zusätzlichen Speicher zu erhalten, und der Parameter GROWLIM gibt an, ob ein Prozeß diesen Speicher wirklich erhalten wird. Wenn BORROWLIM geringer als GROWLIN ist, startet Regel 9. Die Lösung für das Problem, das durch Regel 9 angezeigt wird, wird in der Nachrichtenschablone für diese Regel vorgeschlagen, und dieser Vorschlag ist, den Parameter GROWLIM unter BORROWLIM zu senken, um eine Zuweisung von verfügbarem Speicher zu ermöglichen. Zusätzlich zu dem Benutzernamen, dem Programmnamen, dem Arbeitsmengenumfang, der Programmfehlerrate und der Zeit werden auch verschiedene Parameter zusammen mit der Information ausgedruckt, einschließlich PFRATH, BORROWLIM, GROWLIM, PAGE CACHE, FREELIM, FREEGOAL, WSMAX, wobei der letztgenannte Parameter den maximalen Arbeitsmengenumfang angibt.
Wenn das Ergebnis der Entscheidung dieses Entscheidungspunkts 934 nein ist, d. h. wenn BORROWLIM größer als oder gleich GROWLIM ist, dann wird Entscheidungspunkt 936 erreicht. Beim Entscheidungspunkt 936 wird WSINC geprüft, um zu sehen, ob es gleich null ist. Dieser Zustand kommt vor, wenn die AWSA (automatische Arbeitsmengeneinstellung) abgeschaltet wird. Wenn ja, dann startet Regel 10. Das Problem ist, daß die VMS zusätzlichen Speicher nicht zuweisen kann, um die übermäßig vielen Seitenfehler zu verringern. Dies wird in der Nachrichtenschablone für Regel 10 im Anhang 1 erklärt. Dieses Problem kann durch Einstellen von WSINC auf 150 oder auf irgendeinen anderen geeigneten Wert korrigiert werden.
Wenn die Ermittlung beim Entscheidungspunkt 936 so ist, daß WSINC nicht gleich null ist, dann wird der Entscheidungspunkt 938 erreicht, bei welchem verschiedene andere Entscheidungen durchgeführt werden. Die erste ist, ob der freie Speicher größer als ein bestimmter Schwellwert ist, wie z. B. 100. Die zweite ist, ob es entweder zwei Prozesse oder fünf Prozent der Prozesse gibt, die zu viele Seitenfehler haben (z. B. mehr als oder gleich 10), eine CPU-Zeit, die zu groß ist (wie z. B. größer als oder gleich 0,2 Sekunden), eine wssiz haben, die geringer als WSEXTENT minus WSINC ist, und eine wssiz haben, die größer als (7/8) * WSLIST ist. WSLIST ist die potentielle Größe der Arbeitsmenge. Wenn ja, dann wird offensichtlich, daß das AWSA zu langsam ist, da der Arbeitsmengenumfang auf mehr Seiten angewachsen sein könnte, aber nicht ist.
Bei dieser positiven Entscheidung wird der Entscheidungspunkt 940 erreicht und eine Ermittlung wird durchgeführt, ob es irgendwelche Benutzer gibt, die in der RSN$-SWPFILE warten. Das ist die Datei, die alle Prozessoren angibt, die auf Speicherplatz warten, die aber nicht passen. Wenn es in dem Wartezustand auf die Zuteilungsdatei Prozesse gibt, dann wird Regel 11 gestartet. Wie die Schablone für Regel 11 im Anhang 1 aussagt, ermöglicht das Vergrößern der Swappingdatei, daß die Prozesse wachsen und Fehler beseitigen können. Die mit der Nachrichtenschablone ausgedruckten Daten enthalten die Zeit, die Gesamtfehlerrate, die Rate schwerer Fehler, die Programmaktivitätsrate, die Größe der Frei-Liste und die Anzahl der Prozesse in dem System.
Wenn die Entscheidung beim Entscheidungspunkt 940 nein ist, weil keine Prozesse in der Zuteilungsdatei warten, dann wird beim Entscheidungspunkt 942 PFRATH (Seitenfehlerrate hoch) mit einem Schwellwert verglichen, wie z. B. 160. Wenn diese Bedingung zutrifft, dann startet Regel 12, die anzeigt, daß AWSA für eine Reaktion Zeit benötigt, um zu reagieren, weil es übermäßig viele Seitenfehler gegeben hat, obwohl es übermäßig vielen freien Speicher gab. Die Nachrichtenschablone für Regel 12 ist im Anhang 1. Wenn die Information ausgedruckt wird, wird der Wert für PFRATH, ebenso wie die Zeit, die Gesamtfehlerrate, die Rate schwerer Fehler, die Programmaktivitätsrate und die Größe der Frei-Liste ausgedruckt.
Wenn die Bedingung am Entscheidungspunkt 942 nicht zutrifft, dann wird der Entscheidungspunkt 944 erreicht, bei welchem die Größe von WSINC mit einem Schwellwert verglichen wird, wie z. B. 100. Wenn WSINC geringer als dieser Schwellwert ist, dann startet Regel 13. Die Nachrichtenschablone für Regel 13, die im Anhang 1 gezeigt wird, gibt an, daß der Grund für die langsame Reaktion des AWSA offenbar im zu langsam Wachsen der Arbeitsmengen liegen, und die Vergrößerung von WSINC kann diese Bedingung verbessern. Mit der Nachrichtenschablone werden auch die Zeit, die Gesamtfehlerrate, die Rate schwerer Fehler, die Programmaktivitätsrate und die Größe der Frei-Liste ausgedruckt.
Wenn das Ergebnis beim Entscheidungspunkt 944 nein war, dann wird der Entscheidungspunkt 946 erreicht, welcher die Parameter AWSTIM mit einem Schwellwert vergleicht, wie z. B. 50. Der Parameter AWSTIM ist der Betrag der CPU-Zeit zwischen aufeinanderfolgenden Arbeitsmengeneinstellungen. Wenn diese Zahl zu hoch ist, startet Regel 14. Die Schablone für diese Nachricht zeigt an, daß der Parameter AWSTIME, der die geringste Zeit zwischen Arbeitsmengeneinstellungen ist, verringert werden sollte, wie z. B. auf 220, oder der Nutzen von AUTOGEN kann zugelassen werden, um AWSTIM zurückzusetzen. Die Zeit, die Gesamtfehlerrate, die Rate schwerer Fehler, die Programmaktivitätsrate und die Größe der Frei-Liste würden zusammen mit der Nachrichtenschablone ausgedruckt oder angezeigt werden. Wenn das Ergebnis der Ermittlung beim Entscheidungspunkt 946 nein ist, dann wird der Stoppunkt 948 erreicht.
Wenn die Entscheidung beim Entscheidungspunkt 938 nein war und das AWSA nicht als zu langsam empfunden wurde, dann wird der Entscheidungspunkt 950 erreicht, welcher fragt, ob die freiwillige Abnahme eingeschaltet worden ist. Wenn nicht, dann wird der Entscheidungspunkt 952 erreicht, und es werden zwei andere Prüfungen vorgenommen. Die erste enthält die Ermittlung, ob die zwei wichtigsten Prozesse, die Fehler nachweisen, kleinere Arbeitsmengengrößen als die Prozesse mit den zwei größten Arbeitsmengenumfangprozessen haben. Die zweite Ermittlung ist, ob freecnt geringer ist als BORROWLIM plus WSINC. Wenn beide Bedingungen zutreffen, dann wird eine freiwillige Abnahme benötigt und Regel 15 startet. Die Nachrichtenschablone für Regel 15 im Anhang 1 schlägt eine Korrektur durch den Parameter WSDEC (der Betrag, mit welchem der Arbeitsmengenumfang dekrementiert werden kann) auf den geeigneten Wert, wie z. B. 35, und durch Einstellen des Parameters PFRATL (der Seitenfehlerrate-Low-Parameter) auf eine geringere Zahl wie z. B. 10, vor.
Wenn beim Entscheidungspunkt 950 festgestellt wird, daß die freiwillige Abnahme eingeschaltet worden ist, dann wird der Entscheidungspunkt 954 erreicht. Bei diesem Entscheidungspunkt wird eine Ermittlung durchgeführt, ob die Seitenfehlerrate der Platte (schwere Fehler) geringer ist als eine bestimmte Zahl, wie z. B. 10, und ob die zwei wichtigsten fehlernachweisenden Prozessoren (1) Größen haben, die geringer als WSEXTENT minus WSINC sind, und (2) ein pfrate (die Seitenfehlerrate pro Prozeß) größer als PFRATH haben. Wenn beide Bedingungen zutreffen, dann kann das AWSA die Arbeitsmengen zu sehr schrumpfen lassen, und so startet Regel 17. Die Schablone für Regel 17 im Anhang 1 gibt an, daß WSDEC und/oder PFRATL verringert werden sollten. Mit der Nachrichtenschablone werden auch die Zeit, die Gesamtfehlerrate, die Programmaktivitätsrate, die Rate schwerer Fehler und die Größe der Frei-Liste ausgedruckt.
Wenn die Ergebnisse der Entscheidungen entweder beim Entscheidungspunkt 952 oder beim Entscheidungspunkt 954 nein sind, wird der Entscheidungspunkt 956 erreicht. Verschiedene Bedingungen werden beim Entscheidungspunkt 956 geprüft. Die erste ist, ob freemem zu klein ist (d. h., weniger als oder gleich 100). Die zweite ist, ob SWPOUTPGCNT, die Größe, auf die der Prozeß bei einem Ein-/Auslagerungs steuerung-Beschneiden begrenzt wird, geringer ist als ein anderer Schwellwert, z. B. 200. Die dritte Bedingung ist, ob ein Drittel der Prozesse ihrer Quote oder dem SWPOUTPGCNT nahe sind (z. B. plus/minus 30 Seiten). Wenn alle drei Bedingungen zutreffen, ist offensichtlich, daß verschiedene Prozesse ohne Grund begrenzt worden sind, und das Ein-/Auslagerungssteuerung-Beschneiden zu stark war, und so startet Regel 16. Die Schablone für diese Regel gibt an, daß ein Erhöhen des LONGWAIT, was die Zeitdauer ist, die leere oder verlassene Prozesse von momentan untätigen Prozessen unterscheidet, die Ein-/Auslagerungssteuerung zwingen würde, momentan untätigen Prozessen mehr Zeit zu geben, bevor sie beschnitten werden. Zusätzlich zu der Schablone würde auch die Zeit, die Gesamtfehlerrate, die Programmaktivitätsrate, die Rate schwerer Fehler, der mittlere Arbeitsmengenumfang und der maximale Arbeitsmengenumfang ausgedruckt werden.
Wenn festgestellt wird, daß das Ein-/Auslagerungssteuerung-Beschneiden beim Entscheidungspunkt 956 nicht zu stark war, dann wird freemem wieder mit einem bestimmten Schwellwert, wie z. B. 100, beim Entscheidungspunkt 958 verglichen, um zu sehen, ob freier Speicher knapp ist. Wenn nicht, wird der Stoppunkt 959 erreicht. Wenn freier Speicher knapp ist, startet Regel 18, weil offensichtlich wird, daß übermäßig viele Seitenfehler wegen großen Speicherbedarfs existieren. Die Nachrichtenschablone für Regel 18 im Anhang 1 erklärt diese Bedingung genauer. Mit dieser Schablone würden die Zeit, die Gesamtfehlerrate, die Programmaktivitätsrate, die Rate schwerer Fehler und die Größe der Frei-Liste ausgedruckt werden.
Die vorherigen Regeln betrafen Seitenwechsel. Wenn jedoch beim Entscheidungspunkt 906 nicht zu viel Seitenwechsel gefunden wurde, dann muß die Frage des Swappings untersucht werden, die beim Entscheidungspunkt 960 auftritt. Besonders die Einlagerungsrate wird an diesem Punkt mit einem Schwellwert, wie z. B. 1, verglichen. Wenn die Einlagerungsrate größer als oder gleich 1 ist, dann wird der Entscheidungspunkt 962 erreicht.
Beim Entscheidungspunkt 962 werden die freien Ausgleichsplätze mit einem anderen Schwellwert verglichen, wie z. B. 2. Von den Ausgleichsplätzen entspricht jeder einem Prozeß, der coresident sein kann. Ein zu kleiner Wert für die freien Ausgleichsplätze bedeutet, daß es einen übermäßig vielen Aufwand wegen des Swappings gibt, und das BALSETCNT kann zu klein sein, da es keine freien Ausgleichsplätze gibt. Wenn das Ergebnis der Entscheidung am Entscheidungspunkt 962 positiv ist, wird Regel 19 gestartet. Die zugehörige Schablone für diese Regel wird im Anhang 1 gezeigt, die durch die Zeit, die Einlagerungsrate, die freie CPU-Zeit, das Verhältnis an freien Seiten, die Anzahl an Prozessen in der Ausgleichmenge und die Anzahl an ausgetauschten Prozessen begleitet wird.
Wenn beim Entscheidungspunkt 962 eine ausreichende Anzahl von freien Ausgleichplätzen gefunden wurden, dann werden der Entscheidungspunkt 964, die Summe aus ppgcnt plus cpgcnt für alle Prozesse mit der Gesamtanzahl von Benutzerseiten minus dem Cachespeicher minus 100 verglichen. Die Meßwerte ppgcnt und gpgcnt beziehen sich auf die Anzahl von Prozeßseiten bzw. die Anzahl von allgemeinen Seiten. Die Größe des Cachespeichers ist gewöhnlich die Größe von freecnt plus mfycnt, und der letzte Wert, 100, kann geändert werden, aber gewöhnlich bezieht er sich auf irgendeine Art Pufferanzahl oder Schlupf. Die bei dem Entscheidungspunkt 964 berücksichtigten Meßwerte und Parameter werden benutzt, um zu ermitteln, ob es für alle dieser Arbeitsmengen (d. h. ppgcnt plus gpgcnt übersteigt den anderen Wert) genügend Speicher gibt. Wenn ja, dann wird der Stoppunkt 965 erreicht. Wenn nicht, dann wird Entscheidungspunkt 966 erreicht.
Beim Entscheidungspunkt 966 wird die Größe des Cachespeichers mit dem kleineren Wert von entweder fünf Prozent des benutzbaren Speichers oder einer anderen Zahl, wie z. B. 3000, verglichen. Wenn der Cachespeicher größer als der kleinere Wert dieser zwei Zahlen ist, dann wird Regel 20 gestartet. Die Nachrichtenschablone für diese Regel erscheint im Anhang 1 und ist, wenn sie ausgedruckt oder angezeigt wird, mit der Zeit, der Einlagerungsrate, der freien CPU-Zeit, der freien Ausgleichplätze, der Anzahl von verfügbaren Speicherseiten und der Anzahl von benutzten Speicherplätzen verbunden.
Wenn die Entscheidung beim Entscheidungspunkt 966 nein ist, dann wird der Entscheidungspunkt 968 erreicht, bei welchem eine Ermittlung durchgeführt wird, ob die wichtigsten zwei Prozesse zusammen mehr als einen bestimmten Betrag von verwendbarem Speicher haben, wie z. B. fünf Prozent, und ob sie entweder mehr als die halbe Zeit im COM- (Rechen-) Modus oder gemeinsam mehr als die Hälfte des CPU benutzen. Wenn sie dies tun, startet Regel 21, weil eine Entscheidung durchgeführt wird, daß es große rechnerbegrenzte Prozesse gibt, welche die Systemkapazitäten verschlingen. Verschiedene Empfehlungen für diese Bedingung werden in der Nachrichtenschablone für Regel 21 im Anhang 1 gezeigt. Die zusammen mit der Information ausgedruckten Daten würden den Benutzernamen, die Arbeitsmengenquote, den Programmnamen, den Arbeitsmengenumfang, die Zeit, die Einlagerungsrate, die Anzahl an freien Ausgleichplätzen und die Größe der Frei-Liste enthalten.
Wenn beim Entscheidungspunkt 968 keine großen rechnerbegrenzten Prozesse erkannt werden, dann wird der Entscheidungspunkt 970 erreicht, der auf Prozesse mit einem NOSWAP-Satz achtet. Ein NOSWAP-Satz gibt an, daß dieser Prozeß nicht ausgetauscht werden kann. Wenn ein solcher Prozeß existiert, mehr als fünf Prozent des Benutzerspeichers hat und sich weniger als einige Prozent der Zeit im COM-Modus befindet, wie z. B. 10%, dann startet Regel 22. Wie in der Nachrichtenschablone für diese Regel im Anhang 1 gezeigt, wird ein Swapping vorgeschlagen. Mit der Nachrichtenschablone für Regel 22 wird auch der Benutzername, der Programmname, die Zeit, die Anzahl an freien Ausgleichplätzen, die Größe der Frei- Liste, der Arbeitsmengenumfang und die Einlagerungsrate ausgedruckt.
Wenn das Ergebnis beim Entscheidungspunkt 970 nein ist, dann wird der Entscheidungspunkt 972 erreicht. Beim Entscheidungspunkt 972 werden Abfragen durchgeführt, ob der größere Wert von 2 oder 5% des Prozesses mehr als 5% des Speichers ist. Wenn nicht, startet Regel 24 und zeigt durch Swapping verursachten übermäßig vielen Aufwand an. Zusätzlich zur Nachrichtenschablone für diese Regel würden auch die Zeit, die Einlagerungsrate, die Anzahl an freien Ausgleichplätzen und die Anzahl an für die Benutzer verfügbaren Speicherseiten ausgedruckt werden.
Wenn die Entscheidung im Knoten 972 ja ist, was anzeigt, daß kein übermäßig vieles Swapping stattfindet, dann wird der Entscheidungspunkt 974 erreicht, welcher abfragt, ob es irgendeinen Prozeß mit einem Arbeitsmengenumfang, der größer als die entsprechende Quote ist, gibt. Wenn es solche Prozesse gibt, dann wird Regel 23 gestartet, die angibt, daß es wahrscheinlich zu viel Ausborgen gegeben hat. Wie die Nachrichtenschablone für diese Regel vorschreibt, sollten BORROWLIM und GROWLIM vergrößert werden. Mit der Schablone für diese Regel würde auch der Benutzername, die Arbeitsmengenquote, der Programmname, der Arbeitsmengenumfang, die Zeit, die Anzahl an freien Ausgleichplätzen und die Einlagerungsrate ausgedruckt werden.
Wenn die Antwort beim Entscheidungspunkt 974 nein ist, dann wird der Entscheidungspunkt 976 erreicht. Wenn beim Entscheidungspunkt 976 entdeckt wird, daß die Anzahl an COMO-Prozessen größer als 50 Prozent aller Prozesse ist (d. h. die meisten der Prozesse sind berechenbar), dann wird der Entscheidungspunkt 978 erreicht.
Wenn beim Entscheidungspunkt 978 entdeckt wird, daß die Anzahl der COMO-Prozesse bei bpri (der niedrigsten Priorität) größer als oder gleich der Anzahl von COMO-Prozessen minus 1 ist (d. h. die COMO-Prozesse sind auf der Basispriorität), dann wird der Entscheidungspunkt 980 erreicht.
Beim Entscheidungspunkt 980 wird die Summe der Arbeitsmengengrößen für alle Stapelverarbeitungsaufträge mit einem bestimmten Prozentsatz des benutzbaren Speichers verglichen, wie z. B. 30 Prozent. Wenn die Summe der Arbeitsmengengrößen größer als dieser Prozentsatz ist, was anzeigt, daß es große Stapelverarbeitungsaufträge gibt, dann startet Regel 25. Die zugehörige Nachrichtenschablone erscheint im Anhang 1 und würde bei Ausdruck oder Anzeige von der Zeit, der Einlagerungsrate, der Anzahl an freien Ausgleichplätzen, der Anzahl an für Benutzer verfügbaren Speicherseiten und der Anzahl an berechenbaren Prozessen begleitet werden.
Wenn die Antwort beim Entscheidungspunkt 980 nein ist, dann startet Regel 26, die vorschlägt, daß, um den Aufwand wegen des Swappings zu reduzieren, der Betrag an Zeit zwischen den Swappings, d. h. der SWPRATE, vergrößert werden sollte. Die Schablone für Regel 26 ist auch im Anhang 1, und die Zeit, die Einlagerungsrate, die Anzahl an freien Ausgleichplätzen, die Anzahl an für Benutzer verfügbaren Speicherseiten und die Anzahl an berechenbaren Prozessen würden mit dieser Schablone ausgedruckt werden.
Wenn die Entscheidung des Entscheidungspunktes 978 so war, daß alle COMO-Prozesse nicht auf der Basispriorität waren, dann wird der Entscheidungspunkt 982 erreicht, bei welchem die Differenz zwischen der Gesamtzahl an Seitenfehlern und der gültigen Fehler mit einer bestimmten Schwellwertzahl verglichen wird, wie z. B. 25. Die gültigen Fehler geben die Anzahl der durch das Swapping verursachten Seitenfehler an. Die gesamten Seitenfehler schließen sowohl die schweren als auch die leichten Seitenfehler ein. Wenn die Differenz größer als der Schwellwert ist, startet Regel 27. Die Nachrichtenschablone für diese Regel zeigt übermäßig vielen Aufwand an, der durch Swapping verursacht wurde, und gibt bestimmte Empfehlungen, wie z. B. Speicher hinzuzufügen oder die Arbeitsmengengrößen zu reduzieren. Mit der Schablone zusammen würde auch die Zeit, die Einlagerungsrate, die Anzahl an freien Ausgleichplätzen, die Anzahl der für Benutzer verfügbaren Speicherseiten, die Anzahl an berechenbaren Prozessen und die Gesamtfehlerrate ausgedruckt werden.
Wenn die Entscheidung beim Entscheidungspunkt 982 nein ist, dann startet Regel 28, die angibt, daß das System eher austauscht, als Seiten hinzufügt. Die Nachrichtenschablone für diese Regel enthält Vorschläge zum Wechsel in WSQUOTA, PFRATH, WSINC, um dieses Problem zu verringern. Die Daten, die an diese Schablone anzufügen sind, umfassen die Zeit, die Einlagerungsrate, die Anzahl an freien Ausgleichplätzen, die Anzahl der für Benutzer verfügbaren Speicherseiten und der Anzahl an berechenbaren Prozessen ebenso wie die Gesamtfehlerrate und die gültige Fehlerrate.
Wenn beim Entscheidungspunkt 976 festgestellt wurde, daß die meisten Prozesse nicht berechenbar waren, dann wird der Entscheidungspunkt 984 erreicht werden, der feststellt, ob das SWPOUTPGCNT zu groß ist, wie z. B. größer als 100. Wenn ja, wird Regel 29 gestartet, die angibt, daß übermäßiger Aufwand, der durch Swapping verursacht wurde, aufgetreten ist. Die Nachrichtenschablone für diese Regel schlägt eine Reduzierung von SWPOUTPGCNT vor. Dieser Schablone würden die Zeit, die Gesamtarbeitsmengengröße, die maximale Arbeitsmengengröße, die Einlagerungsrate, die Anzahl an freien Ausgleichplätzen, die Anzahl der für Benutzer verfügbaren Speicherseiten und die Anzahl an berechenbaren Prozessen angefügt werden.
Wenn das Ergebnis der Ermittlung beim Entscheidungspunkt 984 so ausfällt, daß SWPOUTPGCNT nicht zu gering war, dann startet Regel 30. Die Nachrichtenschablone für diese Regel ist, daß zu viel Speicher an unbelegte Prozesse verschwendet wird, und es werden Wechsel bei WSQUOTA, PFRATH, WSINC und SET PROC/NOSWAP vorgeschlagen. Dieser Schablone würden die Zeit, die Gesamtarbeitsmengengröße, die maximale Arbeitsmengengröße, die Einlagerungsrate, die Anzahl an freien Ausgleichplätzen, die Anzahl der für Benutzer verfügbaren Speicherseiten und die Anzahl an berechenbaren Prozessen angefügt werden.
Wenn, zum Entscheidungspunkt 960 zurückgekehrt, festgestellt wurde, daß es nicht zu viel Swapping gegeben hat, dann muß der knappe freie Speicher untersucht werden, was beim Entscheidungspunkt 986 geschieht. Bei diesem Entscheidungspunkt wird die Summe an Arbeitsmengen von bestimmten Prozessen mit einem bestimmten Prozentsatz an benutzbarem Speicher verglichen, wie z. B. 25 Prozent. Diese Prozesse, deren Arbeitsmengengrößen in die Summe eingehen, umfassen diejenigen mit genügend kleinen Seitenfehlerraten und diejenigen, deren Größen geringer sind als WSQUOTA. Wenn diese Bedingung zutrifft, dann startet Regel 31, da die Zuteilung von Speicher möglich erscheint. Die Nachrichtenschablone für Regel 31 schlägt eine Reduzierung bei WSQUOTA dieser großen Benutzer vor. Die Schablone für Regel 31, die auch im Anhang 1 gezeigt ist, würde zusammen mit der Zeit, der Einlagerungsrate, der Größe der Frei-Liste, der Gesamtfehlerrate, dem Benutzernamen, der Arbeitsmengenquote, der Arbeitsmengengröße und der Programmfehlerrate gedruckt oder angezeigt werden.
Wenn die Entscheidung beim Entscheidungspunkt 986 so ausfiel, daß die Zuteilung von Speicher nicht möglich erschien, dann wird die Frei-Listengröße beim Entscheidungspunkt 988 mit FREEGOAL verglichen. Wenn die Frei-Listengröße größer als oder gleich FREEGOAL ist, dann wird der Stoppunkt 990 erreicht. Andernfalls wird Regel 32 gestartet, die angibt, daß bald ein Problem auftreten kann. Dies wird in der Nachrichtenschablone für Regel 32 (Anhang 1) erläutert, welcher die Zeit, die Einlagerungsrate, die Größe der Frei-Liste, die Größe der modifizierten Liste und die Gesamtfehlerrate beigefügt würde.
Die Regeln für die CPU sind in Fig. 10A und 10B gezeigt und beinhalten die Regeln 33-39. Die erste Frage, die beim Entscheidungspunkt 1000 gestellt wird, ist, ob die COM- und COMO-Prozesse zusammen größer als oder gleich 5 sind. Wenn nicht, und dadurch wird angezeigt, daß es nicht zu viele berechenbare Prozesse gibt, wird dann der Stoppunkt 1005 erreicht. Wenn die Antwort beim Entscheidungspunkt 1000 ja ist, dann wird beim Entscheidungspunkt 1010 die Ermittlung durchgeführt, ob der Benutzer der CPU mit der höchsten Priorität eine höhere Basispriorität hat als ein anderer Prozeß, der mehr als ein Drittel der Zeit in dem COM-Modus ist und auch eine genügend hohe Basispriorität hat, wie z. B. mehr als 4. Wenn diese Bedingungen zutreffen, dann wird eine Schlußfolgerung erreicht, daß es eine höhere Prioritätsverriegelung gibt und es wird der Vorschlag gemacht, die Basisprioritäten einzustellen, wie in der Schablone für Regel 33 in Fig. 2 gezeigt ist. Wenn nicht, dann wird beim Entscheidungspunkt 1015 das PRO_L_COM für alle Prozesse, die eine Basispriorität von größer als oder gleich einer bestimmten Zahl, wie z. B. 4, haben, zusammengezählt. Das PRO_L_COM ist die Anzahl, wie oft ein Prozeß als berechenbar erkannt worden ist. Wenn diese Summe größer als oder gleich einem anderen Schwellwert ist, wie z. B. 5, und wenn es einen einzigen Prozeß gibt, der mehr als die Hälfte (oder irgend einen anderen entsprechenden Prozentsatz) der CPU benutzt, dann wird Regel 4 gestartet, welche angibt, daß es einen "hog"-Prozeß gibt, der geprüft werden muß, wie die Schablone für Regel 34 im Anhang 2 anzeigt. Wenn das Ergebnis beim Entscheidungspunkt 1015 nein ist, dann wird beim Entscheidungspunkt 1020 die Unterbrechungs-CPU-Zeit mit einem bestimmten anderen Schwellwert verglichen, wie z. B. 20. Wenn die Unterbrechungs-CPU-Zeit genügend lang ist, wodurch angezeigt wird, daß es beim Unterbrechungsstapel zu viel CPU-Zeit gibt, dann werden mehrere verschiedene Aktionen vorgeschlagen, einschließlich der Neukonfigurierung mit Hilfe anderer Kommunikationseinrichtungen, wie z. B. der DMF 32 oder DMZ 32, die andere Unterbrechungen benutzen und die Warteschlangen-Ein-/Ausgänge (QIO) in eine andere Art von Operationen umwandeln und diese in einen Puffer eingeben oder Programme, die Datensichtgeräte benutzen, wiederberechnen. Die Schablone für Regel 35 ist ebenfalls im Anhang 2 enthalten.
Wenn es nicht zu viel CPU-Zeit in dem Unterbrechungsstapel gibt, dann ist die in dem nächsten Entscheidungspunkt, dem Entscheidungspunkt 1025 durchgeführte Ermittlung, ob es CPU-Leerlaufzeit gibt. Wenn ja, dann wird der Stoppunkt 1030 erreicht. Wenn nein, dann wird der Entscheidungspunkt 1035 erreicht. Beim Entscheidungspunkt 1035 wird die Kernzeit der CPU mit einem bestimmten Schwellwert verglichen, wie z. B. 30. Die Kernzeit im VMS-Code bezieht sich auf die Systemdienste und die Aufwandaufgaben. Wenn die Ermittlung ergibt, daß es zu viel CPU-Kernzeit gibt, dann wird der Entscheidungspunkt 1040 erreicht, bei welchem die Variable QUANTUM mit einem Schwellwert verglichen wird, wie z. B. 15, die Gesamtanzahl an Seitenfehlern im Vergleich zu einem anderen Schwellwert geprüft wird, wie z. B. 100, und die Gesamtanzahl der schweren Fehler gegenüber noch einem anderen Schwellwert geprüft wird, wie z. B. 10. QUANTUM ist der Zeitbetrag, den ein Prozeß erhält, um anzulaufen, bevor er ausgeführt wird. Wenn diese Zeit genügend lang ist und die schweren und leichten Seitenfehlerraten unter einem Schwellwert liegen, dann tritt das Problem mit der Kernmoduszeit vielleicht wegen des übermäßig vielen Gebrauchs irgendwelcher Systemdienste auf. Die Schablone für Regel 36, die startet, wenn die Entscheidung beim Entscheidungsknoten 1040 ja ist, ist im Anhang 2 gezeigt.
Wenn die Entscheidung beim Entscheidungspunkt 1040 negativ ist, dann wird die Variable QUANTUM beim Entscheidungspunkt 1045 mit diesem gleichen Schwellwert verglichen, um zu sehen, ob sie geringer als der Schwellwert ist. Wenn sie es nicht ist, dann wird der Stoppunkt 1050 erreicht. Wenn sie es ist, dann startet Regel 37 und der Vorschlag ist, die QUANTUM-Zeit zu erhöhen, wie in der Schablone für Regel 37 im Anhang 2 gezeigt ist.
Wenn beim Entscheidungspunkt 1035 festgestellt wurde, daß die Kernzeit nicht übermäßig ist, wird der Entscheidungspunkt 1055 erreicht, welcher nachprüft, um zu sehen, ob die Ausführungsmoduszeit einen Schwellwert überschreitet, wie z. B. 20. Wenn sie dies tut, startet Regel 38, und wenn nicht, startet Regel 39. Die Nachrichtenschablone für beide Regeln erscheint im Anhang 2.
Die Fig. 11A-11D zeigen die Regeln für I/O. Die erste Entscheidung, die beim Entscheidungspunkt 1100 durchgeführt werden muß, ist, ob die Platte, welche die meisten Operationen pro Sekunde ausführt, größer als oder gleich einem Soll- Schwellwert ist oder ob irgendeine Platte Operationen für einen zweiten, größeren oder gleichen Schwellwert hat. Wenn ja, dann wird der Entscheidungspunkt 1110 erreicht, bei welchem die Zeit, die in dem Dateiensystem (d. h. die Dateien, die nötig sind, um ein I/O auszuführen) verbracht wird, mit dem Prozentsatz der CPU-Zeit verglichen wird. Wenn die Zeit, die in dem Dateiensystem verbracht wird, größer als der Prozentsatz der CPU-Zeit ist dann wird der Entscheidungspunkt 1115 erreicht.
Beim Entscheidungspunkt 1115 wird das Datei-Cachespeicher-Trefferverhältnis mit einem Schwellwert verglichen, wie z. B. 70, und die I/O-Fehlerrate wird ebenfalls mit einem Schwellwert verglichen, wie z. B. 5. Das Datei-Cachespeicher-Trefferverhältnis ist das Verhältnis von Treffern des Datei-Cachespeichers zu den Fehlschlägen, und die I/O-Fehlerrate ist die Anzahl pro Sekunde, wie oft die Prozesse unterbrachen, um Informationen über eine Datei zu bekommen, und sie nicht finden konnten. Wenn die Datei-Cachespeicher-Trefferrate nicht zu gering ist, und wenn die I/O-Fehlerrate nicht zu groß ist, dann wird Regel 40 gestartet. Die Nachrichtenschablone für Regel 40, die im Anhang 3 gezeigt wird, schlägt eine Neukonfigurierung des Dateisystems vor, um Aufwand zu erstellen.
Ansonsten wird, wenn die Datei-Cachespeicher-Trefferrate zu gering ist, oder die I/O-Fehlerrate zu hoch ist, der Entscheidungspunkt 1120 erreicht, bei welchem die Dateiöffnungsrate mit einem Schwellwert verglichen wird, wie z. B. 5 pro Sekunde. Wenn die Dateiöffnungsrate zu hoch ist, dann startet Regel 40. Die Nachrichtenschablone für Regel 40 schlägt eine Minimierung des Öffnens/Schließens von Dateien vor, wie in der Schablone für Regel 41 im Anhang 3 angegeben.
Wenn der Entscheidungspunkt 1120 dazu führt, daß die Entscheidung nein ist, dann wird der Entscheidungspunkt 1125 erreicht, bei welchem die Dateiheader- Cachespeicher-Fehlschläge mit der Gesamtprozentzahl der Cachespeicher-Fehlschläge verglichen werden. Wenn die Dateiheader-Cachespeicher-Fehlschläge geringer sind als ein bestimmter Prozentsatz, wie z. B. 90 Prozent, dann wird der Stoppunkt 1130 erreicht. Ansonsten wird Regel 42 gestartet, die eine Erhöhung in den Dateisystem-Cachespeichern vorschlägt, was die Nachrichtenschablone für diese Regel im Anhang 3 anzeigt.
Wenn beim Entscheidungspunkt 1110 die CPU-Zeit in der Datei nicht zu lang war, dann wird der Entscheidungspunkt 1135 erreicht, bei welchem die Ausführungsmoduszeit der CPU mit einem Schwellwert verglichen wird, wie z. B. 20. Wenn die Ausführungsmoduszeit der CPU über diesem Schwellwert liegt, dann wird Regel 43 gestartet, wobei sie darauf hindeutet, daß es übermäßig viele I/O-Nachfragen mit hohen Ausführungsmoduszeiten gibt. Eine gewisse erneute Konfigurierung wird in der Nachrichtenschablone für Regei 43 empfohlen, wie im Anhang 3 gezeigt.
Wenn jedoch die CPU-Ausführungszeit geringer als der Schwellwert ist, dann wird der Entscheidungspunkt 1140 erreicht, und die Seitenwechsel- und Swappingoperationen pro Sekunde zur Platte mit den meisten Operationen pro Sekunde werden mit einem bestimmten Prozentsatz, wie z. B. 50 Prozent der Gesamtoperationen pro Sekunde zu dieser Platte verglichen.
Wenn festgestellt wird, daß die Platte nicht hauptsächlich Seitenwechsel und Swapping ausführt, dann wird der Entscheidungspunkt 1145 erreicht. Beim Entscheidungspunkt 1145 wird das Spitzen-DIRIO (Direkt-Ein-/Ausgang), die dirio der Benutzer pro Sekunde mit dem Gesamtsystem-dirio pro Sekunde verglichen. Wenn die dirio der Spitzenbenutzer pro Sekunde mehr ist als ein gewisser Prozentsatz, wie z. B. 50 Prozent des Gesamtsystem-dirio pro Sekunde, und die Schlange bei der Platte bei den meisten Operationen pro Sekunde größer ist als 1,5 (durchschnittliche Länge), dann wird Regel 44 gestartet, die wieder eine erneute Konfiguration speziell der Platten-I/O vorschlägt. Für Einzelheiten siehe die Nachrichtenschablone für Regel 44 im Anhang 3. Wenn beim Entscheidungspunkt 1145 festgestellt wird, daß ein Benutzer nicht die meisten I/O mit der Platte ausführt, oder die Platte keine Schlange hat, dann wird der Stoppunkt 1150 erreicht.
Wenn beim Entscheidungspunkt 1140 festgestellt wird, daß die Platte hauptsächlich Seitenwechsel und Swapping ausführt, wird der Entscheidungspunkt 1155 erreicht, bei dem eine Entscheidung getroffen wird, ob die Seitenwechseloperationen allein von der Platte mit den meisten Operationen pro Sekunde einen bestimmten Prozentsatz überschreiten, wie z. B. 50 Prozent der Operationen pro Sekunde von dieser Platte. Wenn ja, wird festgestellt, daß die Platte hauptsächlich Seitenwechsel ausführt, und Regel 45 wird gestartet, die bestimmte Konfigurationen vorschlägt, die in der Nachrichtenschablone für Regel 45 aufgeführt sind.
Wenn beim Entscheidungspunkt 1155 festgestellt wurde, daß die am meisten belegte Platte hauptsächlich Seitenwechsel durchführt, dann wird der Entscheidungspunkt 1160 erreicht.
Beim Entscheidungspunkt 1160 werden die Swappingoperationen zur Platte mit den meisten Operationen pro Sekunde mit 50 Prozent dieser Operationen verglichen. Wenn festgestellt wird, daß die Platte nicht hauptsächlich Swapping durchführt, dann wird Stoppunkt 1165 erreicht. Wenn festgestellt wird, daß die Platte hauptsächlich Swapping durchführt, dann wird Regel 46 gestartet, die anzeigt, daß das Swapping eine übermäßige Belastung auf der Platte erzeugt, und zusätzliche Untersuchungen gemäß der Nachrichtenschablone für Regel 46 im Anhang 3 vorschlägt.
Wenn, zum Entscheidungspunkt 1100 zurückgekehrt, festgestellt wird, daß die I/O-Rate zu einer Platte nicht größer als der Geräte-Schwellwert ist, so wird der Entscheidungspunkt 1105 erreicht, welcher zwei Fragen stellt. Die erste ist, ob irgendeine Platte eine Schlange hat, die länger als oder gleich 1,5 (gemittelt) ist. Die zweite Frage ist, ob das FCP-Drehungs-/Dateiöffnungsverhältnis größer als oder gleich einem bestimmten Verhältnis ist, wie z. B. 3. Die FCP-Drehungen stehen für die Dateisteuerparameter, die sich auf Pseudo-Cachespeicherzugriffe beziehen, und geben die Anzahl an, die das System auf eine Datei zugreift, um Informationen zu erhalten. Wenn beide dieser Bedingungen zutreffen, dann startet Regel 47, und das Verfahren dieser Erfindung stellt fest, daß es ein Zerstückelungsproblem auf den Platten geben kann. Die Empfehlungen, solch ein Problem zu korrigieren, sind in der Nachrichtenschablone für Regel 47 aufgeführt, die im Anhang 3 gezeigt ist.
Wenn das Ergebnis der Ermittlung beim Entscheidungspunkt 1105 negativ ist, dann wird der Entscheidungspunkt 1170 erreicht, und die folgenden zwei Ermittlungen werden durchgeführt. Die erste ist, ob die gepufferte I/O-Rate größer als oder gleich einem bestimmten Schwellwert ist, wie z. B. 70, und die zweite Ermittlung ist, ob die Summe aus COM und COMO einen bestimmten Schwellwert überschreitet, wie z. B. 5. Wenn beide Bedingungen nicht zutreffen, dann wird der Stoppunkt 1175 erreicht.
Wenn jedoch beide Bedingungen zutreffen, dann wird beim Entscheidungspunkt 1180 die gesamte Anschluß-Ein-/Ausgaberate mit einem anderen Schwellwert verglichen, wie z. B. 60. Wenn die gesamte Anschluß-Ein-/Ausgaberate größer als der Schwellwert ist, dann wird der Entscheidungspunkt 1185 erreicht.
Beim Entscheidungspunkt 1185 wird die Gesamt-CPU-Unterbrechungszeit mit einem weiteren Schwellwert verglichen, wie z. B. 20. Wenn die Gesamt-CPU-Unterbrechungszeit größer als dieser Schwellwert ist, dann wird der Entscheidungspunkt 1190 erreicht.
Beim Entscheidungspunkt 1190 wird das Vorhandensein eines DMF 32 oder DMZ 32 festgestellt. Wenn sie vorhanden sind, dann startet Regel 48. Die Entscheidung ist, daß die Anschluß-Ein-/Ausgabe die CPU mit Unterbrechungen belastet, und es werden entsprechende Vorschläge für die Neukonfigurierungen gemacht, gemäß der Nachrichtenschablone für Regel 48.
Wenn nicht, dann startet Regel 49, die eine andere Art der Neukonfigurierung vorschlägt. Dieser Vorschlag wird in der Nachrichtenschablone für Regel 49 im Anhang 3 erklärt.
Wenn beim Entscheidungspunkt 1185 ermittelt wurde, daß die CPU-Zeit beim Unterbrechungsstapel nicht zu lang war, dann wird der Entscheidungspunkt 1195 erreicht. Beim Entscheidungspunkt 1195 wird die CPU-Zeit im Kernmodus mit diesem Schwellwert, wie z. B. 30, verglichen. Wenn die CPU-Zeit in dem Kernmodus nicht zu lang ist, dann wird der Stoppunkt 1198 erreicht. Andernfalls startet Regel 50, die ein Redesign vorschlägt, um die große Anzahl von QIOs zu verringern. Die Einzelheiten der Empfehlung werden für die Nachrichtenschablone für Regel 50 gegeben.
Wenn beim Entscheidungspunkt 1180 die I/O-Rate zu den Anschlußgeräten geringer als der ermittelte Schwellwert war, dann startet Regel 51, die anzeigt, daß bestimmte andere Anschlußgeräte die CPU-Kapazität verbrauchen können, wie in der Nachrichtenschablone für Regel 51 im Anhang 3 angezeigt wird.
Die anderen Regeln sind Kanalregeln, Betriebsmittelregeln und Clusterregeln. Die eine Kanalregel, Regel 52, ermittelt, ob alle der I/Os pro Sekunde an einem bestimmten CI- (Kommunikationsschnittstellen-) Port größer als ein Schwellwert sind, wie z. B. 2125000, oder, ob die I/Os pro Sekunde an einer einzigen UBA (universellen Busadresse) größer sind als ein anderer Schwellwert, wie z. B. 1000000, oder ob die Summe aller I/Os pro Sekunde an einer einzigen MBA (Massen-Busadresse) größer ist als ein anderer Schwellwert, wie z. B. 1700000. Wenn ja, dann startet Regel 53, und die Information in der Schablone für Regel 52 (Anhang 4) wird, nachdem die Regel genügend oft gestartet ist, gedruckt oder angezeigt.
In dem bevorzugten Ausführungsbeispiel dieser Erfindung gibt es auch mehrere Kapazitätsregeln, die nachfolgend als Regeln 53-70 bezeichnet werden. Die Nachrichtenschablonen für diese Regeln erscheinen auch im Anhang 5.
Regel 53 ermittelt, ob für einen bestimmten Knoten die Summe von DECNET, die als lokale Datenpakete pro Sekunde ankommen, plus die von DECNET, die als lokale Datenpakete pro Sekunde weggehen, plus die von DECNET, die als Datenpakete pro Sekunde übertragen werden, größer als oder gleich einem bestimmten Schwellwert ist, wie z. B. 100. Wenn ja, dann wird die Entscheidung gefällt, daß zu viele Datenpakete von einem bestimmten Knoten behandelt werden, und dann startet Regel 53.
Die nächste Regel, Regel 54, fragt, ob irgendein Programm in einem Prozeß auf die Briefbox (RSN$MAILBOX) wartet, um Nachrichten öfter als eine bestimmte Anzahl zu übertragen, wie z. B. 2 mal. Wenn ja, startet Regel 54, und die jeweilige Nachrichtenschablone im Anhang 5 wird ab genügender Häufigkeit ausgedruckt oder angezeigt.
Regel 55 ermittelt, ob irgendein Prozeß auf den nicht in Seiten unterteilten (nonpaged) dynamischen Speicher (RSN$NPDYNMEM) wartet. Wenn ja, startet Regel 55. Die entsprechende Nachrichtenschablone für Regel 55 ist auch im Anhang 5.
Für Regel 56 wird eine Ermittlung durchgeführt, ob irgendein Prozeß auf die Seitenwechsel-Dateikapazität (RSN$PGFILE) wartete. Wenn ja, startet Regel 56.
Regel 57 startet, wenn irgendein Prozeß auf den in Seiten unterteilten dynamischen Speicher (RSN$PGDYNMEM) wartete.
Regel 58 startet, wenn irgendein Prozeß auf die Kapazitätsregel RSN$LOCKID wartete. Diese Kapazität bezieht sich auf eine codegesicherte Datenbank, die für die Kommunikation zwischen verschiedenen VAX-Computersystemen in einem Cluster benutzt werden kann. Wenn ein Prozeß wartete, dann ist die codegesicherte Datenbank voll. Die Nachrichtenschablone für Regel 58, die auch im Anhang 5 ist, erläutert diese Bedingung.
Für Regel 59 wird eine Ermittlung durchgeführt, ob irgendein Prozeß auf die Swapping-Dateikapazität (RSN$SWPFILE) wartete, weil dieser Swappingdateiplatz voll war. Wenn ja, dann startet Regel 59, und die entsprechende Nachrichtenschablone aus Anhang 5 wird ab einer bestimmten Häufigkeit ausgedruckt oder angezeigt.
In Regel 60 wird eine Ermittlung durchgeführt, ob irgendein Prozeß auf das Betriebsmittel modifizierter Blattschreiber gewartet hat, weil dieser beschäftigt war (RSN$MPWBUSY). Das modifizierte Betriebsmittel Blattschreiber schreibt die modifizierten Seiten auf die Platte zurück. Wenn ja, startet Regel 60, und nach genügenden Starts dieser Regel wird die Nachrichtenschablone im Anhang 5 ausgedruckt oder angezeigt, wobei sie auf Gründe für diese Bedingung und die durchzuführenden Aktionen hindeutet.
Für Regel 61 wird erst die Ermittlung durchgeführt, ob ein Prozeß auf das Betriebsmittel RSN$SCS wartet. Dieses Betriebsmittel ist ein Kommunikationsprotokoll. Wenn ja, und wenn diese Bedingung mehr als eine bestimmte Anzahl pro Programm stattgefunden hat, wie z. B. 2 mal, dann startet Regel 61.
Regel 62 startet, wenn irgendein Prozeß auf das Betriebsmittel RSN$CLUSTRAN wartet. Dieses Betriebsmittel ermittelt, ob der Cluster bei der Durchführung der Addition oder Subtraktion eines Knotens ist.
Regel 63 prüft, ob die Seitenfehler von dem VMS-Operationssystem einen bestimmten Schwellwert übersteigt, wie z. B. drei Fehler pro Sekunde. Wenn ja, dann werden Vorschläge für das Auswechseln der Arbeitsmengengröße des VMS gemacht, wenn diese Regel genügend oft startet. Die Nachrichtenschablone für Regel 63, die diese Vorschläge enthält, ist im Anhang 5.
In der Regel 64 wird die Anzahl an in Betrieb befindlichen SRPs (kleine Anforderungspakete) mit dem Parameter SRPCOUNT plus einem bestimmten Prozentsatz, wie z. B. 5%, verglichen. Wenn ja, dann startet Regel 64.
Regel 65 und 66 sind ähnlich wie Regel 64, aber sie vergleichen jeweils die IRPs (Zwischenanforderungspakete) bzw. die LRPs (große Anforderungspakete) entsprechend mit IRPCOUNT plus ein bestimmter Prozentsatz bzw. mit LRPCOUNT plus ein bestimmter Prozentsatz. Diese Prozentsätze können auch 5% sein.
Regel 67 startet, wenn die Anzahl an in Betrieb befindlichen, nicht in Seiten unterteilten Poolbits NPAGEDYN plus einem bestimmten Prozentsatz wie z. B. 5% übersteigt. NPAGEDYN ist die Anzahl an nicht in Seiten unterteilten Dynamikspeicherbits, die einem nicht in Seiten unterteilten Dynamikspeicher vorher zugeordnet sind.
Regel 68 ist die Betriebsmittelregel für die Hash-Tabelle. Die Anzahl an in Betrieb befindlichen Betriebsmitteln wird mit dem Parameter RESHASHTBL verglichen, welcher die Anzahl an vorher zugeordneten Einträgen in die Hash-Tabelle zur Startzeit plus einem bestimmten Prozentsatz, wie z. B. 5% darstellt. Wenn ja, startet Regel 68. Die Nachrichtenschablone für diese Regel ist ebenfalls im Anhang 5.
Regel 69 startet, wenn die Anzahl an in Benutzung befindlichen Codesicherungen das LOCKIDTBL plus einem bestimmten Prozentsatz, wie z. B. 5% übersteigt. Codesicherungen werden benutzt, um geteilte Kapazitäten zu handhaben, und das LOCKIDTBL ist eine Tabelle der möglichen Sicherungscodes.
Regel 70 bezieht sich auf die Anzahl an Stapelverarbeitungsaufträgen in einem System. Insbesondere prüft Regel 70, ob die Stapelverarbeitungsaufträge mehr als einen bestimmten Prozentsatz, wie z. B. 70% der CPU für alle zu berücksichtigenden Intervalle benutzen, und ob es weniger als eine bestimmte Anzahl, wie z. B. im Durchschnitt 5 pro Intervall gibt. Wenn ja, dann wird offensichtlich, daß die CPU meistens Stapelverarbeitungsaufträge ausführt, und Regel 70 startet. Die Nachrichtenschablone für Regel 70 ist auch im Anhang 5 enthalten.
In dem bevorzugten Ausführungsbeispiel dieser Erfindung gibt es auch einige Netzwerkregeln, Clusterregeln genannt. Die Clusterregeln, die bestimmte Meßwerte und bestimmte Parameter für den VAX-Cluster prüfen, umfassen die Regeln 71-77. Die Nachrichtenschablonen für diese Clusterregeln sind im Anhang 6.
Z. B. fragt Regel 71, ob die Durchschnittsschlange bei irgendeiner Platte größer als eine bestimmte Anzahl, wie z. B. 1,2 ist, und fragt auch, ob die Operationen pro Sekunde für eine bestimmte Platte auch einen Schwellwert für diese Platte übersteigen. Wenn ja, startet Regel 71, und die Nachrichtenschablone für diese Regel wird im Anhang 6 gezeigt.
Regel 72 steht mit der vorherigen in gewisser Weise in Zusammenhang und fragt, ob die Schlange bei irgendeiner Platte einen Schwellwert übersteigt, wie z. B. 2, und ob die Operationen pro Sekunde für diese Platte geringer sind als ein anderer Schwellwert. Wenn ja, kann der Grund für die lange Schlange nicht in der großen Verwendung liegen, sondern kann durch einen partiellen Hardwarefehler oder Wegestreit verursacht sein. Somit wird eine andere Lösung des Problems der Schlangenlänge in der Nachrichtenschablone für Regel 72 vorgeschlagen.
Regel 73 bezieht sich auf das HSC. Die Frage ist, ob die I/O-Bits pro Sekunde für irgendein HSC eine bestimmte Anzahl übersteigen, wie z. B. 3750000, oder ob die Operationen pro Sekunde für irgendein HSC einen anderen Schwellwert übersteigen, wie z. B. 500. Wenn ja, dann sind die betreffenden HSCs über dem Schwellwert, und Regel 73 startet. Die Nachrichtenschablone für diese Regel ist im Anhang 6.
Regel 74 startet, wenn irgendwelche Blockierungen gefunden werden. Blockierungen werden verursacht, weil Anwendungen den Sicherungsmanager während der Kommunikation benutzen und ihre eigene Sicherungsaktivität falsch anwenden. Wenn Regel 74 genügend oft startet, wird die Regel 74-Nachrichtenschablone im Anhang 6 gedruckt oder angezeigt werden. Für Regel 75 werden drei Fragen gestellt. Die erste ist, ob es keine Blockierungen gegeben hat. Die zweite ist, ob die Anzahl an Blockierungssuchaktionen eine Schwellwertrate übersteigt, wie z. B. 0,1 pro Sekunde. Die letzte Frage ist, ob der Parameter DEADLOCK_WAIT geringer war als ein anderer Schwellwert, wie z. B. 5. DEADLOCK_WAIT ist die Zeitdauer, welche das System wartet, bevor es ermittelt, ob eine Blockierungsbedingung vorliegt. Wenn alle drei Bedingungen zutreffen, dann hat es Blockierungssuchaktionen gegeben, aber es wurden keine Blockierungen gefunden, was durch eine zu niedere Einstellung des Parameters DEADLOCK_WAIT verursacht sein kann. Wie die Nachrichtenschablone für die Regel 75 anzeigt, wird vorgeschlagen, den Wert dieses Parameters zu erhöhen.
Regel 76 hat die gleichen drei Prüfungen wie Regel 75, aber prüft dagegen, ob DEADLOCK_WAIT größer als der Schwellwert in Regel 75 ist. Wenn ja, können die Probleme sich in den Anwendungen befinden, nicht bei dem DEADLOCK_ WAIT-Parameter, wie die Nachrichtenschablone für Regel 76 anzeigt.
Die noch übrige Clusterregel, Regel 77, ermittelt, ob die Anzahl an Platten- I/Os, die durch Datei-Cachespeicherfehler verursacht werden, einen bestimmten Schwellwert übersteigen. Wenn ja, dann ergibt die Ermittlung, daß es im Systemdatei-Cachespeicher zu viele I/Os gegeben hat, die durch eine geringe Trefferquote in den Systemdatei-Cachespeichern verursacht wurden. Wenn diese Regel genügend oft startet, wird die Nachrichtenschablone für Regel 77, welche im Anhang 6 gezeigt wird, angezeigt oder gedruckt. Die Information in dieser Schablone umfaßt Vorschläge zum Prüfen der Datei-Cachespeicher-Statistik und vielleicht zum Einsetzen eines größeren Datei-Cachespeichers.
Viele der Regeln 1-77 enthalten gemeinsame Merkmale. Erstens umfaßt das Starten einer Regel Ermittlungen über die Verhältnisse zwischen Schwellwerten, Meßwerten und Parametern. Zweitens kann die Nachrichtenschablone für eine Regel nicht ausgedruckt werden, wenn die Regel nicht genügend oft gestartet worden ist. Dies vermeidet falschen Alarm, da das System nicht das Vorhandensein eines Problems signalisieren wird, wenn eine Regel wegen eines Bildfehlers startete. Schließlich sollten die Schwellwerte für geeignete andere Netzwerke, andere Prozessoren und andere Operationssysteme angepaßt werden.

D. Berichtgestaltung

Es gibt zwei Grundarten von Berichten, die gemäß dieser Erfindung erzeugt werden. Eine ist die "Verbesserungsanalyse" oder der Leistungsauswertungsbericht, welcher die Nachrichtenschablonen für die Regeln ebenso enthält wie den Nachweis, der beim Starten der Regel errechnet worden ist. Die zweite Art von Bericht, der erzeugt wird, ist eine Arbeitsbelastungscharakterisierung des Systems oder Netzwerks, was durch die Daten ermöglicht worden ist, die während des Datenerfassungsprozesses und der Organisation dieser Daten gesammelt worden sind.
Die Verbesserungsanalyse oder Leistungsauswertungsbericht für eine Regel wird erzeugt, wenn die Anzahl der Starts einer Regel einen vorherbestimmten Schwellwert für diese Regel überschreitet. Dieser Bericht beinhaltet eine Nachrichtenschablone, damit die Regel zusammen mit bestimmten Meßwerten, Parametern und Schwellwerten beim Starten der Regel geprüft wird.
Fig. 12 zeigt ein bevorzugtes Verfahren zum Aufzeichnen von Regelstarts sowie des Nachweises dieser Regel. Gemäß dem bevorzugten Ausführungsbeispiel dieser Erfindung ist jede Leistungsproblemregel mit einer Nachweistabelle verbunden, wie es in Fig. 12 gezeigt ist. Jede Nachweistabelle enthält an ihrer Wurzel auch die Anzahl der Starts. Die Wege führen zu einer Anzahl von Knoten in unterschiedlichen hierarchischen Ebenen, von denen jede eine andere Art von Datum (Einzahl von Daten) darstellt. Die Nachrichtenschablone vergleicht die Ebenen und beschreibt die Arten des Datums auf jeder Ebene ebenso wie die Form dieser Darstellung in dem Analysebericht. Wie Fig. 12 zeigt, werden die übertragenen Daten, d. h. die Daten, die aufgezeichnet werden sollen, wenn eine Regel startet, in der Nachweistabelle gespeichert.
Obwohl Fig. 12 die Nachweistabelle als Baumstruktur zeigt, gibt es natürlich andere Wege der Realisierung einer Datenspeicherstruktur in dem Prozessor, der das Verfahren dieser Erfindung ausführt.
Gemäß einem bevorzugten Ausführungsbeispiel des Verfahrens dieser Erfindung inkrementiert jedesmal, wenn eine Regel startet, ein Zähler in der Wurzel (Ebene 1) der Nachweistabelle, die mit dieser Regel verknüpft ist, den Zählerstand um eins. Beim Speichern der übertragenen Daten in die Nachweistabelle entspricht das erste Datum jedes Datensatzes der zweithöchsten Ebene (Ebene 2). Dieses Datum wird mit den anderen Werten auf dieser gleichen Ebene verglichen. Wenn sie gleich sind, dann wird ein Zähler, der die Anzahl anzeigt, wie oft dieser Datumswert vorkommt, inkrementiert. Wenn nicht, dann wird ein neuer Eintrag mit einem auf 1 gesetzten Zähler auf der zweithöchsten Ebene mit einem Zweig zurück zur Wurzel gespeichert.
Wenn es auf der zweithöchsten Ebene eine Übereinstimmung gibt, dann wird das entsprechende Datum auf der dritthöchsten Ebene (Ebene 3) mit den Einträgen auf dieser Ebene verglichen, die zu dem passenden Eintrag auf der zweithöchsten Ebene Verbindung haben. Ferner wird, wenn eine Übereinstimmung gefunden wird, der entsprechende Zähler inkrementiert. Andernfalls wird ein neuer Baumeintrag erzeugt, der zu der passenden Ebene darüber zurückgeht.
Diese Prozedur setzt sich fort, bis alle übertragenen Daten auf allen Ebenen gespeichert worden sind. Das Speichern übertragener Daten auf diesem Wege spart Speicherplatz.
Sooft ein neuer Eintrag erzeugt wird, werden entweder in der ersten oder in den folgenden Ebenen die tieferen Ebenen nicht abgesucht, da es auf tieferen Ebenen keine verbundenen Einträge gibt. Statt dessen werden Einträge auf allen tieferen Ebenen erzeugt und die Zähler werden auf 1 gesetzt.
Die Speicherung von Daten gemäß dieses bevorzugten Ausführungsbeispiels der Erfindung wird in den Fig. 13A-13D ausführlich gezeigt. Diese Figuren zeigen Schritte der Erzeugung einer Nachweistabelle für die übertragenen Daten in Fig. 12.
Für den ersten Start der Regel sind die Dateneinträge A1, B1 und C1, wie in Fig. 12 gezeigt. Wie in Fig. 13A gezeigt, wird der Zähler an der Wurzel des Baumes auf 1 gesetzt werden, und A1 wird auf der zweithöchsten Ebene gespeichert werden, B1 wird auf der dritthöchsten Ebene gespeichert werden und C1 wird auf der vierthöchsten Ebene gespeichert werden. Die Daten werden auf diese Weise gespeichert, weil es keine Übereinstimmung gegeben haben könnte.
Wenn der nächste Dateneintrag stattfindet, weil die Regel startet, inkrementiert der Zähler an der Wurzel wieder. Eine Suche entlang der zweiten Ebene nach A1 findet statt, und wird eine Übereinstimmung gefunden, dann inkrementiert der zugehörige Zähler auf 2, wie in Fig. 13B gezeigt wird. Es findet dann eine Suche nach einem B1-Eintrag, verbunden mit A1, statt. Wenn ein solcher Eintrag gefunden wird, inkrementiert dieser Zähler auch auf 2. Die nächste Suche nach einem C2-Eintrag, die sowohl mit A1 als auch mit B1 verbunden ist, findet jedoch nicht statt, und so wird ein neuer Eintrag für C2 mit einem Zählschritt von 1 erzeugt.
Auf das Einstellen der Daten, welches den vierten Regelstart begleitet, wird der Zähler an der Wurzel auf vier inkrementiert, wie in Fig. 13C gezeigt wird. Eine Übereinstimmung wird auf der zweiten Ebene für A1 gefunden, und so inkrementiert der Zähler auf 4, aber es wird keine Übereinstimmung für einen B2-Eintrag gefunden, der mit A1 verbunden ist. Somit wird ein neuer Eintrag auf der dritten Ebene für B2 mit einem Zähler auf 1 erzeugt. Wenn eine Suche nach C2 auf der dritten Ebene stattfindet, wird keine Übereinstimmung gefunden, die mit B2 verbunden ist. Somit wird ein Eintrag für C2 mit einem Zähler von eins erzeugt. Dies geschieht, weil die früheren C2-Einträge einem A1/B1-Weg entsprechen und dieser dritte C2-Eintrag einem A1/B2-Weg entspricht, obwohl es einen früheren Eintrag für C2 gegeben hat.
Fig. 13D zeigt die ganze Nachweistabelle für die übertragenen Daten in Fig. 12.
Das Speichern des Nachweises für eine Regel spart auf diese Weise Speicherplatz, weil die Menge von Doppeleinträgen verringert wird. Zusätzlich ermöglicht die Baumstruktur eine Erleichterung des Zugriffs auf die Berichtgestaltung.
Sobald die Analyse der Meßwerte und Parameter vollständig ist, wird die Regelanzahl mit einem Häufigkeitsschwellwert für diese Regel verglichen. Wenn die Regelanzahl diesen Schwellwert übersteigt, dann wird die Nachrichtenschablone für diese Regel ausgedruckt, und der Nachweis, der in der entsprechenden Nachweistabelle gespeichert ist, wird ausgedruckt. Vorzugsweise beschreibt die Nachweisschablone für eine bestimmte Regel eine Textzeile, die all die Daten in der hierarchischen Reihenfolge enthält, in welcher sie in der Tabelle gespeichert worden sind. Es gibt eine Textzeile für jeden Start der Regel, und für jede Textzeile gibt es einen Wert der Daten auf jeder Ebene, der von der Nachweistabelle wiedererhalten und in diese Textzeile eingegeben wurde.
Gemäß dem bevorzugten Ausführungsbeispiel dieser Erfindung wird der Baumfortlaufen durchquert, und bei jeder Durchquerung wird der Zähler von jedem Datenwert auf jeder Ebene dekrementiert und der Wert wiedererhalten. Die Werte bleiben identisch, bis der niederste Ebenenzähler auf Null dekrementiert wird. Zu diesem Zeitpunkt wird der nächste Weg des nächsthöheren Knotens genommen. Fig. 14 und 15 zeigen zwei Beispiele von Ausdrucken oder Bildschirmanzeigen einer Nachrichtenschablone und des zugehörigen Nachweises.
Zusätzlich zu der Ausgabe des Nachweises und der Informationen können auch die Leistungsprotokolle für die verschiedenen Prozessoren und für die Netzwerke als ganzes ausgegeben werden. Leistungsprotokolle stellen Anzeigen von Arbeitsbelastungseigenschaften bereit, um einem Systemingenieur oder -manager bei der Entscheidung zu helfen, ob Änderungen, die auf Empfehlung der Nachrichtenschablone basierend ausgeführt wurden, die Systemleistung verbessert oder verschlechtert haben. Solche Berichte beinhalten sowohl tabellarische Zusammenfassungen als auch Histogramme, von denen Beispiele in den Fig. 16-18 gezeigt werden.
Leistungsprotokolle werden erstellt, indem die gesammelten und in der Datenbank für Analysen gespeicherten Daten benutzt werden. Diese Daten beinhalten sowohl Prozessormeßwerte als auch -parameter und Netzwerkmeßwerte. Die Darstellung solcher Daten in einem Leistungsprotokoll ist ein wichtiger Teil des erfinderischen Gedankens, obwohl die genaue Ausführung von tabellarischem oder histographischem Drucken wohlbekannte Anzeigeprogrammtechniken gebrauchen kann.
Im allgemeinen stellen Leistungsprotokolle Statistiken bereit, welche Prozessor- und Netzwerk-Arbeitsbelastung ebenso charakterisieren wie Betriebsmittelgebrauch durch die aktiven Programme. Z. B. könnte ein Systemmanager, der ein Leistungsprotokoll überprüft, für jedes Programm die mittlere Arbeitsmengengröße, die Gesamtanzahl an Seitenfehlern, die verstrichene Zeit, den Prozentsatz der CPU-Zeit, die Platten-I/Os und die Anschluß-I/Os prüfen.
Fig. 16 zeigt z. B. ein exemplarisches Protokoll über den interaktiven Programmablauf an einem Knoten. Aus diesem Protokoll kann ein Systemmanager ermitteln, welche Programme es wert sind, verbessert zu werden, wobei z. B. sowohl die Betriebsmittelverwendung als auch die Frequenzverwendung berücksichtigt werden solllten.
Andere Protokolle sind ebenfalls möglich, wie z. B. das Zeigen der Eigenschaften aller Arten von Prozessoren.
Fig. 17 zeigt ein Leistungsprotokoll der Netzwerkdaten, besonders den Zugriff zu bestimmten Platten durch alle Knoten. Diese Art von Protokoll ist nur möglich, weil abweichend von herkömmlichen Systemen das Verfahren dieser Erfindung die Datenerfassung für ein gesamtes Netzwerk ermöglicht. Die Schwierigkeit einer solchen Datenerfassung einschließlich der Synchronisierung und der Datenorganisation ist von den Erfindern gelöst worden, und somit ist es möglich geworden, nicht nur netzwerkweite Analysen, sondern auch die Darstellung von netzwerkweiten Leistungsdaten zu erstellen.
Fig. 18 zeigt ein Histogramm, welches aus den Daten erzeugt werden kann, die aus der Datenerfassungsoperation verfügbar sind. Histogramme bieten eine graphische Darstellung der Arbeitsbelastungsmerkmale für Auswertung und Analyse durch die Bedienungsperson und bieten eine chronologische Ansicht der CPU, der Platte und der I/O-Anschlußgeräte-Benutzung für jeden Knoten und ebenso eine Knotenstatusinformation.
Die Daten in Histogrammen zeigen, wie das System während festgelegter Zeitintervalle benutzt wird. Verschiedene Protokollperioden ändern den Maßstab der Histogramme ebenso wie ihre Zeitauflösung. Solche Histogramme helfen dem Systemmanager oder -ingenieur, die im Analyseteil gebotenen Ergebnisse und die bewirkten Empfehlungen doppelt zu prüfen.
Z. B. kann ein Systemingenieur durch Analysieren eines Histogramms aus den Verweilzeiten für ein Programm (d. h. die Zeit zwischen Programmaktivierung und -beendigung) die Programme verfolgen, die einen großen Teil der bestimmten Kapazität verbrauchen, wie z. B. eine Datenbank aktualisieren oder eine Anwendung erstellen.
Fig. 18 stellt ein Beispiel der Nützlichkeit von Histogrammen bereit. In Fig. 18 stellt die vertikale Achse den Prozentsatz der CPU-Zeit dar, die vom Prozessor gebraucht wird, und die horizontale Achse stellt die Anzahl der Stunden dar, die durch das Histogramm wiedergegeben werden, in diesem Fall 24. Das Histogramm zeigt z. B., daß um 12.00 Uhr mittags Unterbrechungen und DECnet-Aufgaben 5% der CPU- Zeit beanspruchten und interaktive Aufgaben 85% der CPU-Zeit beanspruchten.

E. Abschluß

Ein Ausführungsbeispiel dieser Erfindung hat eine bestimmte VAX-Cluster- Anordnung benutzt, die VAX-Computer enthält, welche ein VMS-Operationssystem benutzen. Natürlich hat das Verfahren breitere Anwendungsmöglichkeiten auf andere Prozessoren oder Prozessornetzwerke. Besonders die spezifischen Namen der Meßwerte und Parameter werden an jeden Prozessor oder jedes Netzwerk angepaßt werden müssen, und die Schwellwerte für die Regeln müssen eventuell geändert werden, ebenso wie bestimmte Regeln selbst.

Anhang 1: Speicherregeln

Nachrichtenschablonen

Regel-Nr.

1. Es gibt übermäßig viele Seitenfehler von den nachfolgenden Prozessen. Dies könnte passieren, wenn das Anwendungsprogramm schlecht konzipiert ist, oder wenn es eine spezielle Programmart ist, wie z. B. ein AI-Typ-Programm oder ein CAD-Programm usw. Wenn es möglich ist, das Programm neu zu konzipieren, dann tun Sie es bitte. Wenn es möglich ist, sein WSQUOTA zu vergrößern, kann dies helfen. Bitte beachten Sie unten den/die Benutzer, der/die das Problem verursacht/en, und die Anzahl des Auftretens.
2. Es gibt zu viele Programmaktivierungen, die zu viele Seitenfehler verursachen. Dies kann durch eine schlecht geschriebene Befehlprozedur verursacht werden, die zu viele Programme aktiviert. Weiter unten sind die Benutzer aufgelistet, die übermäßig viele Programmaktivierungen verursacht haben.
3. Es gibt zu viele Seitenfehler, die mit zu vielen Programmaktivierungen in dem System als ganzes verbunden sind. Dies kann vorkommen, wenn viele Anwendungsprogramme schlecht konzipiert sind oder häufig beim Versuch, zu viele Befehlsprozeduren laufen zu lassen.
4. Übermäßig viele schwere Fehler können durch zu kleinen Seiten-Cachespeicher verursacht worden sein. Schwere Fehler sind kostspieliger als leichte Fehler und entstehen wahrscheinlicher, wenn der Seiten-Cachespeicher zu klein ist.
Sie können den Seiten-Cachespeicher durch Erhöhen der Werte von MPW_LOLIMIT, MPW_HILIMIT, MPW_THRESH, FREEGOAL und FREELIM vergrößern. FREELIM sollte ungefähr gleich BALSETCNT + 20 sein, und GROWLIM sollte gleich FREEGOAL-1 sein. FREEGOAL sollte ungefähr gleich dem größeren Wert aus 3 * FREELIM oder 2 Prozent des Speichers sein. MPW_LOLIMIT sollte der kleinere Wert von 120 oder 3 * BALSETCNT sein. Benutzen Sie AUTOGEN, um eine automatische Einstellung des entsprechenden Parameters AWSA zu veranlassen.
5. Die hohe Rate an Seitenfehlern könnte geringer sein, wenn den Arbeitsmengen der Prozesse mehr Speicher zugeteilt werden könnte. Wenn der Seiten-Cachespeicher kleiner wäre, ist es möglich, daß die Seitenfehler reduziert würden, weil die Überschußseiten ein Teil der Arbeitsmengen der Prozesse geworden sein könnten.
Sie können den Seiten-Cachespeicher durch Verringern der Werte von MPW_LOLIMIT, MPW_HILIMIT, MPW_THRESH, FREEGOAL und FREELIM verkleinern. FREELIM sollte ungefähr gleich BALSETCNT + 20 sein, und GROWLIM sollte gleich FREEGOAL - 1 sein. FREEGOAL sollte ungefähr gleich dem größeren Wert von 3 * FREELIM oder 2 Prozent des Speichers sein. MPW_LOLIMIT sollte der kleinere Wert von 120 oder 3 * BALSETCNT sein. Benutzen Sie AUTOGEN, um eine automatische Einstellung des entsprechenden Parameters AWSA zu veranlassen.
6. Die Seitenfehlerrate des gesamten Systems (schwere oder leichte) war mit einem kleinen verfügbaren Speicher auf der Frei-Liste hoch, während bestimmte (mäßig unbelegte) Prozesse große Arbeitsmengen beibehielten. Wenn die Ein- /Auslagerungssteuerung mehr Seiten von den Arbeitsmengen der unbenutzten Prozesse zurückfordern könnte, würde die gesamte Seitenfehlerrate fallen.
Verringern Sie WSQUOTA für die nachstehenden Benutzer. Wenn die unbeteiligten Prozesse das Problem verursachen, verringern Sie PQL_DWSQUOTA.
7. Während übermäßig viele Seitenfehler auftraten, gab es einige Benutzer, die Programme laufen ließen, welche mehr Speicher zu wünschen schienen, als ihre WSEXTENTs zuließen. Wenn die WSEXTENTs für diese Benutzer größer gewesen wären, könnte es weniger Seitenfehler gegeben haben.
Erhöhen Sie das WSEXTENT für die nachstehenden Benutzer. Wenn die unbeteiligten Prozesse das Problem verursachen, erhöhen Sie PQL_DWSEXTENT.
8. Übermäßig viele Seitenfehler existieren, während es genügend freien Speicher gibt. Die Ein-/Auslagerungssteuerung beschneidet unnötigerweise die Arbeitsmengen, um eine Einlagerung vorzubereiten. Wenn BALSETCNT groß genug wäre, würden die Prozesse nicht unnötigerweise ausgetauscht werden, wodurch sie diese Bedingung ausschalten würden.
Erhöhen Sie BALSETCNT. Dies wird verhindern, daß die Ein-/Auslagerungssteuerung Prozesse beschneidet, wenn es genügend Speicher für sie gibt, um größer zu werden. Dies wird auch die Seitenfehlerrate verringern.
9. Es traten übermäßig viele Seitenfehler auf, wenn der freie Speicher fast verbraucht war. AWSA versucht, den Prozessen verfügbaren Speicher zuzuweisen, die ihn benötigen, wenn die Frei-Liste größer als BORROWLIM ist, jedoch können die Prozesse diese Anleihen nicht nutzen, wenn GROWLIM größer als BORROWLIM als auch als FREELIM ist. Wenn VMS den Prozessen mit Seitenfehlern mehr Speicher bereitstellen kann, dann kann die gesamte Seitenfehlerrate abnehmen.
Verringern Sie GROWLIM bis unter BORROWLIM. Dies wird den Prozessen ermöglichen, von AWSA gewährte Anleihen zu benutzen. Entsprechende Werte für diese Parameter können durch die Benutzung von AUTOGEN erreicht werden.
Die aktuellen Werte dieser Parameter und anderer einschlägiger Parameter sind:
PFRATH: %%%%, BORROWLIM: %%%%%, GROWLIM: %%%%%, PAGE CACHE: %%%%%%, FREELIM: %%%%%, FREEGOAL: %%%%%, WSMAX: %%%%%%.
10. Übermäßig viele Seitenfehler entstehen, und VMA kann den Benutzerarbeitsmengen keinen zusätzlichen Speicher zuweisen. Das automatische Arbeitsmengeneinstellungsmerkmal (AWSA) in VMS wird benutzt, um die Zuweisung an Speicher an die Benutzerarbeitsmengen zu ändern. Durch Erhöhen von WSINC kann VMS verfügbaren Speicher richtig zuweisen und könnte so die Seitenfehlerrate verringern.
Setzen Sie WSINC auf 150, den vorgegebenen SYSGEN-Wert. Weil WSING null ist (was bedeutet, daß AWSA ausgeschaltet ist), können die Arbeitsmengen der Prozesse nicht wachsen.
11. Erhöhen Sie die Größe der SWAPPING-Datei. Die Prozesse können nicht wachsen und dadurch die Leistung verschlechtern. Durch Vergrößern der SWAPPING-Datei wird es den Prozessen ermöglicht, zu wachsen und den verfügbaren Speicher zu benutzen.
12. Übermäßig viele Seitenfehler traten auf, während es einen Überschuß an freiem Speicher gab. Die Seitenfehler könnten geringer gewesen sein, wenn Arbeitsmengen der Prozesse fähig gewesen wären, schneller zu wachsen. AWSA scheint langsam darauf zu reagieren und der Arbeitsmenge der Prozesse das Größerwerden zu ermöglichen.
Verringern Sie den Wert für PFRATH
Der aktuelle Wert von PFRATH: ##
13. Übermäßig viele Seitenfehler existieren, während es verfügbaren freien Speicher gibt. Die AWSA-Reaktion im Bereitstellen von zusätzlichem Speicher für die Arbeitsmengen der Prozesse scheint langsam zu sein. Die Seitenfehlerrate könnte durch Verbesserung der AWSA-Reaktion verringert werden, sowie dadurch, daß den Arbeitsmengen ermöglicht wird, schneller zu wachsen.
Erhöhen Sie WSINC auf 150, den vorgegebenen SYSGEN-Wert.
14. Übermäßig viele Seitenfehler existieren, während es verfügbaren freien Speicher gibt. Die AWSA-Reaktion im Bereitstellen von zusätzlichem Speicher für die Arbeitsmengen der Prozesse scheint langsam zu sein. Die Seitenfehlerrate könnte durch Verbesserung der AWSA-Reaktion verringert werden, sowie dadurch, daß den Arbeitsmengen ermöglicht wird, schneller zu wachsen.
Verringern Sie AWSTIME auf 20 oder ermöglichen Sie AUTOGEN, AWSTIM zurückzusetzen. AWSTIM ist der Betrag der CPU-Zeit zwischen aufeinanderfolgenden Arbeitsmengeneinstellungen.
15. Übermäßig viele Seitenfehler traten auf, während es keinen freien Speicher gab. Unbelegte Prozesse haben größere Arbeitsmengen als die schwerwiegendsten Seitenfehlerprozesse. Automatische Arbeitsmengenverringerung wird dem VMS ermöglichen, unbenutzte Seiten von den Arbeitsmengen zurückzuerhalten, damit sie von Prozessen benutzt werden können, die am meinsten Seitenfehler verursachen, und so die Seitenfehlerrate zu verringern.
Schalten Sie die automatische Arbeitsmengenreduzierung durch Setzen des WSDEC auf 35 und des PFRATL auf 10 ein.
16. Übermäßig viele Seitenfehler traten in einem Zustand knappen Speichers auf. Die Ein-/Auslagerungssteuerung wird so gesteuert, daß sie die Arbeitsmengen oft beschneidet, wobei sie Fehler und zusätzlichen Aufwand erzeugt. Weiter unten sind mehrere Alternativen, aber Sie sollten beim Ausführen von Änderungen wegen des übermäßig vielen Ladens in den Speicher vorsichtig sein.
Erhöhen Sie SWPOUTPGCNT auf einen Wert, der für einen typischen Prozeß in dem System genügend groß ist, um ihn als seinen Arbeitsmengenumfang zu benutzen. Dies wird das Ein-/Auslagerungssteuerung-Beschneiden auf der zweiten Ebene sperren und vielleicht das Swapping begünstigen. Die Ein- /Auslagerungssteuerung hält unbelegte Prozesse für bessere Kandidaten für Speicherrückgewinnung als aktive Prozesse, und sie ergeben daher potentiell ein günstigeres Aufwandsniveau.
Der ideale Wert für LONGWAIT ist die Zeitdauer, die genau einen freien oder verlassenen Prozeß von einem momentan inaktiven unterscheidet. Typisch ist dieser Wert in dem Bereich von 3 bis 20 Sekunden. Sie sollten LONGWAIT erhöhen, um die Ein-/Auslagerungssteuerung zu zwingen, Prozessen eine längere Zeit zu geben, frei zu bleiben, bevor sie für das Swapping oder Beschneiden geeignet werden.
17. Es bestand übermäßig viel Seitenwechsel, was in der übermäßigen automatischen Arbeitsmengenverringerung begründet sein kann. Wenn die Arbeitsmengen der Prozesse zu viel oder zu oft verringert werden, wird es ein plötzliches Ansteigen der Seitenfehler geben. Wenn die Seitenmenge, die von der Arbeitsmenge weggenommen wird, kleiner ist, oder wenn der Wert von PFRATL verringert wird, kann die Seitenfehlerrate verringert werden.
Verringern Sie WSDEC und/oder PFRATL.
18. Es gibt übermäßig viele Seitenfehler wegen großer Speichernachfrage. Wenn die Leistung unannehmbar ist, können Sie versuchen, die Nachfrage zu reduzieren. Ein Verfahren könnte sein, MAXPROCESSCNT zu senken. Ein zusätzlicher Speicher kann der beste Einsatz sein, aber vergewisseren Sie sich, daß es sich um eine sich wiederholende Situation handelt, und holen Sie eine zweite Meinung ein.
19. Es gibt übermäßigen, durch Swapping verursachten Aufwand. BALSETCNT verursacht einen Teil des Problems, weil es keine freien Ausgleichplätze gibt.
20. Es kam durch Swapping verursachter übermäßiger Aufwand vor. Das Swapping könnte durch Verringerung der Größe des Seiten-Cachespeichers verringert werden, welcher mehr Speicher für Benutzer bereitstellen würde.
Sie können den Seiten-Cachespeicher durch Verringerung der Werte von MPW_LOLIMIT, MPW_HILIMIT, MPW_THRESH, FREEGOAL und FREELIM verringern. FREELIM sollte ungefähr gleich BALSETCNT + 20 sein, und GROWLIM sollte gleich FREEGOAL - 1 sein. FREEGOAL sollte ungefähr gleich dem größeren Wert von 3 * FREELIM oder 2 Prozent des Speichers sein. MPW_LOLIMIT sollte der kleinere Wert von 120 oder 3 * BALSETCNT sein. Verwenden Sie AUTOGEN, um ein automatisches Einstellen des entsprechenden AWSA-Parameters zu bewirken.
21. Es trat durch Swapping verursachter übermäßiger Aufwand auf. Swapping kann durch Beseitigen oder Steuern von Prozessen, die übermäßig viel Speicher verbrauchen, reduziert werden.
Die nachstehenden Benutzer und Programme verbrauchen zu viel Speicher. Versuchen Sie, vorbeugende Einstellungen vorzunehmen, wie z. B.; 1) Anhalten des Prozesses bis zu einer Nicht-Spitzenzeit des Tages, 2) Setzen Sie den Prozeß auf eine Nicht-Spitzenstunde neu fest, 3) Begrenzen Sie den Parameter WSQUOTA dieses Benutzers.
22. Es trat durch Swapping verursachter übermäßiger Aufwand auf. Swapping von aktiven Prozessen ist schwieriger, weil ein großer unbelegter Prozeß nicht ausgetauscht werden kann. Diese Situation kann vorkommen, wenn der Befehl SET PROCESS/NOSWAP benutzt wird.
23. Es trat durch Swapping verursachter übermäßiger Aufwand auf. AWSA kann das Swapping verstärken, wenn das Entleihen zu großzügig ist. Vergewissern Sie sich, daß GROWLIM gleich FREEWGOAL - 1 und BORROWLIM höher als GROWLIM ist.
Das Entleihen ist zu großzügig; erhöhen Sie BORROWLIM und GROWLIM.
24. Es existiert durch Swapping verursachter übermäßiger Aufwand. Es gibt zu viele gleichzeitig um den verfügbaren Speicher kämpfende Prozesse. Sie könnten MAXPROCESSCNT (und entsprechend BALSETCNT) senken, die Nachfrage reduzieren oder Speicher hinzufügen. Bevor Sie Speicher hinzufügen, sollten Sie sicherstellen, daß die Leistung unannehmbar ist, und von einem Fachmann eine zweite Meinung einholen.
25. Es trat durch Swapping verursachter übermäßiger Aufwand auf. Viele COM- und COMO-Prozesse konkurrieren um Speicher.
Reduzieren Sie die Anzahl von konkurrierenden großen Stapelverarbeitungsaufträgen. Setzen Sie sie dann an, wenn es weniger Anforderung gibt, oder ziehen Sie eine Verringerung des JOBLIM beim Schlangenverlauf in Betracht. Das Hinzufügen von Speicher kann helfen, aber vergewissern Sie sich und holen Sie zuerst eine zweite Meinung ein.
26. Es trat durch Swapping verursachter übermäßiger Aufwand auf. Weil die meisten Prozesse berechenbar und bei der untersten Priorität sind, können Sie die Einlagerungsrate durch Erhöhen des Zeitbetrags zwischen den Swappingvorgängen reduzieren.
Ziehen Sie eine Erhöhung der SWP-GESCHWINDIGKEIT in Betracht.
27. Es trat durch Swapping verursachter übermäßiger Aufwand auf. Wenn die Leistung häufig unannehmbar ist, lassen Sie einen Fachmann den eventuellen Bedarf an mehr Speicher berechnen.
Reduzieren Sie die Nachfrage oder fügen Sie Speicher hinzu. Eine Reduzierung derarbeitsmengen kann auch helfen.
28. Das System tauscht eher aus, als daß es Seiten wechselt. Sie sollten die folgenden Schritte ausführen, um die Bedingung zu erleichtern:
1. Reduzieren Sie WSQUOTAS
2. Erhöhen Sie PFRATH
3. Verringern Sie WSINC
29. Es trat durch Swapping verursachter übermäßiger Aufwand auf. Es gibt starke Nachfrage an Speicher, unbelegter Speicher kann jedoch verfügbar sein, ist aber den Arbeitsmengen der Benutzer durch den Paramater SWPOUTPGCNT zugewiesen. Dies ist die Seitenmenge, die VMS in den Arbeitsmengen der Benutzer stehen läßt, wenn es versucht, unbelegten Speicher zurückzuerhalten.
Reduzieren Sie SWPOUTPGCNT auf 60. Dies wird VMS ermöglichen, zusätzlichen Speicher von den freistehenden Arbeitsmengen der Benutzer zurückzuerhalten, wenn der Speicher benötigt wird.
30. Es trat durch Swapping verursachter übermäßiger Aufwand auf. Die meisten Prozesse sind nicht berechenbar, was darauf hindeutet, daß zu viel Speicher an unbelegte Prozesse verschwendet wird.
Mögliche Abhilfen beinhalten:
1. Reduzieren Sie WSQUOTAS
2. Erhöhen Sie PFRATH
3. Verringern Sie eventuell WSINC
4. Überprüfen Sie Prozesse, die "SET PROC/NOSWAP" haben.
31. Speicher ist knapp, aber es verursacht kein Leistungsproblem; jedoch wenn die Nachfrage an Speicher ansteigt, kann ein Speicherengpaß auftreten. Stellen Sie in diesem Fall Speicher durch Verringerung der WSQUOTAs der Benutzer wieder zur Verfügung, die mehr als 5 Prozent des Speichers benutzen.
32. Speicher ist knapp, aber verursacht keinen Engpaß, jedoch wenn Ihr Kapazitätsplan ein Wachsen der Nachfrage voraussagt, kann ein Speicherengpaß auftreten. Seien Sie vorbereitet.

Anhang 2: CPU-Regeln

Nachrichtenschablonen

Regel Nr.

33. Es gibt offenbar wegen der großen Anzahl an COMO- Prozessen einen Engpaß bei der CPU. Es existieren ein oder mehrere Prozesse mit höherer Priorität, welche COM- und/oder COMO-Prozesse mit geringerer Priorität zum Warten auf die CPU veranlassen, was die Ursache für das Problem sein kann. Dies wird als eine LOCKOUT-Bedingung betrachtet.
Untersuchen und/oder überprüfen Sie die Prozeßprioritäten. Für eine gerechte Verteilung der CPU-Zeit auf die COM-Prozesse vergewissern Sie sich, daß alle die gleiche Basispriorität haben.
34. Es gibt offenbar wegen der großen Anzahl an COMO- Prozessen einen Engpaß bei der CPU. Es gibt auch einen "hog"-Prozeß, der mindestens 50 Prozent der CPU-Zeit verbraucht.
Untersuchen Sie den "hog"-Prozeß auf einen Konzeptfehler, falsche Prioritäten oder andere mögliche Gründe.
35. Es gibt viele Prozesse, die auf die CPU warten. Auch ist die CPU-Zeit beim Unterbrechungsstapel groß. Die Unterbrechungsstapelzeit ist die CPU-Zeit, welche von Prozessen nicht benutzt werden kann.
Vier Aktionen werden vorgeschlagen:
1. Wenn Ihre Anschluß-Ein-/Ausgabe nicht von einem DMF 32 oder DMZ 32 verwaltet wird: Das DMA-Merkmal des DMx 32 ist vorteilhaft, wenn das Anwendungsprogramm 200 oder mehr Zeichen auf einmal schreibt. Wenn die Anwendung mehr als 10 Zeichen gleichzeitig schreibt, ist die Soloübertragung des DMX 32 wirkungsvoller.
Wenn die Anwendungen weniger als 10 Zeichen gleichzeitig ausschreiben, gibt es keine bedeutende Leistungsverbesserung des DMx 32 über das DZ 11.
2. Wenn Sie die DZ 11- oder DZ 32-Schnittstelle benutzen, könnten Sie eine Verringerung der Baudrate erwägen, um die Frequenz zu verringern, mit welcher DZ 11 oder DZ 32 für andere Zeichen unterbrechen.
3. Konzipieren Sie Anwendungen zum Sammeln der QIOs in große Schreiboperationen, die so viele Zeichen wie möglich, bis zu MAXBUF, schreiben.
4. Konzipieren Sie Anwendungen für Bildschirmgeräte, eher zum Akualisieren der betroffenen Teile des Bildschirms als Anwendungen zu entwerfen, die den ganzen Bildschirm neu beschreiben.
36. Die Kernmoduszeit hat den Schwellwert überschritten. Es ist möglich, daß der übermäßige Gebrauch von bestimmten Systemdiensten den hohen Kernmodus bewirken werden. Um das Problem zu verringern, führen Sie einen oder mehrere der folgenden Punkte aus:
1. Planen Sie die Arbeitsbelastung so, daß es weniger rechnergebundene Prozesse gibt, die gleichzeitig laufen.
2. Achten Sie darauf, wenn es möglich ist, bestimmte Anwendungen mit verbesserten Algorithmen zu überarbeiten, damit sie gleiche Arbeit unter Benutzung von weniger Systemdiensten ausführen.
Wenn die obigen Schritte das Problem nicht lösen,
1. Mehrere CPUs (Cluster) können Ihr Problem lösen, wenn Ihre Arbeitsbelastung aus unabhängigen Aufgaben und Datenstrukturen besteht.
2. Nehmen Sie eine schnellere CPU, wenn Ihre Arbeitsbelastung so ist, daß die Beendigung jedes Teils von der Beendigung eines vorherigen abhängt.
3. Fügen Sie mehr Speicher hinzu, wenn es eine Speicherbeschränkung gibt.
37. Die Kernmoduszeit ist zu hoch; erhöhen Sie QUANTUM.
Erhöhen Sie QUANTUM auf mindestens 20 ms. Der aktuelle Wert für QUANTUM ist ##. Wenn QUANTUM erhöht wird, wird sich die Geschwindigkeit des Kontextschaltens auf der Zeitbasis verringern, und daher wird sich der Prozentsatz der CPU, der für die Unterstützung des CPU-Ablaufs und des jeweiligen Speichermanagements benutzt wird, ebenfalls verringern. Wenn dieser Aufwand geringer wird, verbessert sich die Leistung.
38. Die Ausführungsmoduszeit hat den Schwellwert überschritten. Es ist möglich, daß Ihre I/O- oder Datenbankmanagementsysteme mißbraucht werden. Untersuchen Sie die Anwendungen, welche die I/O-Systeme wie z. B. RMS oder RDB benutzen, auf ein schlechtes Konzept oder gestörte Parameter hin.
39. Es gibt einen CPU-Engpaß, weil es viele Prozesse gibt, die auf die CPU warten. Wenn gleichzeitig Speicher- oder I/O-Probleme existieren, versuchen Sie zuerst diese Probleme zu lösen. Wenn die Leistung immer noch unannehmbar ist, wenn dies vorkommt, und das Problem fortbesteht, reduzieren Sie Ihre CPU-Nachfrage oder fügen Sie CPU-Leistung hinzu.
Um das Problem zu verringern, führen Sie einen oder mehrere der folgenden Punkte aus:
1. Planen Sie die Arbeitsbelastung, so daß es weniger gleichzeitig ablaufende rechnerbegrenzte Prozesse gibt.
2. Achten Sie darauf, ob es möglich ist, einige Anwendungen mit verbesserten Algorithmen zu überarbeiten, um die gleiche Arbeit mit weniger Verarbeitungsumfang zu erledigen.
3. Überwachen Sie die gleichzeitige Nachfrage nach Anschluß-Ein- /Ausgabe.
Wenn die obigen Schritte das Problem nicht lösen, könnten mehrere CPUS (Cluster) Ihr Problem lösen, wenn Ihre Arbeitsbelastung aus unabhängigen Aufgaben und Datenstrukturen besteht, oder Sie benötigen vielleicht eine schnellere CPU, wenn Ihre Arbeitsbelastung so ist, daß die Beendigung jedes Teils von der Beendigung eines vorherigen abhängt. Vergewissern Sie sich und holen Sie vor der Anschaffung einer neuen CPU eine zweite Meinung ein.

Anhang 3: I/O-Regeln

Nachrichtenschablonen

Regel-Nr.

40. Konfigurieren Sie neu, um den Dateisystemaufwand zu reduzieren. Es gibt übermäßig vielen Gebrauch an Dateisteuer-Grundelementen.
41. Minimieren Sie das Öffnen (OPENING) und Schließen (CLOSING) von Dateien und benutzen Sie die entsprechenden Dateizuweisungen. Benutzen Sie den Befehl $SHO DEV/FILES, um zu ermitteln, welche Benutzer besonders viele Dateien benutzen.
42. Erhöhen Sie die Dateisystem-Cachespeicher.
43. Es gibt übermäßig viel I/O-Nachfrage mit großer EXEC-Moduszeit. I/O-Laufzeitsysteme wie z. B. RMS und RDB könnten Ihr Engpaß sein. Wenn es möglich ist, versuchen Sie, Ihre I/O-System-Datei-Cachespeicherung oder Ihr Dateikonzept zu verbessern; andernfalls konfigurieren Sie neu, um die I/O-Nachfrage oder das Hinzufügen von I/O-Kapazität zu reduzieren.
44. Überprüfen Sie die Benutzerprogramme auf zu viele explizite QIOs. Wenn möglich, versuchen Sie diese Anwendungen zu überarbeiten, um von der Datei-Cachespeicherung besseren Gebrauch zu machen. Dies könnte durch die Benutzung von RMS statt expliziter QIOs erreicht werden.
45. Seitenwechsel erzeugt eine übermäßige Belastung auf der genannten Festplatte. Dies kann ein mit dem Speicher zusammenhängendes Problem sein, jedoch durch Hinzufügen einer weiteren Seitenwechseldatei zu einer vorhandenen Platte kann sich die Situation verbessern.
Wenn Sie schon mehrere Seitenwechseldateien auf getrennten Platten haben, können Sie vielleicht die Seitenwechseldateien auf weniger stark benutzte Platten und/oder schnellere Platten in der Konfiguration laden.
Ein VAX 11/780 kann praktischerweise zwei Seitenwechseldateien benutzen, und ein VAX 8600 kann drei benutzen. Die primäre Seitenwechseldatei sollte besonders auf einer gemeinsam verwendeten System-Platte klein gehalten werden. Verschieben Sie die sekundären Seitenwechseldateien auf eigene Platten. Benutzen Sie nur eine Swap-Datei, aber denken Sie daran, diese auch nicht auf eine gemeinsam verwendete Systemplatte zu tun.
46. Swapping erzeugt eine übermäßige Belastung auf der genannten Platte. Dies kann ein mit dem Speicher zusammenhängendes Problem sein; wenn jedoch die Swappingdatei auf einer gemeinsam verwendeten Systemplatte ist, kann die Situation dadurch verbessert werden, daß sie auf eine Platte geladen wird auf welcher andere Systeme nicht Seitenwechsel oder Swapping durchführen.
47. Schlangen von I/O-Anforderungen bilden sich auf Platten, die einen niederen Operationszählerstand haben. Die Fensterwechselrate zeigt an, daß es vielleicht ein Aufsplitterungsproblem auf den genannten Platten gibt.
Frischen Sie die Platten regelmäßig auf und versuchen Sie, auf den Platten etwa 40% des Platzes frei zu halten. Dies verhindert das schnelle Auftreten von Aufsplitterung und reduziert die Suchzeit, was zu einer besseren I/O- Leistung führt.
48. Die Anschluß-Ein-/Ausgabe belastet die CPU mit Hardware-Unterbrechungen. Reduzieren Sie die Nachfrage oder fügen Sie CPU-Kapazität hinzu.
49. Die Anschluß-Ein-/Ausgabe belastet die CPU mit Hardware-Unterbrechungen. Eine Verbesserung könnte durch das Ersetzen der DZ 11 durch eine Vorrichtung erreicht werden, die zu einem Ausgabestoß fähig ist, wie z. B. die DMF 32 oder DMZ 32. Das DMA-Merkmal könnte einen effizienteren Gebrauch der Kommunikationseinrichtungen durch Reduzierung der Softwarenachfrage ermöglichen.
50. Der explizite Gebrauch von QIOs für die Anschluß-Ein-/Ausgabe durch Benutzer belastet die CPU. Wenn möglich, versuchen Sie Anwendungen zu überarbeiten, indem Sie die große Anzahl von QIOs in kleinere Mengen von QIOs gruppieren, die mehr Zeichen auf einmal übertragen. Eine zweite Möglichkeit wäre, die Arbeitsbelastung anzupassen, um die Nachfrage auszugleichen. Wenn keine dieser Lösungen möglich ist, müssen Sie die Nachfrage reduzieren oder die Kapazität der CPU erhöhen.
51. Es ist möglich, daß andere Vorrichtungen, wie z. B. Kommunikationseinrichtungen, Zeilendrucker, Graphikgeräte, nicht-digitale Geräte oder Instrumentierung oder Geräte, welche die Anschlußgeräte emulieren, die CPU-Kapazität verbrauchen.

Anhang 4: Kanalregeln

Nachrichtenschablonen

Regel-Nr.

52. Kanal (Kanäle) über dem Schwellwert. Es gibt bei den genannten I/O-Kanälen übermäßig viele I/O-Geschwindigkeiten. Seien Sie vorsichtig wegen der Engpässe durch Überlastung der Kanäle.

Anhang 5: Betriebsmittelregeln

Nachrichtenschablonen

Regel-Nr.

53. Es gibt eine übermäßige Anzahl an Decnet-Paketen, die von diesem Knoten bearbeitet werden. Wir schätzen, daß mehr als 30% der CPU-Leistung verbraucht werden, wenn es mehr als 100 Pakete pro Sekunde gibt.
54. Die folgenden Programme warteten, weil die Mailbox voll war.
55. Die folgenden Programme warteten, weil der nicht in Seiten unterteilte Dynamikspeicher voll war.
56. Die folgenden Programme warteten, weil die Seitendatei voll war. Wenn (Gesamtprogrammgröße) * (MAXPROCESSCNT) = ½ * (Seitenwechseldateigröße), dann erhöhen Sie die Größe der Seitendatei auf 2 * (Gesamtprogrammgröße) * (MAXPROCESSCNT).
57. Die folgenden Programme warteten, weil der in Seiten unterteilte Dynamikspeicher voll war.
58. Die folgenden Programme warteten, weil die Datenbank für Sperre- Identifizierung voll war.
59. Die folgenden Programme warteten, weil der Swap-Dateiplatz voll war. Wenn (Durchschnitts-Arbeitsmengenquote der laufenden Prozesse) * (MAXPROCESSCNT) größer als oder gleich 3/4 * (Swappingdateigröße) ist, dann erhöhen Sie die Größe der Swappingdatei auf 4/3 (Durchschnitts- WSQUOTA) * (MXPROCESSCNT).
60. Die folgenden Programme warteten, weil der modifizierte Seitendrucker beschäftigt oder beim Ausleeren war.
Ein Prozeß, der eine modifizierte Seite aus seiner Arbeitsmenge als fehlerhaft nachweist, wird in diesen Wartezustand gebracht, wenn die modifizierte Seitenliste mehr Seiten enthält als der SYSBOOT-Parameter MPW_WAITLIMIT.
Typischerweise sind die Gründe für diesen Wartezustand:
1. MPW_WAITLIMIT ist nicht gleich MPW_HILIMIT.
2. Eine computergebundene Echtzeitaufgabe kann einen Swappingprozeß blockieren.
Wenn keiner der obigen Punkte die Probleme bewirkt, erhöhen Sie MPW_MILIMIT und/oder verringern Sie MPW_LOLIMLT. Die Absicht hierbei ist, den Unterschied zwischen diesen zwei Parametern groß genug zu machen, so daß die modifizierten Seiten nicht oft freigemacht werden müssen. Vergewissern Sie sich auch, daß MPW_HILIMIT gleich MPW_WAITLIMLT ist.
61 Die folgenden Programme warteten wegen RSN$_SCS.
Der Sicherungsmanager stellt einen Prozeß in diesen Wartezustand, wenn der Sicherungsmanager mit seinen Gegenstücken in anderen VAX-Clusterknoten kommunizieren muß, um Information über eine bestimmte Sperrkapazität zu erhalten.
Wenn ein Prozeß in diesem Wartezustand verzögert wird, kann es ein Anzeichen von CI-Problemen, einem instabilen Cluster oder von Verlust der Beschlußfähigkeit sein. Überprüfen Sie die Konsole auf Informationen, die den Clusterstatus anzeigen könnten, und überprüfen Sie die Fehlerprotokolle und die Konsolen auf Information über CI-Probleme.
62. Die folgenden Programme warteten wegen RSN$_CLUSTRAN.
Ein Prozeß, der eine bestimmte Sperrcodeanforderung an einen bestimmten Knoten eines Clusters im Übergang (d. h., während ein Knoten hinzugefügt oder weggenommen wird) ausgibt, wird in diesen Wartezustand gebracht, während die Clusterzugehörigkeit sich stabilisiert.
63. Die Systemfehlerrate für VMS liegt für die folgenden Zeitintervalle über 2 Fehlern pro Sekunde. Die Leistung kann für das ganze System verbessert werden, wenn die VMS-Fehlerrate reduziert werden kann.
Erhöhen Sie die Arbeitsmengengröße für VMS (SYSMWCNT), um die Systemfehlerrate zu reduzieren.
64. Unnötiger Aufwand ist für das Bilden von zusätzlichen SRPs vom nicht in Seiten unterteilten dynamischen Speicher aufgetreten. Wenn bei der Startzeit mehr SRPs schon zugeordnet gewesen waren, wäre dadurch weder ein zusätzlicher Aufwand entstanden, noch hätte es einen verschwendeten dynamischen Speicher gegeben.
Erhöhen Sie den SRPCOUNT-Parameter auf einen Wert, der ein wenig höher ist als der maximale Betrag der benutzten SRPS. Setzen Sie den SRPCOUNTV-Parameter auf den vierfachen Wert von SRPCOUNT (wenn er zu hoch gewählt wird, schadet dies der Leistung nicht).
65. Unnötiger Aufwand ist für das Bilden von zusätzlichen IRPs vom nicht in Seiten unterteilten dynamischen Speicher aufgetreten. Wenn bei der Startzeit mehr IRPs zugeordnet gewesen wären, wäre dadurch weder ein zusätzlicher Aufwand entstanden, noch hätte es einen verschwendeten dynamischen Speicher gegeben.
Erhöhen Sie den IRPCOUNT-Parameter auf einen Wert, der ein wenig höher ist als der maximale Betrag der benutzten IRPS. Setzen Sie den IRPCOUNTV- Parameter auf den vierfachen Wert von IRPCOUNT (wenn er zu hoch gewählt wird, schadet dies der Leistung nicht).
66. Unnötiger Aufwand ist für das Bilden von zusätzlichen LRPs vom nicht in Seiten unterteilten dynamischen Speicher aufgetreten. Wenn bei der Startzeit mehr LRPs zugeordnet gewesen wären, wäre dadurch weder ein zusätzlicher Aufwand entstanden, noch hätte es einen verschwendeten dynamischen Speicher gegeben.
Erhöhen Sie den LRPCOUNT-Parameter auf einen Wert, der ein wenig höher ist als der maximale Betrag der benutzten LRPs. Setzen Sie den LRPCOUNTV- Parameter auf den vierfachen Wert von LRPCOUNT (wenn er zu hoch gewählt wird, schadet dies der Leistung nicht).
67. Unnötiger Aufwand ist für das Bilden von zusätzlichem nicht in Seiten unterteiltem dynamischem Speicher aufgetreten. Wenn bei der Startzeit dem nicht in Seiten unterteilten dynamischen Speicher mehr Bytes zugeordnet gewesen wären, wäre dadurch kein zusätzlicher Aufwand entstanden.
Erhöhen Sie den NPAGEDYN-Parameter auf einen Wert, der ein wenig höher ist als der maximaie Betrag der nicht in Seiten unterteilten benutzten Bytes. Setzen Sie den NPAGEVIR-Parameter auf den dreifachen Wert von NPAGEDYN.
68. Unnötiger Aufwand ist für das Bilden von zusätzlichen Kapazitäts-Hash-ID- Tabelleneinträgen aufgetreten. Wenn bei der Startzeit dem RESHASHTBL mehr Einträge zugeordnet gewesen wären, wäre dadurch kein zusätzlicher Aufwand entstanden.
Erhöhen Sie den RESHASHTBL-Parameter auf einen Wert, der ein wenig höher ist als die maximale Anzahl der bekannten Kapazitäten.
69. Unnötiger Aufwand ist für das Bilden von zusätzlichen Sperr-ID- Tabelleneinträgen aufgetreten. Wenn bei der Startzeit dem LOCKIDTBL mehr Einträge zugeordnet gewesen wären, wäre dadurch kein zusätzlicher Aufwand entstanden.
Erhöhen Sie den LOCKIDTBL-Parameter auf einen Wert, der ein wenig höher ist als die maximale Anzahl der benutzten Sperrcodes.
70. Diese CPU scheint meistens Stapelverarbeitungsaufträge und nur eine sehr kleine Menge an interaktiver Arbeit abzuarbeiten. Wenn dies der Fall ist, sollten Sie erwägen, den Wert von QUANTUM zu erhöhen. Dies wird ermöglichen, daß die Arbeiten mehr CPU-Zyklen pro Kontextschalter verbrauchen und so den Gesamtaufwand verringern. In einem VAX-11/780 kann QUANTUM für eine Stapelumgebung auf eine Höhe von 500 gesetzt werden.
Die Gesamtanzahl an interaktiven Benutzern war %%%, und die Stapelverarbeitungsaufträge verbrauchten %%% Prozent der CPU.

Anhang 6: Kanalregeln

Nachrichtenschablonen

Regel-Nr.

71. Bei viel benutzten Platten bilden sich Schlangen. Wenn sich längere Schlangen bilden, wird man längere Laufzeiten erleben.
Überprüfen Sie die Platte(n) auf mögliche Aufsplitterungsprobleme. Wenn die Kapazität einer Platte mit vieien Schreiboperationen nahezu erreicht ist (mehr als 70% voll), dann wird wahrscheinlich eine Aufsplitterung schnell auftreten. Wenn dies der Fall ist, frischen Sie die Platte unter Verwendung des Hilfsprogramms BACK ohne den Qualifier /PHYSICAL auf.
Wenn nicht die Aufsplitterung das Problem ist, legen Sie jede neue Aufgabe während der genannten Zeiten (wenn mögiich) auf andere Plattenteile fest, und versuchen Sie, die Benutzung der genannten Plattenteile zu verringern.
72. Bei den Platten existieren Schlangen, die eine kleine Betriebsszahl haben. Dies deutet auf eine Verzögerung hin, die durch Pfadkonkurrenz oder Teil- Hardwarefehler bewirkt wurde.
Vorgeschlagene Abhilfe: Benutzen Sie SPEAR, um sich zu vergewissern, daß Gerätefehler in den genannten Teilen nicht erzeugt werden, und/oder versuchen Sie, durch Hinzufügen von Pfaden (Kanäle oder Regler) jede Konkurrenz auf der Platte zu verringern.
73. HSC(s) über dem Schwellwert.
74. Der Sicherungsmanager hat das Auftreten von Blockierungen erkannt. Blockierungen werden durch Anwendungen bewirkt, die den Sicherungsmanager benutzen und ihre Sperraktivität unkorrekt abwickeln. Blockierungen können clusterumfassende Leistungsabfall bewirken, weil die Suche nach Blockierungen mit hoher Priorität eingeleitet wird und nicht notwendigerweise auf einen bestimmten Knoten beschränkt ist.
Versuchen Sie, die Anwendung(en) zu isolieren, welche die Blockierungen bewirken, und überarbeiten Sie die Sperralgorithmen.
75. Die Suche nach Blockierungen findet statt, ohne Blockierungen zu finden. Die Suche nach Blockierungen kann dadurch bewirkt werden, daß der Parameter DEADLOCK_WAIT zu niedrig eingestellt ist.
Die Suche nach Blockierungen kann clusterumfassende Leistungsabfall bewirken. Die Suche nach Blockierungen wird bei hoher Priorität ausgelöst und wird nicht notwendigerweise auf einen bestimmten Knoten beschränkt.
Erwägen Sie eine Erhöhung des Wertes von DEADLOCK_WAIT auf den durch AUTOGEN vorgegebenen Wert (nicht weniger als 10 Sekunden).
76. Der Sicherungsmanager hat das Vorkommen einer Suche nach Blockierungen, ohne Blockierungen zu finden, erkannt. Es ist wahrscheinlich, daß Anwendungen einschränkende Sperren für zu lange Zeit halten (und dabei eine Blockierungssuche starten). Die Suche nach Blockierungen kann eine clusterumfassende Leistungsabfall bewirken. Die Suche nach Blockierungen wird bei hoher Priorität ausgelöst und wird nicht notwendigerweise auf einen bestimmten Knoten beschränkt.
Versuchen Sie, die Anwendung(en) zu isolieren, welche die Suche nach Blockierungen bewirkt/en, und überarbeiten Sie die Sperralgorithmen, damit sie einschränkende Sperren so kurz wie möglich halten.
77. Es gibt zu viele Platten-I/Os, die durch eine geringe Trefferquote in den Systemdatei-Cachespeichern bewirkt werden. Wenn ein Datei-Cachespeicher- Nachschlagen fehlschlägt, wird eine Plattenoperation durchgeführt, um die erforderlichen Daten wiederzubekommen. Es kann nötig sein, die Größe von einem oder mehreren Datei-Cachespeichern zu erhöhen, um den zusätzlichen I/O-Aufwand zu reduzieren.
Prüfen Sie die statistischen Meßzahlen des Datei-Cachespeichers, um fest zustellen, ob ein größerer Cachespeicher benötigt wird. Wenn Sie entscheiden, die Größe eines Cachespeichers zu erhöhen, benutzen Sie AUTOGEN und starten Sie das System neu, um zu bewirken, daß die neuen Werte benutzt werden.

Claims

1. Verfahren zum Betreiben eines Datenprozessorsystems (210) zum Berechnen der Leistung des Datenprozessorsystems, wobei das Datenprozessorsystem eine Mehrzahl von Arbeitsbelastungsmerkmalen hat, die die Leistung des Datenprozessorsystems anzeigen, sowie eine Mehrzahl von Systemparametern, die die zulässigen Betriebsbereiche für das Datenprozessorsystem definieren, wobei die Systemparameter einstellbar sind, um die Leistung des Datenprozessorsystems zu beeinflussen, und die Auswertung relativ zu einem Regelwerk durchgeführt wird, das die annehmbaren Zustände der Arbeitsbelastungsmerkmale festlegt, wobei das Verfahren gekennzeichnet ist durch die vom Datenprozessorsystem durchgeführten Schritte:

Mindestens einmal während jeder der mehreren vorher festgelegten Zeitintervalle (230), die Hauptintervalle bilden, Messen eines Wertes von jedem der mehreren Meßwerte, entsprechend dem Regelwerk, unter Verwendung von einem Datensammel-Untersystem (240), wobei jeder der Meßwerte eine meßbare Menge des Datenprozessorsystems darstellt, und das Hauptintervall durch ein Datensammel- Steuerprogramm (220) des Datenprozessorsystems periodisch begonnen wird;

Speicherung des für jeden der Meßwerte gemessenen Wertes und des Hauptintervalls, während dem die Messung gemacht wurde, in einem Speicher (250) des Datenprozessorsystems;

Vergleichen des für jeden der gemessenen Meßwerte gespeicherten Werts mit einem entsprechenden Schwellenwert, der für diesen in einem Schwellenwert- Untersystem (280) des Datenprozessorsystemspeichers gespeicherten Meßwert, unter Verwendung eines Benachrichtigungs-Untersystems (260), das die Regeln eines Regeluntersystems (270) anwendet, wobei die Vergleiche für ausgewählte Hauptintervalle durchgeführt werden;

Auswerten der Ergebnisse aus jedem der Vergleiche zwischen den gespeicherten Werten und den entsprechenden Schwellwerten, unter Verwendung des Benachrichtigungs-Untersystems (260) und des Regeluntersystems (270), um festzustellen, ob eine Mehrzahl von vorher festgelegten spezifischen Relationen für jeden der durch die gespeicherten Werte dargestellten Meßwerte und den entsprechenden Schwellenwerten für diese Meßwerte zutreffen, wobei jede der spezifizierten Relationen eines oder mehrere der Regelwerke betrifft;

Starten der bestimmten Regeln, auf welche alle der verknüpften, spezifizierten Relationen zutreffen, durch das Datenprozessorsystem (210);

Speichern der Daten, die jede der Regeln darstellen, welche gestartet wurden, und der Hauptintervalle (310), während welcher jede jener Regeln gestartet wurde, in dem Prozessorspeicher (250);

Zählen der Anzahl der Hauptintervalle, während welcher jede der Regeln gestartet wurde, um eine Gesamtzahl der startenden Hauptintervalle für jedes Regelwerk zu erhalten, unter Verwendung eines Analyseelements (410) des Benachrichtigungs-Untersystems (260); und

Empfehlen der Einstellung eines bestimmten der Systemparameter von den Regeln, die gestartet wurden, um die Leistung des Datenprozessorsystems zu verbessern, unter Verwendung eines Arbeitsbelastungs-Charakterisierungselements (420) des Benachrichtigungs-Untersystems (260), wobei der Empfehlungsschritt die Unterschritte beinhaltet:

- Prüfen einer Liste von Vorschlagsaktionen, die in dem Prozessorspeicher (250) als Nachrichteninformationen mit einem Kennzeichner entsprechend einer der Regeln gespeichert sind, um die eine der Vorschlagsaktionen zu finden, für welche die entsprechenden Regeln diejenigen sind, welche gestartet wurden;

- Sicherstellen, daß die Gesamtzahl der Hauptintervalle für jede der Regeln eine entsprechende vorher festgelegte Schwellenwertanzahl vor dem Anzeigen der vorgeschlagenen Aktionen, die in dem Prüfschritt gefunden wurden; übersteigt und

- Anzeigen der bestimmten, bei dem Prüfschritt gefundenen vorgeschlagenen Aktionen.

2. Verfahren nach Anspruch 1, wobei das Datenprozessorsystem eine Mehrzahl von zusammengeschalteten Elementen in einer festgelegten Anordnung umfaßt und außerdem dadurch gekennzeichnet ist, daß der Empfehlungsschritt (260, 240) Änderungen von den Regeln, die gestartet wurden, in der festgelegten Anordnung der Mehrzahl der zusammengeschalteten Elemente empfiehlt, um die Leistung des Datenprozessorsystems zu verbessern.

3. Verfahren nach Anspruch 1 oder 2, außerdem gekennzeichnet durch den Schritt der Ausgabe der vorher ausgewählten Meßwerte, Parameter und Schwellenwerte für jede der angezeigten vorgeschlagenen Aktionen, zum Auswerten der Ergebnisse der Vergleiche, um festzustellen, ob die bestimmten Regeln entsprechend der angezeigten vorgeschlagenen Aktionen gestartet werden sollen.