DE112012002532T5

DE112012002532T5 - Netzwerk-Verwaltungssystem

Info

Publication number: DE112012002532T5
Application number: DE112012002532.6T
Authority: DE
Inventors: David Richard Franklin; Stephen Forfar Cook
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2011-08-10
Filing date: 2012-08-01
Publication date: 2014-04-03
Also published as: US20140173109A1; GB201400652D0; GB2506323B; GB2506323A; CN103733567B; US9253023B2; WO2013021316A1; CN103733567A

Abstract

Ein Netzwerk-Verwaltungssystem weist einen mit einer Vielzahl von Überwachungseinheiten verbundenen Server auf, wobei jede Überwachungseinheit mit einer oder mehreren verwalteten Einheiten verbunden ist. Ein Verfahren zum Betreiben des Systems weist die Schritte auf: Empfangen von Fehlerereignissen für die mit den Überwachungseinheiten verbundenen Einheiten, Erkennen, dass die Quote empfangener Fehlerereignisse einen Überlastungsgrad für den Server erreicht hat oder sich diesem nähert, Ausfindigmachen einer verwalteten Einheit, die zu dem erreichten oder näher kommenden Überlastungsgrad beiträgt, Umschalten der Überwachungseinheit für die ausfindig gemachte Einheit in einen Überlaufverhinderungsmodus und Betreiben der umgeschalteten Überwachungseinheit in dem Überlaufverhinderungsmodus und dadurch Zusammenfassen mehrerer Fehlerereignisse für die ausfindig gemachte verwaltete Einheit zu einem einzigen Fehlerereignis, das an den Server gesendet wird.

Description

Technisches Gebiet
Diese Erfindung betrifft ein Verfahren zum Betreiben eines Netzwerk-Verwaltungssystems und das Netzwerk-Verwaltungssystem an sich. Gemäß einer Ausführungsform stellt die Erfindung einen verbesserten Ereignisüberlaufschutz für Netzwerk-Verwaltungssysteme bereit.
Hintergrundinformationen
Viele Datenverarbeitungssysteme weisen ein großes Netzwerk miteinander verbundener Einheiten auf, die gemeinsam einen oder mehrere Dienste für externe Clients bereitstellen. Zu den das System ausmachenden Datenverarbeitungseinheiten können zum Beispiel Server und Speichereinheiten gehören. Um die Arbeit solcher Systeme zu überwachen, ist es üblich, ein Netzwerk-Verwaltungssystem zu verwenden, um verschiedene Aspekte der Arbeit des Datenverarbeitungssystems zu überwachen, darunter das Auftreten von Fehlern innerhalb des Systems. Es gibt eine Reihe von Netzwerk-Verwaltungssystemen, die verwendet werden können. Diese Systeme sammeln Fehlerdaten von einzelnen Einheiten innerhalb eines Netzwerks, korrelieren diese dann untereinander, ordnen sie in Kategorien ein, weisen ihnen Prioritäten zu und stellen diese Fehlerdaten in einer Form dar, die es einem Administrator ermöglicht, das Netzwerk zu verwalten und erfolgreich zu reparieren.
Eines der mit der Verwaltung sehr großer Netzwerke verbundenen Probleme besteht darin, dass es Netzwerkfehlermodi gibt, die zum Entstehen einer sehr großen Anzahl von Fehlerereignissen führen können, insbesondere wenn es zu einem kaskadierenden Netzwerkfehler kommt. Die große Anzahl erzeugter Fehlerereignisse kann das Netzwerk-Verwaltungssystem mit einer riesigen Anzahl von Fehlerereignissen überfluten, sodass das Netzwerk-Verwaltungssystem nicht mehr reagieren kann und ein Administrator nur schwer die eigentliche Ursache des Fehlers eingrenzen oder die richtigen Prioritäten für die Reparaturmaßnahmen setzen kann. Eine oder mehrere Einheiten innerhalb des Datenverarbeitungsnetzwerks können innerhalb eines sehr kurzen Zeitraums eine sehr große Anzahl von Fehlerereignissen erzeugen, und das Verwaltungssystem wird mit diesen Fehlerereignissen überflutet, die nicht adäquat verarbeitet werden können und/oder die Reaktion auf diese Fehler erschweren. In der US-Patentschrift Nr. 7 120 819 B1 (Gürer, D., et al. „Method and System for Fault Diagnosis in a Data Network”, 10. Oktober 2006) werden ein Verfahren und ein System zum Automatisieren des Fehlerermittlungsprozesses in einem Datennetzwerk beschrieben.
Bei einigen Netzwerk-Verwaltungssystemen wird dieses Problem dadurch gelöst, dass eine Überwachungseinheit, die Daten von mehreren Einheiten sammeln kann, abgeschaltet wird, sobald die Fehlerereignisquote einen vorgegebenen Schwellenwert überschreitet, und dann wieder gestartet wird, sobald die Quote den Schwellenwert wieder unterschreitet. Das bietet jedoch nur eine sehr primitive Lösung des Problems, da beim Abschalten einer Überwachungseinheit viele Daten verloren gehen, darunter Daten, die für die Reparatur des Netzwerks entscheidend sind. Wenn die Überwachungseinheit mehrere Einheiten überwacht, gehen darüber hinaus auch dann alle Daten von allen überwachten Einheiten verloren, wenn nur eine der überwachten Einheiten die Lawine von Fehlerereignissen erzeugt.
Deshalb besteht in der Technik ein Bedarf an der Lösung der mit einer Lawine von Ereignissen verbundenen Probleme.
KURZDARSTELLUNG
Unter einem ersten Aspekt der vorliegenden Erfindung wird ein Verfahren zum Betreiben eines Netzwerk-Verwaltungssystems beschrieben, wobei das System einen mit einer Vielzahl von Überwachungseinheiten verbunden Server aufweist und jede Überwachungseinheit mit einer oder mehreren verwalteten Einheiten verbunden ist, wobei das Verfahren die Schritte aufweist: Empfangen von Fehlerereignissen für die verwalteten Einheiten an den Überwachungseinheiten, Erkennen, dass die Quote empfangener Fehlerereignisse einen Überlastungsgrad für den Server erreicht hat oder diesem näher kommt, Ausfindigmachen einer verwalteten Einheit, die zu dem erreichten oder angenäherten Überlastungsgrad beiträgt, Umschalten der Überwachungseinheit für die ausfindig gemachte verwaltete Einheit in den Überlaufverhinderungsmodus und Betreiben der umgeschalteten Überwachungseinheit in dem Überlaufverhinderungsmodus, wodurch mehrere Fehlerereignisse für die ausfindig gemachte verwaltete Einheit zu einem einzigen Fehlerereignis zusammengefasst werden, das an den Server gesendet wird.
Unter einem zweiten Aspekt der vorliegenden Erfindung wird ein Netzwerk-Verwaltungssystem bereitgestellt, das einen mit einer Vielzahl von Überwachungseinheiten verbundenen Server aufweist, wobei jede Überwachungseinheit mit einer oder mehreren verwalteten Einheiten verbunden ist, wobei das System so eingerichtet ist, dass es Fehlerereignisse für die verwalteten Einheiten an den Überwachungseinheiten empfängt, erkennt, dass die Quote empfangener Fehlerereignisse einen Überlastungsgrad für den Server erreicht hat oder sich diesem nähert, eine verwaltete Einheit ausfindig macht, die zu dem erreichten oder angenäherten Überlastungsgrad beiträgt, die Überwachungseinheit für die ausfindig gemachte verwaltete Einheit in einen Überlaufverhinderungsmodus umschaltet und die umgeschaltete Überwachungseinheit in dem Überlaufverhinderungsmodus betreibt und dadurch mehrere Fehlerereignisse für die ausfindig gemachte verwaltete Einheit zu einem einzigen Fehlerereignis zusammenfasst, das an den Server gesendet wird.
Unter einem dritten Aspekt der vorliegenden Erfindung wird ein Computerprogrammprodukt auf einem computerlesbaren Medium zum Betreiben eines Netzwerk-Verwaltungssystems bereitgestellt, wobei das System einen mit einer Vielzahl von Überwachungseinheiten verbundenen Server aufweist, wobei jede Überwachungseinheit mit einer oder mehreren verwalteten Einheiten verbunden ist, wobei das Produkt Anweisungen aufweist zum Empfangen von Fehlerereignissen für die verwalteten Einheiten, zum Erkennen, dass die Quote empfangener Fehlerereignisse einen Überlastungsgrad für den Server erreicht hat oder sich diesem nähert, zum Ausfindigmachen einer verwalteten Einheit, die zu dem erreichten oder angenäherten Überlastungsgrad beiträgt, zum Umschalten der Überwachungseinheit für die ausfindig gemachte verwaltete Einheit in einen Überlaufverhinderungsmodus und zum Betreiben der umgeschalteten Überwachungseinheit in dem Überlaufverhinderungsmodus und dadurch Zusammenfassen mehrerer Fehlerereignisse für die ausfindig gemachte verwaltete Einheit zu einem einzigen Fehlerereignis, das an den Server gesendet wird.
Unter einem weiteren Aspekt stellt die vorliegende Erfindung ein Computerprogrammprodukt zum Betreiben eines Netzwerk-Verwaltungssystems bereit, wobei das Computerprogrammprodukt aufweist: ein computerlesbares Speichermedium, das durch eine Verarbeitungsschaltung lesbar ist und Anweisungen zum Ausführen durch die Verarbeitungsschaltung zum Ausführen eines Verfahrens zum Ausführen der Schritte der Erfindung speichert.
Unter einem weiteren Aspekt stellt die vorliegende Erfindung ein Computerprogrammprodukt bereit, das auf einem computerlesbaren Medium gespeichert und in den internen Speicher eines digitalen Computers ladbar ist und Abschnitte eines Softwarecodes aufweist, um bei Ausführung des Programms auf einem Computer die Schritte der Erfindung auszuführen.
Dank der Erfindung ist es möglich, ein Netzwerk-Verwaltungssystem bereitzustellen, das ein ausgeklügeltes Verfahren zum Verringern der Anzahl von Ereignisdaten einer gestörten Einheit umsetzt. Im Überlaufverhinderungsmodus puffert eine Überwachungseinheit Daten von einer bestimmten Einheit und erzeugt ein einziges summarisches Ereignis, das die Daten von den mehreren gepufferten Fehlerereignissen isoliert. Dies lässt sich zum Beispiel durch Zusammenfassen ähnlicher Ereignisse zu einer Gruppe erreichen. In der einfachsten Form des verbesserten Systems führt die Überwachungseinheit eine Deduplizierungsfunktion aus, bevor sie überhaupt Ereignisse sendet. Nachdem ein Überlauf von Ereignissen erkannt wurde, kann anschließend eine geeignete Maßnahme zur Netzwerkverwaltung durchgeführt werden. In einer komplexeren Form wird das Komprimieren der Ereignisse dadurch erreicht, dass nach Ereignissen mit einer großen Anzahl identischer Spalten gesucht wird und die Unterschiede als einziges summarisches Ereignis codiert werden. Gemäß einer Ausführungsform wird die externe Steuerung, die dafür zuständig ist, welche Überwachungseinheit in den Ereigniskomprimierungsmodus oder zurück in den normalen Betriebsmodus versetzt wird, durch Verwenden eines bidirektionalen Datenübertragungssystems von einem verbundenen Server bewirkt.
In einer alternativen Form des Netzwerk-Verwaltungssystems beginnt die Überwachungseinheit automatisch mit dem Verringern der Ereignisdaten, wenn die Anzahl empfangener Fehlerereignisse eine obere Grenze der Anzahl von Ereignissen überschreitet. Die Datenströme, die in einen Ereignisverringerungsmodus versetzt werden, können nach der Anzahl von Ereignissen ausgewählt oder so gewichtet werden, dass die Ereignisquoten bei wichtigeren Einheiten nicht vordringlich verringert werden müssen. Bei einer weiteren alternativen Form des Netzwerk-Verwaltungssystems prüft die Überwachungseinheit auch den Auslastungsgrad auf dem Server, bevor sie den Überlaufschutz/Verhinderungs-Modus auslöst, um sich über dessen Notwendigkeit zu vergewissern.
Kurzbeschreibung der Zeichnungen
Nunmehr wird die vorliegende Erfindung lediglich beispielhaft unter Bezugnahme auf bevorzugte Ausführungsformen beschrieben, die in den folgenden Figuren veranschaulicht sind:
1 ist ein schematisches Schaubild eines Netzwerk-Verwaltungssystems nach dem Stand der Technik, in dem eine bevorzugte Ausführungsform der vorliegenden Erfindung umgesetzt werden kann;
2 ist ein schematisches Schaubild eines Teils des Netzwerk-Verwaltungssystems gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung, das ein Fehlerereignis enthält;
3 ist ein schematisches Funktionsschaubild einer Überwachungseinheit des Netzwerk-Verwaltungssystems gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung;
4 ist ein schematisches Schaubild eines Servers des Netzwerk-Verwaltungssystems gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung; und
5 ist ein schematisches Schaubild einer zweiten Ausführungsform des Netzwerk-Verwaltungssystems gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung.
Detaillierte Beschreibung der Erfindung
1 zeigt ein Netzwerk-Verwaltungssystem. Das System weist einen Server 10 auf, der mit einer Vielzahl von Überwachungseinheiten 12 verbunden ist, wobei jede Überwachungseinheit 12 mit einer oder mehreren verwalteten Einheiten 14 verbunden ist. Das System beinhaltet auch einen Proxy-Server 16, der veranschaulicht, dass eine Überwachungseinheit 12 nicht unbedingt direkt mit dem Server 10 verbunden sein muss, sondern mittelbar über den Proxy-Server 16 angeschlossen sein kann. Bei einer Überwachungseinheit 12 kann es sich um eine Softwarekomponente handeln, die sich direkt auf einer Einheit 14 oder auf einer anderen mit einer verwalteten Einheit 14 verbundenen Einheit befinden kann. Die Verbindungen zwischen den in der Figur gezeigten Komponenten können je nach der Topologie des Systems über ein lokales oder ein Weitverkehrsnetzwerk verlaufen.
Bei den verwalteten Einheiten 14 kann es sich um einen von vielen verschiedenen Typen von Einheiten handeln, darunter Server, Speichereinheiten, Einschübe von Speichereinheiten, Netzwerkeinheiten oder Softwarekomponenten wie beispielsweise andere Verwaltungssysteme, zum Beispiel Elementverwaltungssysteme (element management systems, EMS) oder Netzwerkverwaltungssysteme (network management systems, NMS). Die verwalteten Einheiten 14 bilden einen Teil eines Datenverarbeitungssystems, das dazu dient, externen Clients bestimmte Dienste zukommen zu lassen. Die Einheiten 14 können das Datenverarbeitungsnetzwerk zum Beispiel einer großen Organisation bilden oder ein Datenverarbeitungssystem darstellen, das eine der breiten Öffentlichkeit zugängliche große und komplexe Website unterstützt, beispielsweise die Website eines Kreditinstituts. Die Einheiten 14 können viele tausende Anfragen bearbeiten, und die Anzahl und Komplexität der durch die Einheiten 14 bearbeiteten Anfragen bringen es mit sich, dass es zu Fehlern kommen kann und kommt.
Wenn eine Einheit 14 einen Fehler erzeugt, zum Beispiel wenn sie eine Anfrage eines Clients nicht ordnungsgemäß erledigen kann, teilt dies die betreffende verwaltete Einheit 14, die den Fehler erzeugt hat, der Überwachungseinheit 12 mit, die für die Einheit 14 zuständig ist. Dann erzeugt die Überwachungseinheit 12 nach festgelegten Regeln ein Fehlerereignis, das dann entweder direkt oder über den Proxy-Server 16 an den Server 10 gesendet wird. Da eine einzelne Überwachungseinheit 12 Daten von mehreren Einheiten 14 sammeln kann, können die durch eine Überwachungseinheit 12 erzeugten Fehlerereignisse von verschiedenen Einheiten 14 stammen. Ein Administrator kann auf den Server 10 zugreifen und die von den Überwachungseinheiten 12 empfangenen Fehlerereignisse über eine geeignete grafische Benutzeroberfläche des Servers 10 überprüfen.
Bei einer Überwachungseinheit 12 handelt es sich um eine Überwachungskomponente, die Fehler- oder Lösungsrohdaten von einer oder mehreren Einheiten 14 verarbeiten kann. 2 zeigt, dass die empfangenen Fehler/Lösungen nach einem Satz festgelegter Regeln, für die es einen Standardsatz von Spalten gibt, in Fehlerereignisse 18 konvertiert werden. Die Regeln legen auch fest, in welche Zieltabellen in einer oder mehreren durch den Server 10 geführten zentralen Datenbanken die Ereignisse 18 geschrieben werden sollen. Nachdem die Ereignisse 18 in das Standardspaltenformat konvertiert worden sind, werden sie in Nachrichtenwarteschlangen für jeweils eine Zieltabelle eingetragen. Dann senden separate Threads diese Daten an die betreffende Tabelle der Zieldatenbank. Wenn die Zieldatenbank offline ist, werden die Daten so lange in einer Datei gespeichert, bis die Datenbank wieder verfügbar ist und die Daten dann gesendet werden können.
Die Überwachungseinheit 12 ist so konfiguriert, dass sie zwei verschiedene Betriebsmodi aufweist. Diese verschiedenen Modi unterliegen verschiedenen Sätzen von Regeln, auf die die Überwachungseinheit 12 zugreifen kann. Die Überwachungseinheit 12 kann zwischen den verschiedenen Betriebsmodi umgeschaltet werden. Dieses Umschalten kann durch den Server 10 veranlasst werden oder die Überwachungseinheit 12 kann so konfiguriert sein, dass sie als Reaktion auf bestimmte Umstände selbst zwischen den Modi umschalten kann. Im normalen oder Grundmodus erzeugt die Überwachungseinheit 12 immer dann ein Fehlerereignis 18, wenn sie von einer Einheit 14 eine Fehleranzeige empfängt. In einem Überlaufverhinderungsmodus wird ein Komprimierungsverfahren angewendet, das im Folgenden ausführlich erörtert wird.
Die verschiedenen Betriebsmodi für eine Überwachungseinheit sind auf die verwaltete Einheit 14 zugeschnitten, mit der die Überwachungseinheit 12 verbunden ist. Das bedeutet, dass die Überwachungseinheit 12, wenn sie mit mehreren verwalteten Einheiten 14 verbunden ist, für die verschiedenen Einheiten 14 in verschiedenen Modi arbeiten kann. Somit kann eine mit zwei verschiedenen verwalteten Einheiten 14 verbundene Überwachungseinheit 12 für eine erste Einheit 14 im Überlaufverhinderungsmodus und für eine zweite Einheit 14 im Grundmodus arbeiten. Eine Überwachungseinheit 12 kann je nach den von dem Server 12 empfangenen Anweisungen oder in Abhängigkeit von ihrem eigenen Entscheidungsfindungsprozess zwischen den verschiedenen Modi hin- und herschalten.
Wenn eine Überwachungseinheit 12 für eine bestimmte Einheit 14, für die sie zuständig ist, in den Überlaufverhinderungsmodus versetzt wird, fasst die Überwachungseinheit 12 mehrere Fehlerereignisse für die betreffende verwaltete Einheit 14 zu einem einzigen Fehlerereignis zusammen, das an den Server 10 gesendet wird. Dies kann auf unterschiedliche Weise erreicht werden, zum Beispiel durch Senden nur jedes n-ten Fehlerereignisses 18 oder durch Komprimieren mehrerer gleichartiger Fehlerereignisse 18 zu einem einzigen Fehlerereignis 18 usw. Das Entscheidende für die Überwachungseinheit 12 im Überlaufverhinderungsmodus für eine verwaltete Einheit 14 besteht darin, dass die Überwachungseinheit 12 die Anzahl der an den Server 10 für diese betreffende Einheit 14 gesendeten Fehlerereignisse 18 verringert.
3 zeigt nähere Einzelheiten einer Überwachungseinheit 12. Der neue Ereignisverringerungs-Algorithmus wird innerhalb eines Ereignissende-Threads 20 in der Überwachungseinheit 12 ausgeführt. Das bedeutet, dass die Überwachungseinheit 12, wenn sie in dem Überlaufverhinderungsmodus betrieben wird, weder einen Fehlerempfangs-Thread 22 noch einen Ereignisverarbeitungs-Thread 24 verlangsamt. Ein Algorithmus 26 wird durch den Modus 28 umgeschaltet. Da außerdem der größte Teil der durch den Ereignisübertragungs-Thread 20 abgewickelten Aufgaben den Datenaustausch mit der Datenbank betrifft, wird durch das Verringern der Anzahl der Ereignisse 18 die Gesamtleistung der Überwachungseinheit 12 beschleunigt, allerdings zu Lasten einer erhöhten Ereignislatenz. In dieser Figur sind auch die beim Erzeugen der Ereignisse 18 angewendeten Regeln 30 dargestellt.
Gemäß einer ersten Ausführungsform des Systems weist die Überwachungseinheit 12 eine Hashtabelle für eine oder mehrere Einheiten 14 auf, die in den Überlaufverhinderungsmodus versetzt worden sind. Die Inhalte der Tabelle, die zusammen mit dem Modus 28 gespeichert werden können, werden durch den Server 10 an die Überwachungseinheit 12 gesendet. In einem hierarchischen System mit mehreren Servern 10 stellt ein Server 10, der die Daten zusammenfasst, die Komponente des Systems dar, der die Überwachungseinheiten 12 auf diese Weise steuert, da diese Komponente als erste einem Ereignisüberlauf nicht gewachsen wäre (was unter Bezugnahme auf 5 ausführlicher erörtert wird). Die verwalteten Einheiten 14 werden anhand ihres Knotens, d. h. des Hostnamens, in dem Netzwerk ausfindig gemacht.
Der folgende Pseudocode beschreibt die neue Funktionalität, die dem Sende-Thread 20 der Überwachungseinheit hinzugefügt wurde.

1. Ereignisdaten aus der Nachrichtenwarteschlange des Verarbeitungs-Threads für die Regeldatei lesen.
2. Befindet sich die Knotenspalte des Fehlerereignisses in der Überlaufverhinderungs-Hashtabelle?
3. Falls ja, Fehlerereignis in einen einheitenspezifischen Puffer schreiben, der als Zeigerliste gespeichert ist, und weiter zu Schritt 5.
4. Ereignis als normal in die Servertabelle schreiben.
5. Ist eine konfigurierbare Puffer-Intervallzeit abgelaufen (die in einer Ausführungseigenschaftendatei der Überwachungseinheit eingestellt wurde)?
6. Falls nein, weiter zu Schritt 1. Die Schritte 7 bis 20 werden nacheinander für jeden Einheitenpuffer ausgeführt.
7. Den Fehlerereignispuffer analysieren und die Ereignisse deduplizieren, d. h., alle Ereignisse, die identisch sind, werden mit einer Zählspalte, die gleich der Anzahl der Ereignisse ist, zu einem einzigen Ereignis zusammengefasst.
8. Die identischen Ereignisse aus dem Puffer löschen.
9. Ist die resultierende Anzahl von Ereignissen in dem Puffer kleiner als der Schwellenwert (der in der Ausführungseigenschaftendatei der Überwachungseinheit eingestellt ist)?
10. Falls ja, den Puffer der Ereignisse in die Servertabelle schreiben, und weiter zu Schritt 1.
11. Den Fehlerereignispuffer analysieren und nach Ereignissen mit einer Mindestzahl übereinstimmender Spalten suchen. Zum Beispiel, wenn alle Spalten außer der Kennung, dem Ereignistyp, der Zeit und der Zusammenfassung identisch sind. Beginnen mit den beiden ersten im Puffer gefundenen gleichartigen Ereignissen.
12. Wurden noch weitere gleichartige Ereignisse gefunden?
13. Falls nein, die übrigen Puffer von Ereignissen in die Servertabelle schreiben, und weiter zu Schritt 1.
14. Ein spezielles Summenereignis erzeugen. Alle identischen Spalten werden in dem neuen Ereignis gespeichert.
15. Die nicht identischen Ereignisdaten aus der Liste gleicher Ereignisse in die flexible erweiterte Attributspalte des Summenereignisses eintragen.
16. Das Summenereignis in die Servertabelle schreiben.
17. Die Liste gleichartiger Ereignisse aus dem Puffer löschen.
18. Ist die resultierende Anzahl von Ereignissen in dem Puffer geringer als der Schwellenwert (der in der Ausführungseigenschaftendatei der Überwachungseinheit eingestellt ist)?
19. Falls ja, den restlichen Puffer von Ereignissen in die Servertabelle schreiben und weiter zu Schritt 1.
20. Weiter zu Schritt 11.

Der Steuerserver 10 kann periodisch eine neue Liste in den Überlaufverhinderungsmodus zu versetzender Einheiten schreiben. Diese kann mehr oder weniger Einheiten enthalten.
Gemäß einer alternativen Ausführungsform des Systems versetzt die Überwachungseinheit 12 Einheiten automatisch in den Überlaufverhinderungsmodus. Der folgende Pseudocode beschreibt, wie dies in dem Verarbeitungs-Thread der Regeldatei erfolgt.

1. Initialisierung. Wenn die Regeldatei der Überwachungseinheit gelesen wird, soll, falls vorhanden, auch eine Gewichtungstabelle der Einheitenprioritäten gelesen werden. Eine Gewichtung von null bewirkt, dass die Einheit niemals in den Überlaufverhinderungsmodus versetzt wird. Eine fehlende Einheit weist effektiv eine Standardgewichtung von eins aus.
2. Ankommende Fehlerereignisse wie zuvor verarbeiten.
3. Die Quote ankommender Fehlerereignisse pro Einheit aufzeichnen.
4. Ist die Überlaufkorrekturperiode abgelaufen?
5. Falls nein, weiter zu Schritt 2.
6. Die Quote der ankommenden Fehlerereignisse für alle Einheiten berechnen.
7. Ist die Fehlerereignisquote größer als der obere Schwellenwert (der in der Ausführungseigenschaftendatei der Überwachungseinheit eingestellt ist)?
8. Falls nein, weiter zu Schritt 16.
9. Die Fehlerereignisquote pro Einheit gegebenenfalls mit ihrer Gewichtung in der Prioritätstabelle multiplizieren.
10. Die Einheitenliste nach den Ereignisquoten ordnen.
11. Nach der Einheit mit der höchsten gewichteten Ereignisquote suchen, die sich noch nicht im Überlaufverhinderungsmodus befindet oder die eine Gewichtung von null aufweist, und diese in den Überlaufverhinderungsmodus versetzen. Falls keine gefunden wird, wird dies protokolliert und mit Schritt 2 fortgefahren.
12. Die Fehlerereignisquote der Einheit von der Quote der ankommenden Fehlerereignisse für alle Einheiten abziehen.
13. Ist die Fehlerereignisquote größer als der obere Schwellenwert?
14. Falls nein, weiter zu Schritt 2.
15. Weiter zu Schritt 11.
16. Ist die Fehlerereignisquote für alle Einheiten kleiner als der halbe obere Schwellenwert (der in der Ausführungseigenschaftendatei der Überwachungseinheit festgelegt ist)?
17. Falls nein, weiter zu Schritt 2.
18. Die Fehlerereignisquote pro Einheit gegebenenfalls mit ihrer Gewichtung in der Prioritätstabelle multiplizieren.
19. Die Einheitenliste nach den Fehlerereignisquoten ordnen.
20. Nach der Einheit mit der niedrigsten gewichteten Fehlerereignisquote im Überlaufverhinderungsmodus suchen (falls vorhanden) und den Überlaufverhinderungsmodus verlassen.
21. Weiter zu Schritt 2.

Gemäß einer weiteren alternativen Ausführungsform des Systems kann die Überwachungseinheit 12 den Server 10 danach abfragen, wie stark dieser ausgelastet ist, bevor die Überwachungseinheit 12 beginnt, Einheiten 14 in den Überlaufverhinderungsmodus zu versetzen. Das könnte durch Festlegen der Zeit bewerkstelligt werden, die eine Abfrage an den Server 10 braucht, um Daten zurückzugeben, oder durch Abfragen der durch den Server 10 aufgezeichneten Leistungsmaßzahlen, zum Beispiel durch Auswählen des Wertes sum (PeriodTime) aus catalog.trigger_stats, wenn der ObjectServer in dem IBM^® Netcool^® Netzwerkmanagement verwendet wird. Wenn der Mittelwert einer dieser Maßzahlen einen vorgegebenen Schwellenwert und gleichzeitig die Gesamt-Fehlerereignisquote ihren Schwellenwert überschreitet, beginnt die Überwachungseinheit 12, Einheiten 14 auf der Grundlage der gewichteten Fehlerereignisquoten in den Überlaufverhinderungsmodus zu versetzen. Dies verschafft dem Server 10 vorübergehend Entlastung, wenn seine Auslastung von anderen Überwachungseinheiten 12 und Benutzern sehr gering ist, sodass er die hohe Ereignisquote für diese Überwachungseinheit bewältigen kann. IBM und Netcool sind in vielen Rechtssystemen weltweit eingetragene Warenzeichen von International Business Machines Corporation.
Der Deduplizierungsauslöser im ObjectServer kann so verändert werden, dass die Zählwerte ankommender Fehlerereignisse zusammengefügt werden, damit der richtige Zählwert für Fehlerereignisse 18 aufgezeichnet wird, die während der Pufferintervallzeit in der Überwachungseinheit 12 bereits teilweise dedupliziert worden sind. Dadurch wird zudem sichergestellt, dass die Berechnungen der Fehlerereignisquote (auf der Grundlage des Zählwertes) genau bleiben. Im IBM Netcool 7.3.1 stellt die Überwachungseinheit 12 die Zählspalte nicht ein. Es wird für die IBM Netcool-Fehlerereignisliste ein Tool bereitgestellt, das bei Bedarf Summenereignisse wieder in die Einzelereignisse zergliedert. Dadurch ist es einem Benutzer möglich, bei Bedarf die vollständige Liste der Ereignisse von der Einheit 14 wiederherzustellen. Hierfür werden die Daten der erweiterten Attributspalte zusammen mit den restlichen Daten der Summenspalte verwendet, um die neuen Ereignisse zu erzeugen. Das Summenereignis wird dann gelöscht.
4 zeigt ein Beispiel eines Servers 10, der mit den Überwachungseinheiten 12 und/oder dem/den Proxy-Server/n 16 verbunden ist. Der Server 10 empfängt Fehlerereignisse 18 für die verwalteten Einheiten 14 von den Überwachungseinheiten 12 und erkennt gemäß einer Ausführungsform, dass die Quote der empfangenen Fehlerereignisse 18 einen Überlastungsgrad für den Server 10 erreicht hat oder sich diesem nähert. Der Server 10 kann mit einem Schwellenwert programmiert werden, der einen Überlastungsgrad für den betreffenden Server 10 definiert. Dieser Schwellenwert kann zum Beispiel durch die Quote empfangener Fehlerereignisse 18 pro Sekunde ausgedrückt werden. Wenn dieser Schwellenwert erreicht worden ist oder die Quote der empfangenen Fehlerereignisse so zunimmt, dass der Schwellenwert innerhalb eines vorgegebenen Zeitraums erreicht werden wird, greift der Server 10 ein.
Der Server 10 macht eine verwaltete Einheit 14 ausfindig, die zu dem erreichten oder sich nähernden Überlastungsgrad beiträgt, und schaltet die Überwachungseinheit 12 für die ausfindig gemachte verwaltete Einheit 14 in einen Überlaufverhinderungsmodus um. Dies kann durch Erzeugen einer Liste 32 von Fehlerereignisquoten pro verwaltete Einheit 14 und Auswählen der verwalteten Einheit 14 mit der größten Fehlerereignisquote erreicht werden. Die Tabelle 32 definiert die (durch ihren Knotennamen dargestellten) Einheiten 14, die für die betreffende Einheit 14 zuständige Überwachungseinheit 12 sowie eine Quote empfangener Fehlerereignisse 18 pro Sekunde für die betreffende Einheit 14. Jede Zeile der Tabelle 32 betrifft eine andere verwaltete Einheit 14.
Bei dem Beispiel von 4 würde die Einheit „Knoten 1” bei einem Schwellenwert von < 15.000 Fehlerereignissen/Sekunde in den Überlaufverhinderungsmodus versetzt und in diesem Zusammenhang die „Überwachungseinheit 1” angewiesen, für diese betreffende Einheit 14 in den Überlaufverhinderungsmodus umzuschalten. Auch komplexere Strategien sind möglich, und gleichzeitig können weitere Einheiten 14 in den Überlaufverhinderungsmodus versetzt werden, wenn berechnet wird, dass der Server 10 durch Verändern der Einheit „Knoten 1” nicht ausreichend geschützt würde. Tatsächlich kann es vorkommen, dass eine große Anzahl von Einheiten 14 in den Überlaufverhinderungsmodus versetzt werden muss. Sobald feststeht, dass der Server 10 wahrscheinlich nicht mehr überlastet ist, kann der Prozess rückgängig gemacht werden, und die Einheiten 14 können aus dem Überlaufverhinderungsmodus genommen werden.
Eine zweite Ausführungsform des Netzwerk-Verwaltungssystems ist in 5 gezeigt. Bei dieser Ausführungsform wird ein Aggregationsserver 10a verwendet, der oben nebenbei erwähnt wurde. Dieser Typ von Ausführungsform wird in sehr großen Systemen verwendet, in denen so viele Einheiten eingesetzt sind, dass es unpraktisch wäre, nur einen einzigen Server 10 zu verwenden, der mit allen Überwachungseinheiten 12 verbunden ist. Gemäß dieser Ausführungsform bildet eine Vielzahl von Servern 10 eine Sammelebene innerhalb des Systems, und jeder der Server 10 in der Sammelebene ist mit mehreren Überwachungseinheiten 12 verbunden, die wiederum mit einer oder mehreren verwalteten Einheiten 14 verbunden sind. Anzeigeserver 34 bilden eine Anzeigeebene innerhalb des Netzwerk-Verwaltungssystems.
Durch die verwalteten Einheiten 14 erzeugte Fehler werden der Überwachungseinheit 12 mitgeteilt, die mit der betreffenden Einheit 14 verbunden sind, welche eine Fehlernachricht erzeugt hat. Die Überwachungseinheit 12 erzeugt eine formatierte Ereignisnachricht 18 gemäß den Regeln, nach denen die Überwachungseinheit 12 arbeitet. Diese Ereignisnachricht 18 wird an einen Server 10 in der Sammelebene gesendet, und die Sammelebenen-Server 10 setzen den Aggregationsserver 10a in Kenntnis. Ereignisnachrichten 18, die dedupliziert worden sind, werden an den Aggregationsserver 10a weitergeleitet. Die Server 10 löschen auch abgelaufene Ereignisse und verarbeiten die Ereignisse, bevor diese an den Server 10a gesendet werden. Deshalb empfängt der Aggregationsserver 10a die zusammengeführten Fehlerereignisse und weist eine geringere Auslastung auf, als wenn er diesen Schritt selbst hätte ausführen müssen. Der Server 10a erzeugt Fehlerberichte und Datenbankeinträge, die an die Anzeigeserver 34 weitergeleitet werden, sodass ein Administrator auf die Daten zugreifen kann, ohne die Auslastung des Aggregationsservers 10a zu erhöhen.
Das Erkennen, dass die Quote empfangener Fehlerereignisse 18 einen Überlastungsgrad erreicht hat oder sich diesem nähert, wird in Bezug auf den Aggregationsserver 10a gemessen. Diese Komponente innerhalb des Systems läuft Gefahr, überlastet zu werden, wenn es zu einem Überlauf von Fehlerereignissen 18 kommt. Sobald der Aggregationsserver 10a erkennt, dass der Überlastungsgrad erreicht ist oder nahe daran ist, erreicht zu werden, beginnt der Prozess, einige Überwachungseinheiten 12 für bestimmte verwaltete Einheiten 14 gemäß der obigen ausführlichen Erörterung in den Überlaufverhinderungsmodus zu versetzen. Auf diese Weise wird der Aggregationsserver 10a vor Fehlerereignissen 18 geschützt, die den Aggregationsserver 10a überfluten und diesen daran hindern, ordnungsgemäß zu arbeiten.
Das verbesserte Netzwerk-Verwaltungssystem kann die Form einer kompletten Hardwareausführungsform, einer kompletten Softwareausführungsform oder einer Ausführungsform annehmen, die sowohl Hardware- als auch Softwareelemente enthält. Gemäß der bevorzugten Ausführungsform wird das Netzwerk-Verwaltungssystem durch Software realisiert, die unter anderem Firmware, residente Software, Mikrocode usw. enthält, ohne darauf beschränkt zu sein. Das Netzwerk-Verwaltungssystem kann die Form eines Computerprogrammprodukts annehmen, auf das von einem durch Computer nutzbaren oder computerlesbaren Medium zugegriffen werden kann, das einen Programmcode zur Verwendung durch oder in Verbindung mit einem Computer oder einem System zum Ausführen von Anweisungen bereitstellt.
Im Rahmen dieses Dokuments kann es sich bei einem durch Computer nutzbaren oder computerlesbaren Medium um eine beliebige Vorrichtung handeln, die das Programm zur Verwendung durch oder in Verbindung mit dem System, der Vorrichtung oder Einheit zum Ausführen von Anweisungen enthalten, speichern, übertragen, weiterleiten oder transportieren kann. Bei dem Medium kann es sich um ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem (oder eine entsprechende Vorrichtung oder Einheit) oder Weiterleitungsmedium handeln. Als Beispiele eines computerlesbaren Mediums kommen ein Halbleiter- oder Solid-State-Speicher, ein Magnetband, eine austauschbare Computerdiskette, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), eine starre Magnetplatte und eine optische Platte infrage. Zu aktuellen Beispielen von optischen Platten zählen Compact Disc-Nur-Lese-Speicher (CD-ROM), Compact Disc-Lese/Schreibplatten (CD-R/W) und DVDs.

Claims

Verfahren zum Betreiben eines Netzwerk-Verwaltungssystems, wobei das System einen mit einer Vielzahl von Überwachungseinheiten verbundenen Server aufweist und jede Überwachungseinheit mit einer oder mehreren verwalteten Einheiten verbunden ist, wobei das Verfahren die Schritte aufweist: – Empfangen von Fehlerereignissen für die verwalteten Einheiten an den Überwachungseinheiten, – Erkennen, dass die Quote empfangener Fehlerereignisse einen Überlastungsgrad für den Server erreicht hat oder sich diesem nähert, – Ausfindigmachen einer verwalteten Einheit, die zu dem erreichten oder angenäherten Überlastungsgrad beiträgt, – Umschalten der Überwachungseinheit für die ausfindig gemachte verwaltete Einheit in einen Überlaufverhinderungsmodus, und – Betreiben der umgeschalteten Überwachungseinheit in dem Überlaufverhinderungsmodus und dadurch Zusammenfassen mehrerer Fehlerereignisse für die ausfindig gemachte verwaltete Einheit zu einem einzigen Fehlerereignis, das an den Server gesendet wird.
Verfahren nach Anspruch 1, wobei der Schritt des Ausfindigmachens einer verwalteten Einheit, die zu dem erreichten oder angenäherten Überlastungsgrad beiträgt, durch jede einzelne Überwachungseinheit ausgeführt wird.
Verfahren nach Anspruch 1, wobei der Schritt des Ausfindigmachens einer verwalteten Einheit, die zu dem erreichten oder angenäherten Überlastungsgrad beiträgt, durch den Server ausgeführt wird und der Schritt des Umschaltens der Überwachungseinheit für die ausfindig gemachte verwaltete Einheit in einen Überlaufverhinderungsmodus ein Anweisen der Überwachungseinheit aufweist, in den Überlaufverhinderungsmodus umzuschalten.
Verfahren nach Anspruch 3, wobei der Schritt des Ausfindigmachens einer verwalteten Einheit, die zu dem erreichten oder angenäherten Überlastungsgrad beiträgt, Erzeugen einer Liste von Fehlerereignisquoten pro verwaltete Einheit und Auswählen der verwalteten Einheit mit der größten Fehlerereignisquote aufweist.
Verfahren nach Anspruch 3 oder 4, das ferner nach dem Erkennen, dass die Quote empfangener Fehlerereignisse einen Überlastungsgrad für den Server erreicht hat oder sich diesem annähert, Ausfindigmachen eines oder mehrerer weiterer verwalteter Einheiten, die zu dem erreichten oder angenäherten Überlastungsgrad beitragen, und Umschalten der Überwachungseinheit für die weiteren ausfindig gemachten verwalteten Einheiten in einen Überlaufverhinderungsmodus aufweist.
Netzwerk-Verwaltungssystem, das einen mit einer Vielzahl von Überwachungseinheiten verbundenen Server aufweist, wobei jede Überwachungseinheit mit einer oder mehreren verwalteten Einheiten verbunden ist und das System aufweist: – ein Empfangsmittel zum Empfangen von Fehlerereignissen für die verwalteten Einheiten an den Überwachungseinheiten, – ein Erkennungsmittel zum Erkennen, dass die Quote empfangener Fehlerereignisse einen Überlastungsgrad für den Server erreicht hat oder sich diesem annähert, – ein Identifizierungsmittel zum Ausfindigmachen einer verwalteten Einheit, die zu dem erreichten oder angenäherten Überlastungsgrad beiträgt, – ein Umschaltmittel zum Umschalten der Überwachungseinheit für die ausfindig gemachte verwaltete Einheit in einen Überlaufverhinderungsmodus, und – ein Betriebsmittel zum Betreiben der in den Überlaufverhinderungsmodus umgeschalteten Überwachungseinheit und dadurch zum Zusammenfassen mehrerer Fehlerereignisse für die ausfindig gemachte verwaltete Einheit zu einem einzigen Fehlerereignis, das an den Server gesendet wird.
System nach Anspruch 6, wobei jede einzelne Überwachungseinheit in der Lage ist, eine verwaltete Einheit ausfindig zu machen, die zu dem erreichten oder angenäherten Überlastungsgrad beiträgt.
System nach Anspruch 6, wobei der Server in der Lage ist, eine verwaltete Einheit ausfindig zu machen, die zu dem erreichten oder angenäherten Überlastungsgrad beiträgt, und die Überwachungseinheit für die ausfindig gemachte verwaltete Einheit in einen Überlaufverhinderungsmodus zu versetzen, indem die Überwachungseinheit angewiesen wird, in den Überlaufverhinderungsmodus umzuschalten.
System nach Anspruch 8, wobei der Server in der Lage ist, eine Liste von Fehlerereignisquoten pro verwaltete Einheit zu erzeugen und die verwaltete Einheit mit der größten Fehlerereignisquote auszuwählen, wenn er eine verwaltete Einheit ausfindig macht, die zu dem erreichten oder angenäherten Überlastungsgrad beiträgt.
System nach Anspruch 8 oder 9, wobei der Server ferner in der Lage ist, nach dem Erkennen, dass die Quote empfangener Fehlerereignisse einen Überlastungsgrad für den Server erreicht hat oder sich diesem annähert, eine oder mehrere weitere verwaltete Einheiten ausfindig zu machen, die zu dem erreichten oder angenäherten Überlastungsgrad beitragen, und die Überwachungseinheit für die weiteren ausfindig gemachten verwalteten Einheiten in einen Überlaufverhinderungsmodus zu versetzen.
Computerprogrammprodukt zum Betreiben eines Netzwerk-Verwaltungssystems, wobei das Computerprogrammprodukt aufweist: ein computerlesbares Speichermedium, das durch eine Verarbeitungsschaltung lesbar ist und in dem Anweisungen zum Ausführen durch die Verarbeitungsschaltung gespeichert sind, um ein Verfahren nach einem der Ansprüche 1 bis 5 auszuführen.
Computerprogramm, das auf einem computerlesbaren Medium gespeichert und in den internen Speicher eines digitalen Computers ladbar ist und Abschnitte eines Softwarecodes aufweist, die bei Ausführung des Programms auf einem Computer das Verfahren nach einem der Ansprüche 1 bis 5 ausführen.