-
Die
Erfindung betrifft ein Verfahren zur Fehlerbehandlung in einem Netzwerk,
insbesondere einem paketvermittelnden Netzwerk.
-
In
paketvermittelnden Netzwerken, etwa IP-Netzen (IP = Internet-Protokoll)
kommunizieren die Komponenten des Netzwerks, indem sie adressierte
Datenpakete versenden und empfangen. Hierzu besitzt jede Netzwerkkomponente
eine eigene Netzwerkadresse. Solche paketvermittelnde Netzwerke
werden auch zu Kommunikationszwecken, zum Beispiel für private
Telefonnetzwerke innerhalb eines Unternehmens oder eines Unternehmensverbundes,
verwendet. Kommunikationsnetze für
Telefonie, die nach dem Internet-Protokoll arbeiten, werden in der
Literatur als Voice-over-IP-Netze (VoIP) bezeichnet. Derartige Netzwerke
weisen in der Regel eine Vielzahl von Netzwerkkomponenten, z. B.
Computer oder auf IP-Telefonie spezialisierte Telefonendgeräte auf,
welche die Netzwerkknoten bilden und zwischen denen Nachrichten übermittelt
werden.
-
An
die Zuverlässigkeit
derartiger Netzwerke und damit an die Verfügbarkeit der einzelnen Netzwerkkomponenten
sind dabei hohe Anforderungen zu stellen. Häufig ist ein gewisses Dienste-Niveau, welches
unter anderem eine garantierte Dienste-Verfügbarkeit umfasst, sogar vertraglich
in Form eines sogenannten Service Level Agreements zwischen dem
Diensteanbieter und dem Nutzer des VoIP-Netzes festgelegt.
-
Das
wohl geläufigste
Verfahren zur Feststellung einer Nichtverfügbarkeit oder eingeschränkten Verfügbarkeit
eines Netzwerkknotens oder einer Netzwerkkomponente verwendet sogenannte Echo-Anfragesignale – häufig auch
als Ping bezeich net. Dabei werden, vorzugsweise in regelmäßigen Zeitabständen wiederholt,
Echo-Anfragesignale an eine oder mehrere Netzwerkkomponenten versendet und
diejenigen Netzwerkkomponenten, die auf das Anfragesignal hin kein
Empfangssignal zurücksenden
oder erst nach einer zeitlichen Verzögerung ein Empfangssignal zurücksenden,
als nicht verfügbar bzw.
eingeschränkt
verfügbar
identifiziert. Überwachungsstrategien,
die auf sendenden Netzwerkkomponenten, die solche regelmäßigen Anfragesignale verwenden,
und überwachten,
zurücksendenden Netzwerkkomponenten
bestehen, werden häufig auch
als ”Watchdog”-Strategien
bezeichnet.
-
Alternativ
dazu sind auch sogenannte ”Heartbeat”-Systeme
bekannt, bei denen die Netzwerkkomponenten von sich aus in regelmäßigen Zeitabständen an
eine zentrale Netzwerkkomponente Signale senden, welche die aktuelle
Verfügbarkeit der
jeweiligen sendenden Komponente signalisieren.
-
Nachteilig
an beiden Verfahren ist einerseits aber, dass sie einer zentralen
Netzwerkkomponente in Form eines zentralen Überwachungsrechners bedürfen, welcher
die Verfügbarkeits-Anfragen aussendet
oder zumindest die Meldungen/Rückmeldungen der
einzelnen Netzwerkkomponenten auswertet. Zum anderen ergibt sich
aus beiden Verfahren keinerlei Hinweis auf eine mögliche Ursache
der Nichtverfügbarkeit
oder der eingeschränkten
Verfügbarkeit
einer Netzwerkkomponente.
-
Der
Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren zur Fehlerbehandlung
in einem Netzwerk anzugeben, welches einerseits die Belastung einer
zentralen Netzwerkkomponente verringert oder gar vermeidet und andererseits
eine Ermittlung von Ursachen einer festgestellten Nichtverfügbarkeit
oder eingeschränkten
Verfügbarkeit
ermöglicht.
-
Diese
Aufgabe wird durch das im unabhängigen
Anspruch 1 angegebene Verfahren gelöst.
-
Die
Erfindung betrifft ein Verfahren zur Fehlerbehandlung in einem Netzwerk,
insbesondere einem paketvermittelnden Netzwerk mit mehreren Netzwerkkomponenten
und Agenten, die jeweils mindestens einer Netzwerkkomponente zugeordnet sind,
wobei von einem einer ersten Netzwerkkomponente zugeordneten ersten
Agenten ein Anfragesignal an mindestens eine ihm nicht zugeordnete
zweite Netzwerkkomponente versendet wird. Von dem ersten Agenten
wird eine Nichtverfügbarkeit
oder eingeschränkte
Verfügbarkeit
der zweiten Netzwerkkomponente festgestellt, wenn ein Antwortsignal
durch die zweite Netzwerkkomponente nicht oder verzögert zurückgesendet
wird. Eine Nachricht wird bezüglich der
festgestellten Nichtverfügbarkeit
oder der eingeschränkten
Verfügbarkeit
der zweiten Netzwerkkomponente durch den ersten Agenten an mindestens
einen weiteren Agenten versendet, der nicht der zweiten Netzwerkkomponente
zugeordnet ist.
-
Durch
den Einsatz verteilter autonomer Software-Agenten, welche in geeigneter
Weise jeweils einer Netzwerkkomponente zugeordnet sind, wird auf einfache
Weise eine Dezentralisierung der Verfügbarkeitsprüfung der Netzwerkkomponenten
erreicht.
-
In
einer bevorzugten Ausführungsform
der Erfindung wird von dem ersten Agenten eine Informationsanfrage
an mindestens einen weiteren Agenten, der nicht der zweiten Netzwerkkomponente
zugeordnet ist, ausgesendet, falls durch den ersten Agenten die
Nichtverfügbarkeit
oder die eingeschränkte
Verfügbarkeit
der zweiten Netzwerkkomponente festgestellt wurde. Der oder die
weiteren Agenten senden daraufhin Informationen bezüglich der
Verfügbarkeit der
zweiten Netzwerkkomponente an den ersten Agenten zurück. Auf
Basis des eigenen Prüfungsergebnisses
und der zurückgemeldeten
Informationen des oder der weiteren Agenten identifiziert der erste Agent
eine Ursache für
die Nichtverfügbarkeit
oder die eingeschränkte
Verfügbarkeit
der zweiten Netzwerkkomponente.
-
Durch
die zusätzliche
Berücksichtigung
von Informationen zumindest eines weiteren Agenten lässt sich
eine mögliche
Ursache für
die Nichtverfügbarkeit
oder eingeschränkte
Verfügbarkeit
einer Netzwerkkomponente identifizieren.
-
Vorteilhaft
wird durch den ersten Agenten auf Basis des Prüfungsergebnisses und der zurückgemeldeten
Informationen nicht nur eine Ursache identifiziert, sondern zusätzlich ein
Wert für
eine Wahrscheinlichkeit festgelegt, mit der die identifizierte Ursache
zutrifft – auch
als Trefferwahrscheinlichkeit bezeichnet.
-
Auf
diese Weise kann die Qualität
der Fehlerbehandlung weiter erhöht
werden, da bei möglichen
Folgeschritten die Trefferwahrscheinlichkeit berücksichtigt werden kann und
somit falsche Reaktionen vermieden werden können.
-
Besonders
vorteilhaft wird die Informationsanfrage durch den ersten Agenten
an weitere Agenten ausgesendet, die Netzwerkkomponenten zugeordnet
sind, die in demselben Teilbereich des Netzwerkes angeordnet sind
wie die nicht oder eingeschränkt
verfügbare
Netzwerkkomponente. Derartige Agenten verfügen mit erhöhter Wahrscheinlichkeit verwertbare
Informationen über
die Verfügbarkeit
der nicht oder eingeschränkt
verfügbaren
Netzwerkkomponenten.
-
Gemäß einer
weiteren vorteilhaften Ausführungsform
der Erfindung wird bei späterer
Wiederverfügbarkeit
der zweiten Netzwerkkomponente eine Informationsanfrage bezüglich Rahmenbedingungen zum
Zeitpunkt der festgestellten Nichtverfügbarkeit oder eingeschränkten Verfügbarkeit
an einen der zweiten Netzwerkkomponente zugeordneten Agenten ausgesendet
und die von dem zweiten Agenten zurückgesendeten Informationen
für die
Identifikation der Ursache und/oder die Festlegung des Wahrscheinlichkeitswertes
genutzt.
-
Durch
Berücksichtigung
der Informationen der nicht oder eingeschränkt verfügbaren Netzwerkkomponenten
selbst kann die Ursache häufig
besser identifiziert oder auch präzisiert werden. Außerdem steigt
dadurch natürlich
die Trefferwahrscheinlichkeit.
-
Des
Weiteren ist es vorteilhaft, eine Information über die festgestellte Nichtverfügbarkeit
oder die eingeschränkte
Verfügbarkeit
der zweiten Netzwerkkomponente und die identifizierte Ursache und/oder die
Trefferwahrscheinlichkeit an andere Agenten zu versenden. Diese
Informationen können
von den anderen Agenten beispielsweise dazu genutzt werden, eine
Warnmeldung an den Benutzer der jeweils zugeordneten Netzwerkkomponente
auszugeben.
-
Wird
als Anfragesignal ein simuliertes Rufsignal verwendet, welches beispielsweise
regelmäßig ausgesendet
wird, und werden die Nachrichten bezüglich einer festgestellten
Nichtverfügbarkeit
oder eingeschränkten
Verfügbarkeit
einer Netzwerkkomponente an einen Management-Agenten gesendet, können darauf
basierend auf einfache Weise Statistiken über die Verfügbarkeit
der jeweiligen Netzwerkkomponente erstellt werden, wie sie beispielsweise im
Rahmen eines Service Level Agreements mit zugesicherter Dienste-Verfügbarkeit
notwendig sind.
-
Gemäß einer
besonders vorteilhaften Ausführungsform
der Erfindung führen
mehrere oder alle Agenten Prüfungen
und/oder Informationsanfragen und/oder Ursachenidentifikationen
und/oder Meldungen an Management-Agenten durch. Auf diese Weise
kann die Anzahl der Prüfungen
erhöht
werden, die Belastung der einzelnen Agenten verringert werden, die
bei den Agenten verfügbaren
Informationen bezüglich
der Verfügbarkeit
einzelner Netzwerkkomponenten gesteigert werden und somit letztendlich
die Qualität
der Fehlerbehandlung verbessert werden.
-
Gemäß einer
weiteren vorteilhaften Ausführungsform
der Erfindung werden von den Agenten auf Basis ihrer eigenen Prüfergebnisse
und/oder der Informationsanfragen durch andere Agenten und/oder
der von anderen Agenten zurückgesendeten
Informationen und/oder der von anderen Agenten identifizierten Ursachen
für die
Nichtverfügbarkeit oder
eingeschränkte
Verfügbarkeit
einer Netzwerkkomponente mögliche
Ausfallgründe
für die
einzelnen Netzwerkkomponenten in Form von sogenannten ”Favoriten-Listen” gespeichert
und diese möglichen
Ausfallgründe
bei der Identifikation der Ursache für die Nichtverfügbarkeit
oder eingeschränkte
Verfügbarkeit
der entsprechenden Netzwerkkomponente berücksichtigt. Durch Speichern
derartiger ”Favoriten-Listen” lassen
sich auch Ergebnisse und Informationen aus der Vergangenheit berücksichtigen,
was zu einer weiteren Steigerung der Qualität bei der Identifikation der
Fehlerursache führt.
Weiterhin kann jede Favoriten-Liste nach den Trefferwahrscheinlichkeiten
der einzelnen in der Favoriten-Liste enthaltenen möglichen
Ausfallgründe
in absteigender Reihenfolge sortiert werden. Werden die möglichen
Ausfallgründe
in der Favoriten-Liste in dieser Reihenfolge in einem konkreten
Fall einer nicht oder eingeschränkt
verfügbaren
Netzwerkkomponente getestet, so wird die Identifikation der Fehlerursache
beschleunigt, da die ein möglicher
Ausfallgrund umso eher getestet wird, je wahrscheinlicher er ist.
-
Schließlich ist
es vorteilhaft, von mindestens einem der Agenten in Abhängigkeit
von der identifizierten Ursache für die Nichtverfügbarkeit
oder eingeschränkte
Verfügbarkeit
einer Netzwerkkomponente Maßnahmen
zur Fehlerbehebung oder zur Migration eines Dienstes zu einer anderen
Netzwerkkomponente einleiten zu lassen. Auf diese Weise kann die
Wiederverfügbarkeit
einer Netzwerkkomponente bzw. eines Dienstes in sehr kurzer Zeit
realisiert werden.
-
Weitere
Merkmale und Vorteile der Erfindung ergeben sich aus einem Ausführungsbeispiel,
welches im Folgenden anhand der Zeichnung erläutert wird. Es zeigen:
-
1 eine
schematische Darstellung eines Netzwerkes und
-
2 eine
schematische Darstellung des Ablaufs des erfindungsgemäßen Verfahrens.
-
In 1 ist
beispielhaft ein Netzwerk 1 mit vier Netzwerkkomponenten 2, 3, 4 und 5 sowie
einem Managementsystem 6 dargestellt. Die Netzwerkkomponenten 2–5 sowie
das Managementsystem 6 bilden dabei die Knoten des Netzwerks 1.
Selbstverständlich
ist das erfindungsgemäße Verfahren
aber auf Netzwerke mit einer beliebigen Anzahl von Netzwerkkomponenten
und Managementsystemen anwendbar. Das Netzwerk 1 ist als
paketvermittelndes Kommunikationsnetzwerk für Telefonie (VoIP-Netz) dargestellt,
wobei die einzelnen Netzwerkkomponenten 2-5 untereinander
derart vernetzt sind, dass jede Netzwerkkomponente 2–5 mit
jeder anderen Netzwerkkomponente 2–5 direkt Daten austauschen kann.
Abweichend von der dargestellten Form der Vernetzung kann jede Art
der Vernetzung, etwa eine stern- oder ringförmige oder auch eine Mischform
davon, genutzt werden. Voraussetzung für die Anwendung des erfindungsgemäßen Verfahrens
ist lediglich, dass jede Netzwerkkomponente 2–5 mit
jeder anderen Komponente 2–5 direkt oder indirekt,
also unter Zwischenschaltung anderer Kommunikationskomponenten 2–5,
Daten austauschen kann. Aus Gründen
der vereinfachten Darstellung ist in 1 lediglich
die Netzwerkkomponente 2 mit dem Managementsystem 6 vernetzt,
so dass Daten zwischen diesen Einheiten ausgetauscht werden können. Vorteilhaft
können
aber mehrere oder alle Netzwerkkomponenten 2–5 direkt
oder indirekt Daten mit dem Managementsystem 6 austauschen.
-
Als
Netzwerkkomponenten sind in der Regel Computer oder auf IP-Telefonie
spezialisierte Telefonendgeräte
anzusehen. Das erfindungsgemäße Verfahren
ist aber auch auf Netzwerke mit beliebigen weiteren Netzwerkkomponenten,
wie z. B. Router, anwendbar.
-
Jeder
Netzwerkkomponente 2–5 ist
ein Software-Agent 7, 8, 9 bzw. 10 – im Folgenden
kurz Agent genannt – zugeordnet.
Zusätzlich
ist dem Managementsystem 6 ein Software-Agent 11 – im Folgenden
Management-Agent genannt – zugeordnet. Software-Agenten
sind dem Fachmann grundsätzlich bekannt
und zeichnen sich dadurch aus, dass sie u. a.
- – autonom,
also weitgehend unabhängig
von Benutzereingriffen, arbeiten,
- – proaktiv
sind, also Aktionen aufgrund eigener Initiative auslösen,
- – auf Änderungen
der Umgebungsbedingungen reagieren,
- – mit
anderen Agenten kommunizieren und zusammenarbeiten können und
- – lern-
und anpassungsfähig
sind.
-
Bekannt
sind beispielsweise sogenannte BDI-Agenten, wobei BDI für Belief,
Desire und Intention steht, die drei Hauptbestandteile dieser Agentenarchitektur.
BDI-Agenten werden mit Annahmen über
ihre Umwelt, Wissen über
den Zielzustand und Absichten, wie dieser Zustand zu erreichen ist,
ausgestattet. Zur Zielerreichung können dabei intelligente Methoden
angewendet werden. Stehen zur Erreichung des Zielzustandes, wie
im vorliegenden Fall, mehrere Agenten zur Verfügung, welche das Problem kollektiv
lösen,
spricht man von einem sogenannten Multiagentensystem – auch „agent
society” genannt.
Die zu einem Multiagentensystem gehörenden Agenten basieren vorzugsweise
auf derselben Agentenplattform. Eine Agentenplattform ist eine Software-Umgebung,
die Komponenten und Schnittstellen für die vereinfachte, einheitliche
und interoperable Programmierung von Software-Agenten zur Verfügung stellt.
Multiagentensysteme unterstützen teilweise
auch sogenannte ”Gelbe
Seiten” oder ”Yellow
Pages”,
in denen Informationen über
die angebotenen Dienste oder spezielle Eigenschaften der einzelnen
Agenten des Multiagentensystems hinterlegt sind. Derartige ”Gelbe Seiten” erlauben
es einem Agenten über
einen ”Service-Broker”-Agenten,
der die ”Gelben
Seiten” sozusagen
verwaltet, Informationen bezüglich
der von anderen Agenten des Multiagentensystems angebotenen Dienste
einzuholen und damit gezielt einen Agenten zur Ausführung eines
solchen Dienstes auszuwählen.
-
Die
Agenten 7–11 können, wie
in 1 angedeutet, auf der jeweiligen Netzwerkkomponente 2–6,
der sie zugeordnet sind, installiert sein. Alternativ dazu können die
Agenten aber auch auf einer beliebigen Netzwerkkomponente installiert
sein, der sie nicht zugeordnet sind. Die Zuordnung erfolgt in diesem
Fall virtuell. Auch ist es für
den Einsatz des erfindungsgemäßen Verfahrens
nicht erforderlich, dass jeder Netzwerkkomponente ein Agent zugeordnet
ist. Vorteilhaft ist ein Agent aber zumindest denjenigen Netzwerkkomponente
zugeordnet, deren Verfügbarkeit
geprüft
werden soll. Des Weiteren ist es auch möglich einer Netzwerkkomponente
mehr als einen Agenten zuzuordnen.
-
Der
Agent 7–11 hat
die Möglichkeit,
auf alle oder zumindest einen Teil der Funktionen der zugeordneten
Netzwerkkomponenten 2–6 zuzugreifen. So
haben die Agenten 7–11 vorteilhaft
Zugriff auf die Kommunikations- und Dienste-Schnittstellen der jeweils
zugeordneten Netzwerkkomponenten 2 bis 6 sowie
die Möglichkeit,
Informationen über
die Konfiguration und den Status der Netzwerkkomponente zu erhalten.
-
In 2 ist
schematisch ein möglicher
Ablauf des erfindungsgemäßen Verfahrens
dargestellt. In einem Schritt S100 wird von einem ersten Agenten 7,
welcher der Netzwerkkomponente 2 zugeordnet ist, ein Anfragesignal
an die Netzwerkkomponente 3 versendet. Als Anfragesignal
kann beispielsweise ein Echo-Anfragesignal (fing) oder auch ein
simuliertes Rufsignal verwendet werden. Unter einem simulierten
Rufsig nal ist dabei ein Signal zu verstehen, welches bei der angerufenen
Netzwerkkomponente 3 dazu führt, die Durchführbarkeit
des Anrufes zu prüfen,
ohne jedoch alle Schritte eines realen Verbindungsaufbaus durchzuführen. Dies
kann beispielsweise durch einfaches Aktivieren oder Deaktivieren eines
entsprechenden Statusindikators oder Flags realisiert werden. Auf
diese Weise kann eine unnötige
Netzbelastung und/oder Belastung der Netzwerkkomponenten durch Signale
bzw. Vorgänge
vermieden werden, die dem realen Verbindungsaufbau dienen.
-
Die
Anfragesignale werden vorteilhaft in regelmäßigen Zeitabständen von
dem der Netzwerkkomponente 2 zugeordneten Agenten 7 an
die Netzwerkkomponente 3 gerichtet.
-
Erhält der Agent 7 auf
seine Anfrage hin kein Antwortsignal von der Netzwerkkomponente 3 oder erhält er das
Antwortsignal erst mit einer zeitlichen Verzögerung, das heißt nicht
innerhalb einer vorgegebenen Zeitspanne (Verzweigungsschritt S200),
so wird durch den Agenten 7 in einem Schritt S300 eine Nichtverfügbarkeit
bzw. eingeschränkte
Verfügbarkeit
der Netzwerkkomponente 3 festgestellt.
-
Aus
dem bloßen
Ausbleiben eines Antwortsignals durch die Netzwerkkomponente 3 lässt sich
jedoch keine eindeutige Ursache für die Nichtverfügbarkeit
oder die eingeschränkte
Verfügbarkeit
der Netzwerkkomponente 3 identifizieren. Folgende Ursachen
wären beispielsweise
denkbar:
- – Die
Netzwerkverbindung zwischen den Netzwerkkomponenten 2 und 3 ist
derzeit nicht verfügbar,
- – das
Netzwerk ist derzeit überlastet.
- – Die
der Netzwerkkomponente 2 bekannte Netzwerk-Adresse der
Netzwerkkomponente 3 ist falsch, Netzwerkdienste, wie zum
Beispiel DNS (Domain Name System) sind derzeit nicht verfügbar,
- – die
Netzwerkkomponente 3 ist ausgefallen oder
- – die
Netzwerkkomponente 2 selbst hat derzeit keine Verbindung
zum Netzwerk.
-
Um
die Fehlerursache weiter einzugrenzen, bietet sich nun die Möglichkeit
der Kooperation mit anderen Agenten 9 oder 10 des
Netzwerks 1, die wie der Agent 7 selbst nicht
der geprüften
Netzwerkkomponente 3 zugeordnet sind. Dabei ist es vorteilhaft mit
Agenten zu kommunizieren, die einer Netzwerkkomponente zugeordnet
sind, die in demselben Teilbereich des Netzwerks 1 angeordnet
sind wie die Netzwerkkomponente 3, für welche die Nichtverfügbarkeit
oder eingeschränkte
Verfügbarkeit
festgestellt wurde. Häufig
sind komplexe IP-Netzwerke
in sogenannte Sub-Netzwerke aufgeteilt. Bevorzugte Kommunikationspartner
sind dann Agenten, die Netzwerkkomponenten zugeordnet sind, welche
in demselben Sub-Netzwerk angeordnet sind wie die Netzwerkkomponente 3,
für welche
die Nichtverfügbarkeit
oder eingeschränkte
Verfügbarkeit
festgestellt wurde. Bei diesen Agenten liegen nämlich mit erhöhter Wahrscheinlichkeit
verwertbare Informationen über
die Verfügbarkeit
der Netzwerkkomponente 3 vor. Liegen dem Agenten 7 keine
Informationen darüber
vor, welche anderen Agenten dieses Kriterium erfüllen oder sind dem Agenten 7 die
Netzwerkadressen dieser anderen Agenten nicht bekannt, so kann der
Agent 7 in einem Schritt S400 eine Anfrage an einen „Service-Broker”-Agenten,
der die sogenannten ”Gelben
Seiten” verwaltet,
richten mit dem Ziel, in einem Schritt S500 eine oder mehrere Netzwerkadressen
von anderen Agenten genannt zu bekommen, die Netzwerkkomponenten
zugeordnet sind, welche im gleichen Teilbereich des Netzwerks 1 angeordnet
sind wie die nicht oder eingeschränkt verfügbare Netzwerkkomponente 3.
Dazu ist es erforderlich, dass dem „Service-Broker”-Agenten der ”Gelben
Seiten” im
Vorfeld die örtlichen
Anordnungen der einzelnen Netzwerkkomponenten und der ihnen zugeordneten
Agenten innerhalb des Netzwerks sowie die zugehörigen Netzwerkadressen bekannt gegeben
wurden. Beispielhaft sei nun angenommen, dass die Netzwerkkomponente 4 in
demselben Teilbereich des Netzwerks 1 angeordnet ist wie
die Netzwerkkomponente 3. Im Schritt S500 wird dem Agenten 7 folglich
durch den Service-Broker-Agenten die Netzwerkadresse des Agenten 9 mitgeteilt,
welcher der Netzwerkkomponente 4 zugeordnet ist. Selbstverständlich können aber
auch die Netzwerkadressen mehrerer Agenten, welche die Anfragekriterien erfüllen, an
den anfragenden Agenten 7 zurückgemeldet werden.
-
In
einem Schritt S600 wird daraufhin von dem ersten Agenten 7 eine
Informationsanfrage an den Agenten 9, welcher der Netzwerkkomponente 4 zugeordnet
ist, gesendet. Dabei wird der Agent 9 angefragt, ob er
Informationen über
die Verfügbarkeit der
Netzwerkkomponente 3, für
welche die Nichtverfügbarkeit
oder eingeschränkte
Verfügbarkeit
festgestellt wurde, besitzt. Diese Informationen können beispielsweise
auf eigenen Verfügbarkeitsanfragen durch
den Agenten 9 beruhen. Derartige Informationsanfragen können von
dem Agenten 7 grundsätzlich
an alle Agenten gerichtet werden, welche nicht der Netzwerkkomponente 3 zugeordnet
sind, für
welche die Nichtverfügbarkeit
oder eingeschränkte
Verfügbarkeit
festgestellt wurde.
-
Auf
die Informationsanfrage hin sendet der Agent 9 in einem
Schritt S700 alle ihm vorliegenden Informationen bezüglich der
Verfügbarkeit
der Netzwerkkomponente 3 an den ersten Agenten 7 zurück. Dabei
kann es sich beispielsweise um die Information handeln, dass auch
von dem Agenten 9 der Netzwerkkomponente 4 derzeit
keine Verbindung zur Netzwerkkomponente 3 hergestellt werden
kann.
-
Auf
Basis des eigenen Prüfungsergebnisses – kein Antwortsignal
oder verzögertes
Antwortsignal der Netzwerkkomponente 3 – und auf Basis der von dem
Agenten 9 der Netzwerkkomponente 4 zurückgemeldeten
Informationen wird nun durch den ersten Agenten 7 der ersten
Netzwerkkomponente 2 im Schritt S800 eine Ursache für die Nichtverfügbarkeit oder
die eingeschränkte
Verfügbarkeit
der zweiten Netzwerkkomponente 3 identifiziert. Diese Ursachenidentifikation
ist qualitativ natürlich
umso höher,
je mehr Informationen bezüglich
der Verfügbarkeit
der Netzwerkkomponente 3 dem ersten Agenten 7 zur Verfügung stehen.
Das heißt,
die Qualität
der Fehleridentifikation kann dadurch gesteigert werden, dass neben
dem Agenten 9 weitere Agenten bezüglich einer Information hinsichtlich
der Verfügbarkeit
der Netzwerkkomponente 3 angefragt werden. Außerdem hat
natürlich
die Qualität
und die Präzision
der zurückgemeldeten
Informationen entscheidenden Einfluss auf die Qualität der Fehleridentifikation.
-
Vorteilhaft
wird durch den Agenten 7 der ersten Netzwerkkomponente 2 zusätzlich zur
identifizierten Ursache auch ein Wert für eine Wahrscheinlichkeit festgelegt,
mit der die identifizierte Ursache zutrifft. Auch diese Trefferwahrscheinlichkeit
wird dabei in Abhängigkeit
von dem eigenen Prüfungsergebnis
und den zurückgemeldeten
Informationen der weiteren Agenten festgelegt.
-
Um
die Qualität
der Ursachenidentifikation und damit auch die Trefferwahrscheinlichkeit
weiter zu erhöhen,
kann bei Wiederverfügbarkeit
der Netzwerkkomponente 3 in einem Schritt S900 durch den ersten
Agenten 7 eine Informationsanfrage an den der Netzwerkkomponente 3 zugeordneten
Agenten 8 gerichtet werden. Dabei werden Rahmenbedingungen
abgefragt, welche bei der Netzwerkkomponente 3 zum Zeitpunkt
der festgestellten Nichtverfügbarkeit oder
eingeschränkten
Verfügbarkeit
vorlagen. Mit Hilfe dieser in Schritt S1000 zurückgesendeten Zusatzinformationen
kann dann entweder eine neue Ursache identifiziert werden, der Wert
der Trefferwahrscheinlichkeit erhöht werden oder die Fehlerursache auch
weiter präzisiert
werden.
-
In
einem Schritt S1100 wird durch den ersten Agenten 7 eine
Information über
die festgestellte Nichtverfügbarkeit
oder die eingeschränkte
Verfügbarkeit
der zweiten Netzwerkkomponente 3 sowie die identifizierte
Ursache und/oder die Tref ferwahrscheinlichkeit an den Agenten 10,
welcher der Netzwerkkomponente 5 zugeordnet ist, weitergeleitet. Dieser
kann auf Basis dieser Informationen beispielsweise einen Warnhinweis
für den
Benutzer über
die Nichtverfügbarkeit
oder die eingeschränkte
Verfügbarkeit,
etwa in Form von verlängerten
Antwortzeiten, der Netzwerkkomponente 3 ausgeben.
-
Weist
ein Netzwerk neben den in 1 dargestellten
Netzwerkkomponenten 2–5 weitere
Netzwerkkomponenten auf, können
die Informationen bezüglich
der Nichtverfügbarkeit
oder eingeschränkten Verfügbarkeit
einer Netzwerkkomponente, die identifizierten Ursachen und/oder
die Wahrscheinlichkeitswerte selbstverständlich an mehrere oder alle
Netzwerkkomponenten weitergeleitet werden. Zusätzlich können diese Informationen auch
an den Management-Agenten 11 des Managementsystems 6 weitergeleitet
werden.
-
Besonders
vorteilhaft werden die beschriebenen Prüfungen und/oder Informationsanfragen und/oder
Ursachenidentifikationen und/oder Meldungen an Management-Agenten
von mehreren oder sogar allen Agenten 7–10, die jeweils einer
Netzwerkkomponente 2–5 des
Netzwerks 1 zugeordnet sind, durchgeführt.
-
Eine
weitere Erhöhung
der Qualität
der Identifikation einer Fehlerursache kann dadurch erreicht werden,
dass die Agenten 7–10 auf
Basis ihrer eigenen Prüfergebnisse
und/oder der Informationsanfragen durch andere Agenten und/oder
der von anderen Agenten zurückgesendeten
Informationen und/oder der von anderen Agenten identifizierten Ursachen
für die
Nichtverfügbarkeit
oder eingeschränkte
Verfügbarkeit
einer Netzwerkkomponente mögliche
Ausfallgründe
für die
einzelnen Netzwerkkomponenten in einer sogenannten Favoriten-Liste
speichern und diese möglichen
Ausfallgründe
bei der Identifikation der Ursache für die Nichtverfügbarkeit
oder eingeschränkte
Verfügbarkeit
der entsprechenden Netzwerkkomponente berücksichtigt werden. Auf diese Weise
ist gewährleistet, dass
neben aktuell vorliegenden Informationen über die Verfügbarkeit
einer Netzwerkkomponente auch Informationen aus der Vergangenheit
berücksichtigt
werden können.
So kann beispielsweise in dieser sogenannten Favoriten-Liste hinterlegt
sein, dass die zweite Netzwerkkomponente 3 in einem Teilbereich
des Netzwerks angeordnet ist, der häufig überlastet ist, oder auch, dass
die Netzwerkkomponente 3 häufig ausfällt. Diese Favoriten-Listen
werden dann auf Grundlage neu zur Verfügung stehender Informationen
jeweils aktualisiert.
-
Reichen
selbst diese Informationen nicht aus, um einen Fehler mit genügend hoher
Trefferwahrscheinlichkeit zu identifizieren, können durch den Agenten der
betroffenen Netzwerkkomponente selbst oder auch durch einen anderen
Agenten gezielte Test durchgeführt
werden. Dabei können
beispielsweise Hilfsprogramme oder Testalgorithmen, z. B. in Form
von Selbstchecks, eingesetzt werden. Ebenso ist es möglich, speziell
gestaltete Anfragesignale zu verwenden, die sehr präzise Rückschlüsse auf
Fehlerursachen zulassen, wie z. B. den Ausfall nur des Webservers,
der Datenbank oder eines speziellen Dienstes einer Netzwerkkomponente.
-
Schließlich ist
es möglich,
die Agenten 7–10 nicht
nur zur Fehlerdetektion und Ursachenidentifikation einzusetzen,
sondern auch zur Fehlerbehebung oder zumindest zur Realisierung
einer Umgehungslösung.
Stellt der Agent 7 beispielsweise fest, dass die Datenbank
oder der Webserver der Netzwerkkomponente 3 nicht verfügbar sind,
obwohl die Netzwerkkomponente 3 selbst und auch der ihr
zugeordnete Agent 8 verfügbar sind, so können durch
den Agenten 8, oder auch den Agenten 7 in einem
Schritt S1200 Maßnahmen
ergriffen werden, um die Datenbank und/oder den Webserver wieder
verfügbar
zu machen. Eine denkbare Maßnahme
wäre hier
beispielsweise der Neustart der entsprechenden Komponente, der Neustart
des entsprechenden Dienstes, das Aktivieren oder Deaktivieren eines
Statusindikators oder Flags oder auch die Neuinstallation einer Softwarekomponente.
Anschließend
kann der Agent 7 bzw. 8 die Agenten aller anderen
Netzwerkkomponenten über
die wiederhergestellte volle Verfügbarkeit der Netzwerkkomponente 3 informieren.
-
Betrifft
die Nichtverfügbarkeit
beispielsweise einen Dienst der Netzwerkkomponente 3, bei
dem es nicht zwingend notwendig ist, dass er auf genau dieser Netzwerkkomponente
ausgeführt
werden muss, wie zum Beispiel einen Abrechnungsdienst, so kann dieser,
veranlasst durch den Agenten 8 oder auch den Agenten 7,
in einem Schritt S1210 auf eine andere Netzwerkkomponente 4 oder 5 migriert
werden. Dabei kann der Dienst auf dieser neuen Netzwerkkomponente
entweder nur gestartet oder auch installiert und/oder konfiguriert
werden. Zusätzlich
kann der Agent 7 bzw. 8 die Agenten aller anderen
Netzwerkkomponenten über
die Verfügbarkeit
des Dienstes auf der neuen Netzwerkkomponente 4 oder 5 informieren.
-
Die
Schritte S1100 und S1200 bzw. S1210 sind in 2 zeitlich
sequentiell dargestellt. Selbstverständlich können diese Schritte aber auch,
angepasst an die jeweilige Situation, zeitlich parallel durchgeführt werden
oder es kann der Schritt S1100 sogar ganz entfallen, wenn eine Fehlerbehebung
im Schritt S1200 oder eine Migration von Diensten im Schritt S1210
sehr schnell durchgeführt
werden kann.
-
Wird
als Anfragesignal ein simuliertes Rufsignal verwendet, so werden
die Prüfergebnisse
in einem Schritt S310 und vorteilhaft auch die identifizierten Fehlerursachen
in einem Schritt S1110 an den Management-Agenten 11 des
Managementsystems 6 gesendet. Der Management-Agent 11 kann
auf Basis dieser Daten in einem Schritt 1300 Statistiken bezüglich der
Verfügbarkeit
der entsprechenden Netzwerkkomponente erstellen, wie sie beispielsweise
im Rahmen von Service Level Agreements benötigt werden. Vorteilhaft werden
dazu nicht nur Informationen über
festgestellte Nichtverfügbarkeiten
oder eingeschränkte
Verfügbarkeiten
an den Management-Agenten 11 gesendet,
sondern in einem Schritt S210 auch In formationen hinsichtlich erfolgreich durchgeführter Verfügbarkeitsprüfungen.
Die Übermittlung
kann dabei unmittelbar nach Durchführung der Verfügbarkeitsprüfung erfolgen
oder auch in kumulierter Weise in regelmäßigen Zeitabständen. Der Management-Agent 11 basiert
dabei vorzugsweise auf derselben Agentenplattform wie die Agenten 7–11 der
Netzwerkkomponenten 2–5.
Dadurch können
die Informationen der einzelnen Agenten 7–11 auf
sehr einfache Weise verarbeitet werden.