DE102009014538A1

DE102009014538A1 - Verfahren zur Fehlerbehandlung in einem Netzwerk sowie das Netzwerk

Info

Publication number: DE102009014538A1
Application number: DE200910014538
Authority: DE
Inventors: Dieter Dr. Olpp; Thorsten Dr. Schöler
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2009-03-24
Filing date: 2009-03-24
Publication date: 2010-10-07

Abstract

Die Erfindung betrifft ein Verfahren zur Fehlerbehandlung in einem Netzwerk (1), insbesondere einem paketvermittelnden Netzwerk mit mehreren Netzwerkkomponenten (2, 3, 4, 5, 6) und Agenten (7, 8, 9, 10, 11), die jeweils mindestens einer Netzwerkkomponente (2, 3, 4, 5, 6) zugeordnet sind. Von einem ersten Agenten (7) wird die Verfügbarkeit einer ihm nicht zugeordneten Netzwerkkomponente geprüft (3). Wird dabei die Nichtverfügbarkeit oder eine eingeschränkte Verfügbarkeit festgestellt, wird anhand von Informationen anderer Agenten (9) innerhalb des Netzwerks (1) eine Fehlerursache identifiziert. Außerdem werden mit Hilfe der Agenten Statistiken über die Verfügbarkeit der einzelnen Netzwerkkomponenten erstellt. Die Erfindung ist beispielsweise für private VoIP-Netze einsetzbar und bietet die Vorteile, dass keine zentrale Überwachungseinheit erforderlich ist und die Ursache einer Nichtverfügbarkeit identifizierbar ist, ohne dafür das Netzwerk stark zu belasten.

Description

Die Erfindung betrifft ein Verfahren zur Fehlerbehandlung in einem Netzwerk, insbesondere einem paketvermittelnden Netzwerk.
In paketvermittelnden Netzwerken, etwa IP-Netzen (IP = Internet-Protokoll) kommunizieren die Komponenten des Netzwerks, indem sie adressierte Datenpakete versenden und empfangen. Hierzu besitzt jede Netzwerkkomponente eine eigene Netzwerkadresse. Solche paketvermittelnde Netzwerke werden auch zu Kommunikationszwecken, zum Beispiel für private Telefonnetzwerke innerhalb eines Unternehmens oder eines Unternehmensverbundes, verwendet. Kommunikationsnetze für Telefonie, die nach dem Internet-Protokoll arbeiten, werden in der Literatur als Voice-over-IP-Netze (VoIP) bezeichnet. Derartige Netzwerke weisen in der Regel eine Vielzahl von Netzwerkkomponenten, z. B. Computer oder auf IP-Telefonie spezialisierte Telefonendgeräte auf, welche die Netzwerkknoten bilden und zwischen denen Nachrichten übermittelt werden.
An die Zuverlässigkeit derartiger Netzwerke und damit an die Verfügbarkeit der einzelnen Netzwerkkomponenten sind dabei hohe Anforderungen zu stellen. Häufig ist ein gewisses Dienste-Niveau, welches unter anderem eine garantierte Dienste-Verfügbarkeit umfasst, sogar vertraglich in Form eines sogenannten Service Level Agreements zwischen dem Diensteanbieter und dem Nutzer des VoIP-Netzes festgelegt.
Das wohl geläufigste Verfahren zur Feststellung einer Nichtverfügbarkeit oder eingeschränkten Verfügbarkeit eines Netzwerkknotens oder einer Netzwerkkomponente verwendet sogenannte Echo-Anfragesignale – häufig auch als Ping bezeich net. Dabei werden, vorzugsweise in regelmäßigen Zeitabständen wiederholt, Echo-Anfragesignale an eine oder mehrere Netzwerkkomponenten versendet und diejenigen Netzwerkkomponenten, die auf das Anfragesignal hin kein Empfangssignal zurücksenden oder erst nach einer zeitlichen Verzögerung ein Empfangssignal zurücksenden, als nicht verfügbar bzw. eingeschränkt verfügbar identifiziert. Überwachungsstrategien, die auf sendenden Netzwerkkomponenten, die solche regelmäßigen Anfragesignale verwenden, und überwachten, zurücksendenden Netzwerkkomponenten bestehen, werden häufig auch als ”Watchdog”-Strategien bezeichnet.
Alternativ dazu sind auch sogenannte ”Heartbeat”-Systeme bekannt, bei denen die Netzwerkkomponenten von sich aus in regelmäßigen Zeitabständen an eine zentrale Netzwerkkomponente Signale senden, welche die aktuelle Verfügbarkeit der jeweiligen sendenden Komponente signalisieren.
Nachteilig an beiden Verfahren ist einerseits aber, dass sie einer zentralen Netzwerkkomponente in Form eines zentralen Überwachungsrechners bedürfen, welcher die Verfügbarkeits-Anfragen aussendet oder zumindest die Meldungen/Rückmeldungen der einzelnen Netzwerkkomponenten auswertet. Zum anderen ergibt sich aus beiden Verfahren keinerlei Hinweis auf eine mögliche Ursache der Nichtverfügbarkeit oder der eingeschränkten Verfügbarkeit einer Netzwerkkomponente.
Der Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren zur Fehlerbehandlung in einem Netzwerk anzugeben, welches einerseits die Belastung einer zentralen Netzwerkkomponente verringert oder gar vermeidet und andererseits eine Ermittlung von Ursachen einer festgestellten Nichtverfügbarkeit oder eingeschränkten Verfügbarkeit ermöglicht.
Diese Aufgabe wird durch das im unabhängigen Anspruch 1 angegebene Verfahren gelöst.
Die Erfindung betrifft ein Verfahren zur Fehlerbehandlung in einem Netzwerk, insbesondere einem paketvermittelnden Netzwerk mit mehreren Netzwerkkomponenten und Agenten, die jeweils mindestens einer Netzwerkkomponente zugeordnet sind, wobei von einem einer ersten Netzwerkkomponente zugeordneten ersten Agenten ein Anfragesignal an mindestens eine ihm nicht zugeordnete zweite Netzwerkkomponente versendet wird. Von dem ersten Agenten wird eine Nichtverfügbarkeit oder eingeschränkte Verfügbarkeit der zweiten Netzwerkkomponente festgestellt, wenn ein Antwortsignal durch die zweite Netzwerkkomponente nicht oder verzögert zurückgesendet wird. Eine Nachricht wird bezüglich der festgestellten Nichtverfügbarkeit oder der eingeschränkten Verfügbarkeit der zweiten Netzwerkkomponente durch den ersten Agenten an mindestens einen weiteren Agenten versendet, der nicht der zweiten Netzwerkkomponente zugeordnet ist.
Durch den Einsatz verteilter autonomer Software-Agenten, welche in geeigneter Weise jeweils einer Netzwerkkomponente zugeordnet sind, wird auf einfache Weise eine Dezentralisierung der Verfügbarkeitsprüfung der Netzwerkkomponenten erreicht.
In einer bevorzugten Ausführungsform der Erfindung wird von dem ersten Agenten eine Informationsanfrage an mindestens einen weiteren Agenten, der nicht der zweiten Netzwerkkomponente zugeordnet ist, ausgesendet, falls durch den ersten Agenten die Nichtverfügbarkeit oder die eingeschränkte Verfügbarkeit der zweiten Netzwerkkomponente festgestellt wurde. Der oder die weiteren Agenten senden daraufhin Informationen bezüglich der Verfügbarkeit der zweiten Netzwerkkomponente an den ersten Agenten zurück. Auf Basis des eigenen Prüfungsergebnisses und der zurückgemeldeten Informationen des oder der weiteren Agenten identifiziert der erste Agent eine Ursache für die Nichtverfügbarkeit oder die eingeschränkte Verfügbarkeit der zweiten Netzwerkkomponente.
Durch die zusätzliche Berücksichtigung von Informationen zumindest eines weiteren Agenten lässt sich eine mögliche Ursache für die Nichtverfügbarkeit oder eingeschränkte Verfügbarkeit einer Netzwerkkomponente identifizieren.
Vorteilhaft wird durch den ersten Agenten auf Basis des Prüfungsergebnisses und der zurückgemeldeten Informationen nicht nur eine Ursache identifiziert, sondern zusätzlich ein Wert für eine Wahrscheinlichkeit festgelegt, mit der die identifizierte Ursache zutrifft – auch als Trefferwahrscheinlichkeit bezeichnet.
Auf diese Weise kann die Qualität der Fehlerbehandlung weiter erhöht werden, da bei möglichen Folgeschritten die Trefferwahrscheinlichkeit berücksichtigt werden kann und somit falsche Reaktionen vermieden werden können.
Besonders vorteilhaft wird die Informationsanfrage durch den ersten Agenten an weitere Agenten ausgesendet, die Netzwerkkomponenten zugeordnet sind, die in demselben Teilbereich des Netzwerkes angeordnet sind wie die nicht oder eingeschränkt verfügbare Netzwerkkomponente. Derartige Agenten verfügen mit erhöhter Wahrscheinlichkeit verwertbare Informationen über die Verfügbarkeit der nicht oder eingeschränkt verfügbaren Netzwerkkomponenten.
Gemäß einer weiteren vorteilhaften Ausführungsform der Erfindung wird bei späterer Wiederverfügbarkeit der zweiten Netzwerkkomponente eine Informationsanfrage bezüglich Rahmenbedingungen zum Zeitpunkt der festgestellten Nichtverfügbarkeit oder eingeschränkten Verfügbarkeit an einen der zweiten Netzwerkkomponente zugeordneten Agenten ausgesendet und die von dem zweiten Agenten zurückgesendeten Informationen für die Identifikation der Ursache und/oder die Festlegung des Wahrscheinlichkeitswertes genutzt.
Durch Berücksichtigung der Informationen der nicht oder eingeschränkt verfügbaren Netzwerkkomponenten selbst kann die Ursache häufig besser identifiziert oder auch präzisiert werden. Außerdem steigt dadurch natürlich die Trefferwahrscheinlichkeit.
Des Weiteren ist es vorteilhaft, eine Information über die festgestellte Nichtverfügbarkeit oder die eingeschränkte Verfügbarkeit der zweiten Netzwerkkomponente und die identifizierte Ursache und/oder die Trefferwahrscheinlichkeit an andere Agenten zu versenden. Diese Informationen können von den anderen Agenten beispielsweise dazu genutzt werden, eine Warnmeldung an den Benutzer der jeweils zugeordneten Netzwerkkomponente auszugeben.
Wird als Anfragesignal ein simuliertes Rufsignal verwendet, welches beispielsweise regelmäßig ausgesendet wird, und werden die Nachrichten bezüglich einer festgestellten Nichtverfügbarkeit oder eingeschränkten Verfügbarkeit einer Netzwerkkomponente an einen Management-Agenten gesendet, können darauf basierend auf einfache Weise Statistiken über die Verfügbarkeit der jeweiligen Netzwerkkomponente erstellt werden, wie sie beispielsweise im Rahmen eines Service Level Agreements mit zugesicherter Dienste-Verfügbarkeit notwendig sind.
Gemäß einer besonders vorteilhaften Ausführungsform der Erfindung führen mehrere oder alle Agenten Prüfungen und/oder Informationsanfragen und/oder Ursachenidentifikationen und/oder Meldungen an Management-Agenten durch. Auf diese Weise kann die Anzahl der Prüfungen erhöht werden, die Belastung der einzelnen Agenten verringert werden, die bei den Agenten verfügbaren Informationen bezüglich der Verfügbarkeit einzelner Netzwerkkomponenten gesteigert werden und somit letztendlich die Qualität der Fehlerbehandlung verbessert werden.
Gemäß einer weiteren vorteilhaften Ausführungsform der Erfindung werden von den Agenten auf Basis ihrer eigenen Prüfergebnisse und/oder der Informationsanfragen durch andere Agenten und/oder der von anderen Agenten zurückgesendeten Informationen und/oder der von anderen Agenten identifizierten Ursachen für die Nichtverfügbarkeit oder eingeschränkte Verfügbarkeit einer Netzwerkkomponente mögliche Ausfallgründe für die einzelnen Netzwerkkomponenten in Form von sogenannten ”Favoriten-Listen” gespeichert und diese möglichen Ausfallgründe bei der Identifikation der Ursache für die Nichtverfügbarkeit oder eingeschränkte Verfügbarkeit der entsprechenden Netzwerkkomponente berücksichtigt. Durch Speichern derartiger ”Favoriten-Listen” lassen sich auch Ergebnisse und Informationen aus der Vergangenheit berücksichtigen, was zu einer weiteren Steigerung der Qualität bei der Identifikation der Fehlerursache führt. Weiterhin kann jede Favoriten-Liste nach den Trefferwahrscheinlichkeiten der einzelnen in der Favoriten-Liste enthaltenen möglichen Ausfallgründe in absteigender Reihenfolge sortiert werden. Werden die möglichen Ausfallgründe in der Favoriten-Liste in dieser Reihenfolge in einem konkreten Fall einer nicht oder eingeschränkt verfügbaren Netzwerkkomponente getestet, so wird die Identifikation der Fehlerursache beschleunigt, da die ein möglicher Ausfallgrund umso eher getestet wird, je wahrscheinlicher er ist.
Schließlich ist es vorteilhaft, von mindestens einem der Agenten in Abhängigkeit von der identifizierten Ursache für die Nichtverfügbarkeit oder eingeschränkte Verfügbarkeit einer Netzwerkkomponente Maßnahmen zur Fehlerbehebung oder zur Migration eines Dienstes zu einer anderen Netzwerkkomponente einleiten zu lassen. Auf diese Weise kann die Wiederverfügbarkeit einer Netzwerkkomponente bzw. eines Dienstes in sehr kurzer Zeit realisiert werden.
Weitere Merkmale und Vorteile der Erfindung ergeben sich aus einem Ausführungsbeispiel, welches im Folgenden anhand der Zeichnung erläutert wird. Es zeigen:
1 eine schematische Darstellung eines Netzwerkes und
2 eine schematische Darstellung des Ablaufs des erfindungsgemäßen Verfahrens.
In 1 ist beispielhaft ein Netzwerk 1 mit vier Netzwerkkomponenten 2, 3, 4 und 5 sowie einem Managementsystem 6 dargestellt. Die Netzwerkkomponenten 2–5 sowie das Managementsystem 6 bilden dabei die Knoten des Netzwerks 1. Selbstverständlich ist das erfindungsgemäße Verfahren aber auf Netzwerke mit einer beliebigen Anzahl von Netzwerkkomponenten und Managementsystemen anwendbar. Das Netzwerk 1 ist als paketvermittelndes Kommunikationsnetzwerk für Telefonie (VoIP-Netz) dargestellt, wobei die einzelnen Netzwerkkomponenten 2-5 untereinander derart vernetzt sind, dass jede Netzwerkkomponente 2–5 mit jeder anderen Netzwerkkomponente 2–5 direkt Daten austauschen kann. Abweichend von der dargestellten Form der Vernetzung kann jede Art der Vernetzung, etwa eine stern- oder ringförmige oder auch eine Mischform davon, genutzt werden. Voraussetzung für die Anwendung des erfindungsgemäßen Verfahrens ist lediglich, dass jede Netzwerkkomponente 2–5 mit jeder anderen Komponente 2–5 direkt oder indirekt, also unter Zwischenschaltung anderer Kommunikationskomponenten 2–5, Daten austauschen kann. Aus Gründen der vereinfachten Darstellung ist in 1 lediglich die Netzwerkkomponente 2 mit dem Managementsystem 6 vernetzt, so dass Daten zwischen diesen Einheiten ausgetauscht werden können. Vorteilhaft können aber mehrere oder alle Netzwerkkomponenten 2–5 direkt oder indirekt Daten mit dem Managementsystem 6 austauschen.
Als Netzwerkkomponenten sind in der Regel Computer oder auf IP-Telefonie spezialisierte Telefonendgeräte anzusehen. Das erfindungsgemäße Verfahren ist aber auch auf Netzwerke mit beliebigen weiteren Netzwerkkomponenten, wie z. B. Router, anwendbar.
Jeder Netzwerkkomponente 2–5 ist ein Software-Agent 7, 8, 9 bzw. 10 – im Folgenden kurz Agent genannt – zugeordnet. Zusätzlich ist dem Managementsystem 6 ein Software-Agent 11 – im Folgenden Management-Agent genannt – zugeordnet. Software-Agenten sind dem Fachmann grundsätzlich bekannt und zeichnen sich dadurch aus, dass sie u. a.

– autonom, also weitgehend unabhängig von Benutzereingriffen, arbeiten,
– proaktiv sind, also Aktionen aufgrund eigener Initiative auslösen,
– auf Änderungen der Umgebungsbedingungen reagieren,
– mit anderen Agenten kommunizieren und zusammenarbeiten können und
– lern- und anpassungsfähig sind.

Bekannt sind beispielsweise sogenannte BDI-Agenten, wobei BDI für Belief, Desire und Intention steht, die drei Hauptbestandteile dieser Agentenarchitektur. BDI-Agenten werden mit Annahmen über ihre Umwelt, Wissen über den Zielzustand und Absichten, wie dieser Zustand zu erreichen ist, ausgestattet. Zur Zielerreichung können dabei intelligente Methoden angewendet werden. Stehen zur Erreichung des Zielzustandes, wie im vorliegenden Fall, mehrere Agenten zur Verfügung, welche das Problem kollektiv lösen, spricht man von einem sogenannten Multiagentensystem – auch „agent society” genannt. Die zu einem Multiagentensystem gehörenden Agenten basieren vorzugsweise auf derselben Agentenplattform. Eine Agentenplattform ist eine Software-Umgebung, die Komponenten und Schnittstellen für die vereinfachte, einheitliche und interoperable Programmierung von Software-Agenten zur Verfügung stellt. Multiagentensysteme unterstützen teilweise auch sogenannte ”Gelbe Seiten” oder ”Yellow Pages”, in denen Informationen über die angebotenen Dienste oder spezielle Eigenschaften der einzelnen Agenten des Multiagentensystems hinterlegt sind. Derartige ”Gelbe Seiten” erlauben es einem Agenten über einen ”Service-Broker”-Agenten, der die ”Gelben Seiten” sozusagen verwaltet, Informationen bezüglich der von anderen Agenten des Multiagentensystems angebotenen Dienste einzuholen und damit gezielt einen Agenten zur Ausführung eines solchen Dienstes auszuwählen.
Die Agenten 7–11 können, wie in 1 angedeutet, auf der jeweiligen Netzwerkkomponente 2–6, der sie zugeordnet sind, installiert sein. Alternativ dazu können die Agenten aber auch auf einer beliebigen Netzwerkkomponente installiert sein, der sie nicht zugeordnet sind. Die Zuordnung erfolgt in diesem Fall virtuell. Auch ist es für den Einsatz des erfindungsgemäßen Verfahrens nicht erforderlich, dass jeder Netzwerkkomponente ein Agent zugeordnet ist. Vorteilhaft ist ein Agent aber zumindest denjenigen Netzwerkkomponente zugeordnet, deren Verfügbarkeit geprüft werden soll. Des Weiteren ist es auch möglich einer Netzwerkkomponente mehr als einen Agenten zuzuordnen.
Der Agent 7–11 hat die Möglichkeit, auf alle oder zumindest einen Teil der Funktionen der zugeordneten Netzwerkkomponenten 2–6 zuzugreifen. So haben die Agenten 7–11 vorteilhaft Zugriff auf die Kommunikations- und Dienste-Schnittstellen der jeweils zugeordneten Netzwerkkomponenten 2 bis 6 sowie die Möglichkeit, Informationen über die Konfiguration und den Status der Netzwerkkomponente zu erhalten.
In 2 ist schematisch ein möglicher Ablauf des erfindungsgemäßen Verfahrens dargestellt. In einem Schritt S100 wird von einem ersten Agenten 7, welcher der Netzwerkkomponente 2 zugeordnet ist, ein Anfragesignal an die Netzwerkkomponente 3 versendet. Als Anfragesignal kann beispielsweise ein Echo-Anfragesignal (fing) oder auch ein simuliertes Rufsignal verwendet werden. Unter einem simulierten Rufsig nal ist dabei ein Signal zu verstehen, welches bei der angerufenen Netzwerkkomponente 3 dazu führt, die Durchführbarkeit des Anrufes zu prüfen, ohne jedoch alle Schritte eines realen Verbindungsaufbaus durchzuführen. Dies kann beispielsweise durch einfaches Aktivieren oder Deaktivieren eines entsprechenden Statusindikators oder Flags realisiert werden. Auf diese Weise kann eine unnötige Netzbelastung und/oder Belastung der Netzwerkkomponenten durch Signale bzw. Vorgänge vermieden werden, die dem realen Verbindungsaufbau dienen.
Die Anfragesignale werden vorteilhaft in regelmäßigen Zeitabständen von dem der Netzwerkkomponente 2 zugeordneten Agenten 7 an die Netzwerkkomponente 3 gerichtet.
Erhält der Agent 7 auf seine Anfrage hin kein Antwortsignal von der Netzwerkkomponente 3 oder erhält er das Antwortsignal erst mit einer zeitlichen Verzögerung, das heißt nicht innerhalb einer vorgegebenen Zeitspanne (Verzweigungsschritt S200), so wird durch den Agenten 7 in einem Schritt S300 eine Nichtverfügbarkeit bzw. eingeschränkte Verfügbarkeit der Netzwerkkomponente 3 festgestellt.
Aus dem bloßen Ausbleiben eines Antwortsignals durch die Netzwerkkomponente 3 lässt sich jedoch keine eindeutige Ursache für die Nichtverfügbarkeit oder die eingeschränkte Verfügbarkeit der Netzwerkkomponente 3 identifizieren. Folgende Ursachen wären beispielsweise denkbar:

– Die Netzwerkverbindung zwischen den Netzwerkkomponenten 2 und 3 ist derzeit nicht verfügbar,
– das Netzwerk ist derzeit überlastet.
– Die der Netzwerkkomponente 2 bekannte Netzwerk-Adresse der Netzwerkkomponente 3 ist falsch, Netzwerkdienste, wie zum Beispiel DNS (Domain Name System) sind derzeit nicht verfügbar,
– die Netzwerkkomponente 3 ist ausgefallen oder
– die Netzwerkkomponente 2 selbst hat derzeit keine Verbindung zum Netzwerk.

Um die Fehlerursache weiter einzugrenzen, bietet sich nun die Möglichkeit der Kooperation mit anderen Agenten 9 oder 10 des Netzwerks 1, die wie der Agent 7 selbst nicht der geprüften Netzwerkkomponente 3 zugeordnet sind. Dabei ist es vorteilhaft mit Agenten zu kommunizieren, die einer Netzwerkkomponente zugeordnet sind, die in demselben Teilbereich des Netzwerks 1 angeordnet sind wie die Netzwerkkomponente 3, für welche die Nichtverfügbarkeit oder eingeschränkte Verfügbarkeit festgestellt wurde. Häufig sind komplexe IP-Netzwerke in sogenannte Sub-Netzwerke aufgeteilt. Bevorzugte Kommunikationspartner sind dann Agenten, die Netzwerkkomponenten zugeordnet sind, welche in demselben Sub-Netzwerk angeordnet sind wie die Netzwerkkomponente 3, für welche die Nichtverfügbarkeit oder eingeschränkte Verfügbarkeit festgestellt wurde. Bei diesen Agenten liegen nämlich mit erhöhter Wahrscheinlichkeit verwertbare Informationen über die Verfügbarkeit der Netzwerkkomponente 3 vor. Liegen dem Agenten 7 keine Informationen darüber vor, welche anderen Agenten dieses Kriterium erfüllen oder sind dem Agenten 7 die Netzwerkadressen dieser anderen Agenten nicht bekannt, so kann der Agent 7 in einem Schritt S400 eine Anfrage an einen „Service-Broker”-Agenten, der die sogenannten ”Gelben Seiten” verwaltet, richten mit dem Ziel, in einem Schritt S500 eine oder mehrere Netzwerkadressen von anderen Agenten genannt zu bekommen, die Netzwerkkomponenten zugeordnet sind, welche im gleichen Teilbereich des Netzwerks 1 angeordnet sind wie die nicht oder eingeschränkt verfügbare Netzwerkkomponente 3. Dazu ist es erforderlich, dass dem „Service-Broker”-Agenten der ”Gelben Seiten” im Vorfeld die örtlichen Anordnungen der einzelnen Netzwerkkomponenten und der ihnen zugeordneten Agenten innerhalb des Netzwerks sowie die zugehörigen Netzwerkadressen bekannt gegeben wurden. Beispielhaft sei nun angenommen, dass die Netzwerkkomponente 4 in demselben Teilbereich des Netzwerks 1 angeordnet ist wie die Netzwerkkomponente 3. Im Schritt S500 wird dem Agenten 7 folglich durch den Service-Broker-Agenten die Netzwerkadresse des Agenten 9 mitgeteilt, welcher der Netzwerkkomponente 4 zugeordnet ist. Selbstverständlich können aber auch die Netzwerkadressen mehrerer Agenten, welche die Anfragekriterien erfüllen, an den anfragenden Agenten 7 zurückgemeldet werden.
In einem Schritt S600 wird daraufhin von dem ersten Agenten 7 eine Informationsanfrage an den Agenten 9, welcher der Netzwerkkomponente 4 zugeordnet ist, gesendet. Dabei wird der Agent 9 angefragt, ob er Informationen über die Verfügbarkeit der Netzwerkkomponente 3, für welche die Nichtverfügbarkeit oder eingeschränkte Verfügbarkeit festgestellt wurde, besitzt. Diese Informationen können beispielsweise auf eigenen Verfügbarkeitsanfragen durch den Agenten 9 beruhen. Derartige Informationsanfragen können von dem Agenten 7 grundsätzlich an alle Agenten gerichtet werden, welche nicht der Netzwerkkomponente 3 zugeordnet sind, für welche die Nichtverfügbarkeit oder eingeschränkte Verfügbarkeit festgestellt wurde.
Auf die Informationsanfrage hin sendet der Agent 9 in einem Schritt S700 alle ihm vorliegenden Informationen bezüglich der Verfügbarkeit der Netzwerkkomponente 3 an den ersten Agenten 7 zurück. Dabei kann es sich beispielsweise um die Information handeln, dass auch von dem Agenten 9 der Netzwerkkomponente 4 derzeit keine Verbindung zur Netzwerkkomponente 3 hergestellt werden kann.
Auf Basis des eigenen Prüfungsergebnisses – kein Antwortsignal oder verzögertes Antwortsignal der Netzwerkkomponente 3 – und auf Basis der von dem Agenten 9 der Netzwerkkomponente 4 zurückgemeldeten Informationen wird nun durch den ersten Agenten 7 der ersten Netzwerkkomponente 2 im Schritt S800 eine Ursache für die Nichtverfügbarkeit oder die eingeschränkte Verfügbarkeit der zweiten Netzwerkkomponente 3 identifiziert. Diese Ursachenidentifikation ist qualitativ natürlich umso höher, je mehr Informationen bezüglich der Verfügbarkeit der Netzwerkkomponente 3 dem ersten Agenten 7 zur Verfügung stehen. Das heißt, die Qualität der Fehleridentifikation kann dadurch gesteigert werden, dass neben dem Agenten 9 weitere Agenten bezüglich einer Information hinsichtlich der Verfügbarkeit der Netzwerkkomponente 3 angefragt werden. Außerdem hat natürlich die Qualität und die Präzision der zurückgemeldeten Informationen entscheidenden Einfluss auf die Qualität der Fehleridentifikation.
Vorteilhaft wird durch den Agenten 7 der ersten Netzwerkkomponente 2 zusätzlich zur identifizierten Ursache auch ein Wert für eine Wahrscheinlichkeit festgelegt, mit der die identifizierte Ursache zutrifft. Auch diese Trefferwahrscheinlichkeit wird dabei in Abhängigkeit von dem eigenen Prüfungsergebnis und den zurückgemeldeten Informationen der weiteren Agenten festgelegt.
Um die Qualität der Ursachenidentifikation und damit auch die Trefferwahrscheinlichkeit weiter zu erhöhen, kann bei Wiederverfügbarkeit der Netzwerkkomponente 3 in einem Schritt S900 durch den ersten Agenten 7 eine Informationsanfrage an den der Netzwerkkomponente 3 zugeordneten Agenten 8 gerichtet werden. Dabei werden Rahmenbedingungen abgefragt, welche bei der Netzwerkkomponente 3 zum Zeitpunkt der festgestellten Nichtverfügbarkeit oder eingeschränkten Verfügbarkeit vorlagen. Mit Hilfe dieser in Schritt S1000 zurückgesendeten Zusatzinformationen kann dann entweder eine neue Ursache identifiziert werden, der Wert der Trefferwahrscheinlichkeit erhöht werden oder die Fehlerursache auch weiter präzisiert werden.
In einem Schritt S1100 wird durch den ersten Agenten 7 eine Information über die festgestellte Nichtverfügbarkeit oder die eingeschränkte Verfügbarkeit der zweiten Netzwerkkomponente 3 sowie die identifizierte Ursache und/oder die Tref ferwahrscheinlichkeit an den Agenten 10, welcher der Netzwerkkomponente 5 zugeordnet ist, weitergeleitet. Dieser kann auf Basis dieser Informationen beispielsweise einen Warnhinweis für den Benutzer über die Nichtverfügbarkeit oder die eingeschränkte Verfügbarkeit, etwa in Form von verlängerten Antwortzeiten, der Netzwerkkomponente 3 ausgeben.
Weist ein Netzwerk neben den in 1 dargestellten Netzwerkkomponenten 2–5 weitere Netzwerkkomponenten auf, können die Informationen bezüglich der Nichtverfügbarkeit oder eingeschränkten Verfügbarkeit einer Netzwerkkomponente, die identifizierten Ursachen und/oder die Wahrscheinlichkeitswerte selbstverständlich an mehrere oder alle Netzwerkkomponenten weitergeleitet werden. Zusätzlich können diese Informationen auch an den Management-Agenten 11 des Managementsystems 6 weitergeleitet werden.
Besonders vorteilhaft werden die beschriebenen Prüfungen und/oder Informationsanfragen und/oder Ursachenidentifikationen und/oder Meldungen an Management-Agenten von mehreren oder sogar allen Agenten 7–10, die jeweils einer Netzwerkkomponente 2–5 des Netzwerks 1 zugeordnet sind, durchgeführt.
Eine weitere Erhöhung der Qualität der Identifikation einer Fehlerursache kann dadurch erreicht werden, dass die Agenten 7–10 auf Basis ihrer eigenen Prüfergebnisse und/oder der Informationsanfragen durch andere Agenten und/oder der von anderen Agenten zurückgesendeten Informationen und/oder der von anderen Agenten identifizierten Ursachen für die Nichtverfügbarkeit oder eingeschränkte Verfügbarkeit einer Netzwerkkomponente mögliche Ausfallgründe für die einzelnen Netzwerkkomponenten in einer sogenannten Favoriten-Liste speichern und diese möglichen Ausfallgründe bei der Identifikation der Ursache für die Nichtverfügbarkeit oder eingeschränkte Verfügbarkeit der entsprechenden Netzwerkkomponente berücksichtigt werden. Auf diese Weise ist gewährleistet, dass neben aktuell vorliegenden Informationen über die Verfügbarkeit einer Netzwerkkomponente auch Informationen aus der Vergangenheit berücksichtigt werden können. So kann beispielsweise in dieser sogenannten Favoriten-Liste hinterlegt sein, dass die zweite Netzwerkkomponente 3 in einem Teilbereich des Netzwerks angeordnet ist, der häufig überlastet ist, oder auch, dass die Netzwerkkomponente 3 häufig ausfällt. Diese Favoriten-Listen werden dann auf Grundlage neu zur Verfügung stehender Informationen jeweils aktualisiert.
Reichen selbst diese Informationen nicht aus, um einen Fehler mit genügend hoher Trefferwahrscheinlichkeit zu identifizieren, können durch den Agenten der betroffenen Netzwerkkomponente selbst oder auch durch einen anderen Agenten gezielte Test durchgeführt werden. Dabei können beispielsweise Hilfsprogramme oder Testalgorithmen, z. B. in Form von Selbstchecks, eingesetzt werden. Ebenso ist es möglich, speziell gestaltete Anfragesignale zu verwenden, die sehr präzise Rückschlüsse auf Fehlerursachen zulassen, wie z. B. den Ausfall nur des Webservers, der Datenbank oder eines speziellen Dienstes einer Netzwerkkomponente.
Schließlich ist es möglich, die Agenten 7–10 nicht nur zur Fehlerdetektion und Ursachenidentifikation einzusetzen, sondern auch zur Fehlerbehebung oder zumindest zur Realisierung einer Umgehungslösung. Stellt der Agent 7 beispielsweise fest, dass die Datenbank oder der Webserver der Netzwerkkomponente 3 nicht verfügbar sind, obwohl die Netzwerkkomponente 3 selbst und auch der ihr zugeordnete Agent 8 verfügbar sind, so können durch den Agenten 8, oder auch den Agenten 7 in einem Schritt S1200 Maßnahmen ergriffen werden, um die Datenbank und/oder den Webserver wieder verfügbar zu machen. Eine denkbare Maßnahme wäre hier beispielsweise der Neustart der entsprechenden Komponente, der Neustart des entsprechenden Dienstes, das Aktivieren oder Deaktivieren eines Statusindikators oder Flags oder auch die Neuinstallation einer Softwarekomponente. Anschließend kann der Agent 7 bzw. 8 die Agenten aller anderen Netzwerkkomponenten über die wiederhergestellte volle Verfügbarkeit der Netzwerkkomponente 3 informieren.
Betrifft die Nichtverfügbarkeit beispielsweise einen Dienst der Netzwerkkomponente 3, bei dem es nicht zwingend notwendig ist, dass er auf genau dieser Netzwerkkomponente ausgeführt werden muss, wie zum Beispiel einen Abrechnungsdienst, so kann dieser, veranlasst durch den Agenten 8 oder auch den Agenten 7, in einem Schritt S1210 auf eine andere Netzwerkkomponente 4 oder 5 migriert werden. Dabei kann der Dienst auf dieser neuen Netzwerkkomponente entweder nur gestartet oder auch installiert und/oder konfiguriert werden. Zusätzlich kann der Agent 7 bzw. 8 die Agenten aller anderen Netzwerkkomponenten über die Verfügbarkeit des Dienstes auf der neuen Netzwerkkomponente 4 oder 5 informieren.
Die Schritte S1100 und S1200 bzw. S1210 sind in 2 zeitlich sequentiell dargestellt. Selbstverständlich können diese Schritte aber auch, angepasst an die jeweilige Situation, zeitlich parallel durchgeführt werden oder es kann der Schritt S1100 sogar ganz entfallen, wenn eine Fehlerbehebung im Schritt S1200 oder eine Migration von Diensten im Schritt S1210 sehr schnell durchgeführt werden kann.
Wird als Anfragesignal ein simuliertes Rufsignal verwendet, so werden die Prüfergebnisse in einem Schritt S310 und vorteilhaft auch die identifizierten Fehlerursachen in einem Schritt S1110 an den Management-Agenten 11 des Managementsystems 6 gesendet. Der Management-Agent 11 kann auf Basis dieser Daten in einem Schritt 1300 Statistiken bezüglich der Verfügbarkeit der entsprechenden Netzwerkkomponente erstellen, wie sie beispielsweise im Rahmen von Service Level Agreements benötigt werden. Vorteilhaft werden dazu nicht nur Informationen über festgestellte Nichtverfügbarkeiten oder eingeschränkte Verfügbarkeiten an den Management-Agenten 11 gesendet, sondern in einem Schritt S210 auch In formationen hinsichtlich erfolgreich durchgeführter Verfügbarkeitsprüfungen. Die Übermittlung kann dabei unmittelbar nach Durchführung der Verfügbarkeitsprüfung erfolgen oder auch in kumulierter Weise in regelmäßigen Zeitabständen. Der Management-Agent 11 basiert dabei vorzugsweise auf derselben Agentenplattform wie die Agenten 7–11 der Netzwerkkomponenten 2–5. Dadurch können die Informationen der einzelnen Agenten 7–11 auf sehr einfache Weise verarbeitet werden.

Claims

Verfahren zur Fehlerbehandlung in einem Netzwerk (1), insbesondere einem paketvermittelnden Netzwerk mit mehreren Netzwerkkomponenten (2, 3, 4, 5, 6) und Agenten (7, 8, 9, 10, 11), die jeweils mindestens einer Netzwerkkomponente (2, 3, 4, 5, 6) zugeordnet sind, wobei – von einem einer ersten Netzwerkkomponente (2) zugeordneten ersten Agenten (7) ein Anfragesignal an mindestens eine ihm nicht zugeordnete zweite Netzwerkkomponente (3) versendet wird, – von dem ersten Agenten (7) eine Nichtverfügbarkeit oder eingeschränkte Verfügbarkeit der zweiten Netzwerkkomponente (3) festgestellt wird, wenn ein Antwortsignal durch die zweite Netzwerkkomponente (3) nicht oder verzögert zurückgesendet wird, und – eine Nachricht bezüglich der festgestellten Nichtverfügbarkeit oder der eingeschränkten Verfügbarkeit der zweiten Netzwerkkomponente (3) durch den ersten Agenten (7) an mindestens einen weiteren Agenten (7, 8, 9, 10, 11) versendet wird, der nicht der zweiten Netzwerkkomponente (3) zugeordnet ist.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass – von dem ersten Agenten (7) eine Informationsanfrage an mindestens einen weiteren Agenten (9), der nicht der zweiten Netzwerkkomponente (3) zugeordnet ist, ausgesendet wird, falls durch den ersten Agenten (7) die Nichtverfügbarkeit oder die eingeschränkte Verfügbarkeit der zweiten Netzwerkkomponente (3) festgestellt wurde, – von dem/den weiteren Agenten (9) Informationen bezüglich der Verfügbarkeit der zweiten Netzwerkkomponente (3) an den ersten Agenten (7) zurückgesendet werden und – durch den ersten Agenten (7) auf Basis des Prüfungsergebnisses des ersten Agenten (7) und der zurückgemeldeten Informationen des/der weiteren Agenten (9) eine Ursache für die Nichtverfügbarkeit oder die eingeschränkte Verfügbarkeit der zweiten Netzwerkkomponente (3) identifiziert wird.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass durch den ersten Agenten (7) auf Basis des Prüfungsergebnisses des ersten Agenten (7) und der zurückgemeldeten Informationen des/der weiteren Agenten (9) zusätzlich ein Wert festgelegt wird für die Wahrscheinlichkeit, mit der die identifizierte Ursache zutrifft.
Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass als Anfragesignal ein Echo-Anfragesignal (fing) verwendet wird.
Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass jeder Netzwerkkomponente (2, 3, 4, 5, 6) mindestens ein Agent (7, 8, 9, 10, 11) zugeordnet ist.
Verfahren nach einem der Ansprüche 2 bis 5, dadurch gekennzeichnet, dass die Informationsanfrage an weitere Agenten (9) ausgesendet wird, welche Netzwerkkomponenten (4) zugeordnet sind, die in demselben Teilbereich des Netzwerks (1) angeordnet sind wie die zweite Netzwerkkomponente (3).
Verfahren nach einem der Ansprüche 2 bis 6, dadurch gekennzeichnet, dass bei Wiederverfügbarkeit der zweiten Netzwerkkomponente (3) eine Informationsanfrage bezüglich Rahmenbedingungen zum Zeitpunkt der festgestellten Nichtverfügbarkeit oder eingeschränkten Verfügbarkeit an einen der zweiten Netzwerkkomponente (3) zugeordneten zweiten Agenten (8) ausgesendet wird und dass die von dem zweiten Agenten (8) zurückgesendeten Informationen für die Identifikation der Ursache für die Nichtverfüg barkeit oder eingeschränkte Verfügbarkeit und/oder die Festlegung des Wahrscheinlichkeitswertes genutzt werden.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine Information über die festgestellte Nichtverfügbarkeit oder die eingeschränkte Verfügbarkeit der zweiten Netzwerkkomponente (3) und die identifizierte Ursache und/oder den Wahrscheinlichkeitswert durch den ersten Agenten (7) an andere Agenten (10, 11) versendet wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass es sich bei dem Netzwerk um ein Telefonie-Netzwerk handelt und dass als Anfragesignal ein simuliertes Rufsignal verwendet wird, welches regelmäßig ausgesendet wird.
Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass die Nachrichten bezüglich festgestellter Nichtverfügbarkeiten oder eingeschränkter Verfügbarkeiten der zweiten Netzwerkkomponente (3) durch den ersten Agenten an einen Management-Agenten (11) versendet werden, durch den auf Basis dieser Ergebnisse Statistiken über die Verfügbarkeit der zweiten Netzwerkkomponente (3) erstellt werden.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass mehrere oder alle Agenten (7, 8, 9, 10, 11) Prüfungen und/oder Informationsanfragen und/oder Ursachenidentifikationen und/oder Meldungen an Management-Agenten (11) gemäß einem der vorhergehenden Ansprüche durchführen.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass von den Agenten (7, 8, 9, 10) auf Basis – ihrer eigenen Prüfergebnisse und/oder – der Informationsanfragen durch andere Agenten und/oder – der von anderen Agenten zurückgesendeten Informationen und/oder – der von anderen Agenten identifizierten Ursachen für die Nichtverfügbarkeit oder eingeschränkte Verfügbarkeit einer Netzwerkkomponente mögliche Ausfallgründe für die einzelnen Netzwerkkomponenten (2, 3, 4, 5) gespeichert werden und diese möglichen Ausfallgründe bei der Identifikation der Ursache für die Nichtverfügbarkeit oder eingeschränkte Verfügbarkeit der entsprechenden Netzwerkkomponente (2, 3, 4, 5) berücksichtigt werden.
Verfahren nach einem der Ansprüche 2 bis 12, dadurch gekennzeichnet, dass von mindestens einem der Agenten (7, 8, 9, 10, 11) in Abhängigkeit von der identifizierten Ursache für die Nichtverfügbarkeit oder eingeschränkte Verfügbarkeit einer Netzwerkkomponente (2, 3, 4, 5) Maßnahmen zur Fehlerbehebung eingeleitet werden.
Verfahren nach einem der Ansprüche 2 bis 13, dadurch gekennzeichnet, dass von mindestens einem der Agenten (7, 8, 9, 10, 11) in Abhängigkeit von der identifizierten Ursache für die Nichtverfügbarkeit oder eingeschränkte Verfügbarkeit einer Netzwerkkomponente (2, 3, 4, 5) Maßnahmen zur Migration eines Dienstes auf eine andere Netzwerkkomponente (2, 3, 4, 5) eingeleitet werden.
Netzwerk, insbesondere ein paketvermittelndes Netzwerk mit mehreren Netzwerkkomponenten (2, 3, 4, 5, 6) und Agenten (7, 8, 9, 10, 11), die jeweils mindestens einer Netzwerkkomponente (2, 3, 4, 5, 6) zugeordnet sind, wobei – ein erster, einer ersten Netzwerkkomponente zugeordneter Agent (7) die Verfügbarkeit von mindestens einer ihm nicht zugeordneten zweiten Netzwerkkomponente (3) prüft und bei Feststellen einer Nichtverfügbarkeit oder eingeschränkten Verfügbarkeit der zweiten Netzwerkkomponente (3) eine Informationsanfrage an mindestens einen weiteren Agenten (9) versendet und – mindestens ein weiterer Agent (9), der ebenfalls nicht der zweiten Netzwerkkomponente (3) zugeordnet ist, Informationen bezüglich der Verfügbarkeit der zweiten Netzwerkkomponente (3) an den ersten Agenten (7) zurücksendet, wobei der erste Agent (7) auf Basis des Prüfungsergebnisses und der zurückgemeldeten Informationen des/der weiteren Agenten (9) eine Ursache für die Nichtverfügbarkeit oder die eingeschränkte Verfügbarkeit der zweiten Netzwerkkomponente (3) identifiziert.