DE102021109228A1

DE102021109228A1 - Verfahren und system zur ursachenanalyse von netzwerkproblemen

Info

Publication number: DE102021109228A1
Application number: DE102021109228.0A
Authority: DE
Inventors: Anu Mercian; Chinlin Chen; Charles F. Clark
Original assignee: Hewlett Packard Enterprise Development LP
Current assignee: Hewlett Packard Enterprise Development LP
Priority date: 2020-07-24
Filing date: 2021-04-13
Publication date: 2022-01-27
Also published as: US20220029876A1; CN113973042A; CN113973042B; US11349703B2

Abstract

Ein System zur Ereignisanalyse in einem Netzwerk wird bereitgestellt. Während des Betriebs kann das System einen Satz von Überwachungselementen in dem Netzwerk bestimmen. Ein jeweiliges Überwachungselement kann die Überwachung von Ereignissen im Netzwerk ermöglichen. Das System kann dann ein jeweiliges Überwachungselement als einen Knoten eines Graphen darstellen. Wenn die entsprechenden Überwachungselemente auf der Grundlage einer Beziehungsdefinition miteinander in Beziehung stehen, kann das System ein Knotenpaar des Graphen mit einer Kante verbinden. Das System kann einen Satz von Knoten des Graphen aktivieren, der einem Problem im Netz entspricht, und zwar auf der Grundlage von Benachrichtigungen von einem oder mehreren Überwachungsagenten auf einem oder mehreren Schaltern im Netz. Anschließend kann das System eine Grundursache des Problems bestimmen, indem es die Menge der aktivierten Knoten des Graphen durchläuft, und eine Wiederherstellungsmaßnahme zur Abschwächung der Grundursache bestimmen.

Description

HINTERGRUND
Die vorliegende Offenbarung bezieht sich auf Kommunikationsnetze. Genauer gesagt bezieht sich die vorliegende Offenbarung auf ein Verfahren und ein System zur Erleichterung einer Ursachenanalyse eines Problems in einem Netzwerk.
Figurenliste

1 zeigt ein beispielhaftes Ereignisanalysesystem, das die Ursachenanalyse in einem Netzwerk gemäß einer Ausführungsform der vorliegenden Anwendung erleichtert.
2A zeigt ein beispielhaftes Grundursachendiagramm (RC) gemäß einer Ausführungsform der vorliegenden Anwendung.
zeigt beispielhafte netzweite RC-Diagramme in Übereinstimmung mit einer Ausführungsform der vorliegenden Anwendung.
3 zeigt einen beispielhaften Überlagerungsprozess von RC-Graphen, die verschiedene Überwachungsagenten eines Schalters darstellen, in Übereinstimmung mit einer Ausführungsform der vorliegenden Anwendung.
4A zeigt ein Flussdiagramm, das den Prozess eines Ereignisanalysesystems veranschaulicht, das ein RC-Diagramm in Übereinstimmung mit einer Ausführungsform der vorliegenden Anwendung erzeugt.
4B zeigt ein Flussdiagramm, das den Überlagerungsprozess von RC-Graphen veranschaulicht, die verschiedene Überwachungsagenten eines Schalters darstellen, in Übereinstimmung mit einer Ausführungsform der vorliegenden Anwendung.
5A zeigt ein Flussdiagramm, das den Prozess eines Ereignisanalysesystems veranschaulicht, das eine Ursachenanalyse unter Verwendung eines RC-Diagramms in Übereinstimmung mit einer Ausführungsform der vorliegenden Anwendung durchführt.
5B zeigt ein Flussdiagramm, das den Prozess eines Ereignisanalysesystems veranschaulicht, das einen Wiederherstellungsvorgang auf der Grundlage einer Ursachenanalyse gemäß einer Ausführungsform der vorliegenden Anwendung durchführt.
6 zeigt ein beispielhaftes Computersystem, das ein Ereignisanalysesystem gemäß einer Ausführungsform der vorliegenden Anwendung ermöglicht.
7 zeigt eine beispielhafte Vorrichtung, die ein Ereignisanalysesystem gemäß einer Ausführungsform der vorliegenden Anwendung erleichtert.

In den Figuren beziehen sich gleiche Ziffern auf die gleichen Elemente der Abbildung.
AUSFÜHRLICHE BESCHREIBUNG
Die folgende Beschreibung soll den Fachmann in die Lage versetzen, die Erfindung herzustellen und zu verwenden, und wird im Zusammenhang mit einer bestimmten Anwendung und deren Anforderungen gegeben. Verschiedene Modifikationen der offengelegten Ausführungsformen werden für den Fachmann leicht ersichtlich sein, und die hierin definierten allgemeinen Grundsätze können auf andere Ausführungsformen und - Anwendungen angewendet werden, ohne vom Geist und Umfang der vorliegenden Erfindung abzuweichen. Daher ist die vorliegende Erfindung nicht auf die gezeigten Ausführungsformen beschränkt, sondern hat den weitestgehenden Anwendungsbereich, der mit den Ansprüchen vereinbar ist.
Übersicht
Das Internet ist das Übertragungsmedium für eine Vielzahl von Anwendungen, die auf physischen und virtuellen Geräten laufen. Diese Anwendungen haben eine steigende Nachfrage nach Bandbreite mit sich gebracht. Infolgedessen bemühen sich die Gerätehersteller um die Entwicklung von Switches, die verschiedene Funktionen erfüllen können. Die daraus resultierende Komplexität der Switches kann jedoch die Erkennung eines Fehlers im Switch erschweren. Außerdem kann ein Netz eine Reihe solcher komplexer Switches umfassen. Darüber hinaus kann das Netz verschiedene Arten von Switches enthalten. Jeder Switch-Typ kann unterschiedliche Hardware, Fähigkeiten und Funktionalitäten haben. So kann der Switch beispielsweise eine Reihe von Komponenten wie Ports, Weiterleitungshardware und Speichergeräte zur Speicherung von Zuständen enthalten. Außerdem kann der Switch verschiedene Protokolle verwalten und entsprechende Operationen durchführen, z. B. Routing-Protokoll, Spanning-Tree-Protokoll und Netzwerkvirtualisierung.
Ein Administrator kann eine einzelne Komponente oder ein Protokoll konfigurieren. Mit den vorhandenen Technologien können Automatisierung und Computerintelligenz genutzt werden, um die Konfigurationsvorgänge in einem großen und verteilten Netzwerk zu unterstützen. Um die Automatisierung zu erleichtern, kann der Switch mit einem Monitoring Agent (MA) ausgestattet werden. Der MA kann es einem Administrator ermöglichen, die Switch-Ressourcen zu überwachen und einen Rahmen für die Alarmierung des Administrators auf der Grundlage verschiedener vordefinierter Regeln bereitzustellen. Es kann jedoch schwierig sein, die Ursache für ein netzwerkweites Problem auf der Grundlage einzelner Ereignisse zu ermitteln. Wenn ein Ereignis (z. B. eine Anomalie oder ein Fehler) auftritt, muss der Administrator unter Umständen jeden Switch im Netzwerk einzeln auf Fehler untersuchen.
Eine Ausführungsform der vorliegenden Erfindung sieht ein System zur Ereignisanalyse in einem Netzwerk vor. Während des Betriebs kann das System einen Satz von Überwachungselementen in dem Netzwerk bestimmen. Ein jeweiliges Überwachungselement kann die Überwachung von Ereignissen im Netzwerk erleichtern. Das System kann dann ein jeweiliges Überwachungselement als einen Knoten eines Graphen darstellen. Wenn die entsprechenden Überwachungselemente auf der Grundlage einer Beziehungsdefinition miteinander in Beziehung stehen, kann das System ein Knotenpaar des Graphen mit einer Kante verbinden. Das System kann Benachrichtigungen von Überwachungsagenten auf einem oder mehreren Switches im Netz empfangen, die auf ein Problem im Netz hinweisen. Ein entsprechender Überwachungsagent kann eine oder mehrere Switch-Komponenten auf der Grundlage einer oder mehrerer Überwachungsregeln überwachen. Das System kann dann einen Satz von Knoten des Graphen aktivieren, die dem Problem entsprechen. Anschließend kann das System eine Grundursache des Problems bestimmen, indem es die Menge der aktivierten Knoten des Graphen durchläuft, und eine Wiederherstellungsmaßnahme zur Abschwächung der Grundursache bestimmen.
In einer Variante dieser Ausführungsform kann der Satz von Überwachungselementen eine entsprechende Überwachungsregel in einem entsprechenden Switch im Netzwerk, eine oder mehrere Switch-Komponenten, die von der Überwachungsregel überwacht werden, und einen Überwachungsagenten, der den Überwachungsbetrieb auf der Grundlage der Überwachungsregel erleichtert, umfassen. Darüber hinaus kann eine jeweilige Überwachungsregel eine Bedingung zum Auslösen der Überwachungsregel enthalten.
In einer Variante dieser Ausführungsform entspricht die Menge der aktivierten Knoten den Überwachungselementen einer Vielzahl von Schaltern im Netz.
In einer Variante dieser Ausführungsform kann das System feststellen, ob das Problem ein kritisches Problem ist. Handelt es sich um ein nicht kritisches Problem, kann das System die Wiederherstellungsmaßnahme an einem Schalter im Netz ausführen. In diesem Fall kann der Switch eine oder mehrere Switch-Komponenten enthalten, die in der Menge der aktivierten Knoten des Graphen dargestellt sind.
In einer weiteren Variante kann das System, wenn es sich um ein kritisches Problem handelt, vor der Ausführung der Wiederherstellungsmaßnahme eine Bestätigung von einem Benutzer einholen.
In einer Variante dieser Ausführungsform gibt die Beziehungsdefinition an, ob ein Paar von Überwachungselementen miteinander in Beziehung steht. Das System kann dann die Beziehungsdefinition für ein entsprechendes Knotenpaar im Graphen auf der Grundlage von einem oder mehreren der folgenden Verfahren bestimmen: (i) einer maschinellen Lerntechnik und (ii) einem Benutzerfeedback.
In einer Variante dieser Ausführungsform kann das System die Menge der Knoten des Graphen aktivieren, indem es eine Menge von Überwachungsregeln bestimmt, die durch das Problem ausgelöst wurden, und die entsprechenden Knoten bestimmt. Diese korrespondierenden Knoten können einen entsprechenden Knoten umfassen, der dem Satz ausgelöster Überwachungsregeln entspricht, eine oder mehrere Schaltkomponenten, die mit den ausgelösten Überwachungsregeln verbunden sind, und einen oder mehrere Überwachungsagenten, die mit den Überwachungsregeln verbunden sind.
In einer Variante dieser Ausführungsform kann das System die Menge der aktivierten Knoten des Graphen durchlaufen, indem es einen Algorithmus für den kürzesten Weg auf einen entsprechenden Teilgraphen der Menge der aktivierten Knoten anwendet und eine Menge kritischer Knoten bestimmt, die durch den Algorithmus für den kürzesten Weg identifiziert werden. Ein jeweiliger kritischer Knoten kann einer von dem Problem betroffenen Schalterkomponente entsprechen.
In einer weiteren Variante kann das System in der Menge der kritischen Knoten eine Vielzahl von korrelierten Knoten bestimmen und die Vielzahl von korrelierten Knoten im Graphen überlagern
In einer weiteren Variante kann das System die Grundursache ermitteln, indem es eine Ursache identifiziert, die die überlagerten Knotenpunkte aktiviert.
Die hier beschriebenen Ausführungsformen lösen das Problem der effizienten Identifizierung der Grundursache eines Netzwerkproblems, indem sie (i) einen jeweiligen Überwachungsagenten, einen Satz entsprechender Überwachungsregeln und die überwachten Switch-Komponenten in einem Graphen darstellen und (ii) den Graphen durchlaufen, um die Switch-Komponenten zu ermitteln, die das Netzwerkproblem verursachen können. Eine Switch-Komponente kann eine beliebige Komponente eines Switches sein. Durch die Identifizierung der Switch-Komponenten, die mit einem Netzwerkproblem in Verbindung stehen, kann die Grundursache des Problems automatisch erkannt werden. Wenn es sich um ein unkritisches Ereignis handelt, kann ein Switch eine Wiederherstellungsaktion durchführen, die der Grundursache entspricht.
Mit den vorhandenen Technologien kann ein entsprechender Switch mit einem oder mehreren Überwachungsagenten ausgestattet werden. Jeder Überwachungsagent kann eine bestimmte Funktion des Switches überwachen. Beispielsweise kann ein Überwachungsagent den Portstatus eines entsprechenden Ports des Switches überwachen, und ein anderer Überwachungsagent kann die eingehende und ausgehende Paketübertragung überwachen. Ein entsprechender Überwachungsagent kann ein Ereignis identifizieren, das mit der entsprechenden Funktion des Switches verbunden ist. Da der Switch jedoch eine große Anzahl von Funktionen aufweisen und in einer Vielzahl von Szenarien eingesetzt werden kann, können die von den Überwachungsagenten des Switches gemeldeten Ereignisse vielfältig und zahlreich sein.
Die Behebung eines Netzwerkereignisses (z. B. eines Problems, das durch ein anormales Ereignis entstanden ist) kann die Identifizierung des Ereignisses und die schnelle Behebung des Problems, das das Ereignis verursacht hat, beinhalten, um die Auswirkungen zu verringern. Die manuelle Identifizierung der Ressourcen und Maßnahmen zur Behebung eines von den Überwachungsagenten gemeldeten Ereignisses durch einen Administrator kann fehleranfällig und zeitaufwändig sein. Darüber hinaus können mehrere Switches des Netzwerks unterschiedliche Switch-Typen haben. Daher kann es vorkommen, dass bei ein und demselben Netzwerkereignis die Warnmeldungen der Überwachungsagenten von verschiedenen Switches nicht miteinander korrelieren. Daher kann die manuelle Behebung eines Problems auf der Grundlage von Warnmeldungen verschiedener Überwachungsagenten (z. B. auf der Grundlage verschiedener Fehlerbehebungsanleitungen) zeitaufwändig und fehleranfällig sein.
Um dieses Problem zu lösen, kann ein Ereignisanalysesystem den Administrator bei der Identifizierung der Grundursache eines Ereignisses in einem Netzwerk (z. B. über eine Vielzahl von Switches) unterstützen. Durch die Bereitstellung der Ursachenanalyse der durch das Ereignis verursachten Probleme kann das System eine schnelle Wiederherstellung nach dem Ereignis erleichtern und so die Auswirkungen verringern. Während des Betriebs kann das System einen Root-Cause-Graphen (RC-Graphen) vorgenerieren. Jeder Knoten des Graphen kann ein Überwachungselement darstellen, bei dem es sich um einen Überwachungsagenten, eine Regel zur Überwachung einer Schaltkomponente und die Schaltkomponente handeln kann. Die Regel kann eine mit der Komponente verbundene Bedingung angeben, die die Regel auslöst. Eine Regel kann eine logische Regel sein, die ausgelöst werden kann, wenn ein mit der entsprechenden Schalterkomponente verbundener Schwellenwert überschritten wird. Bei einer Regel kann es sich auch um eine Übergangsregel handeln, die ausgelöst werden kann, wenn eine mit den entsprechenden Schaltkomponenten verbundene Änderung festgestellt wird. Handelt es sich bei der Komponente beispielsweise um einen Port, kann die Regel darin bestehen, dass die Datenübertragungsrate des Ports unter einen Schwellenwert fällt.
Im RC-Graph kann das System ein Knotenpaar über eine Kante verbinden, wenn eine Beziehung zwischen den Überwachungselementen besteht, die die Knoten darstellen. Eine Beziehung kann zwischen einem Überwachungsagenten und einer Regel bestehen, die die Regel zur Überwachung einer Schalterkomponente verwendet. Eine Beziehung kann auch zwischen einer Regel und der Schaltkomponente bestehen, die von der Regel überwacht wird. Das System kann eine Beziehungsdefinition pflegen, die eine entsprechende Beziehung enthält, die für einen entsprechenden Switch in einem Netzwerk definiert werden kann. Eine Beziehung kann auf der Grundlage eines automatischen Erkennungsprozesses oder auf Anweisung eines Benutzers bestimmt werden. Für den automatischen Erkennungsprozess kann das System mithilfe von maschinellem Lernen Netzwerkverhaltensmuster aus Ereignisclustern erkennen. Mit anderen Worten: Das System kann das maschinelle Lernverfahren anhand von Netzwerkverhaltensmustern trainieren. Das maschinelle Lernverfahren kann dann automatisch oder halbautomatisch (z. B. auf der Grundlage von Benutzerfeedback) die Verbindungen im Graphen erzeugen. Das System kann die Grapheninformationen, die den Graphen repräsentieren (z. B. eine Graphenmatrix, die die Knoten und Kanten des Graphen darstellt), in einer Graphendatenbank speichern, bei der es sich um eine relationale Datenbank handeln kann, die für die Speicherung von Informationen in einem Schalter ausgelegt ist.
Ein Überwachungsagent kann ein Problem in einem Switch erkennen, wenn eine Überwachungsregel ausgelöst wird. Der Switch kann eine Ereignisdatenbank unterhalten, in der die Regeln gespeichert werden können. Bei der Ereignisdatenbank kann es sich auch um eine relationale Datenbank handeln. Wenn ein Problem auf der Grundlage der ausgelösten Regel(n) erkannt wird, kann das System die entsprechenden Knoten im Graphen aktivieren oder freischalten. So kann beispielsweise ein Überwachungsagent, der die Paketübertragung oder den Portstatus überwacht, eine Regel enthalten, die durch den Paketverlust an einem Port ausgelöst werden kann. Das System kann die Knoten aktivieren, die dem Monitor, der Regel und den Ports entsprechen, die auf der Grundlage der Regel überwacht werden.
Das System kann einen entsprechenden aktivierten Teilgraphen, der Knoten enthalten kann, die zusammenhängende Überwachungselemente darstellen, mit einem Graphentraversalalgorithmus (z. B. mit einem Shortest-Path-Algorithmus) durchlaufen. Auf der Grundlage der Durchquerung kann das System Knoten ermitteln, die den Schaltkomponenten entsprechen, die das Problem verursachen. Handelt es sich bei einem Graphen beispielsweise um einen Baum, kann die Durchquerung einen oder mehrere Blattknoten identifizieren, die mit dem Problem in Verbindung stehen. Wenn mehrere solcher Teilgraphen auf eine mögliche Ursache hindeuten, kann das System die Teilgraphen mit der kleinsten Ordnung überlagern, um einen überlagerten Graphen zu erzeugen. Das System kann dann die überlagerten Knoten bestimmen, die dem Problem entsprechen. In einigen Ausführungsformen kann das System einen Satz von Wiederherstellungsaktionen in einer Aktionsdatenstruktur (z. B. in einer Aktionsdatenbank) vorladen, von denen jede ein nicht kritisches Problem eines Schalters lösen kann. Eine entsprechende Wiederherstellungsaktion kann als eine Reihe von Schritten oder Operationen dargestellt werden, die auf dem Schalter ausgeführt werden können. Nach der Erkennung der Grundursache kann das System eine Wiederherstellungsmaßnahme bestimmen, die mit der erkannten Grundursache verbunden ist, und die Wiederherstellungsmaßnahme ausführen, um ein nicht kritisches Problem zu lösen, das durch die Grundursache dargestellt wird.
In dieser Offenlegung wird der Begriff „Switch“ in einem allgemeinen Sinne verwendet und kann sich auf jeden eigenständigen oder Fabric-Switch beziehen, der in einer beliebigen Netzwerkschicht arbeitet. Der Begriff „Switch“ ist nicht so zu verstehen, dass die Ausführungsformen der vorliegenden Erfindung auf Netze der Schicht 2 beschränkt sind. Jedes Gerät, das Datenverkehr an ein externes Gerät oder einen anderen Switch weiterleiten kann, kann als „Switch“ bezeichnet werden. Jedes physische oder virtuelle Gerät (z. B. eine virtuelle Maschine/Switch, die auf einem Computer arbeitet), das Datenverkehr an ein Endgerät weiterleiten kann, kann als „Switch“ bezeichnet werden. Beispiele für einen „Switch“ sind u. a. ein Layer-2-Switch, ein Layer-3-Router, ein Routing-Switch, eine Komponente eines Gen-Z-Netzes oder ein Fabric-Switch, der eine Vielzahl ähnlicher oder heterogener kleinerer physischer und/oder virtueller Switches umfasst.
Der Begriff „Paket“ bezieht sich auf eine Gruppe von Bits, die zusammen über ein Netz transportiert werden können. Der Begriff „Paket“ ist nicht so zu verstehen, dass Ausführungsformen der vorliegenden Erfindung auf Schicht-3-Netze beschränkt sind. Der Begriff „Paket“ kann durch andere Begriffe ersetzt werden, die sich auf eine Gruppe von Bits beziehen, wie z. B. „Nachricht“, „Rahmen“, „Zelle“, „Datagramm“ oder „Transaktion“. “
Netzarchitektur
1 zeigt ein beispielhaftes Ereignisanalysesystem, das die Ursachenanalyse in einem Netzwerk gemäß einer Ausführungsform der vorliegenden Anwendung erleichtert. Wie in 1 dargestellt, umfasst ein Netzwerk 100 die Switches 101, 102, 103, 104 und 105. In einigen Ausführungsformen ist das Netzwerk 100 ein Gen-Z-Netzwerk, und ein entsprechender Switch des Netzwerks 100, z. B. Switch 102, ist eine Gen-Z-Komponente. Ein Gen-Z-Netzwerk kann eine speicher-semantische Struktur sein, die zur Kommunikation mit den Geräten in einer Computerumgebung verwendet werden kann. Durch die Vereinheitlichung der Kommunikationswege und die Vereinfachung der Software durch eine einfache Speichersemantik können Gen-Z-Komponenten Hochleistungslösungen für komplexe Systeme ermöglichen. In einem solchen Szenario basiert die Kommunikation zwischen den Switches im Netzwerk 100 auf einer speichersemantischen Struktur. In einigen weiteren Ausführungsformen ist das Netz 100 ein Ethernet- und/oder IP-Netz, und ein entsprechender Switch des Netzes 100, z. B. Switch 102, ist ein Ethernet-Switch und/oder IP-Router. In einem solchen Szenario erfolgt die Kommunikation zwischen den Switches im Netz 100 auf der Grundlage von Ethernet und/oder IP.
Bei bestehenden Technologien kann ein entsprechender Switch mit einem oder mehreren Überwachungsagenten ausgestattet sein, von denen jeder eine einzelne Funktion des Switches überwachen kann. Im Netz 100 kann der Überwachungsagent 140 eine Funktion des Switches 101 überwachen. In ähnlicher Weise können die Überwachungsagenten 150 und 160 entsprechende Funktionen des Switches 102 überwachen. Beispielsweise können die Überwachungsagenten 150 und 160 den Portstatus und die Paketübertragung der Ports 172 und 174 von Switch 102 überwachen. In ähnlicher Weise kann der Überwachungsagent 140 den Portstatus der Ports von Switch 101 überwachen. Der Überwachungsagent 150 kann ein Netzwerkereignis 130 identifizieren, das mit dem Portstatus von Switch 102 verbunden ist (z. B. ein Port ist nicht mehr verfügbar). Da der Switch 102 jedoch eine große Anzahl von Merkmalen aufweisen und in einer Vielzahl von Szenarien im Netzwerk 100 eingesetzt werden kann (z. B. als Aggregat-, Edge- oder Core-Switch), können die von den Überwachungsagenten des Switches 102 gemeldeten Ereignisse vielfältig und zahlreich sein.
Die Behebung des Netzwerkereignisses 130 (z. B. ein Problem, das durch ein anormales Ereignis im Netzwerk 100 entsteht) kann die Identifizierung des Ereignisses 130 und die schnelle Behebung des Problems, das das Ereignis 130 verursacht hat, beinhalten, um die Auswirkungen auf das Netzwerk 100 zu reduzieren. Die manuelle Identifizierung der Ressourcen und Maßnahmen zur Behebung des Ereignisses 130 durch einen Administrator auf der Grundlage der Benachrichtigungen von den Überwachungsagenten 140, 150 und 160 kann fehleranfällig und zeitaufwändig sein. Darüber hinaus können mehrere Switches des Netzwerks 100 unterschiedliche Switch-Typen haben. Daher kann es vorkommen, dass bei ein und demselben Ereignis 130 die Meldungen der Überwachungsagenten verschiedener Switches nicht miteinander korrelieren. Daher kann die manuelle Lösung des Ereignisses 130 auf der Grundlage von Warnungen von verschiedenen Überwachungsagenten zeitaufwändig und fehleranfällig sein.
Um dieses Problem zu lösen, kann ein Ereignisanalysesystem 110 den Administrator bei der Ermittlung der Grundursache des Ereignisses 130 unterstützen. In einigen Ausführungsformen kann das System 110 auf einem Netzwerkmanager 170 laufen. Der Netzwerkmanager 170 kann sich im Netzwerk 100 befinden oder in der Cloud bereitgestellt werden (z. B. über das Internet zugänglich sein) und Netzwerkkonfigurationen und -verwaltung für einen entsprechenden Switch im Netzwerk 100 erleichtern. Durch die Bereitstellung der Ursachenanalyse der mit dem Ereignis 130 verbundenen Probleme kann das System 110 eine schnelle Wiederherstellung nach dem Ereignis 130 erleichtern. Während des Betriebs kann das System 110 eine Graphen-Engine 114 enthalten, die einen RC-Graphen 180 vorgenerieren kann. Der RC-Graph 180 kann ein entsprechendes Überwachungselement des Netzwerks 100 enthalten. Die Graph-Engine 114 kann den Graphen 180 verwenden, um die Grundursache des Ereignisses 130 zu bestimmen. Die Graph-Engine 114 kann den Graphen 180 auf einer Benutzeroberfläche 120 des Systems 110 darstellen.
Jeder Knoten des Diagramms 180 kann ein Überwachungselement, z. B. einen Überwachungsagenten, eine Regel zur Überwachung einer Schalterkomponente und die Schalterkomponente darstellen. Bei einer Regel kann es sich um eine logische Regel handeln, die ausgelöst werden kann, wenn ein mit den entsprechenden Schalterkomponenten verbundener Schwellenwert überschritten wird. Bei einer Regel kann es sich auch um eine Übergangsregel handeln, die ausgelöst werden kann, wenn bei den entsprechenden Schaltkomponenten eine Änderung festgestellt wird. Beispielsweise können die Überwachungsagenten 140 und 150 mit den Überwachungsregeln 142 bzw. 152 konfiguriert werden, um den Anschlussstatus der Schalter 101 bzw. 102 zu überwachen. Hier kann die Regel 152 angeben, dass der Überwachungsagent 150 überwachen soll, ob sich die jeweiligen Zustände der Anschlüsse 172 und 174 geändert haben. Regel 152 kann eine Bedingung enthalten, die angibt, dass Regel 152 ausgelöst werden soll, wenn sich der Status von Anschluss 172 oder 174 ändert. Auf der Grundlage von Regel 152 kann der Überwachungsagent 150 dann den jeweiligen Status der Ports 172 und 174 überwachen. In ähnlicher Weise kann der Überwachungsagent 160 mit der Überwachungsregel 162 konfiguriert werden, um die Datenübertragung des Schalters 102 zu überwachen. Hier kann die Regel 162 angeben, dass der Überwachungsagent 160 das Volumen oder die Rate der Datenübertragungen über die Anschlüsse 172 und 174 überwachen soll. Regel 162 kann eine Bedingung enthalten, die angibt, dass Regel 162 ausgelöst werden soll, wenn die Rate oder das Volumen der Datenübertragungen über Port 172 oder 174 unter einen Schwellenwert fällt. Auf der Grundlage von Regel 152 kann der Überwachungsagent 150 dann den jeweiligen Status der Ports 172 und 174 überwachen.
Im RC-Graph 180 kann die Graph-Engine 114 ein Knotenpaar mit einer Kante verbinden, wenn zwischen den Überwachungselementen, die die Knoten darstellen, eine Beziehung besteht. Eine Beziehung kann auf der Grundlage eines automatischen Erkennungsprozesses oder auf Anweisung eines Benutzers bestimmt werden. Das System 110 kann die Graphinformationen, die den Graphen 180 darstellen, in einer Graphdatenbank 124 speichern. Die Graphdatenbank 124 kann die Topologieinformationen bezüglich des Graphen speichern. Außerdem kann die Graphdatenbank 124 einen Satz von Metadaten für einen jeweiligen Knoten des Graphen 180 speichern. Wenn ein Knoten beispielsweise einen Überwachungsagenten repräsentiert, können die Metadaten Informationen zur Identifizierung dieses Überwachungsagenten enthalten. Stellt ein Knoten hingegen einen Anschluss dar, können die Metadaten die entsprechende Anschlussnummer enthalten.
Graph 180 kann einen Untergraphen enthalten, der mit einem entsprechenden Überwachungsagenten eines entsprechenden Schalters im Netz 100 verbunden ist. Jeder der Teilgraphen kann die Knoten, die die für den Überwachungsagenten definierten Überwachungsregeln darstellen, und die Knoten, die die überwachten Schaltkomponenten darstellen, enthalten. Folglich können Knoten, die die Ports 172 und 174 darstellen, in den Teilgraphen erscheinen, die den Überwachungsagenten 150 und 160 zugeordnet sind. In ähnlicher Weise können Überwachungsagenten, die auf der Grundlage derselben Regeln verschiedene Switches überwachen, unterschiedliche Teilgraphen aufweisen. Obwohl beide Überwachungsagenten 140 und 150 den Portstatus überwachen können, kann daher jeder der Überwachungsagenten 140 und 150 einen Teilgraphen im Diagramm 180 haben.
Der Überwachungsagent 150 kann ein Problem im Schalter 102 erkennen, wenn die Überwachungsregel 152 ausgelöst wird. Das System 110 kann eine Ereignisdatenbank 122 unterhalten, die die Regel 152 (und die Regeln 142 und 162) speichern kann. Wenn ein Problem auf der Grundlage der ausgelösten Regel 152 erkannt wird, kann eine Event-Engine 112 des Systems 110 eine Auslösemeldung 132 (z. B. eine Netzwerknachricht) vom Schalter 102 empfangen. Die Graphen-Engine 114 kann dann die entsprechenden Knoten im Graphen 180 aktivieren oder aktivieren. Wenn beispielsweise der Überwachungsagent 150 den Portstatus der Ports 172 und 174 überwacht, kann die Regel 152 durch den Paketverlust an Port 172 oder 174 ausgelöst werden. Graph Engine 114 kann die Knoten aktivieren, die der Überwachung 150, der Regel 152 und den Ports 172 und 174 entsprechen.
Die Graphen-Engine 114 kann einen entsprechenden aktivierten Teilgraphen im Graphen 180 mit einem Graphentraversal-Algorithmus durchlaufen und Knoten bestimmen, die den Schaltkomponenten entsprechen, die das Ereignis 130 verursachen. Handelt es sich bei einem Graphen beispielsweise um einen Baum, kann die Durchquerung einen oder mehrere Blattknoten identifizieren, die dem Ereignis 130 zugeordnet sind. Wenn mehrere solcher Teilgraphen auf eine mögliche Ursache hindeuten, kann die Graph-Engine 114 jeden der Teilgraphen auswerten, um die Grundursache zu ermitteln. Um den Prozess der Ursachenbewertung weiter zu beschleunigen, kann die Graphenmaschine 114 die Teilgraphen mit der kleinsten Ordnung überlagern, um einen überlagerten Graphen 182 zu erzeugen. Die Graph-Engine 114 kann dann die Knoten im überlagerten Graphen 182 bestimmen, die dem Ereignis 130 entsprechen. Die Graph-Engine 114 kann dann die Grundursache auf der Grundlage der ermittelten Knoten bestimmen. In einigen Ausführungsformen kann das System 110 einen Satz von Wiederherstellungsaktionen (z. B. in einer Aktionsdatenbank) vorladen, von denen jede ein nicht kritisches Problem lösen kann.
Ein Aktionsmodul 116 des Systems 110 kann dann eine Wiederherstellungsaktion 134 abrufen, die der Grundursache entspricht. Das Aktionsmodul 116 kann eine Reihe von Schritten oder Vorgängen bestimmen, die durch die Wiederherstellungsaktion 134 spezifiziert und auf dem Schalter 102 ausgeführt werden können. Die Ereignisdatenbank 122 kann eine Liste von kritischen und nicht-kritischen Ereignissen führen. Ein Wiederherstellungsmodul 118 kann das Ereignis 130 in der Ereignisdatenbank 122 nachschlagen und feststellen, ob das Ereignis 130 ein kritisches Ereignis ist. Wenn das Ereignis 130 ein kritisches Ereignis ist, kann das Wiederherstellungsmodul 118 die Vorgänge der Wiederherstellungsaktion 134 am Schalter 102 ausführen, um das Ereignis 130 zu lösen. Wenn das Ereignis 130 jedoch ein kritisches Ereignis ist, kann das Wiederherstellungsmodul 118 das Ereignis 130 und die Wiederherstellungsmaßnahme 134 auf der Benutzeroberfläche 120 anzeigen. Ein Administrator kann überprüfen, ob die Wiederherstellungsmaßnahme 134 eine geeignete Wiederherstellungsmaßnahme ist. Nach Erhalt einer Validierung oder Genehmigung kann die Wiederherstellungsmaßnahme 134 die Vorgänge der Wiederherstellungsmaßnahme 134 am Schalter 102 ausführen.
2A zeigt ein beispielhaftes RC-Diagramm gemäß einer Ausführungsform der vorliegenden Anwendung. Der Graph 180 kann Knoten enthalten, die dem Überwachungsagenten 150, der Regel 152 und den Ports 172 und 174 entsprechen. In diesem Beispiel kann die Regel 152 den Portstatus der Ports des Schalters 102 überwachen. Diagramm 180 kann auch einen Knoten für einen anderen Anschluss 202 des Schalters 102 enthalten. Der Anschluss 202 kann jedoch inaktiv sein (z. B. durch ein Spanning-Tree-Protokoll deaktiviert). Der Überwachungsagent 150 kann mit einer weiteren Regel 204 konfiguriert werden, die die Überwachung der Portanzahl der Ports des Switches 102 erleichtern kann. Die Graphen-Engine 114 kann ein Knotenpaar über eine Kante verbinden, wenn zwischen den Überwachungselementen, die die Knoten darstellen, eine Beziehung besteht. Da der Überwachungsagent 150 mit den Regeln 152 und 204 konfiguriert ist, kann der Knoten, der den Überwachungsagenten 150 darstellt, mit den Knoten, die die Regeln 152 und 204 darstellen, über entsprechende Kanten verbunden werden. Da die Regel 152 den Anschlussstatus der Anschlüsse des Schalters 102 überwacht, kann der Knoten, der die Regel 152 darstellt, über entsprechende Kanten mit den Knoten verbunden werden, die die Anschlüsse 172, 174 und 202 darstellen.
Das System 110 kann eine Beziehungsdefinition verwalten, die eine entsprechende Beziehung enthält, die für den Schalter 102 definiert werden kann. Eine Beziehung kann auf der Grundlage eines automatischen Erkennungsprozesses oder auf Anweisung eines Benutzers bestimmt werden. Für den automatisierten Erkennungsprozess kann die Graph-Engine 114 mithilfe von maschinellem Lernen Netzwerkverhaltensmuster aus Ereignisclustern erkennen, wodurch die Verbindungen in Graph 180 automatisch oder halbautomatisch generiert werden können. Wenn die Regel 152 durch den Überwachungsagenten 150 aufgrund einer Änderung des Portstatus ausgelöst wird, kann die Graph-Engine 114 die Knoten, die dem Überwachungsagenten 150, der Regel 152 und den Ports 172 und 174 (mit dicken Linien gekennzeichnet) entsprechen, sowie die Kanten, die die Knoten verbinden, aktivieren. Da jedoch der Anschluss 202 inaktiv sein kann, wird der Knoten, der den Anschluss 202 darstellt, möglicherweise nicht aktiviert. Da sich andererseits die Anzahl der Anschlüsse des Schalters 102 nicht geändert hat, kann die Regel 204 nicht ausgelöst werden. Daher kann der Teilgraph, der aus dem Knoten, der die Regel 204 darstellt, abgeleitet wird, nicht aktiviert werden, obwohl der Knoten, der den Überwachungsagenten 150 darstellt, aktiviert ist.
Die Graph-Engine 114 kann dann den aktivierten Teilgraphen, der von dem Knoten, der den Überwachungsagenten 150 repräsentiert, abgeleitet wurde, mit einem Graph-Traversal-Algorithmus durchlaufen. Beispiele für einen Algorithmus zur Durchquerung eines Graphen können u. a. ein Algorithmus für den kürzesten Weg und ein Algorithmus für die tiefste Suche sein, der einen kürzesten Weg in einem Baum ermitteln kann. Handelt es sich bei Graph 180 um einen Baum, kann der Durchlaufalgorithmus einen Blattknoten bestimmen, der eine Schaltkomponente, z. B. einen Anschluss, darstellt (gestrichelt dargestellt). Auf diese Weise kann die Graphen-Engine 114 den Graphen durchlaufen, um einen oder mehrere kritische Knoten zu bestimmen, die den Schaltkomponenten entsprechen, die von einem Ereignis betroffen sind. Wenn sich ein Ereignis auf einen Portstatus auswirkt, kann die Graphen-Engine 114 durch Durchlaufen des aktivierten Teilgraphen feststellen, dass die Ports 172 und 174 auf der Grundlage der in Graph 180 identifizierten kritischen Knoten von dem Ereignis betroffen sein könnten.
Die Graphen-Engine 114 kann den Prozess der Graphenerzeugung, der in Verbindung mit 2A beschrieben ist, wiederholen, um Teilgraphen zu erzeugen, die von einem Knoten ausgehen, der einen entsprechenden Überwachungsagenten eines entsprechenden Schalters des Netzes 100 darstellt. 2B zeigt beispielhafte netzweite RC-Graphen gemäß einer Ausführungsform der vorliegenden Anwendung. Zusätzlich zu den Knoten von Teilgraphen, die von Knoten induziert werden, die Überwachungsagenten des Schalters 102 darstellen, kann der Graph 180 auch Teilgraphen enthalten, die von Knoten induziert werden, die Überwachungsagenten anderer Schalter des Netzes 100 darstellen, wie z. B. Schalter 101.
Graph 180 kann Knoten enthalten, die dem Überwachungsagenten 140 des Schalters 101, der Regel 142 und den Ports 212 und 214 entsprechen. In diesem Beispiel kann Regel 142 den Portstatus der Ports von Switch 101 überwachen. Der Überwachungsagent 140 kann mit einer weiteren Regel 208 konfiguriert werden, die die Überwachung der Portanzahl der Ports des Switches 101 erleichtern kann. Die Graphen-Engine 114 kann ein Knotenpaar über eine Kante verbinden, wenn zwischen den Überwachungselementen, die die Knoten darstellen, eine Beziehung besteht. Da der Überwachungsagent 140 mit den Regeln 142 und 208 konfiguriert ist, kann der Knoten, der den Überwachungsagenten 140 darstellt, mit den Knoten, die die Regeln 142 und 208 darstellen, über entsprechende Kanten verbunden werden. Da die Regel 142 den Anschlussstatus der Anschlüsse des Schalters 101 überwacht, kann der Knoten, der die Regel 142 repräsentiert, mit den Knoten, die die Anschlüsse 212 und 214 repräsentieren, über entsprechende Kanten verbunden werden.
Angenommen, der Anschluss 214 des Schalters 101 ist mit einem Anschluss des Schalters 102 gekoppelt. Folglich kann die Änderung des Anschlussstatus eines Anschlusses von Schalter 102 auch eine Änderung des Anschlussstatus in Schalter 101 verursachen. Daher kann die Regel 142 auch durch den Überwachungsagenten 140 aufgrund einer Änderung des Portstatus ausgelöst werden. Folglich kann die Graphen-Engine 114 die Knoten, die dem Überwachungsagenten 140, der Regel 142 und dem Anschluss 214 (mit dicken Linien gekennzeichnet) entsprechen, und die Kanten, die die Knoten verbinden, aktivieren. Da die Regel 204 nicht ausgelöst wird, wird der Teilgraph, der aus dem Knoten, der die Regel 204 darstellt, abgeleitet wird, möglicherweise nicht aktiviert, obwohl der Knoten, der den Überwachungsagenten 150 darstellt, aktiviert ist. Da die Überwachungsagenten 140 und 150 möglicherweise nicht miteinander verbunden sind, kann die Graph-Engine 114 die entsprechenden Knoten in Graph 180 nicht verbinden. Infolgedessen kann der Graph 180 ein unzusammenhängender Graph sein. In einigen Ausführungsformen kann die Graphen-Engine 114 die Knoten, die den Überwachungsagenten 140 und 150 entsprechen, mit einer virtuellen Kante verbinden, um anzuzeigen, dass sich diese Überwachungsagenten im selben Netzwerk 100 befinden.
Die Graphen-Engine 114 kann auch den Prozess der Graphenerzeugung, wie in Verbindung mit 2A beschrieben, wiederholen, um einen Teilgraphen zu erzeugen, der von einem Knoten abgeleitet wird, der einen entsprechenden Überwachungsagenten eines Schalters darstellt. Da mehrere Überwachungsagenten dieselben Schalterkomponenten überwachen können, können Knoten, die solche Schalterkomponenten darstellen, in mehreren Teilgraphen erscheinen. Um die Grundursache für solche Schalterkomponenten zu ermitteln, kann die Graph-Engine 114 die entsprechenden Knoten überlappen. veranschaulicht einen beispielhaften Überlagerungsprozess von RC-Graphen, die verschiedene Überwachungsagenten eines Schalters darstellen, gemäß einer Ausführungsform der vorliegenden Anwendung.
Der Graph 180 kann auch Knoten enthalten, die dem Überwachungsagenten 160 des Schalters 102, der Regel 162 und den Ports 172 und 174 entsprechen. In diesem Beispiel kann Regel 142 die Portanzahl der Ports von Schalter 102 überwachen. Der Schalter 102 kann auch einen weiteren Überwachungsagenten 312 enthalten, der mit einer Regel 314 konfiguriert werden kann. In diesem Beispiel kann die Regel 314 die Überwachung der Konfiguration des Schalters 102 erleichtern. Eine Konfigurationsänderung aufgrund der Nichtverfügbarkeit eines Ports ist jedoch möglicherweise kein kritisches Ereignis. Daher kann die Graphen-Engine 114 den Teilgraphen, der durch den Knoten, der den Überwachungsagenten 312 darstellt, induziert wird, als „unkritischen“ Teilgraphen darstellen (mit gestrichelten Linien gekennzeichnet). Angenommen, ein Ereignis wirkt sich auf einen Anschluss des Schalters 102 aus, z. B. auf den Anschluss 172. Infolgedessen kann Regel 152 vom Überwachungsagenten 150 aufgrund einer Änderung des Portstatus ausgelöst werden, Regel 162 kann vom Überwachungsagenten 160 aufgrund einer Änderung der Übertragungsrate ausgelöst werden und Regel 314 kann vom Überwachungsagenten 312 aufgrund einer Konfigurationsänderung ausgelöst werden.
Da jeder der von den Überwachungsagenten 150, 160 und 312 induzierten Teilgraphen einen Knoten enthalten kann, der den Anschluss 172 darstellt, kann jeder der Knoten von der Graph-Engine 114 aktiviert werden (mit dicken Linien gekennzeichnet). Darüber hinaus kann die Graph-Engine 114 auch einen Knoten aktivieren, der den Anschluss 174 in dem durch den Überwachungsagenten 150 induzierten Teilgraphen darstellt, da die Regel 152 die Überwachung des Anschlussstatus eines entsprechenden Anschlusses des Schalters 102 erleichtern kann. Die Graph-Engine 114 kann dann die aktivierten Teilgraphen des Graphen 180 durchlaufen. Basierend auf der Durchquerung des Graphen kann die Graph-Engine 114 einen Satz von Knoten in den Untergraphen (z. B. die Blattknoten, die den Ports des Schalters 102 entsprechen) als kritische Knoten identifizieren.
Da mehrere Knoten in verschiedenen Teilgraphen als kritische Knoten identifiziert werden können, kann die Graph-Engine 114 feststellen, ob die kritischen Knoten korrelieren (z. B. derselben Schalterkomponente entsprechen). Beispielsweise kann die Graph-Engine 114 feststellen, dass ein Satz korrelierter kritischer Knoten denselben Anschluss 172 des Schalters 102 darstellt. Die Graph-Engine 114 kann dann die Knoten überlagern, um einen überlagerten Graphen 182 zu erzeugen. Da die von der Graph-Engine 114 identifizierten kritischen Knoten Knoten enthalten können, die den Anschlüssen 172 und 174 entsprechen, kann der überlagerte Graph 182 auch Knoten enthalten, die den Anschlüssen 172 und 174 entsprechen. Der Knoten, der den Anschluss 172 darstellt, kann durch Überlagerung aller aktivierten Knoten, die den Anschluss 172 darstellen können, erzeugt werden. Es sollte beachtet werden, dass der überlagerte Graph 182 ein disjunkter Graph sein kann, da die Knoten, die den Anschlüssen 172 und 174 entsprechen, keine Kante zwischen ihnen haben können. In einigen Ausführungsformen kann die Graph-Engine 114 einen virtuellen Knoten in den überlagerten Graphen 182 einfügen, um die Knoten zu verbinden und einen kontinuierlichen Graphen zu erzeugen. Durch Analyse des überlagerten Graphen 182 kann die Graph-Engine 114 feststellen, dass die Hauptursache eines Ereignisses mit dem Anschluss 172 des Schalters 102 zusammenhängt.
Betrieb
4A zeigt ein Flussdiagramm, das den Prozess eines Ereignisanalysesystems veranschaulicht, das einen RC-Graphen gemäß einer Ausführungsform der vorliegenden Anwendung erzeugt. Während des Betriebs kann das System einen Überwachungsagenten in einem Schalter auswählen und einen entsprechenden Knoten im RC-Graphen erzeugen (Vorgang 402). Das System kann dann Knoten für Regeln erzeugen, die für den Überwachungsagenten definiert sind (Vorgang 404), und Knoten für Schaltkomponenten, die durch die Regeln des Überwachungsagenten im RC-Graphen überwacht werden (Vorgang 406). Das System kann die Knoten mit Hilfe von Kanten auf der Grundlage der mit den Knoten verbundenen Beziehungsinformationen verbinden (Vorgang 408). Auf diese Weise wird im RC-Graphen ein vom Überwachungsagenten induzierter Teilgraph erzeugt.
Anschließend speichert das System die Grapheninformationen, die auch Informationen über die Knoten und Kanten des Teilgraphen enthalten, in einer Graphendatenbank (Vorgang 410). Das System kann dann prüfen, ob jeder Überwachungsagent im RC-Graphen dargestellt wurde (Vorgang 412). Wenn jeder Überwachungsagent vertreten ist, kann das System prüfen, ob alle Schalter durchlaufen wurden (Vorgang 414). Wurden nicht alle Schalter durchlaufen, kann das System den nächsten Schalter auswählen (Vorgang 414). Wurde nicht jeder Überwachungsagent repräsentiert (Vorgang 414) oder wurde der nächste Schalter ausgewählt (Vorgang 416), kann das System den nächsten Überwachungsagenten auswählen und damit fortfahren, einen entsprechenden Knoten im RC-Graphen zu erzeugen (Vorgang 402).
4B zeigt ein Flussdiagramm, das den Überlagerungsprozess von RC-Graphen veranschaulicht, die verschiedene Überwachungsagenten eines Schalters darstellen, in Übereinstimmung mit einer Ausführungsform der vorliegenden Anwendung. Während des Betriebs kann das System feststellen, dass eine Überwachungsregel ausgelöst wurde (Vorgang 452). Das System kann dann eine oder mehrere Bedingungen identifizieren, die ausgelöst wurden (Vorgang 454), und die Schalterkomponente(n) identifizieren, die die Bedingungen ausgelöst haben (Vorgang 456). Das System kann dann die entsprechenden Knoten aktivieren (Vorgang 458). Die entsprechenden Knoten können Knoten umfassen, die einen Überwachungsagenten darstellen, der mit der Überwachungsregel, der Überwachungsregel und der/den Schaltkomponente(n) konfiguriert ist.
Das System kann dann prüfen, ob alle mit dem Überwachungsagenten verbundenen Überwachungsregeln überprüft wurden (Vorgang 460). Wurden nicht alle Überwachungsregeln überprüft, kann das System fortfahren, die nächste ausgelöste Überwachungsregel zu ermitteln (Vorgang 452). Wurden hingegen alle Überwachungsregeln überprüft, kann das System den aktivierten Teilgraphen durchlaufen (Vorgang 462). Das System kann dann die kritischen Knoten auswählen, die für das Problem relevant sind, basierend auf der Durchquerung (Operation 464). Im Beispiel in können die kritischen Knoten die Knoten sein, die die Ports 172 und 174 darstellen.
5A zeigt ein Flussdiagramm, das den Prozess eines Ereignisanalysesystems veranschaulicht, das eine Ursachenanalyse unter Verwendung eines RC-Graphen gemäß einer Ausführungsform der vorliegenden Anwendung durchführt. Das System kann aktivierte Knotenpaare im RC-Graphen bestimmen (Vorgang 502) und feststellen, ob die aktivierten Knoten miteinander korrelieren (Vorgang 504). Das System kann dann feststellen, ob eine Korrelation festgestellt wurde (Vorgang 506). Nach Feststellung der Korrelation kann das System die Knoten im Knotenpaar überlagern (Vorgang 508) und feststellen, ob alle Knoten durchlaufen wurden (Vorgang 512).
Wenn keine Korrelation festgestellt wird (Vorgang 506) oder nicht alle Knoten durchlaufen wurden (Vorgang 512), kann das System damit fortfahren, aktivierte Knotenpaare im RC-Graphen zu bestimmen (Vorgang 502). Wurden hingegen alle Knoten durchlaufen, kann das System einen überlagerten Graphen erzeugen, der die überlagerten Knoten enthält (Vorgang 514). Das System kann dann Probleme identifizieren, die die mit den Knoten im überlagerten Graphen verbundenen Bedingungen auslösen können (Vorgang 516). Anschließend kann das System die identifizierten Probleme als Grundursache bestimmen (Vorgang 518).
5B zeigt ein Flussdiagramm, das den Prozess eines Ereignisanalysesystems veranschaulicht, das eine Wiederherstellungsmaßnahme auf der Grundlage einer Ursachenanalyse gemäß einer Ausführungsform der vorliegenden Anwendung durchführt. Während des Betriebs kann das System die Grundursache in einer Aktionsdatenstruktur nachschlagen (Vorgang 552) und eine Wiederherstellungsaktion bestimmen, die der Grundursache zugeordnet ist (Vorgang 554). Das System kann feststellen, ob das Problem ein kritisches Problem ist (Vorgang 556). Wenn das Problem ein kritisches Problem ist, kann das System die Grundursache und die Wiederherstellungsmaßnahme in einer Benutzeroberfläche des Systems darstellen (Vorgang 558). Handelt es sich hingegen um ein nicht kritisches Problem, kann das System die Wiederherstellungsmaßnahme auf den Schalter anwenden (Vorgang 560).
Exemplarisches Computersystem
6 zeigt ein beispielhaftes Computersystem, das ein Ereignisanalysesystem gemäß einer Ausführungsform der vorliegenden Anwendung ermöglicht. Das Computer- und Kommunikationssystem 600 umfasst einen Prozessor 602, eine Speichervorrichtung 604 und eine Speichervorrichtung 608. Die Speichervorrichtung 604 kann eine flüchtige Speichervorrichtung (z. B. ein Dual-In-Line-Speicher-Modul (DIMM)) umfassen. Darüber hinaus kann das Computer- und Kommunikationssystem 600 mit einer Anzeigevorrichtung 610, einer Tastatur 612 und einem Zeigegerät 614 verbunden sein. Das Speichergerät 608 kann ein Betriebssystem 616, ein Ereignisanalysesystem 618 und Daten 636 speichern. Das Ereignisanalysesystem 618 kann den Betrieb des Systems 110 erleichtern.
Das Ereignisanalysesystem 618 kann Anweisungen enthalten, die, wenn sie vom Computer- und Kommunikationssystem 600 ausgeführt werden, das Computer- und Kommunikationssystem 600 veranlassen können, die in dieser Offenbarung beschriebenen Verfahren und/oder Prozesse durchzuführen. Insbesondere kann das Ereignisanalysesystem 618 Anweisungen enthalten, um für einen jeweiligen Schalter in einem Netzwerk einen jeweiligen Überwachungsagenten, eine jeweilige Überwachungsregel, die für den Überwachungsagenten konfiguriert ist, und eine jeweilige Schalterkomponente, die auf der Grundlage der Überwachungsregel überwacht wird, als einen Knoten in einem RC-Graphen darzustellen (Graphenlogikblock 620). Darüber hinaus kann das Ereignisanalysesystem 618 Anweisungen zur Darstellung des RC-Graphen auf einer Benutzeroberfläche enthalten, die vom Ereignisanalysesystem 618 auf der Anzeigevorrichtung 610 dargestellt werden kann (Graphenlogikblock 620).
Das Ereignisanalysesystem 618 kann auch Anweisungen enthalten, um festzustellen, ob eine Überwachungsregel auf einem Überwachungsagenten eines Schalters ausgelöst wurde, und um ein entsprechendes Ereignis (und damit verbundene Probleme) zu identifizieren, das die Überwachungsregel ausgelöst hat (Auslöselogikblock 622). Darüber hinaus kann das Ereignisanalysesystem 618 Anweisungen zum Aktivieren relevanter Knoten im RC-Graphen enthalten, wodurch ein oder mehrere aktivierte Untergraphen im RC-Graphen erzeugt werden (Aktivierungslogikblock 624). Darüber hinaus kann das Ereignisanalysesystem 618 Anweisungen zur Bestimmung kritischer Knoten in einem jeweiligen aktivierten Teilgraphen auf der Grundlage einer Graphenüberquerung enthalten (Analyselogikblock 626). Das Ereignisanalysesystem 618 kann dann Anweisungen zum Identifizieren eines Satzes korrelierter kritischer Knoten und zum Überlagern der korrelierten kritischen Knoten enthalten (Graphlogikblock 620).
Das Ereignisanalysesystem 618 kann Anweisungen zur Bestimmung der Grundursache eines Problems, das das Ereignis verursacht, enthalten (Analyselogikblock 626). Darüber hinaus kann das Ereignisanalysesystem 618 Anweisungen zur Identifizierung einer Wiederherstellungsmaßnahme und zur Ausführung der Wiederherstellungsmaßnahme auf einem Schalter enthalten, um die Auswirkungen des Ereignisses abzuschwächen, wenn das zugrunde liegende Problem ein nicht kritisches Problem ist (Wiederherstellungslogikblock 628). Das Ereignisanalysesystem 618 kann ferner Anweisungen zum Senden und Empfangen von Nachrichten enthalten (Kommunikationslogikblock 630). Daten 636 können alle Daten enthalten, die den Betrieb des Ereignisanalysesystems 618 erleichtern können. Daten 636 können unter anderem Informationen über einen entsprechenden Überwachungsagenten und eine entsprechende Überwachungsregel, die für den Überwachungsagenten in einem Netzwerk konfiguriert ist, eine Ereignisdatenbank, eine Graphdatenbank und eine Wiederherstellungsdatenstruktur umfassen.
7 zeigt eine beispielhafte Vorrichtung, die ein Ereignisanalysesystem gemäß einer Ausführungsform der vorliegenden Anwendung ermöglicht. Die Ereignisanalysevorrichtung 700 kann eine Vielzahl von Einheiten oder Geräten umfassen, die über einen verdrahteten, drahtlosen, Quantenlicht- oder elektrischen Kommunikationskanal miteinander kommunizieren können. Die Vorrichtung 700 kann mit einem oder mehreren integrierten Schaltkreisen realisiert werden und kann weniger oder mehr Einheiten oder Geräte als die in 7 gezeigten umfassen. Ferner kann die Vorrichtung 700 in ein Computersystem integriert oder als separates Gerät realisiert werden, das mit anderen Computersystemen und/oder Geräten kommunizieren kann. Insbesondere kann die Vorrichtung 700 Einheiten 702-712 umfassen, die ähnliche Funktionen oder Operationen wie die Module 620-630 des Computer- und Kommunikationssystems 600 von 6 ausführen, einschließlich: eine Grapheinheit 702; eine Auslöseeinheit 704; eine Aktivierungseinheit 706; eine Analyseeinheit 708; eine Wiederherstellungseinheit 710; und eine Kommunikationseinheit 712.
Die in dieser ausführlichen Beschreibung beschriebenen Datenstrukturen und der Code werden in der Regel auf einem computerlesbaren Speichermedium gespeichert, bei dem es sich um ein beliebiges Gerät oder Medium handeln kann, das Code und/oder Daten zur Verwendung durch ein Computersystem speichern kann. Das computerlesbare Speichermedium umfasst unter anderem flüchtige Speicher, nichtflüchtige Speicher, magnetische und optische Speichervorrichtungen wie Disketten, Magnetbänder, CDs (Compact Discs), DVDs (Digital Versatile Discs oder Digital Video Discs) oder andere Medien, die in der Lage sind, heute bekannte oder später entwickelte computerlesbare Medien zu speichern.
Die im Abschnitt „Detaillierte Beschreibung“ beschriebenen Methoden und Prozesse können als Code und/oder Daten verkörpert werden, die wie oben beschrieben in einem computerlesbaren Speichermedium gespeichert werden können. Wenn ein Computersystem den auf dem computerlesbaren Speichermedium gespeicherten Code und/oder die Daten liest und ausführt, führt das Computersystem die Methoden und Prozesse aus, die als Datenstrukturen und Code verkörpert und in dem computerlesbaren Speichermedium gespeichert sind.
Die hier beschriebenen Methoden und Prozesse können von Hardware-Modulen oder -Geräten ausgeführt werden und/oder in diesen enthalten sein. Zu diesen Modulen oder Geräten können unter anderem ein anwendungsspezifischer integrierter Schaltkreis (ASIC-Chip), ein feldprogrammierbares Gate-Array (FPGA), ein dedizierter oder gemeinsam genutzter Prozessor, der ein bestimmtes Softwaremodul oder ein Stück Code zu einem bestimmten Zeitpunkt ausführt, und/oder andere heute bekannte oder später entwickelte programmierbare logische Geräte gehören. Wenn die Hardware-Module oder -Geräte aktiviert werden, führen sie die in ihnen enthaltenen Methoden und Prozesse aus.
Die vorstehenden Beschreibungen von Ausführungsformen der vorliegenden Erfindung wurden nur zum Zwecke der Veranschaulichung und Beschreibung vorgelegt. Sie erheben keinen Anspruch auf Vollständigkeit und beschränken diese Offenbarung nicht. Dementsprechend werden viele Modifikationen und Variationen für den Fachmann auf dem Gebiet der Technik offensichtlich sein. Der Umfang der vorliegenden Erfindung wird durch die beigefügten Ansprüche definiert.

Claims

Ein Verfahren zur Erleichterung der Ursachenanalyse in einem Netzwerk, das Folgendes umfasst: Bestimmung eines Satzes von Überwachungselementen im Netz, wobei ein jeweiliges Überwachungselement die Überwachung von Ereignissen im Netz ermöglicht; Darstellung eines jeweiligen Überwachungselements als Knoten eines Graphen, wobei ein Knotenpaar des Graphen mit einer Kante verbunden ist, wenn die entsprechenden Überwachungselemente auf der Grundlage einer Beziehungsdefinition miteinander in Beziehung stehen; Empfangen von Benachrichtigungen von Überwachungsagenten auf einem oder mehreren Switches im Netz, die ein Problem im Netz anzeigen, wobei ein entsprechender Überwachungsagent eine oder mehrere Switch-Komponenten auf der Grundlage einer oder mehrerer Überwachungsregeln überwacht; die Aktivierung einer Reihe von Knoten des Graphen, die dem Problem entsprechen; Bestimmen einer Grundursache des Problems durch Durchlaufen der Menge der aktivierten Knoten des Graphen; und Festlegung einer Abhilfemaßnahme zur Beseitigung der Ursache.
Verfahren nach Anspruch 1, wobei der Satz von Überwachungselementen eine jeweilige Überwachungsregel in einem jeweiligen Switch im Netzwerk, eine oder mehrere Switch-Komponenten, die durch die Überwachungsregel überwacht werden, und einen Überwachungsagenten, der den Überwachungsbetrieb auf der Grundlage der Überwachungsregel erleichtert, umfasst; und wobei eine jeweilige Überwachungsregel eine Bedingung zum Auslösen der Überwachungsregel umfasst.
Verfahren nach Anspruch 1, wobei die Menge der aktivierten Knoten den Überwachungselementen einer Vielzahl von Schaltern in dem Netz entspricht.
Das Verfahren nach Anspruch 1 umfasst ferner: Feststellung, ob es sich um eine kritische Frage handelt; und als Reaktion darauf, dass es sich bei dem Problem um ein nicht-kritisches Problem handelt, Ausführen der Wiederherstellungsaktion auf einem Switch in dem Netzwerk, wobei der Switch eine oder mehrere Switch-Komponenten enthält, die in der Menge der aktivierten Knoten des Graphen dargestellt sind.
Verfahren nach Anspruch 4, das ferner als Reaktion darauf, dass es sich bei dem Problem um ein kritisches Problem handelt, das Einholen einer Bestätigung von einem Benutzer vor dem Ausführen der Wiederherstellungsaktion umfasst.
Verfahren nach Anspruch 1, wobei die Beziehungsdefinition anzeigt, ob ein Paar von Überwachungselementen miteinander in Beziehung steht, und wobei das Verfahren ferner das Bestimmen der Beziehungsdefinition für ein entsprechendes Knotenpaar in dem Graphen auf der Grundlage von einem oder mehreren der folgenden Punkte umfasst: ein maschinelles Lernverfahren; und ein Benutzer-Feedback.
Verfahren nach Anspruch 1, wobei das Aktivieren der Menge von Knoten des Graphen umfasst: Bestimmung eines Satzes von Überwachungsregeln, die durch das Problem ausgelöst wurden; und Bestimmung eines jeweiligen Knotens, der dem Satz ausgelöster Überwachungsregeln entspricht, einer oder mehrerer Schaltkomponenten, die mit den ausgelösten Überwachungsregeln verbunden sind, und eines oder mehrerer Überwachungsagenten, die mit den Überwachungsregeln verbunden sind.
Verfahren nach Anspruch 1, wobei das Durchlaufen der Menge der aktivierten Knoten des Graphen umfasst: Anwendung eines Algorithmus für den kürzesten Weg auf einen entsprechenden Teilgraphen der Menge der aktivierten Knoten; und Bestimmen eines Satzes kritischer Knoten, die durch den Algorithmus für den kürzesten Weg identifiziert wurden, wobei ein jeweiliger kritischer Knoten einer Schaltkomponente entspricht, die von dem Problem betroffen ist.
Das Verfahren nach Anspruch 8 umfasst ferner: Bestimmen einer Vielzahl von korrelierten Knoten in der Menge der kritischen Knoten; und Überlagerung der Vielzahl von korrelierten Knoten im Graphen.
Verfahren nach Anspruch 9, wobei die Bestimmung der Grundursache ferner die Identifizierung einer Ursache umfasst, die die überlagerten Knoten aktiviert.
Ein nicht-transitorisches computerlesbares Speichermedium, das Anweisungen speichert, die, wenn sie von einem Computer ausgeführt werden, den Computer veranlassen, ein Verfahren zur Erleichterung der Ursachenanalyse in einem Netzwerk durchzuführen, wobei das Verfahren Folgendes umfasst: Bestimmung eines Satzes von Überwachungselementen im Netz, wobei ein jeweiliges Überwachungselement die Überwachung von Ereignissen im Netz ermöglicht; Darstellung eines jeweiligen Überwachungselements als Knoten eines Graphen, wobei ein Knotenpaar des Graphen mit einer Kante verbunden ist, wenn die entsprechenden Überwachungselemente auf der Grundlage einer Beziehungsdefinition miteinander in Beziehung stehen; Empfangen von Benachrichtigungen von Überwachungsagenten auf einem oder mehreren Switches im Netzwerk, die ein Problem im Netzwerk anzeigen, wobei ein entsprechender Überwachungsagent eine oder mehrere Switch-Komponenten auf der Grundlage einer oder mehrerer Überwachungsregeln überwacht; die Aktivierung einer Reihe von Knoten des Graphen, die dem Problem entsprechen; Bestimmen einer Grundursache des Problems durch Durchlaufen der Menge der aktivierten Knoten des Graphen; und Festlegung einer Abhilfemaßnahme zur Beseitigung der Ursache.
Computerlesbares Speichermedium nach Anspruch 11, wobei der Satz von Überwachungselementen eine jeweilige Überwachungsregel in einem jeweiligen Switch in dem Netzwerk, eine oder mehrere Switch-Komponenten, die durch die Überwachungsregel überwacht werden, und einen Überwachungsagenten, der den Überwachungsbetrieb auf der Grundlage der Überwachungsregel erleichtert, enthält; und wobei eine jeweilige Überwachungsregel eine Bedingung zum Auslösen der Überwachungsregel enthält.
Computerlesbares Speichermedium nach Anspruch 11, wobei die Menge der aktivierten Knoten den Überwachungselementen einer Vielzahl von Schaltern in dem Netz entspricht.
Computerlesbares Speichermedium nach Anspruch 11, wobei das Verfahren ferner umfasst: Feststellung, ob es sich um eine kritische Frage handelt; und als Reaktion darauf, dass es sich bei dem Problem um ein nicht-kritisches Problem handelt, Ausführen der Wiederherstellungsaktion auf einem Switch in dem Netzwerk, wobei der Switch eine oder mehrere Switch-Komponenten enthält, die in der Menge der aktivierten Knoten des Graphen dargestellt sind.
Computerlesbares Speichermedium nach Anspruch 14, wobei das Verfahren ferner umfasst, als Reaktion darauf, dass es sich bei dem Problem um ein kritisches Problem handelt, eine Bestätigung von einem Benutzer zu erhalten, bevor die Wiederherstellungsaktion ausgeführt wird.
Computerlesbares Speichermedium nach Anspruch 11, wobei die Beziehungsdefinition anzeigt, ob ein Paar von Überwachungselementen miteinander in Beziehung steht, und wobei das Verfahren ferner das Bestimmen der Beziehungsdefinition für ein jeweiliges Knotenpaar in dem Graphen auf der Grundlage von einem oder mehreren der folgenden Punkte umfasst: ein maschinelles Lernverfahren; und ein Benutzer-Feedback.
Computerlesbares Speichermedium nach Anspruch 11, wobei das Aktivieren des Satzes von Knoten des Graphen umfasst: Bestimmung eines Satzes von Überwachungsregeln, die durch das Problem ausgelöst wurden; und Bestimmung eines jeweiligen Knotens, der dem Satz ausgelöster Überwachungsregeln entspricht, einer oder mehrerer Schaltkomponenten, die mit den ausgelösten Überwachungsregeln verbunden sind, und eines oder mehrerer Überwachungsagenten, die mit den Überwachungsregeln verbunden sind.
Computerlesbares Speichermedium nach Anspruch 11, wobei das Durchlaufen der Menge der aktivierten Knoten des Graphen umfasst: Anwendung eines Algorithmus für den kürzesten Weg auf einen entsprechenden Teilgraphen der Menge der aktivierten Knoten; und Bestimmen eines Satzes kritischer Knoten, die durch den Algorithmus für den kürzesten Weg identifiziert wurden, wobei ein jeweiliger kritischer Knoten einer Schaltkomponente entspricht, die von dem Problem betroffen ist.
Computerlesbares Speichermedium nach Anspruch 18, wobei das Verfahren ferner umfasst: Bestimmen einer Vielzahl von korrelierten Knoten in der Menge der kritischen Knoten; und Überlagerung der Vielzahl von korrelierten Knoten im Graphen.
Computerlesbares Speichermedium nach Anspruch 19, wobei das Bestimmen der Grundursache ferner das Identifizieren einer Ursache umfasst, die die überlagerten Knoten aktiviert.