-
Die
Erfindung bezieht sich im Allgemeinen auf ein Verfahren und ein
System zum Analysieren und Korrelieren von in Komponentenschnittstellen
innerhalb eines Netzelements erfassten Fehlern.
-
In
einem Kommunikationsnetz gibt es einen Bedarf, ein hohes Niveau
der Dienstverfügbarkeit
des Datenverkehrs, der sich in dem Netz bewegt, bereitzustellen.
Demzufolge sind für
die Netzelemente im Kommunikationsnetz redundante Datenpfade vorgesehen.
Falls es ein Problem bei einem speziellen Netzelement, wie z. B.
einem Knoten oder einer Verbindung, gibt, wird der Datenverkehr
auf einen alternativen Datenpfad umgeleitet. Da die Dienstverfügbarkeit
jedes Knotens und jeder Verbindung die Gesamtdienstverfügbarkeit
des Netzes beeinflussen kann, ist es auf der Ebene der Netzelemente
notwendig, jeden Knoten und jede Verbindung nach Fehlern zu überwachen,
um ein hohes Niveau der Dienstverfügbarkeit für diese Knoten und Verbindungen
aufrechtzuerhalten.
-
Ein
Knoten, der eine Weiterleitungs-Vermittlung umfasst, kann z. B.
nach Fehlern überwacht
werden, so dass seine Dienstverfügbarkeit
auf einem hohen Niveau aufrechterhalten werden kann. Während das
Bereitstellen redundanter Datenpfade innerhalb der Weiterleitungs-Vermittlung
das Problem des Aufrechterhaltens einer hohen Dienstverfügbarkeit
teilweise anspricht, ist es außerdem
erwünscht,
einen Fehler isolieren zu können
und irgendwelche fehlerhaften Komponenten innerhalb der Weiterleitungs-Vermittlung
reparieren oder ersetzen zu können,
so dass die in die Weiterleitungs-Vermittlung eingebaute Redundanz
fortgesetzt vollständig
funktionsfähig
bleibt.
-
Bekannte
Verfahren zum Identifizieren einer fehlerhaften Komponente sind
durch die Patentanmeldungen
WO
01/77828A und
EP-A-0549937 offenbart.
-
Im
Stand der Technik sind verschiedene Lösungen vorgeschlagen worden,
um Fehler in einem Knoten, wie z. B. einer Weiterleitungs-Vermittlung,
zu isolieren, so dass eine fehlerhafte Komponente oder eine Austauscheinheit
(FRU) identifiziert und ersetzt werden kann. In komplexeren Konfigurationen,
die mehrere Fehlerangaben bereitstellen, kann die Quelle eines Fehlers
jedoch unbestimmt sein. Dies ist besonders problematisch, wo die
Fehlerangaben an einer Schnittstelle auftreten, die eine Komponente
mit einer oder mehreren anderen Komponenten verbindet. Während eine
schrittweise manuelle Prüfung
jeder Komponente schließlich
die fehlerhafte Komponente durch ein empirisch-praktisches Verfahren
identifizieren kann, kann der Prozess unzuverlässig und zeitraubend sein.
-
Es
ist eine Aufgabe der vorliegenden Erfindung, ein Verfahren zum Identifizieren
einer fehlerhaften Komponente in einer Gruppe von Komponenten zu
schaffen, das eine umfassendere Art zum Analysieren und Korrelieren
von Fehlern, die innerhalb einer Gruppe von Komponenten oder FRUs
auftreten, erlaubt, so dass die Identifikation der fehlerhaften
FRU verbessert ist.
-
Genauer
schafft die vorliegende Erfindung ein Verfahren zum Identifizieren
einer fehlerhaften Komponente in einer Gruppe von Komponenten nach
Anspruch 1.
-
Gemäß einem
zweiten Aspekt wird ein System zum Identifizieren einer fehlerhaften
Komponente in einer Gruppe von Komponenten nach Anspruch 11 geschaffen.
-
Die
vorhergehenden und anderen Aspekte der Erfindung werden aus der
folgenden Beschreibung ihrer spezifischen Ausführungsformen und der beigefügten Zeichnung,
die lediglich beispielhaft die Prinzipien der Erfindung veranschaulichen,
offensichtlicher. In der Zeichnung, in der gleiche Elemente gleiche
Bezugszeichen aufweisen (und in der einzelne Elemente eindeutige
alphabetische Suffixe tragen), zeigen:
-
1 einen
Blockschaltplan eines Kommunikationsnetzes, das mehrere Netzelemente
einschließlich eines
Knotens, der eine Weiterleitungs-Vermittlung umfasst, umfasst;
-
2A einen
schematischen Blockschaltplan verschiedener Komponenten der Weiterleitungs-Vermittlung
nach 1;
-
2B einen
Blockschaltplan einer möglichen
Anordnung verschiedener FRUs, die innerhalb verschiedener Baugruppenträger der
Weiterleitungs-Vermittlung nach 1 konfiguriert
sind;
-
2C einen
Blockschaltplan, der ein Beispiel der verschiedenen definierten
Schnittstellengruppen zeigt, die Sätze verbundener FRUs innerhalb
eines Peripherie-Baugruppenträgers
in 2B umfassen;
-
3A eine
schematische graphische Darstellung einer Architektur einer diagnostischen
Infrastruktur-Software, die einem Fehleranalyse- und -korrektur-Verfahren und -System
(EAC-Verfahren und -System) gemäß einer
Ausführungsform
der vorliegenden Erfindung zugeordnet ist und die verwendet werden
kann, um fehlerhafte Komponenten oder FRUs innerhalb einer ausgewählten Schnittstellengruppe
in 2C zu identifizieren;
-
3B ein
Zustandsdiagramm, das eine EAC-Zustandsmaschine zeigt, die einer
Schnittstellengruppe zugeordnet ist, die durch das in 3A gezeigte
EAC-Modul analysiert wird;
-
4 einen
Ablaufplan eines beispielhaften Prozesses, der den Betrieb des EAC-Verfahrens
und -Systems gemäß einer
Ausführungsform
veranschaulicht, um eine fehlerhafte FRU innerhalb einer LFI-Schnittstellengruppe
(die im Folgenden weiter definiert ist) zu identifizieren, der in 3A gezeigt
ist; und
-
5 einen
Ablaufplan eines beispielhaften Prozesses, der den Betrieb des EAC-Verfahrens
und -Systems gemäß einer
Ausführungsform
veranschaulicht, um eine fehlerhafte FRU innerhalb einer LII-Schnittstellengruppe
(die im Folgenden weiter definiert ist) zu identifizieren, der in 2C gezeigt
ist.
-
Die
folgende Beschreibung und die darin beschriebenen Ausführungsformen
sind als Veranschaulichung eines Beispiels oder von Beispielen von
speziellen Ausführungsformen
der Prinzipien der vorliegenden Erfindung vorgesehen. Diese Beispiele
sind zum Zweck der Erklärung
und nicht der Einschränkung
dieser Prinzipien und der Erfindung vorgesehen. In der folgenden
Beschreibung sind gleiche Teile überall
in der Beschreibung und in der Zeichnung mit den gleichen entsprechenden
Bezugszeichen markiert.
-
In
dieser Beschreibung werden die folgenden Akronyme verwendet.
Acronym | Beschreibung |
AE | Anwendungsumgebung – Bezieht
sich auf einen Software-Bereich
in einer Steuerkarte, der alle AM-Objekte und einen Nachrichten-Server
umfasst. |
AM
CAM | Anwendungsmodul – Ein Software-Modul,
das sich sowohl mit physikalischen Systemkomponenten, wie z. B.
Karten, Anschlüssen
und Strömen,
als auch Anwendungen, die sich mit nichtphysikalischen Komponenten,
wie z. B. Alarmen und Systemkomponenten, befassen, befasst.
Kartenanwendungsmodul – Ein Anwendungsmodul-Objekt,
das in einer Karte steht und für
das Übertragen
von Konfigurations- und Statusinformationen mit dem entsprechenden
AM in der Steuerkarte verwendet wird. |
EAC | Fehleranalyse
und -korrelation |
FIC | Fabric-Schnittstellenkarte |
FRU | Austauscheinheit – Eine physikalische
Entität
in einem System oder Knoten, die ersetzt werden kann, um Probleme
zu beseitigen oder um Hochrüstungen auszuführen. |
HSPS
IGSM | Hochgeschwindigkeits-Peripherie-Baugruppenträger
Schnittstellengruppen-Zustandsmaschine |
IOC | E/A-Karte – Eine FRU,
die an einer Leitungskarte angebracht ist und mit Kommunikationsverbindungen
einschließlich
Verbindungen von anderen Knoten verbunden ist. |
LC | Leitungskarte |
LFI | LC/FIC-Schnittstelle |
LII | LC/IOC-Schnittstelle |
PS | Peripherie-Baugruppenträger |
-
Das
Folgende ist ein veranschaulichendes Beispiel eines Kommunikationsnetzes,
das mehrere Netzelemente (z. B. einen Knoten, der eine Weiterleitungs-Vermittlung
umfasst) umfasst, in dem das Verfahren und das System für die Fehleranalyse
und -korrelation (EAC) gemäß einer
Ausführungsform
der Erfindung praktiziert werden können.
-
In 1 ist
ein Kommunikationsnetz 100 gezeigt. Das Netz 100 erlaubt
den Vorrichtungen (wie z. B. den Teilnehmereinrichtungen oder CPEs) 102a, 102b und 102c,
mit anderen Vorrichtungen 104A und 104B über die
Netzwolke 106 zu kommunizieren. Die CPEs 102a, 102b, 102c können mit
einem Knoten 112a verbunden sein, der Zugriff auf die Daten 114 haben
kann und ferner mit einem Netzübergangsknoten
oder einer Weiterleitungs-Vermittlung 108 am Netzübergang
der Netzwolke 106 verbunden ist. Die Weiterleitungs-Vermittlung 108 dient
als der Verbindungspunkt für
die verschiedenen Knoten 112a, 112b für den Zugriff
auf die Netzwolke 106.
-
In
der Netzwolke 106 sind mehrere Vermittlungen 110a, 110b und 110c verbunden,
wobei sie die Kommunikations-Haupttrasse der Netzwolke 106 bilden.
Die Verbindungen von der Netzwolke 106 sind wiederum über verschiedene
andere (nicht gezeigte) Verbindungen und Vermittlungen mit den Vorrichtungen 104a und 104b verbunden.
-
Während eine
Weiterleitungs-Vermittlung 108 als ein veranschaulichendes
Beispiel für
den Zweck dieser Erörterung
ausgewählt
worden ist, ist klar, dass die Lehren der vorliegenden Erfindung
auf praktisch jeden Knotentyp anwendbar sind, der Fehlererfassungsfähigkeiten
besitzt und eine oder mehrere Komponenten oder FRUs umfasst, die
für die
Fehleranalyse und -korrelation zusammen gruppiert werden können, wie
im Folgenden ausführlicher
beschrieben ist.
-
In 2A sind
die Einzelheiten eines Knotens gezeigt, in dem die Weiterleitungs-Vermittlung 108 eine Mehrprotokoll-Weiterleitungs-Vermittlungs-Plattform ist, die
mehrere Kommunikationsverbindungen verbinden und vermitteln kann.
Die Weiterleitungs-Vermittlung 108 erlaubt die Skalierung
der Vermittlungskapazität
durch Einfügen
oder Entfernen von Baugruppenträgern
und Komponenten in die Weiterleitungs-Vermittlung 108.
-
Wie
in 2B und unter Bezugnahme auf 2A gezeigt
ist, kann die Weiterleitungs-Vermittlung 108 z. B. zwei
Vermittlungs-Baugruppenträger 200X und 200Y,
einen Steuerkomplex 202 und verschiedene Peripherie-Baugruppenträger 203, 205, 207 umfassen.
Der Steuerkomplex 202 kann sich in einer Ausführungsform
im Baugruppenträger 207 befinden,
wobei er die Steuerkarten 224 umfasst, die ein zentrales
Management für
die Weiterleitungs-Vermittlung 108 bereitstellen können.
-
Die
Vermittlungs-Baugruppenträger 200X und 200Y schaffen
eine Datenzellen-Vermittlungskapazität für die Weiterleitungs-Vermittlung 108.
Die Peripherie-Baugruppenträger 203, 205, 207 schaffen
eine E/A-Konnektivität
für die
Weiterleitungs-Vermittlung 108, die den Anschluss verschiedener
Vorrichtungstypen, wie z. B. der Teilnehmer-CPEs 102a, 102b und 102c,
erlaubt, die durch den Knoten 112a mit der Weiterleitungs-Vermittlung 108 verbunden
sind (1).
-
In
einer Ausführungsform
ermöglichen
die Kommunikationsverbindungen 206, 208 den Vermittlungs-Baugruppenträgern 200X, 200Y,
den Peripherie-Baugruppenträgern 203, 205, 207 und
dem Steuerkomplex 202, einander Daten und Statusinformationen
mitzuteilen. Hochgeschwindigkeitsverbindungen zwischen den Baugruppenträgern (HISLs) 206 verbinden
die Vermittlungs-Baugruppenträger 200X, 200Y mit
den verschiedenen Peripherie-Baugruppenträgern 203, 205, 207.
Die Steuerdienstverbindungen (CSLs) 208 verbinden den Steuerkomplex 202 mit
den Vermittlungs-Baugruppenträgern 200X und 200Y und
mit den Peripherie-Baugruppenträgern 203, 205, 207.
-
In
den 2A und 2B enthält in einer
Ausführungsform
jeder Vermittlungs-Baugruppenträger 200X und 200Y einen
Vermittlungs-Fabric-Kern 214 und bis zu 32 Vermittlungs-Zugangskarten
(SACs) 212. Wie in 2B gezeigt
ist, kommuniziert jede FIC 218, 218', 218'' in
den Peripherie-Baugruppenträgern 205, 203, 207 über die
SACs 212 mit dem Vermittlungskern 214.
-
Zum
Zweck der Veranschaulichung werden nun zwei Typen der Peripherie-Baugruppenträger 203, 205,
die in 2B gezeigt sind, ausführlicher
beschrieben.
-
Der
erste Typ ist ein regulärer
Peripherie-Baugruppenträger
(PS), der als der Baugruppenträger 205 dargestellt
ist. Der PS 205 enthält
die LCs 220, die IOCs 222 und die FICs 218.
Die FICs 218 können
entweder als Doppel-Fabric-Schnittstellenkarten
(DFIC) oder als Vierfach-Fabric-Schnittstellenkarten (QFIC) konfiguriert sein.
-
Der
zweite Typ ist ein Hochgeschwindigkeitsperipherie-Baugruppenträger (HSPS),
der als der Peripherie-Baugruppenträger 203 dargestellt
ist. Der HSPS 203 enthält
Hochgeschwindigkeits-Leitungsverarbeitungs-Karten (HSLP-Karten) 220', E/A-Karten 222', Hochgeschwindigkeits-Fabric-Schnittstellenkarten (HFICs) 218' und zwei redundante
Hochgeschwindigkeits-Baugruppenträger-Steuereinheits-Karten (HSC-Karten) 224'.
-
In 2C ist
eine vergrößerte Ansicht
des Peripherie-Baugruppenträgers 205 nach 2B gezeigt. Wie
gezeigt ist, können
die Komponenten oder FRUs zusammen gruppiert sein, um verschiedene
Schnittstellengruppen zu definieren. Die Schnittstelle zwischen
den LCs 220a, 220b und den IOCs 222a, 220b wird
z. B. als Leitungskarten-IOC-Schnittstelle (LII) bezeichnet, wobei
die LCs 220a, 220b und die IOCs 222a, 222b die LIIa-Gruppe
bilden. Wie in 2C gezeigt ist, besitzt in der
Gruppe LIIa jede IOC 222 eine Verbindung mit jeder LC 220,
wobei dadurch ein redundanter Datenpfad für den Verkehr, der durch die
LIIa verarbeitet wird, in dem Fall eines Ausfalls einer der IOCs 222 oder
einer der LCs 220 geschaffen wird. Analog bilden die LCs 220c, 220d und
die IOCs 222c, 222d die LIIb-Gruppe, wobei sie
die gleiche redundante Struktur besitzen. Es ist jedoch klar, dass
eine LII-Gruppe keine redundante Konfiguration besitzen muss, wie
sie beschrieben worden ist (z. B. kann es anstelle von zwei eine
einzige LC geben).
-
Als
ein weiteres Beispiel wird die Schnittstelle zwischen den LCs 220a, 220b, 220c, 220d und
den FICs 218a, 218b als eine Leitungskarten-Fabric-Karten-Schnittstelle (LFI)
bezeichnet, wobei die LCs 220a, 220b, 220c, 220d und
die FICs 218a, 218b die LFI-Gruppe bilden. Wie
bei den oben beschriebenen LII-Gruppen
besitzt jede LC 220 eine Verbindung zu jeder FIC 218,
wobei dadurch ein redundanter Datenpfad für den Verkehr, der durch irgendeine
Komponente in der LFI-Gruppe verarbeitet wird, geschaffen wird.
Eine LFI-Gruppe
muss jedoch keine redundante Konfiguration besitzen, wie sie beschrieben
worden ist.
-
Im
Allgemeinen kann eine Schnittstellengruppe an irgendeinem Schnittstellenpunkt
zwischen den Sätzen
von untereinander verbundenen Komponenten, wie z. B. der LIIa, der
LIIb und der LFI, die in 2C gezeigt
sind, gebildet werden. Vor allem bilden die LCs 220a, 220b, 220c, 220d und
die IOCs 222a, 222b, 222c, 222d gemeinsam
keine Schnittstellengruppe, da es z. B. keine gemeinsam benutzte
Schnittstelle zwischen der LC 220a und der IOC 222c gibt.
Eine Schnittstellengruppe umfasst jedoch wenigstens eine erste Komponente, die über eine
Schnittstelle mit einer zweiten Kommunen verbunden ist, und ferner über die
Schnittstelle mit wenigstens einer dritten Komponente verbunden
ist.
-
Während hier
eine spezifische FRU-Konfiguration beispielhaft beschrieben ist,
ist klar, dass die Lehren der vorliegenden Erfindung auf praktisch
jeden Typ der FRU-Konfiguration ausgedehnt werden können, die gruppiert
und als Teil einer Schnittstellengruppe definiert werden kann, wie
oben beschrieben worden ist. Während
in 2C beispielhaft drei Gruppen gezeigt sind, nämlich die
LIIa-Gruppe, die LIIb-Gruppe und die LFI-Gruppe, ist es folglich
selbstverständlich,
dass verschiedene andere Schnittstellengruppen für andere Konfigurationen und
andere Gruppen von FRUs definiert werden können.
-
Es
wird außerdem
angegeben, dass die Konfiguration in 2C zum
Zweck der Veranschaulichung vereinfacht worden ist. In einer Ausführungsform
kann z. B. jedes redundante Paar von LCs 220' in einem HSPS 203 mit
bis zu acht IOCs 222' zwischen
ihnen verbunden sein. In 2C sind
für die
Einfachheit nur zwei IOCs 222 gezeigt. Es ist klar, dass
die spezielle Anordnung und Konfiguration der FRUs auf ihren technischen
Konstruktions- und Verbindungsfähigkeiten
basieren und von denen, die in 2C gezeigt
sind, verschieden sein können.
-
In 3A ist
eine System-Fehleranalyse und -korrelation (System-EAC) gemäß einer
Ausführungsform
gezeigt und durch das Bezugszeichen 300A im Allgemeinen
bezeichnet. Wie im Folgenden weiter erklärt wird, ist die EAC besonders
geeignet, um persistente Fehler zu analysieren und zu korrelieren,
die in einer Komponentenschnittstelle erfasst werden, und wo die
isolierte Komponente nicht bestimmen kann, ob sie für die Verursachung
des Fehlers verantwortlich ist oder ob der Fehler durch eine weitere
Komponente, die mit dieser Schnittstelle verbunden ist, verursacht
worden ist.
-
Wie
in 3A gezeigt ist, umfasst die diagnostische Infrastruktur 300A eine
Managementschicht 310, die Kenntnis vom Status des ganzen
Netzelements besitzt, und eine Betriebsmittelschicht 320,
die in jeder Komponente oder FRU steht und nur die Kenntnis besitzt,
die diese FRU betrifft.
-
Die
Managementschicht kann z. B. Software-Module umfassen, die im Steuerkomplex 202 arbeiten. Die
Managementschicht 310 empfängt Fehlerstatusberichte von
den Elementen in der Betriebsmittelschicht 320. Diese Berichte
werden zum Systemdiagnose-AM 312 kanalisiert, das einfach
ein Container-Objekt für
jedes EAC-Software-Modul 313 ist. Folglich versieht das
Systemdiagnose-AM 312 das EAC-Modul 313 mit einer externen
Schnittstelle zu anderen AM-Objekten. Anhand der Fehlerstatusberichte
bewertet das EAC-Modul 313 die
Mängelfreiheit
der überwachten
Elemente, um wahrscheinlich defekte Komponenten zu identifizieren, wenn
durch die Elemente in der Betriebsmittelschicht 320 Fehler
gemeldet werden. Ein Zeitgeber 316 ist durch das EAC-Modul
zugänglich,
um die verschiedenen hierin beschriebenen EAC-Tasks auszuführen.
-
In
einer Ausführungsform
sind die Fehlerstatus-Aktualisierungen Nachrichten, die von der
Betriebsmittelschicht 320 in verschiedenen FRUs (z. B.
in einer Baugruppenträger-Steuereinheit
oder einer Leitungskarte, wie in 3A gezeigt
ist) an die Managementschicht 310 gesendet werden. In der
Managementschicht 310 leitet ein AE-Server-Task 319 die
Nachrichten zum entsprechenden AM-Objekt weiter. Das AM-Objekt leitet wiederum
die relevanten Fehlerstatusinformationen zum EAC-Modul 313 weiter.
In diesem veranschaulichenden Beispiel werden die Statusberichte
durch die EAC 313 von verschiedenen AM-Objekten, einschließlich z. B.
eines FIC-AM-Objekts 314, eines Leitungskarten-AM-Objekts
(LC-AM-Objekts) 316 und eines IOC-AM-Objekts 317, empfangen.
-
In
der Betriebsmittelschicht 320 überwacht jeder Diagnostik-Task 330 und 334 auf
in den Komponenten oder FRUs erfasste Fehler, einschließlich Fehler,
die in den Kommunikationsschnittstellen zu anderen FRUs (folglich "Schnittstellefehler") vorhanden sind.
Die Schnittstellenfehler können
auf Grund der Tatsache, dass eine isolierte FRU nicht bestimmen
kann, ob sie für
die Verursachung des Fehlers verantwortlich ist oder ob der Fehler
durch eine weitere FRU auf der anderen Seite der Schnittstelle verursacht
worden ist, unbestimmt sein. Falls ein Fehler erfasst wird oder
ein Fehler beseitigt wird, berichten die Diagnostik-Tasks 330 und 334 diese
Statusänderung
dem CAM, das der FRU entspricht.
-
Beispielhaft
sind in 3A ein FIC-CAM-Objekt 322,
ein LC-CAM-Objekt 324 und ein IOC-CAM-Objekt 326 gezeigt.
Die verschiedenen CAMs 322, 324, 326 sind
Objekte des CLT-Server-Tasks 328, die einen Nachrichtenschnittstellenpunkt
zwischen der Betriebsmittelschicht 320 und den entsprechenden
AM-Objekten in der Managementschicht 310 schaffen.
-
In
einer Ausführungsform
kommunizieren die CAMs 322, 324, 326 über die
Nachrichtenübermittlung zwischen
dem AE-Server-Task 319 und den CTL-Server-Tasks 328 mit den entsprechenden
Zugangsmodulen 314, 316 und 317.
-
Die
durch den LC-Diagnostik-Task 330 und den FIC-Diagnostik-Task 334 erfassten
Fehler werden z. B. über
die entsprechenden AM- und CAM-Objekte zum EAC-Modul 313 weitergeleitet.
Falls das EAC-Modul 313 bestimmt, dass eine spezielle FIC 218 eine
fehlerhafte FRU ist, informiert das EAC-Modul 313 ein Mehrfach-Baugruppenträger-Fabric-AM 318,
um den Fehler zu behandeln. Das Mehrfach-Baugruppenträger-Fabric-AM 318 weist
dem geeigneten Fabric (d. h. dem Fabric 'X' oder
dem Fabric 'Y' in den 2A ... 2C) Mängelpunkte zu,
um möglicherweise
eine Fabric-Aktivitätsvermittlung
entfernt von der fehlerhaften FIC 218 zu verursachen. Falls
andernfalls eine LC 220 oder eine IOC 222 fehlerhaft
ist, kann das EAC-Modul 313 durch einen Funktionsaufruf
für das
geeignete IOC-AM-Objekt 317 oder Leitungskarten-AM-Objekt 316 veranlassen, dass
der speziellen LC 220 oder IOC 222 Mängelpunkte
zugewiesen werden.
-
Um
unbestimmte Schnittstellenfehlerangaben in einer Schnittstellengruppe
von Komponenten oder FRUs zu analysieren, sollte das EAC-Modul 313 über die
Mängelfreiheit
aller in diese Schnittstellen einbezogenen FRUs auf dem Laufenden
gehalten werden. Die Statusänderungen
der LC 220 und der IOC 222 und alle Änderungen
der Redundanzkonfiguration der LC 220 können z. B. durch ihre entsprechenden
AM-Objekte 316, 317 dem EAC-Modul 313 berichtet
werden. Als ein weiteres Beispiel kann der FIC-Diagnostik-Task 334 dem
EAC-Modul 313 berichten, wenn bestimmte FIC-Fehler erklärt oder
entfernt werden. Im Allgemeinen sollte das EAC-Modul 313 viele
verschiedene Typen der Fehlerangaben und Statusänderungen analysieren und korrelieren
können.
-
Im
vorliegenden Beispiel sind die Eingangsfunktionen, die allen Schnittstellengruppen
(z. B. LIIa, LIIb, LFI nach
2C) gemeinsam
sind, die Grundlage für
alle gemeinsamen Komponenten des EAC-Moduls
313. In der
folgenden Tabelle A ist beispielhaft ein Satz von Funktionsnamen,
die durch das EAC-Modul
313 verwendet werden können, und
ihre zugeordneten Beschreibungen gezeigt: TABELLE A
Funktionsname | Beschreibung |
HandleInterfaceError() | Behandelt
die Schnittstellenfehler. |
HandleShelfStatusChange() | Behandelt
die Baugruppenträger-Statusänderung. |
HandleCardStatusChange() | Aktualisiert
die Schnittstellengruppe mit der Kartenstatusänderung. |
HandleCardRedundancyChange() | Aktualisiert
die Schnittstellengruppe mit der Kartenredundanzänderung. |
-
In
einer Ausführungsform
enthält
die EAC 313 eine statische Liste von Funktionszeigern,
die durch den Schnittstellengruppentyp (z. B. LFI, LII) indexiert
wird. Jedem Schnittstellengruppentyp (z. B. LFI, LII) können Daten
zugeordnet sein, die in einem Feld von Funktionszeigern, ein Zeiger
für jede
in der obigen Tabelle A aufgelistete Funktion, gespeichert sind.
Falls in Reaktion auf eine gegebene Eingabe keine Handlung für eine spezielle
Schnittstellengruppe erforderlich ist, kann ein Nullfunktionszeiger
vorgesehen sein. Das EAC-Modul 313 schafft eine Funktion,
die die Parameter einer Eingabe überprüft, um zu
bestimmen, welche Felder der funktionalen Zeiger (jedem Feld ist
eine Schnittstellengruppe zugeordnet) aktualisiert werden sollten.
Falls z. B. über
ein FIC-AM-Objekt 314 ein unbestimmter Schnittstellenfehler
berichtet wird, identifiziert die LII-Funktion HandleInterfaceError(),
dass der Schnittstellenfehler eine LII-Gruppe nicht beeinflusst,
wobei sie die Statusaktualisierung für alle LII-Gruppen ignoriert.
Die LFI-Funktion HandleInterfaceError() bestimmt jedoch, welche
LFT-Gruppe beeinflusst wird, und aktualisiert ihre Daten.
-
Nachdem
die EAC eine Änderung
der Statusinformationen für
eine gegebene Schnittstellengruppe empfangen hat, muss sie in einer
Ausführungsform
sicherstellen, dass alle relevanten Informationen eine Chance gehabt
haben, berichtet zu werden, bevor eine Bestimmung der fehlerhaften
FRU ausgeführt
wird. Deshalb kann eine vorgegebene Warteperiode verwendet werden,
um alle relevanten Informationen zu empfangen, bevor mit der Analyse
und Korrelation fortgefahren wird.
-
In 3B ist
eine EAC-Schnittstellengruppen-Zustandsmaschine (EAC-IGSM) für das EAC-Modul 313 nach 3A gezeigt
und im Allgemeinen durch das Bezugszeichen 300B bezeichnet.
Wie angegeben ist, sammelt das EAC-Modul 313 die Informationen
von verschiedenen Komponenten oder FRUs in jedem Baugruppenträger, bevor
die fehlerhafte(n) FRU(s) bestimmt wird (werden), wobei dies durch
die EAC-IGSM ausgeführt
wird. Die EAC-IGSM ist allen LII- und
LFI-Fehlerbehandlungen gemeinsam und schafft ein Entprellungsintervall,
bevor das EAC-Modul 313 die Fehlerkorrelation für die Schnittstellengruppe ausführt. Wie
in 3B gezeigt ist, besitzt in einer Ausführungsform
die EAC-IGSM drei
Zustände:
den fehlerfreien Zustand 352, den Wartezustand 354 und
den stationären
Fehlerzustand 356.
-
Im
vorliegenden veranschaulichenden Beispiel kann das EAC-Modul 313 die
Fehler von der LFI-Gruppe, der LIIa-Gruppe und der LIIb-Gruppe abwickeln
(2C). Außerdem
kann die EAC 313 die LFI- und LII-Schnittstellengruppen
für verschiedene
Baugruppenträgertypen,
wie z. B. einen PS 205 oder einen HSPS 203, unterstützen. Die
Gesamtzahl der LFI- und LII-Gruppen pro Baugruppenträger basiert
auf dem Baugruppenträgertyp,
wobei es eine EAC-IGMS
für jede
Schnittstellengruppe gibt. Wenn ein Baugruppenträger zuerst konfiguriert wird,
gibt jede EAC-IGSM den fehlerfreien Zustand 352 als den
Anfangszustand vor. Der fehlerfreie Zustand 352 zeigt an,
dass in allen Schnittstellen keine Fehler vorhanden sind. Die EAC-IGSM
bleibt in diesem fehlerfreien Zustand 352, bis ein Schnittstellenfehler
erfasst wird. Wenn es Komponentenstatusänderungen oder Komponentenredundanzänderungen
gibt, die eine gegebene Schnittstellengruppe beeinflussen, werden ihre
Daten aktualisiert, wie früher
beschrieben worden ist. Ihre EAC-IGSM verbleibt jedoch im fehlerfreien
Zustand 352. Bei der Erfassung eines Schnittstellenfehlers
zeichnet jedoch die EAC 313 den Fehler im Datenfeld der
Schnittstellengruppe auf, wobei die EAC-IGSM in den Wartezustand 354 geht.
-
Der
Wartezustand 354 erlaubt, dass weitere Fehler und Statusänderungen,
die die Schnittstellengruppe umfassen, während einer vorgegebenen Zeitperiode
zur EAC 313 berichtet werden. Die Dauer der Zeitperiode
kann z. B. davon abhängig
sein, wie oft Fehler berichtet werden und wie lange es dauert, bis
die Nachrichten von der Betriebsmittelschicht 320 zur Managementschicht 310 verbreitet
werden. Während
sich die EAC 313 im Wartezustand 354 befindet,
zeichnet sie neu berichtete Fehler in den Daten der Schnittstellengruppe
auf, aber sie korreliert die Daten nicht. Beim Eintreten in den
Wartezustand 354 startet die EAC-IGSM den Zeitgeber 316.
Wenn der Zeitgeber 316 abläuft, bestimmt die EAC-IGSM
den nächsten
Zustand, indem sie überprüft, ob es
irgendwelche aufgezeichneten ausstehenden Schnittstellenfehler gibt.
Falls alle Schnittstellenfehler beseitigt sind, wenn der Zeitgeber 316 abläuft, (d.
h. es ist kein Fehler oder Defekt persistent), geht die EAC-IGSM
zurück
in den fehlerfreien Zustand 352 und entfernt alle Komponenten-
und Fabric-"Mängelpunkte", die sie in der
Vergangenheit zugewiesen haben kann. Andernfalls tritt die EAC-IGSM
in den stationären
Fehlerzustand 356 ein und beginnt die Fehleranalyse und
-korrelation, um die fehlerhafte FRU zu bestimmen.
-
Im
stationären
Fehlerzustand 356 bestimmt die EAC 313 die fehlerhafte(n)
FRU(s), die für
die Schnittstellenfehler verantwortlich ist (sind), gemäß der vorliegenden
Ausführungsform.
Diese Bestimmung basiert auf einer Korrelation der von der Schnittstellengruppe
gesammelten Informationen, wie z. B. dem Komponententyp, dem Komponentenstatus
und der Redundanzkonfiguration. Sobald die FRU(s), die für die Schnittstellenfehler
verantwortlich gemacht werden sollte(n), bestimmt worden ist/sind,
berichtet die EAC 313 die fehlerhaften FRUs der Benutzer-Managementschnittstelle
und ordnet dementsprechend anhand der vorhergehenden Fehlerhistorie
für diese
Schnittstellengruppe Mängelpunkte
zu oder entfernt dementsprechend anhand der vorhergehenden Fehlerhistorie
für diese
Schnittstellengruppe Mängelpunkte.
In dem Beispiel einer LFI-Gruppe können die Mängelpunkte über das Mehrfach-Baugruppenträger-Fabric-AM 318 dem
Fabric einer FIC (2C) oder einer LC über ihr
LC-AM-Objekt 316 zugewiesen werden. Nachdem dieser Schritt
unternommen worden ist, bleibt die EAC-IGSM im stationären Fehlerzustand 356,
bis es eine weitere Statusänderung,
die ihre Schnittstellengruppe einschließt, gibt, was die EAC-IGSM
veranlasst, zurück
in den Wartezustand 354 zu geben. Diese Statusänderung
könne z.
B. die Hinzufügung
oder die Entfernung eines Schnittstellenfehlers, eine Komponentenstatusänderung
(z. B. vom OK-Zustand in den Fehlerzustand) oder eine Änderung
der Komponentenredundanzkonfiguration (z. B. von redundant zu nicht
redundant) sein.
-
Für jede Schnittstellengruppe
(
2C) ist klar, dass die berichteten Fehler durch
die EAC
313 in verwandte Kategorien für die Korrelation klassifiziert
werden können.
Die LFI-Schnittstellenfehler können
z. B. als Datenpfadschnittstellen-Fehler, Steuerpfadschnittstellen-Fehler
oder Konnektivitätsfehler
kategorisiert werden. Ähnlich
können
die LII-Schnittstellenfehler als Datenpfadschnittstellen-Fehler
oder Steuerpfadschnittstellen-Fehler kategorisiert werden. Die Tabelle
B stellt ein Beispiel der Schnittstellenfehlerkategorien für jeden Schnittstellengruppentyp
in der vorliegenden veran schaulichenden Ausführungsform dar. Die Fehler
in den separaten Kategorien mit der gleichen Schnittstellengruppe
werden als orthogonal betrachtet und können unabhängig korreliert werden, obwohl
die Korrelation die gleichen Kartenstatus- und Redundanzinformationen
einbezieht. TABELLE B
Fehlerkategorie | Beispiele
der erfassten unbestimmten Schnittstellenfehler |
LFI-Datenpfad | – Ein am
Eingangsdateneingang einer FIC erfasster Paritätsfehler.
– Ein am
Ausgangsdateneingang einer LC erfasster Verlust des Taktes. |
LFI-Steuerpfad | – Ein durch
die HSPS-LC im von der FIC gesendeten Gegendruck-Steuerrahmen erfasster
Rahmenfehlsynchronisations-Fehler. |
LPI-Konnektivität | – Ein Ausfall
der Zellentestdiagnostik, die durch die LC ausgeführt wird,
die periodisch eine Testzelle aus dem Fabric prellt. |
LII-Datenpfad | – Ein am
Eingangsdateneingang einer LC erfasster Zellenkopftest-Fehler.
– Ein am
Ausgangsdateneingang einer IOC erfasster Zellenfehlsynchronisations-Fehler. |
LII-Steuerpfad | – Ein durch
eine IOC in einem durch eine LC gesendeten Steuerrahmen erfasster
Paritätsfehler.
– Ein durch
eine LC in einem von einer IOC gesendeten Steuerrahmen erfasster
Synchronisationsfehler. |
-
Wenn
eine EAC-IGSM für
eine LFI- oder LII-Gruppe in den stationären Fehlerzustand 356 eintritt,
führt sie
in einer Ausführungsform
die Fehleranalyse und -korrelation anhand der durch das EAC-Modul 313 für diese Schnittstellengruppe
gesammelten Daten aus. Diese Daten enthalten z. B. den Status aller
Komponenten in der Schnittstellengruppe (OK oder fehlerhaft/mangelhaft),
ob die LCs in der Gruppe für
die Redundanz konfiguriert sind und eine Liste aller Komponentenschnittstellen,
die gegenwärtig
Fehler in der gegebenen Kategorie (z. B. Datenpfad, Steuerpfad)
erleben.
-
In
einer Ausführungsform
besteht der erste Schritt des Korrelationsverfahrens darin, zu bestimmen, welche
Schnittstellenfehler ignoriert werden können. Die Fehler in einer gegebenen
Schnittstelle werden ignoriert, wenn irgendeine über diese Schnittstelle angeschlossene
Karte einen Fehler aufweist. Wenn eine Komponente oder FRU einen
Fehler aufweist, wird die fehlerhafte FRU der Benutzer-Managementschnittstelle
berichtet, wobei eine Redundanzvermittlung weg von der fehlerhaften
FRU ausgeführt
werden kann. In diesem Fall gibt es keine Notwendigkeit, dass das
EAC-Modul 313 weitere Schritte gegen die auf Grund des
Schnittstellenfehlers fehlerhafte FRU unternimmt. Nach dem Untersuchen
des Status aller Komponenten oder FRUs in der Schnittstellengruppe
wird das EAC-Modul 313 mit einer Liste ausstehender Schnittstellenfehler
zurückgelassen,
die nicht einer vorher identifizierten fehlerhaften Komponente zugeschrieben
werden können.
-
Für die Veranschaulichung
dieser Ausführungsform
wird nun das Fehleranalyse- und -korrelationsverfahren für Schnittstellenfehler,
die in einer LFI-Gruppe
in einer ihrer Kategorien auftreten, beschrieben.
-
Das LFI-Fehleranalyse- und -korrelationsverfahren
-
In 4 ist
ein veranschaulichender Prozess, der Regeln implementiert, um zu
bestimmen, welche FRU(s) für
irgendwelche ausstehenden Schnittstellenfehler einer LFI-Gruppe
(2C) verantwortlich gemacht werden sollte(n), gezeigt
und im Allgemeinen durch das Bezugszeichen 400 bezeichnet.
Der Prozess 400, der eine EAC-Funktion für die LFI-Schnittstellenfehlerkorrektur
beschreibt, beginnt im Block 402 und durchläuft durch
jede Komponente oder Karte in der LFI-Gruppe eine Schleife, wie
gezeigt ist. In einer Ausführungsform
kann der Prozess 400 mit den FICs beginnen und mit den
LCs enden. Es ist jedoch klar, dass der Prozess 400 stattdessen
mit den LCs beginnen kann, wobei in diesem Fall die Bezugnahmen
auf die FICs und LCs im Prozess 400, der in 4 gezeigt
ist, vertauscht sein würden.
-
Für jede Komponente
oder Karte zählt
der Prozess 404 die Anzahl der Schnittstellenfehler, die
die Komponente einschließen.
Falls die Antwort auf die Frage im Block 406 (ist der Fehler-Zählerstand
größer als 1?)
ja lautet, geht der Prozess 400 zum Block 408 weiter
und macht die Komponente für
die mehreren Fehler verantwortlich. Falls die verantwortlich gemachte
Karte eine FIC 218 (2C) ist,
weist das EAC-Modul 313 durch das Mehrfach-Baugruppenträger-Fabric-AM-Objekt 318 dem
Fabric dieser FIC Mängelpunkte
zu, falls es dies nicht bereits entsprechend irgendeiner früheren Fehlerhistorie
getan hat (d. h. die FIC bereits getadelt worden ist). Falls die
verantwortlich gemachte Karte eine LC ist, tadelt das EAC-Modul 313 diese
LC durch ihr LC-AM-Objekt 316,
falls es dies nicht bereits entsprechend ihrer früheren Fehlerhistorie
getan hat.
-
Falls
die Antwort auf die Frage im Block 406 nein lautet, geht
der Prozess 400 zum Block 412 weiter, in dem der
Prozess 400 fragt, ob das Ergebnis der Zählung im
Block 404 gleich 1 ist und der Kartentyp LC ist. Falls
die Antwort nein lautet, geht der Prozess 400 zum Block 410 weiter
und geht zur nächsten
Komponente in der Schnittstellengruppe, indem er in der Schleife
zurück
zum Block 402 läuft.
Falls die Antwort auf die Frage im Block 412 ja lautet,
geht der Prozess 400 zum Block 414 weiter und
fragt, ob die mit dem anderen Ende der fehlerhaften Schnittstelle
der LC verbundene FIC bereits für
Schnittstellenfehler verantwortlich gemacht worden ist. Falls die
Antwort ja lautet, geht der Prozess 400 zum Block 410 weiter
und geht zur nächsten
Komponente in der Schnittstellengruppe, indem er in der Schleife
zurück
zum Block 402 läuft.
Falls die Antwort auf die Frage im Block 414 nein lautet,
geht der Prozess 400 zum Block 416 weiter und
fragt, ob die LC Teil eines mängelfreien
redundanten Paares ist (d. h. beide LCs des redundanten Paares besitzen
einen Status von OK). Falls die Antwort ja lautet, macht der Prozess
im Block 418 die LC für
den einzelnen Fehler verantwortlich, damit ein fehlerfreier aktiver
Pfad durch eine LC-Aktivitätsvermittlung
wiederhergestellt werden kann, anstatt das ganze Fabric zu vermitteln
(und potentiell einen größeren Zellenverlust
zu verursachen). Demzufolge weist das EAC-Modul 313 der
LC durch ihr LC-AM-Objekt 316 Mängelpunkte zu, falls es dies
nicht bereits entsprechend ihrer Fehlerhistorie getan hat.
-
Falls
die Antwort auf die Frage im Block 416 nein lautet, geht
der Prozess 400 zum Block 420 weiter und macht
die zugeordnete FIC für
den einzelnen Fehler verantwortlich, weil ohne LC-Redundanz eine
Fabric-Aktivitätsvermittlung
erforderlich ist, um einen fehlerfreien aktiven Datenpfad wiederherzustellen.
Demzufolge weist das EAC-Modul 313 durch das Mehrfach-Baugruppenträger-Fabric-AM-Objekt 318 dem
Fabric der FIC Mängelpunkte
zu, falls es dies nicht bereits getan hat. Vom Block 420 geht
der Prozess 400 zum Block 410 weiter und läuft in der
Schleife zum Block 402 zurück, bis alle Komponenten in
der Schnittstellengruppe analysiert und korreliert worden sind.
-
Während oben
eine mögliche
Ausführungsform
gezeigt und beschrieben worden ist, ist klar, dass andere ähnliche
Prozesse verwendet werden können,
um eine fehlerhafte Komponente in der Schnittstellengruppe zu analysieren
und ihr die Verantwortung zuzuweisen.
-
Nun
wird ein weiteres Beispiel eines Fehleranalyse- und -korrelationsverfahrens
für Schnittstellenfehler,
die in einer LII-Gruppe in einer ihrer Kategorien auftreten, bereitgestellt.
-
Das LII-Fehleranalyse- und
-korrelationsverfahren
-
In 5 ist
ein Ablaufplan eines veranschaulichenden Prozesses, der Regeln implementiert,
um zu bestimmen, welche FRU(s) für
die ausstehenden Schnittstellenfehler einer LII-Gruppe (2C)
verantwortlich gemacht werden sollte(n), gezeigt und im Allgemeinen
durch das Bezugszeichen 500 bezeichnet. Der Prozess 500,
der eine EAC-Funktion für
die LII-Schnittstellenfehlerkorrektur beschreibt, beginnt im Block 502 und durchläuft durch
jede Komponente in der LII-Gruppe eine Schleife, wie gezeigt ist.
In einer Ausführungsform kann
der Prozess 500 mit den IOCs beginnen und mit den LCs enden.
Es ist jedoch abermals klar, dass der Prozess 500 stattdessen
mit den LCs beginnen könnte,
wobei aber die Bezugnahmen auf die IOCs und LCs im Prozess 500,
der in 5 gezeigt ist, vertauscht sein würden.
-
Im
Block 504 zählt
der Prozess 500 für
jede Komponente die Anzahl der Schnittstellenfehler, die die Komponente
einschließen.
Dann geht der Prozess 500 zum Block 506 weiter,
wobei, falls die Antwort auf die Frage im Block 506 (ist
der Fehler-Zählerstand
im Block 504 größer als
1?) ja lautet, der Prozess 500 zum Block 508 weitergeht
und die Komponente mit dem Mehrfachfehlerzählerstand als die fehlerhafte
FRU verantwortlich macht. Falls die verantwortlich gemachte FRU
eine IOC ist, weist das EAC-Modul 316 dieser IOC durch
ihr IOC-AM-Objekt 317 Mängelpunkte
zu, falls es dies nicht bereits entsprechend ihrer Fehlerhistorie
getan hat.
-
Falls
die Antwort auf die Frage im Block 506 nein lautet, geht
der Prozess 500 zum Block 512 weiter und fragt,
ob der Fehlerzählerstand
im Block 504 gleich 1 ist und der Kartentyp LC ist. Falls
die Antwort nein lautet, geht der Prozess 500 zum Block 510 weiter
und geht zur nächsten
Komponente in der Schnittstellengruppe, indem er in der Schleife
zurück
zum Block 502 läuft.
Falls die Antwort auf die Frage im Block 506 ja lautet,
geht der Prozess 500 zum Block 514 weiter und
fragt, ob die mit dem anderen Ende der fehlerhaften Schnittstelle
der LC verbundene IOC bereits für
Schnittstellenfehler verantwortlich gemacht worden ist. Falls die
Antwort ja lautet, geht der Prozess 500 zum Block 510 weiter
und geht zur nächsten
Komponente in der Schnittstellengruppe, indem er in der Schleife
zurück
zum Block 502 läuft.
Falls die Antwort auf die Frage im Block 514 nein lautet,
geht der Prozess 500 zum Block 516 weiter und
fragt, ob die LC Teil eines mängelfreien redundanten
Paares ist (d. h. beide LCs besitzen einen Status von OK). Falls
die Antwort ja lautet, geht der Prozess 500 zum Block 518 und
macht die LC für
den einzelnen Fehler verantwortlich, damit ein fehlerfreier aktiver
Datenpfad durch eine LC-Aktivitätsvermittlung
wiederhergestellt werden kann. Demzufolge weist das EAC-Modul 313 der
LC durch ihr LC-AM-Objekt 316 Mängelpunkte zu, falls es dies
nicht bereits getan hat.
-
Falls
die Antwort auf die Frage im Block 516 nein lautet, geht
der Prozess 500 zum Block 520 weiter und macht
die IOC für
den einzelnen Fehler verantwortlich. Demzufolge weist das EAC-Modul 313 der
IOC durch ihr IOC-AM-Objekt 317 Mängelpunkte
zu, falls es dies nicht bereits getan hat. Vom Block 520 geht
der Prozess 500 zum Block 510 weiter, wobei, falls
es in der Schnittstellengruppe irgendwelche weiteren Komponenten
gibt, der Prozess 500 in der Schleife zurück zum Block 502 läuft.
-
Es
wird angegeben, dass den Fachleuten auf dem Gebiet klar ist, dass
verschiedene Modifikationen der Einzelheiten an der vorliegenden
Ausführungsform
vorgenommen werden können,
wobei sie alle in den Umfang der Erfindung fallen würden. Vor
allem weisen die oben beschriebenen und gezeigten Prozesse eine iterative
Art auf, wobei sie durch jede Komponente innerhalb einer Schnittstellengruppe
gehen, um die Fehler- und Statusdaten zu sammeln, die für die Analyse
und die Korrelation erforderlich sind. Es ist jedoch klar, dass eine
derartige Sammlung der Daten in irgendeiner aus einer Anzahl von
Arten ausgeführt
werden kann, einschließlich
der gleichzeitigen Sammlung oder der parallelen Sammlung der Daten
durch die Verwendung einer Anzahl von Prozessen, bevor die Schnittstellengruppe
als Ganzes analysiert wird. Außerdem
ist klar, dass die durch die oben unter Bezugnahme auf die 4 und 5 beschriebenen
veranschaulichenden Prozesse implementierten Regeln alternativ in
einer Tabellen- oder Feldform implementiert sein können, wobei
ein oder mehrere Faktoreneingaben eine vorgegebene Ausgabe erzeugen.