DE60314025T2

DE60314025T2 - System und Verfahren zur Identifizierung einer fehlerhaften Komponente in einem Netzwerkelement

Info

Publication number: DE60314025T2
Application number: DE60314025T
Authority: DE
Inventors: Karen Margaret Nepean Wilson; Andre Hull Poulin; Jiang Kanata Wang
Original assignee: Alcatel Canada Inc
Current assignee: Nokia Canada Inc
Priority date: 2002-01-24
Filing date: 2003-01-23
Publication date: 2008-01-24
Anticipated expiration: 2023-01-24
Also published as: US7082554B2; EP1333615B1; US20030145249A1; EP1333615A2; CA2369351A1; EP1333615A3; DE60314025D1

Description

Die Erfindung bezieht sich im Allgemeinen auf ein Verfahren und ein System zum Analysieren und Korrelieren von in Komponentenschnittstellen innerhalb eines Netzelements erfassten Fehlern.
In einem Kommunikationsnetz gibt es einen Bedarf, ein hohes Niveau der Dienstverfügbarkeit des Datenverkehrs, der sich in dem Netz bewegt, bereitzustellen. Demzufolge sind für die Netzelemente im Kommunikationsnetz redundante Datenpfade vorgesehen. Falls es ein Problem bei einem speziellen Netzelement, wie z. B. einem Knoten oder einer Verbindung, gibt, wird der Datenverkehr auf einen alternativen Datenpfad umgeleitet. Da die Dienstverfügbarkeit jedes Knotens und jeder Verbindung die Gesamtdienstverfügbarkeit des Netzes beeinflussen kann, ist es auf der Ebene der Netzelemente notwendig, jeden Knoten und jede Verbindung nach Fehlern zu überwachen, um ein hohes Niveau der Dienstverfügbarkeit für diese Knoten und Verbindungen aufrechtzuerhalten.
Ein Knoten, der eine Weiterleitungs-Vermittlung umfasst, kann z. B. nach Fehlern überwacht werden, so dass seine Dienstverfügbarkeit auf einem hohen Niveau aufrechterhalten werden kann. Während das Bereitstellen redundanter Datenpfade innerhalb der Weiterleitungs-Vermittlung das Problem des Aufrechterhaltens einer hohen Dienstverfügbarkeit teilweise anspricht, ist es außerdem erwünscht, einen Fehler isolieren zu können und irgendwelche fehlerhaften Komponenten innerhalb der Weiterleitungs-Vermittlung reparieren oder ersetzen zu können, so dass die in die Weiterleitungs-Vermittlung eingebaute Redundanz fortgesetzt vollständig funktionsfähig bleibt.
Bekannte Verfahren zum Identifizieren einer fehlerhaften Komponente sind durch die Patentanmeldungen WO 01/77828A und EP-A-0549937 offenbart.
Im Stand der Technik sind verschiedene Lösungen vorgeschlagen worden, um Fehler in einem Knoten, wie z. B. einer Weiterleitungs-Vermittlung, zu isolieren, so dass eine fehlerhafte Komponente oder eine Austauscheinheit (FRU) identifiziert und ersetzt werden kann. In komplexeren Konfigurationen, die mehrere Fehlerangaben bereitstellen, kann die Quelle eines Fehlers jedoch unbestimmt sein. Dies ist besonders problematisch, wo die Fehlerangaben an einer Schnittstelle auftreten, die eine Komponente mit einer oder mehreren anderen Komponenten verbindet. Während eine schrittweise manuelle Prüfung jeder Komponente schließlich die fehlerhafte Komponente durch ein empirisch-praktisches Verfahren identifizieren kann, kann der Prozess unzuverlässig und zeitraubend sein.
Es ist eine Aufgabe der vorliegenden Erfindung, ein Verfahren zum Identifizieren einer fehlerhaften Komponente in einer Gruppe von Komponenten zu schaffen, das eine umfassendere Art zum Analysieren und Korrelieren von Fehlern, die innerhalb einer Gruppe von Komponenten oder FRUs auftreten, erlaubt, so dass die Identifikation der fehlerhaften FRU verbessert ist.
Genauer schafft die vorliegende Erfindung ein Verfahren zum Identifizieren einer fehlerhaften Komponente in einer Gruppe von Komponenten nach Anspruch 1.
Gemäß einem zweiten Aspekt wird ein System zum Identifizieren einer fehlerhaften Komponente in einer Gruppe von Komponenten nach Anspruch 11 geschaffen.
Die vorhergehenden und anderen Aspekte der Erfindung werden aus der folgenden Beschreibung ihrer spezifischen Ausführungsformen und der beigefügten Zeichnung, die lediglich beispielhaft die Prinzipien der Erfindung veranschaulichen, offensichtlicher. In der Zeichnung, in der gleiche Elemente gleiche Bezugszeichen aufweisen (und in der einzelne Elemente eindeutige alphabetische Suffixe tragen), zeigen:
1 einen Blockschaltplan eines Kommunikationsnetzes, das mehrere Netzelemente einschließlich eines Knotens, der eine Weiterleitungs-Vermittlung umfasst, umfasst;
2A einen schematischen Blockschaltplan verschiedener Komponenten der Weiterleitungs-Vermittlung nach 1;
2B einen Blockschaltplan einer möglichen Anordnung verschiedener FRUs, die innerhalb verschiedener Baugruppenträger der Weiterleitungs-Vermittlung nach 1 konfiguriert sind;
2C einen Blockschaltplan, der ein Beispiel der verschiedenen definierten Schnittstellengruppen zeigt, die Sätze verbundener FRUs innerhalb eines Peripherie-Baugruppenträgers in 2B umfassen;
3A eine schematische graphische Darstellung einer Architektur einer diagnostischen Infrastruktur-Software, die einem Fehleranalyse- und -korrektur-Verfahren und -System (EAC-Verfahren und -System) gemäß einer Ausführungsform der vorliegenden Erfindung zugeordnet ist und die verwendet werden kann, um fehlerhafte Komponenten oder FRUs innerhalb einer ausgewählten Schnittstellengruppe in 2C zu identifizieren;
3B ein Zustandsdiagramm, das eine EAC-Zustandsmaschine zeigt, die einer Schnittstellengruppe zugeordnet ist, die durch das in 3A gezeigte EAC-Modul analysiert wird;
4 einen Ablaufplan eines beispielhaften Prozesses, der den Betrieb des EAC-Verfahrens und -Systems gemäß einer Ausführungsform veranschaulicht, um eine fehlerhafte FRU innerhalb einer LFI-Schnittstellengruppe (die im Folgenden weiter definiert ist) zu identifizieren, der in 3A gezeigt ist; und
5 einen Ablaufplan eines beispielhaften Prozesses, der den Betrieb des EAC-Verfahrens und -Systems gemäß einer Ausführungsform veranschaulicht, um eine fehlerhafte FRU innerhalb einer LII-Schnittstellengruppe (die im Folgenden weiter definiert ist) zu identifizieren, der in 2C gezeigt ist.
Die folgende Beschreibung und die darin beschriebenen Ausführungsformen sind als Veranschaulichung eines Beispiels oder von Beispielen von speziellen Ausführungsformen der Prinzipien der vorliegenden Erfindung vorgesehen. Diese Beispiele sind zum Zweck der Erklärung und nicht der Einschränkung dieser Prinzipien und der Erfindung vorgesehen. In der folgenden Beschreibung sind gleiche Teile überall in der Beschreibung und in der Zeichnung mit den gleichen entsprechenden Bezugszeichen markiert.

In dieser Beschreibung werden die folgenden Akronyme verwendet.

Acronym	Beschreibung
AE	Anwendungsumgebung – Bezieht sich auf einen Software-Bereich in einer Steuerkarte, der alle AM-Objekte und einen Nachrichten-Server umfasst.
AM CAM	Anwendungsmodul – Ein Software-Modul, das sich sowohl mit physikalischen Systemkomponenten, wie z. B. Karten, Anschlüssen und Strömen, als auch Anwendungen, die sich mit nichtphysikalischen Komponenten, wie z. B. Alarmen und Systemkomponenten, befassen, befasst. Kartenanwendungsmodul – Ein Anwendungsmodul-Objekt, das in einer Karte steht und für das Übertragen von Konfigurations- und Statusinformationen mit dem entsprechenden AM in der Steuerkarte verwendet wird.
EAC	Fehleranalyse und -korrelation
FIC	Fabric-Schnittstellenkarte
FRU	Austauscheinheit – Eine physikalische Entität in einem System oder Knoten, die ersetzt werden kann, um Probleme zu beseitigen oder um Hochrüstungen auszuführen.
HSPS IGSM	Hochgeschwindigkeits-Peripherie-Baugruppenträger Schnittstellengruppen-Zustandsmaschine
IOC	E/A-Karte – Eine FRU, die an einer Leitungskarte angebracht ist und mit Kommunikationsverbindungen einschließlich Verbindungen von anderen Knoten verbunden ist.
LC	Leitungskarte
LFI	LC/FIC-Schnittstelle
LII	LC/IOC-Schnittstelle
PS	Peripherie-Baugruppenträger

Das Folgende ist ein veranschaulichendes Beispiel eines Kommunikationsnetzes, das mehrere Netzelemente (z. B. einen Knoten, der eine Weiterleitungs-Vermittlung umfasst) umfasst, in dem das Verfahren und das System für die Fehleranalyse und -korrelation (EAC) gemäß einer Ausführungsform der Erfindung praktiziert werden können.
In 1 ist ein Kommunikationsnetz 100 gezeigt. Das Netz 100 erlaubt den Vorrichtungen (wie z. B. den Teilnehmereinrichtungen oder CPEs) 102a, 102b und 102c, mit anderen Vorrichtungen 104A und 104B über die Netzwolke 106 zu kommunizieren. Die CPEs 102a, 102b, 102c können mit einem Knoten 112a verbunden sein, der Zugriff auf die Daten 114 haben kann und ferner mit einem Netzübergangsknoten oder einer Weiterleitungs-Vermittlung 108 am Netzübergang der Netzwolke 106 verbunden ist. Die Weiterleitungs-Vermittlung 108 dient als der Verbindungspunkt für die verschiedenen Knoten 112a, 112b für den Zugriff auf die Netzwolke 106.
In der Netzwolke 106 sind mehrere Vermittlungen 110a, 110b und 110c verbunden, wobei sie die Kommunikations-Haupttrasse der Netzwolke 106 bilden. Die Verbindungen von der Netzwolke 106 sind wiederum über verschiedene andere (nicht gezeigte) Verbindungen und Vermittlungen mit den Vorrichtungen 104a und 104b verbunden.
Während eine Weiterleitungs-Vermittlung 108 als ein veranschaulichendes Beispiel für den Zweck dieser Erörterung ausgewählt worden ist, ist klar, dass die Lehren der vorliegenden Erfindung auf praktisch jeden Knotentyp anwendbar sind, der Fehlererfassungsfähigkeiten besitzt und eine oder mehrere Komponenten oder FRUs umfasst, die für die Fehleranalyse und -korrelation zusammen gruppiert werden können, wie im Folgenden ausführlicher beschrieben ist.
In 2A sind die Einzelheiten eines Knotens gezeigt, in dem die Weiterleitungs-Vermittlung 108 eine Mehrprotokoll-Weiterleitungs-Vermittlungs-Plattform ist, die mehrere Kommunikationsverbindungen verbinden und vermitteln kann. Die Weiterleitungs-Vermittlung 108 erlaubt die Skalierung der Vermittlungskapazität durch Einfügen oder Entfernen von Baugruppenträgern und Komponenten in die Weiterleitungs-Vermittlung 108.
Wie in 2B und unter Bezugnahme auf 2A gezeigt ist, kann die Weiterleitungs-Vermittlung 108 z. B. zwei Vermittlungs-Baugruppenträger 200X und 200Y, einen Steuerkomplex 202 und verschiedene Peripherie-Baugruppenträger 203, 205, 207 umfassen. Der Steuerkomplex 202 kann sich in einer Ausführungsform im Baugruppenträger 207 befinden, wobei er die Steuerkarten 224 umfasst, die ein zentrales Management für die Weiterleitungs-Vermittlung 108 bereitstellen können.
Die Vermittlungs-Baugruppenträger 200X und 200Y schaffen eine Datenzellen-Vermittlungskapazität für die Weiterleitungs-Vermittlung 108. Die Peripherie-Baugruppenträger 203, 205, 207 schaffen eine E/A-Konnektivität für die Weiterleitungs-Vermittlung 108, die den Anschluss verschiedener Vorrichtungstypen, wie z. B. der Teilnehmer-CPEs 102a, 102b und 102c, erlaubt, die durch den Knoten 112a mit der Weiterleitungs-Vermittlung 108 verbunden sind (1).
In einer Ausführungsform ermöglichen die Kommunikationsverbindungen 206, 208 den Vermittlungs-Baugruppenträgern 200X, 200Y, den Peripherie-Baugruppenträgern 203, 205, 207 und dem Steuerkomplex 202, einander Daten und Statusinformationen mitzuteilen. Hochgeschwindigkeitsverbindungen zwischen den Baugruppenträgern (HISLs) 206 verbinden die Vermittlungs-Baugruppenträger 200X, 200Y mit den verschiedenen Peripherie-Baugruppenträgern 203, 205, 207. Die Steuerdienstverbindungen (CSLs) 208 verbinden den Steuerkomplex 202 mit den Vermittlungs-Baugruppenträgern 200X und 200Y und mit den Peripherie-Baugruppenträgern 203, 205, 207.
In den 2A und 2B enthält in einer Ausführungsform jeder Vermittlungs-Baugruppenträger 200X und 200Y einen Vermittlungs-Fabric-Kern 214 und bis zu 32 Vermittlungs-Zugangskarten (SACs) 212. Wie in 2B gezeigt ist, kommuniziert jede FIC 218, 218', 218'' in den Peripherie-Baugruppenträgern 205, 203, 207 über die SACs 212 mit dem Vermittlungskern 214.
Zum Zweck der Veranschaulichung werden nun zwei Typen der Peripherie-Baugruppenträger 203, 205, die in 2B gezeigt sind, ausführlicher beschrieben.
Der erste Typ ist ein regulärer Peripherie-Baugruppenträger (PS), der als der Baugruppenträger 205 dargestellt ist. Der PS 205 enthält die LCs 220, die IOCs 222 und die FICs 218. Die FICs 218 können entweder als Doppel-Fabric-Schnittstellenkarten (DFIC) oder als Vierfach-Fabric-Schnittstellenkarten (QFIC) konfiguriert sein.
Der zweite Typ ist ein Hochgeschwindigkeitsperipherie-Baugruppenträger (HSPS), der als der Peripherie-Baugruppenträger 203 dargestellt ist. Der HSPS 203 enthält Hochgeschwindigkeits-Leitungsverarbeitungs-Karten (HSLP-Karten) 220', E/A-Karten 222', Hochgeschwindigkeits-Fabric-Schnittstellenkarten (HFICs) 218' und zwei redundante Hochgeschwindigkeits-Baugruppenträger-Steuereinheits-Karten (HSC-Karten) 224'.
In 2C ist eine vergrößerte Ansicht des Peripherie-Baugruppenträgers 205 nach 2B gezeigt. Wie gezeigt ist, können die Komponenten oder FRUs zusammen gruppiert sein, um verschiedene Schnittstellengruppen zu definieren. Die Schnittstelle zwischen den LCs 220a, 220b und den IOCs 222a, 220b wird z. B. als Leitungskarten-IOC-Schnittstelle (LII) bezeichnet, wobei die LCs 220a, 220b und die IOCs 222a, 222b die LIIa-Gruppe bilden. Wie in 2C gezeigt ist, besitzt in der Gruppe LIIa jede IOC 222 eine Verbindung mit jeder LC 220, wobei dadurch ein redundanter Datenpfad für den Verkehr, der durch die LIIa verarbeitet wird, in dem Fall eines Ausfalls einer der IOCs 222 oder einer der LCs 220 geschaffen wird. Analog bilden die LCs 220c, 220d und die IOCs 222c, 222d die LIIb-Gruppe, wobei sie die gleiche redundante Struktur besitzen. Es ist jedoch klar, dass eine LII-Gruppe keine redundante Konfiguration besitzen muss, wie sie beschrieben worden ist (z. B. kann es anstelle von zwei eine einzige LC geben).
Als ein weiteres Beispiel wird die Schnittstelle zwischen den LCs 220a, 220b, 220c, 220d und den FICs 218a, 218b als eine Leitungskarten-Fabric-Karten-Schnittstelle (LFI) bezeichnet, wobei die LCs 220a, 220b, 220c, 220d und die FICs 218a, 218b die LFI-Gruppe bilden. Wie bei den oben beschriebenen LII-Gruppen besitzt jede LC 220 eine Verbindung zu jeder FIC 218, wobei dadurch ein redundanter Datenpfad für den Verkehr, der durch irgendeine Komponente in der LFI-Gruppe verarbeitet wird, geschaffen wird. Eine LFI-Gruppe muss jedoch keine redundante Konfiguration besitzen, wie sie beschrieben worden ist.
Im Allgemeinen kann eine Schnittstellengruppe an irgendeinem Schnittstellenpunkt zwischen den Sätzen von untereinander verbundenen Komponenten, wie z. B. der LIIa, der LIIb und der LFI, die in 2C gezeigt sind, gebildet werden. Vor allem bilden die LCs 220a, 220b, 220c, 220d und die IOCs 222a, 222b, 222c, 222d gemeinsam keine Schnittstellengruppe, da es z. B. keine gemeinsam benutzte Schnittstelle zwischen der LC 220a und der IOC 222c gibt. Eine Schnittstellengruppe umfasst jedoch wenigstens eine erste Komponente, die über eine Schnittstelle mit einer zweiten Kommunen verbunden ist, und ferner über die Schnittstelle mit wenigstens einer dritten Komponente verbunden ist.
Während hier eine spezifische FRU-Konfiguration beispielhaft beschrieben ist, ist klar, dass die Lehren der vorliegenden Erfindung auf praktisch jeden Typ der FRU-Konfiguration ausgedehnt werden können, die gruppiert und als Teil einer Schnittstellengruppe definiert werden kann, wie oben beschrieben worden ist. Während in 2C beispielhaft drei Gruppen gezeigt sind, nämlich die LIIa-Gruppe, die LIIb-Gruppe und die LFI-Gruppe, ist es folglich selbstverständlich, dass verschiedene andere Schnittstellengruppen für andere Konfigurationen und andere Gruppen von FRUs definiert werden können.
Es wird außerdem angegeben, dass die Konfiguration in 2C zum Zweck der Veranschaulichung vereinfacht worden ist. In einer Ausführungsform kann z. B. jedes redundante Paar von LCs 220' in einem HSPS 203 mit bis zu acht IOCs 222' zwischen ihnen verbunden sein. In 2C sind für die Einfachheit nur zwei IOCs 222 gezeigt. Es ist klar, dass die spezielle Anordnung und Konfiguration der FRUs auf ihren technischen Konstruktions- und Verbindungsfähigkeiten basieren und von denen, die in 2C gezeigt sind, verschieden sein können.
In 3A ist eine System-Fehleranalyse und -korrelation (System-EAC) gemäß einer Ausführungsform gezeigt und durch das Bezugszeichen 300A im Allgemeinen bezeichnet. Wie im Folgenden weiter erklärt wird, ist die EAC besonders geeignet, um persistente Fehler zu analysieren und zu korrelieren, die in einer Komponentenschnittstelle erfasst werden, und wo die isolierte Komponente nicht bestimmen kann, ob sie für die Verursachung des Fehlers verantwortlich ist oder ob der Fehler durch eine weitere Komponente, die mit dieser Schnittstelle verbunden ist, verursacht worden ist.
Wie in 3A gezeigt ist, umfasst die diagnostische Infrastruktur 300A eine Managementschicht 310, die Kenntnis vom Status des ganzen Netzelements besitzt, und eine Betriebsmittelschicht 320, die in jeder Komponente oder FRU steht und nur die Kenntnis besitzt, die diese FRU betrifft.
Die Managementschicht kann z. B. Software-Module umfassen, die im Steuerkomplex 202 arbeiten. Die Managementschicht 310 empfängt Fehlerstatusberichte von den Elementen in der Betriebsmittelschicht 320. Diese Berichte werden zum Systemdiagnose-AM 312 kanalisiert, das einfach ein Container-Objekt für jedes EAC-Software-Modul 313 ist. Folglich versieht das Systemdiagnose-AM 312 das EAC-Modul 313 mit einer externen Schnittstelle zu anderen AM-Objekten. Anhand der Fehlerstatusberichte bewertet das EAC-Modul 313 die Mängelfreiheit der überwachten Elemente, um wahrscheinlich defekte Komponenten zu identifizieren, wenn durch die Elemente in der Betriebsmittelschicht 320 Fehler gemeldet werden. Ein Zeitgeber 316 ist durch das EAC-Modul zugänglich, um die verschiedenen hierin beschriebenen EAC-Tasks auszuführen.
In einer Ausführungsform sind die Fehlerstatus-Aktualisierungen Nachrichten, die von der Betriebsmittelschicht 320 in verschiedenen FRUs (z. B. in einer Baugruppenträger-Steuereinheit oder einer Leitungskarte, wie in 3A gezeigt ist) an die Managementschicht 310 gesendet werden. In der Managementschicht 310 leitet ein AE-Server-Task 319 die Nachrichten zum entsprechenden AM-Objekt weiter. Das AM-Objekt leitet wiederum die relevanten Fehlerstatusinformationen zum EAC-Modul 313 weiter. In diesem veranschaulichenden Beispiel werden die Statusberichte durch die EAC 313 von verschiedenen AM-Objekten, einschließlich z. B. eines FIC-AM-Objekts 314, eines Leitungskarten-AM-Objekts (LC-AM-Objekts) 316 und eines IOC-AM-Objekts 317, empfangen.
In der Betriebsmittelschicht 320 überwacht jeder Diagnostik-Task 330 und 334 auf in den Komponenten oder FRUs erfasste Fehler, einschließlich Fehler, die in den Kommunikationsschnittstellen zu anderen FRUs (folglich "Schnittstellefehler") vorhanden sind. Die Schnittstellenfehler können auf Grund der Tatsache, dass eine isolierte FRU nicht bestimmen kann, ob sie für die Verursachung des Fehlers verantwortlich ist oder ob der Fehler durch eine weitere FRU auf der anderen Seite der Schnittstelle verursacht worden ist, unbestimmt sein. Falls ein Fehler erfasst wird oder ein Fehler beseitigt wird, berichten die Diagnostik-Tasks 330 und 334 diese Statusänderung dem CAM, das der FRU entspricht.
Beispielhaft sind in 3A ein FIC-CAM-Objekt 322, ein LC-CAM-Objekt 324 und ein IOC-CAM-Objekt 326 gezeigt. Die verschiedenen CAMs 322, 324, 326 sind Objekte des CLT-Server-Tasks 328, die einen Nachrichtenschnittstellenpunkt zwischen der Betriebsmittelschicht 320 und den entsprechenden AM-Objekten in der Managementschicht 310 schaffen.
In einer Ausführungsform kommunizieren die CAMs 322, 324, 326 über die Nachrichtenübermittlung zwischen dem AE-Server-Task 319 und den CTL-Server-Tasks 328 mit den entsprechenden Zugangsmodulen 314, 316 und 317.
Die durch den LC-Diagnostik-Task 330 und den FIC-Diagnostik-Task 334 erfassten Fehler werden z. B. über die entsprechenden AM- und CAM-Objekte zum EAC-Modul 313 weitergeleitet. Falls das EAC-Modul 313 bestimmt, dass eine spezielle FIC 218 eine fehlerhafte FRU ist, informiert das EAC-Modul 313 ein Mehrfach-Baugruppenträger-Fabric-AM 318, um den Fehler zu behandeln. Das Mehrfach-Baugruppenträger-Fabric-AM 318 weist dem geeigneten Fabric (d. h. dem Fabric 'X' oder dem Fabric 'Y' in den 2A ... 2C) Mängelpunkte zu, um möglicherweise eine Fabric-Aktivitätsvermittlung entfernt von der fehlerhaften FIC 218 zu verursachen. Falls andernfalls eine LC 220 oder eine IOC 222 fehlerhaft ist, kann das EAC-Modul 313 durch einen Funktionsaufruf für das geeignete IOC-AM-Objekt 317 oder Leitungskarten-AM-Objekt 316 veranlassen, dass der speziellen LC 220 oder IOC 222 Mängelpunkte zugewiesen werden.
Um unbestimmte Schnittstellenfehlerangaben in einer Schnittstellengruppe von Komponenten oder FRUs zu analysieren, sollte das EAC-Modul 313 über die Mängelfreiheit aller in diese Schnittstellen einbezogenen FRUs auf dem Laufenden gehalten werden. Die Statusänderungen der LC 220 und der IOC 222 und alle Änderungen der Redundanzkonfiguration der LC 220 können z. B. durch ihre entsprechenden AM-Objekte 316, 317 dem EAC-Modul 313 berichtet werden. Als ein weiteres Beispiel kann der FIC-Diagnostik-Task 334 dem EAC-Modul 313 berichten, wenn bestimmte FIC-Fehler erklärt oder entfernt werden. Im Allgemeinen sollte das EAC-Modul 313 viele verschiedene Typen der Fehlerangaben und Statusänderungen analysieren und korrelieren können.

Im vorliegenden Beispiel sind die Eingangsfunktionen, die allen Schnittstellengruppen (z. B. LIIa, LIIb, LFI nach 2C) gemeinsam sind, die Grundlage für alle gemeinsamen Komponenten des EAC-Moduls 313. In der folgenden Tabelle A ist beispielhaft ein Satz von Funktionsnamen, die durch das EAC-Modul 313 verwendet werden können, und ihre zugeordneten Beschreibungen gezeigt: TABELLE A

Funktionsname	Beschreibung
HandleInterfaceError()	Behandelt die Schnittstellenfehler.
HandleShelfStatusChange()	Behandelt die Baugruppenträger-Statusänderung.
HandleCardStatusChange()	Aktualisiert die Schnittstellengruppe mit der Kartenstatusänderung.
HandleCardRedundancyChange()	Aktualisiert die Schnittstellengruppe mit der Kartenredundanzänderung.

In einer Ausführungsform enthält die EAC 313 eine statische Liste von Funktionszeigern, die durch den Schnittstellengruppentyp (z. B. LFI, LII) indexiert wird. Jedem Schnittstellengruppentyp (z. B. LFI, LII) können Daten zugeordnet sein, die in einem Feld von Funktionszeigern, ein Zeiger für jede in der obigen Tabelle A aufgelistete Funktion, gespeichert sind. Falls in Reaktion auf eine gegebene Eingabe keine Handlung für eine spezielle Schnittstellengruppe erforderlich ist, kann ein Nullfunktionszeiger vorgesehen sein. Das EAC-Modul 313 schafft eine Funktion, die die Parameter einer Eingabe überprüft, um zu bestimmen, welche Felder der funktionalen Zeiger (jedem Feld ist eine Schnittstellengruppe zugeordnet) aktualisiert werden sollten. Falls z. B. über ein FIC-AM-Objekt 314 ein unbestimmter Schnittstellenfehler berichtet wird, identifiziert die LII-Funktion HandleInterfaceError(), dass der Schnittstellenfehler eine LII-Gruppe nicht beeinflusst, wobei sie die Statusaktualisierung für alle LII-Gruppen ignoriert. Die LFI-Funktion HandleInterfaceError() bestimmt jedoch, welche LFT-Gruppe beeinflusst wird, und aktualisiert ihre Daten.
Nachdem die EAC eine Änderung der Statusinformationen für eine gegebene Schnittstellengruppe empfangen hat, muss sie in einer Ausführungsform sicherstellen, dass alle relevanten Informationen eine Chance gehabt haben, berichtet zu werden, bevor eine Bestimmung der fehlerhaften FRU ausgeführt wird. Deshalb kann eine vorgegebene Warteperiode verwendet werden, um alle relevanten Informationen zu empfangen, bevor mit der Analyse und Korrelation fortgefahren wird.
In 3B ist eine EAC-Schnittstellengruppen-Zustandsmaschine (EAC-IGSM) für das EAC-Modul 313 nach 3A gezeigt und im Allgemeinen durch das Bezugszeichen 300B bezeichnet. Wie angegeben ist, sammelt das EAC-Modul 313 die Informationen von verschiedenen Komponenten oder FRUs in jedem Baugruppenträger, bevor die fehlerhafte(n) FRU(s) bestimmt wird (werden), wobei dies durch die EAC-IGSM ausgeführt wird. Die EAC-IGSM ist allen LII- und LFI-Fehlerbehandlungen gemeinsam und schafft ein Entprellungsintervall, bevor das EAC-Modul 313 die Fehlerkorrelation für die Schnittstellengruppe ausführt. Wie in 3B gezeigt ist, besitzt in einer Ausführungsform die EAC-IGSM drei Zustände: den fehlerfreien Zustand 352, den Wartezustand 354 und den stationären Fehlerzustand 356.
Im vorliegenden veranschaulichenden Beispiel kann das EAC-Modul 313 die Fehler von der LFI-Gruppe, der LIIa-Gruppe und der LIIb-Gruppe abwickeln (2C). Außerdem kann die EAC 313 die LFI- und LII-Schnittstellengruppen für verschiedene Baugruppenträgertypen, wie z. B. einen PS 205 oder einen HSPS 203, unterstützen. Die Gesamtzahl der LFI- und LII-Gruppen pro Baugruppenträger basiert auf dem Baugruppenträgertyp, wobei es eine EAC-IGMS für jede Schnittstellengruppe gibt. Wenn ein Baugruppenträger zuerst konfiguriert wird, gibt jede EAC-IGSM den fehlerfreien Zustand 352 als den Anfangszustand vor. Der fehlerfreie Zustand 352 zeigt an, dass in allen Schnittstellen keine Fehler vorhanden sind. Die EAC-IGSM bleibt in diesem fehlerfreien Zustand 352, bis ein Schnittstellenfehler erfasst wird. Wenn es Komponentenstatusänderungen oder Komponentenredundanzänderungen gibt, die eine gegebene Schnittstellengruppe beeinflussen, werden ihre Daten aktualisiert, wie früher beschrieben worden ist. Ihre EAC-IGSM verbleibt jedoch im fehlerfreien Zustand 352. Bei der Erfassung eines Schnittstellenfehlers zeichnet jedoch die EAC 313 den Fehler im Datenfeld der Schnittstellengruppe auf, wobei die EAC-IGSM in den Wartezustand 354 geht.
Der Wartezustand 354 erlaubt, dass weitere Fehler und Statusänderungen, die die Schnittstellengruppe umfassen, während einer vorgegebenen Zeitperiode zur EAC 313 berichtet werden. Die Dauer der Zeitperiode kann z. B. davon abhängig sein, wie oft Fehler berichtet werden und wie lange es dauert, bis die Nachrichten von der Betriebsmittelschicht 320 zur Managementschicht 310 verbreitet werden. Während sich die EAC 313 im Wartezustand 354 befindet, zeichnet sie neu berichtete Fehler in den Daten der Schnittstellengruppe auf, aber sie korreliert die Daten nicht. Beim Eintreten in den Wartezustand 354 startet die EAC-IGSM den Zeitgeber 316. Wenn der Zeitgeber 316 abläuft, bestimmt die EAC-IGSM den nächsten Zustand, indem sie überprüft, ob es irgendwelche aufgezeichneten ausstehenden Schnittstellenfehler gibt. Falls alle Schnittstellenfehler beseitigt sind, wenn der Zeitgeber 316 abläuft, (d. h. es ist kein Fehler oder Defekt persistent), geht die EAC-IGSM zurück in den fehlerfreien Zustand 352 und entfernt alle Komponenten- und Fabric-"Mängelpunkte", die sie in der Vergangenheit zugewiesen haben kann. Andernfalls tritt die EAC-IGSM in den stationären Fehlerzustand 356 ein und beginnt die Fehleranalyse und -korrelation, um die fehlerhafte FRU zu bestimmen.
Im stationären Fehlerzustand 356 bestimmt die EAC 313 die fehlerhafte(n) FRU(s), die für die Schnittstellenfehler verantwortlich ist (sind), gemäß der vorliegenden Ausführungsform. Diese Bestimmung basiert auf einer Korrelation der von der Schnittstellengruppe gesammelten Informationen, wie z. B. dem Komponententyp, dem Komponentenstatus und der Redundanzkonfiguration. Sobald die FRU(s), die für die Schnittstellenfehler verantwortlich gemacht werden sollte(n), bestimmt worden ist/sind, berichtet die EAC 313 die fehlerhaften FRUs der Benutzer-Managementschnittstelle und ordnet dementsprechend anhand der vorhergehenden Fehlerhistorie für diese Schnittstellengruppe Mängelpunkte zu oder entfernt dementsprechend anhand der vorhergehenden Fehlerhistorie für diese Schnittstellengruppe Mängelpunkte. In dem Beispiel einer LFI-Gruppe können die Mängelpunkte über das Mehrfach-Baugruppenträger-Fabric-AM 318 dem Fabric einer FIC (2C) oder einer LC über ihr LC-AM-Objekt 316 zugewiesen werden. Nachdem dieser Schritt unternommen worden ist, bleibt die EAC-IGSM im stationären Fehlerzustand 356, bis es eine weitere Statusänderung, die ihre Schnittstellengruppe einschließt, gibt, was die EAC-IGSM veranlasst, zurück in den Wartezustand 354 zu geben. Diese Statusänderung könne z. B. die Hinzufügung oder die Entfernung eines Schnittstellenfehlers, eine Komponentenstatusänderung (z. B. vom OK-Zustand in den Fehlerzustand) oder eine Änderung der Komponentenredundanzkonfiguration (z. B. von redundant zu nicht redundant) sein.

Für jede Schnittstellengruppe (2C) ist klar, dass die berichteten Fehler durch die EAC 313 in verwandte Kategorien für die Korrelation klassifiziert werden können. Die LFI-Schnittstellenfehler können z. B. als Datenpfadschnittstellen-Fehler, Steuerpfadschnittstellen-Fehler oder Konnektivitätsfehler kategorisiert werden. Ähnlich können die LII-Schnittstellenfehler als Datenpfadschnittstellen-Fehler oder Steuerpfadschnittstellen-Fehler kategorisiert werden. Die Tabelle B stellt ein Beispiel der Schnittstellenfehlerkategorien für jeden Schnittstellengruppentyp in der vorliegenden veran schaulichenden Ausführungsform dar. Die Fehler in den separaten Kategorien mit der gleichen Schnittstellengruppe werden als orthogonal betrachtet und können unabhängig korreliert werden, obwohl die Korrelation die gleichen Kartenstatus- und Redundanzinformationen einbezieht. TABELLE B

Fehlerkategorie	Beispiele der erfassten unbestimmten Schnittstellenfehler
LFI-Datenpfad	– Ein am Eingangsdateneingang einer FIC erfasster Paritätsfehler. – Ein am Ausgangsdateneingang einer LC erfasster Verlust des Taktes.
LFI-Steuerpfad	– Ein durch die HSPS-LC im von der FIC gesendeten Gegendruck-Steuerrahmen erfasster Rahmenfehlsynchronisations-Fehler.
LPI-Konnektivität	– Ein Ausfall der Zellentestdiagnostik, die durch die LC ausgeführt wird, die periodisch eine Testzelle aus dem Fabric prellt.
LII-Datenpfad	– Ein am Eingangsdateneingang einer LC erfasster Zellenkopftest-Fehler. – Ein am Ausgangsdateneingang einer IOC erfasster Zellenfehlsynchronisations-Fehler.
LII-Steuerpfad	– Ein durch eine IOC in einem durch eine LC gesendeten Steuerrahmen erfasster Paritätsfehler. – Ein durch eine LC in einem von einer IOC gesendeten Steuerrahmen erfasster Synchronisationsfehler.

Wenn eine EAC-IGSM für eine LFI- oder LII-Gruppe in den stationären Fehlerzustand 356 eintritt, führt sie in einer Ausführungsform die Fehleranalyse und -korrelation anhand der durch das EAC-Modul 313 für diese Schnittstellengruppe gesammelten Daten aus. Diese Daten enthalten z. B. den Status aller Komponenten in der Schnittstellengruppe (OK oder fehlerhaft/mangelhaft), ob die LCs in der Gruppe für die Redundanz konfiguriert sind und eine Liste aller Komponentenschnittstellen, die gegenwärtig Fehler in der gegebenen Kategorie (z. B. Datenpfad, Steuerpfad) erleben.
In einer Ausführungsform besteht der erste Schritt des Korrelationsverfahrens darin, zu bestimmen, welche Schnittstellenfehler ignoriert werden können. Die Fehler in einer gegebenen Schnittstelle werden ignoriert, wenn irgendeine über diese Schnittstelle angeschlossene Karte einen Fehler aufweist. Wenn eine Komponente oder FRU einen Fehler aufweist, wird die fehlerhafte FRU der Benutzer-Managementschnittstelle berichtet, wobei eine Redundanzvermittlung weg von der fehlerhaften FRU ausgeführt werden kann. In diesem Fall gibt es keine Notwendigkeit, dass das EAC-Modul 313 weitere Schritte gegen die auf Grund des Schnittstellenfehlers fehlerhafte FRU unternimmt. Nach dem Untersuchen des Status aller Komponenten oder FRUs in der Schnittstellengruppe wird das EAC-Modul 313 mit einer Liste ausstehender Schnittstellenfehler zurückgelassen, die nicht einer vorher identifizierten fehlerhaften Komponente zugeschrieben werden können.
Für die Veranschaulichung dieser Ausführungsform wird nun das Fehleranalyse- und -korrelationsverfahren für Schnittstellenfehler, die in einer LFI-Gruppe in einer ihrer Kategorien auftreten, beschrieben.
Das LFI-Fehleranalyse- und -korrelationsverfahren
In 4 ist ein veranschaulichender Prozess, der Regeln implementiert, um zu bestimmen, welche FRU(s) für irgendwelche ausstehenden Schnittstellenfehler einer LFI-Gruppe (2C) verantwortlich gemacht werden sollte(n), gezeigt und im Allgemeinen durch das Bezugszeichen 400 bezeichnet. Der Prozess 400, der eine EAC-Funktion für die LFI-Schnittstellenfehlerkorrektur beschreibt, beginnt im Block 402 und durchläuft durch jede Komponente oder Karte in der LFI-Gruppe eine Schleife, wie gezeigt ist. In einer Ausführungsform kann der Prozess 400 mit den FICs beginnen und mit den LCs enden. Es ist jedoch klar, dass der Prozess 400 stattdessen mit den LCs beginnen kann, wobei in diesem Fall die Bezugnahmen auf die FICs und LCs im Prozess 400, der in 4 gezeigt ist, vertauscht sein würden.
Für jede Komponente oder Karte zählt der Prozess 404 die Anzahl der Schnittstellenfehler, die die Komponente einschließen. Falls die Antwort auf die Frage im Block 406 (ist der Fehler-Zählerstand größer als 1?) ja lautet, geht der Prozess 400 zum Block 408 weiter und macht die Komponente für die mehreren Fehler verantwortlich. Falls die verantwortlich gemachte Karte eine FIC 218 (2C) ist, weist das EAC-Modul 313 durch das Mehrfach-Baugruppenträger-Fabric-AM-Objekt 318 dem Fabric dieser FIC Mängelpunkte zu, falls es dies nicht bereits entsprechend irgendeiner früheren Fehlerhistorie getan hat (d. h. die FIC bereits getadelt worden ist). Falls die verantwortlich gemachte Karte eine LC ist, tadelt das EAC-Modul 313 diese LC durch ihr LC-AM-Objekt 316, falls es dies nicht bereits entsprechend ihrer früheren Fehlerhistorie getan hat.
Falls die Antwort auf die Frage im Block 406 nein lautet, geht der Prozess 400 zum Block 412 weiter, in dem der Prozess 400 fragt, ob das Ergebnis der Zählung im Block 404 gleich 1 ist und der Kartentyp LC ist. Falls die Antwort nein lautet, geht der Prozess 400 zum Block 410 weiter und geht zur nächsten Komponente in der Schnittstellengruppe, indem er in der Schleife zurück zum Block 402 läuft. Falls die Antwort auf die Frage im Block 412 ja lautet, geht der Prozess 400 zum Block 414 weiter und fragt, ob die mit dem anderen Ende der fehlerhaften Schnittstelle der LC verbundene FIC bereits für Schnittstellenfehler verantwortlich gemacht worden ist. Falls die Antwort ja lautet, geht der Prozess 400 zum Block 410 weiter und geht zur nächsten Komponente in der Schnittstellengruppe, indem er in der Schleife zurück zum Block 402 läuft. Falls die Antwort auf die Frage im Block 414 nein lautet, geht der Prozess 400 zum Block 416 weiter und fragt, ob die LC Teil eines mängelfreien redundanten Paares ist (d. h. beide LCs des redundanten Paares besitzen einen Status von OK). Falls die Antwort ja lautet, macht der Prozess im Block 418 die LC für den einzelnen Fehler verantwortlich, damit ein fehlerfreier aktiver Pfad durch eine LC-Aktivitätsvermittlung wiederhergestellt werden kann, anstatt das ganze Fabric zu vermitteln (und potentiell einen größeren Zellenverlust zu verursachen). Demzufolge weist das EAC-Modul 313 der LC durch ihr LC-AM-Objekt 316 Mängelpunkte zu, falls es dies nicht bereits entsprechend ihrer Fehlerhistorie getan hat.
Falls die Antwort auf die Frage im Block 416 nein lautet, geht der Prozess 400 zum Block 420 weiter und macht die zugeordnete FIC für den einzelnen Fehler verantwortlich, weil ohne LC-Redundanz eine Fabric-Aktivitätsvermittlung erforderlich ist, um einen fehlerfreien aktiven Datenpfad wiederherzustellen. Demzufolge weist das EAC-Modul 313 durch das Mehrfach-Baugruppenträger-Fabric-AM-Objekt 318 dem Fabric der FIC Mängelpunkte zu, falls es dies nicht bereits getan hat. Vom Block 420 geht der Prozess 400 zum Block 410 weiter und läuft in der Schleife zum Block 402 zurück, bis alle Komponenten in der Schnittstellengruppe analysiert und korreliert worden sind.
Während oben eine mögliche Ausführungsform gezeigt und beschrieben worden ist, ist klar, dass andere ähnliche Prozesse verwendet werden können, um eine fehlerhafte Komponente in der Schnittstellengruppe zu analysieren und ihr die Verantwortung zuzuweisen.
Nun wird ein weiteres Beispiel eines Fehleranalyse- und -korrelationsverfahrens für Schnittstellenfehler, die in einer LII-Gruppe in einer ihrer Kategorien auftreten, bereitgestellt.
Das LII-Fehleranalyse- und -korrelationsverfahren
In 5 ist ein Ablaufplan eines veranschaulichenden Prozesses, der Regeln implementiert, um zu bestimmen, welche FRU(s) für die ausstehenden Schnittstellenfehler einer LII-Gruppe (2C) verantwortlich gemacht werden sollte(n), gezeigt und im Allgemeinen durch das Bezugszeichen 500 bezeichnet. Der Prozess 500, der eine EAC-Funktion für die LII-Schnittstellenfehlerkorrektur beschreibt, beginnt im Block 502 und durchläuft durch jede Komponente in der LII-Gruppe eine Schleife, wie gezeigt ist. In einer Ausführungsform kann der Prozess 500 mit den IOCs beginnen und mit den LCs enden. Es ist jedoch abermals klar, dass der Prozess 500 stattdessen mit den LCs beginnen könnte, wobei aber die Bezugnahmen auf die IOCs und LCs im Prozess 500, der in 5 gezeigt ist, vertauscht sein würden.
Im Block 504 zählt der Prozess 500 für jede Komponente die Anzahl der Schnittstellenfehler, die die Komponente einschließen. Dann geht der Prozess 500 zum Block 506 weiter, wobei, falls die Antwort auf die Frage im Block 506 (ist der Fehler-Zählerstand im Block 504 größer als 1?) ja lautet, der Prozess 500 zum Block 508 weitergeht und die Komponente mit dem Mehrfachfehlerzählerstand als die fehlerhafte FRU verantwortlich macht. Falls die verantwortlich gemachte FRU eine IOC ist, weist das EAC-Modul 316 dieser IOC durch ihr IOC-AM-Objekt 317 Mängelpunkte zu, falls es dies nicht bereits entsprechend ihrer Fehlerhistorie getan hat.
Falls die Antwort auf die Frage im Block 506 nein lautet, geht der Prozess 500 zum Block 512 weiter und fragt, ob der Fehlerzählerstand im Block 504 gleich 1 ist und der Kartentyp LC ist. Falls die Antwort nein lautet, geht der Prozess 500 zum Block 510 weiter und geht zur nächsten Komponente in der Schnittstellengruppe, indem er in der Schleife zurück zum Block 502 läuft. Falls die Antwort auf die Frage im Block 506 ja lautet, geht der Prozess 500 zum Block 514 weiter und fragt, ob die mit dem anderen Ende der fehlerhaften Schnittstelle der LC verbundene IOC bereits für Schnittstellenfehler verantwortlich gemacht worden ist. Falls die Antwort ja lautet, geht der Prozess 500 zum Block 510 weiter und geht zur nächsten Komponente in der Schnittstellengruppe, indem er in der Schleife zurück zum Block 502 läuft. Falls die Antwort auf die Frage im Block 514 nein lautet, geht der Prozess 500 zum Block 516 weiter und fragt, ob die LC Teil eines mängelfreien redundanten Paares ist (d. h. beide LCs besitzen einen Status von OK). Falls die Antwort ja lautet, geht der Prozess 500 zum Block 518 und macht die LC für den einzelnen Fehler verantwortlich, damit ein fehlerfreier aktiver Datenpfad durch eine LC-Aktivitätsvermittlung wiederhergestellt werden kann. Demzufolge weist das EAC-Modul 313 der LC durch ihr LC-AM-Objekt 316 Mängelpunkte zu, falls es dies nicht bereits getan hat.
Falls die Antwort auf die Frage im Block 516 nein lautet, geht der Prozess 500 zum Block 520 weiter und macht die IOC für den einzelnen Fehler verantwortlich. Demzufolge weist das EAC-Modul 313 der IOC durch ihr IOC-AM-Objekt 317 Mängelpunkte zu, falls es dies nicht bereits getan hat. Vom Block 520 geht der Prozess 500 zum Block 510 weiter, wobei, falls es in der Schnittstellengruppe irgendwelche weiteren Komponenten gibt, der Prozess 500 in der Schleife zurück zum Block 502 läuft.
Es wird angegeben, dass den Fachleuten auf dem Gebiet klar ist, dass verschiedene Modifikationen der Einzelheiten an der vorliegenden Ausführungsform vorgenommen werden können, wobei sie alle in den Umfang der Erfindung fallen würden. Vor allem weisen die oben beschriebenen und gezeigten Prozesse eine iterative Art auf, wobei sie durch jede Komponente innerhalb einer Schnittstellengruppe gehen, um die Fehler- und Statusdaten zu sammeln, die für die Analyse und die Korrelation erforderlich sind. Es ist jedoch klar, dass eine derartige Sammlung der Daten in irgendeiner aus einer Anzahl von Arten ausgeführt werden kann, einschließlich der gleichzeitigen Sammlung oder der parallelen Sammlung der Daten durch die Verwendung einer Anzahl von Prozessen, bevor die Schnittstellengruppe als Ganzes analysiert wird. Außerdem ist klar, dass die durch die oben unter Bezugnahme auf die 4 und 5 beschriebenen veranschaulichenden Prozesse implementierten Regeln alternativ in einer Tabellen- oder Feldform implementiert sein können, wobei ein oder mehrere Faktoreneingaben eine vorgegebene Ausgabe erzeugen.

Claims

Verfahren zum Identifizieren einer fehlerhaften Komponente in einer Gruppe von Komponenten (222, 220, 218), wobei die Gruppe in einer verbundenen Konfiguration eine erste Komponente (220a) mit einer ersten Verbindungsschnittstelle, die mit einer zweiten Verbindungsschnittstelle einer zweiten Komponente (218a) und mit einer dritten Verbindungsschnittstelle einer dritten Komponente (218b) verbunden ist, aufweist, wobei das Verfahren dadurch gekennzeichnet ist, dass es die folgenden Schritte umfasst: i) Ausführen einer Überwachung bei jeder Verbindungsschnittstelle, um Fehler zu erfassen; und ii) Berichten aller Fehler, die von jeder Verbindungsschnittstelle erfasst werden, an eine Steuereinheit (202) für die Gruppe von Komponenten; iii) Speichern von Fehlerstatusberichten, die während einer vorgegebenen Zeitdauer von allen Verbindungsschnittstellen empfangen werden, in der Steuereinheit; iv) Ausführen einer regelbasierten Analyse von Fehlerstatusberichten der Gruppe von Komponenten in der Steuereinheit, um die von den Verbindungsschnittstellen gemeldeten Fehler zu korrelieren, um eine wahrscheinlich fehlerhafte Komponente zu isolieren; und v) Zuweisen von Mängelpunkten an die fehlerhafte Komponente, wobei die Steuereinheit die Fehler wenigstens in eine Kategorie für Datenpfadschnittstellen-Fehler, in eine Kategorie für Steuerpfadschnittstellen-Fehler und in eine Kategorie für Konnektivitätsfehler klassifiziert und wobei Fehler in verschiedenen Kategorien unabhängig korreliert werden.
Verfahren nach Anspruch 1, bei dem eine erste Regel, die für die regelbasierte Analyse verwendet wird, Ortsinformationen, die den Fehlern zugeordnet sind, als einen Faktor bei der Identifizierung der fehlerhaften Komponente verwendet.
Verfahren nach Anspruch 2, bei dem eine zweite Regel, die für die regelbasierte Analyse verwendet wird, Häufigkeitsinformationen, die den Fehlern zugeordnet sind, als einen zweiten Faktor bei der Identifizierung der fehlerhaften Komponente verwendet.
Verfahren nach Anspruch 3, bei dem eine dritte Regel, die für die regelbasierte Analyse verwendet wird, eine Komponentenredundanz in der Konfiguration als einen dritten Faktor bei der Identifizierung der fehlerhaften Komponente verwendet.
Verfahren nach Anspruch 1, bei dem eine Regel, die für die regelbasierte Analyse verwendet wird, auf der Grundlage einer Fehlerhistorie der Komponente einen Wahrscheinlichkeitswert verwendet, dass eine bestimmte Komponente der Gruppe die fehlerhafte Komponente ist.
Verfahren nach Anspruch 4 oder Anspruch 5, das ferner die folgenden Schritte umfasst: vi) Überwachen auf Zustandsänderungen in wenigstens einer Komponente der Gruppe; und vii) Verwenden irgendwelcher Zustandsänderungen in einer vierten Regel als einen weiteren Faktor bei der Identifizierung der fehlerhaften Komponente.
Verfahren nach Anspruch 1, das ferner den folgenden Schritt umfasst: vi) vor dem Schritt v) Entwickeln wenigstens einer Regel zum Identifizieren der fehlerhaften Komponente in Abhängigkeit von wenigstens einer Charakteristik eines möglichen Fehlers und von wenigstens einer Charakteristik der Konfiguration.
Verfahren nach Anspruch 7, das ferner den folgenden Schritt umfasst: vii) Verwenden von Ortsinformationen, die dem möglichen Fehler zugeordnet sind, als einen Faktor bei der Entwicklung der wenigstens einen Regel zum Identifizieren einer fehlerhaften Komponente.
Verfahren nach Anspruch 8, das ferner den folgenden Schritt umfasst: viii) Verwenden von Häufigkeitsinformationen, die dem möglichen Fehler zugeordnet sind, als einen weiteren Faktor bei der Entwicklung der wenigstens einen Regel zum Identifizieren einer fehlerhaften Komponente.
Verfahren nach Anspruch 9, das ferner den folgenden Schritt umfasst: ix) Verwenden einer Komponentenredundanz in der Konfiguration als einen weiteren Faktor bei der Entwicklung der wenigstens einen Regel zum Identifizieren einer fehlerhaften Komponente.
System zum Identifizieren einer fehlerhaften Komponente in einer Gruppe von Komponenten (222, 220, 218), wobei die Gruppe in einer verbundenen Konfiguration eine erste Komponente (220a) mit einer ersten Verbindungsschnittstelle, die mit einer zweiten Verbindungsschnittstelle einer zweiten Komponente (218b) und mit einer dritten Verbindungsschnittstelle einer dritten Komponente (218b) verbunden ist, umfasst, wobei das System dadurch gekennzeichnet ist, dass es umfasst: a) eine Überwachungseinrichtung zum Ausführen einer Überwachung bei jeder Verbindungsschnittstelle, um Fehler zu erfassen; und b) Berichtsmittel zum Berichten aller Fehler, die durch jede Verbindungsschnittstelle erfasst werden, an eine Steuereinheit (220) für die Gruppe von Komponenten; c) Speichermittel zum Speichern von Fehlerstatusberichten, die während einer vorgegebenen Zeitdauer von allen Verbindungsschnittstellen empfangen werden, in der Steuereinheit; d) Ausführungsmittel zum Ausführen einer regelbasierten Analyse von Fehlerstatusberichten der Gruppe von Komponenten in der Steuereinheit, um die von den Verbindungsschnittstellen gemeldeten Fehler zu korrelieren, um eine wahrscheinlich fehlerhafte Komponente zu isolieren, und e) Zuweisen von Mängelpunkten an die fehlerhafte Komponente, wobei die Steuereinheit die Fehler wenigstens in eine Kategorie für Datenpfadschnittstellen-Fehler, eine Kategorie für Steuerpfadschnittstellen-Fehler und eine Kategorie für Konnektivitätsfehler klassifiziert und wobei Fehler in verschiedenen Kategorien unabhängig korreliert werden.
System nach Anspruch 11, bei dem die Gruppe wenigstens ein redundantes Paar von Komponenten enthält, wobei jede Komponente jedes redundanten Paars mit wenigstens einer anderen Komponente verbunden ist.
System nach Anspruch 11 oder Anspruch 12, bei dem eine erste Regel, die für die von dem Prozessor verarbeitete regelbasierte Analyse verwendet wird, Ortsinformationen, die den Fehlern zugeordnet sind, als einen Faktor bei der Identifizierung der fehlerhaften Komponente verwendet.
System nach Anspruch 13, bei dem esine zweite Regel, die für die von dem Prozessor verarbeitete regelbasierte Analyse verwendet wird, Häufigkeitsinformationen, die den Fehlern zugeordnet sind, als einen weiteren Faktor bei der Identifizierung der fehlerhaften Komponente verwendet.
System nach Anspruch 13 oder Anspruch 14, bei dem eine dritte Regel, die für die regelbasierte Analyse verwendet wird, eine Komponentenredundanz in der Gruppe als einen weiteren Faktor bei der Identifizierung der fehlerhaften Komponente verwendet.