DE60314025T2 - System und Verfahren zur Identifizierung einer fehlerhaften Komponente in einem Netzwerkelement - Google Patents

System und Verfahren zur Identifizierung einer fehlerhaften Komponente in einem Netzwerkelement Download PDF

Info

Publication number
DE60314025T2
DE60314025T2 DE60314025T DE60314025T DE60314025T2 DE 60314025 T2 DE60314025 T2 DE 60314025T2 DE 60314025 T DE60314025 T DE 60314025T DE 60314025 T DE60314025 T DE 60314025T DE 60314025 T2 DE60314025 T2 DE 60314025T2
Authority
DE
Germany
Prior art keywords
component
rule
errors
interface
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60314025T
Other languages
English (en)
Other versions
DE60314025D1 (de
Inventor
Karen Margaret Nepean Wilson
Andre Hull Poulin
Jiang Kanata Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Canada Inc
Original Assignee
Alcatel Canada Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alcatel Canada Inc filed Critical Alcatel Canada Inc
Application granted granted Critical
Publication of DE60314025D1 publication Critical patent/DE60314025D1/de
Publication of DE60314025T2 publication Critical patent/DE60314025T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/40Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0811Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Debugging And Monitoring (AREA)
  • Dc Digital Transmission (AREA)
  • Monitoring And Testing Of Exchanges (AREA)

Description

  • Die Erfindung bezieht sich im Allgemeinen auf ein Verfahren und ein System zum Analysieren und Korrelieren von in Komponentenschnittstellen innerhalb eines Netzelements erfassten Fehlern.
  • In einem Kommunikationsnetz gibt es einen Bedarf, ein hohes Niveau der Dienstverfügbarkeit des Datenverkehrs, der sich in dem Netz bewegt, bereitzustellen. Demzufolge sind für die Netzelemente im Kommunikationsnetz redundante Datenpfade vorgesehen. Falls es ein Problem bei einem speziellen Netzelement, wie z. B. einem Knoten oder einer Verbindung, gibt, wird der Datenverkehr auf einen alternativen Datenpfad umgeleitet. Da die Dienstverfügbarkeit jedes Knotens und jeder Verbindung die Gesamtdienstverfügbarkeit des Netzes beeinflussen kann, ist es auf der Ebene der Netzelemente notwendig, jeden Knoten und jede Verbindung nach Fehlern zu überwachen, um ein hohes Niveau der Dienstverfügbarkeit für diese Knoten und Verbindungen aufrechtzuerhalten.
  • Ein Knoten, der eine Weiterleitungs-Vermittlung umfasst, kann z. B. nach Fehlern überwacht werden, so dass seine Dienstverfügbarkeit auf einem hohen Niveau aufrechterhalten werden kann. Während das Bereitstellen redundanter Datenpfade innerhalb der Weiterleitungs-Vermittlung das Problem des Aufrechterhaltens einer hohen Dienstverfügbarkeit teilweise anspricht, ist es außerdem erwünscht, einen Fehler isolieren zu können und irgendwelche fehlerhaften Komponenten innerhalb der Weiterleitungs-Vermittlung reparieren oder ersetzen zu können, so dass die in die Weiterleitungs-Vermittlung eingebaute Redundanz fortgesetzt vollständig funktionsfähig bleibt.
  • Bekannte Verfahren zum Identifizieren einer fehlerhaften Komponente sind durch die Patentanmeldungen WO 01/77828A und EP-A-0549937 offenbart.
  • Im Stand der Technik sind verschiedene Lösungen vorgeschlagen worden, um Fehler in einem Knoten, wie z. B. einer Weiterleitungs-Vermittlung, zu isolieren, so dass eine fehlerhafte Komponente oder eine Austauscheinheit (FRU) identifiziert und ersetzt werden kann. In komplexeren Konfigurationen, die mehrere Fehlerangaben bereitstellen, kann die Quelle eines Fehlers jedoch unbestimmt sein. Dies ist besonders problematisch, wo die Fehlerangaben an einer Schnittstelle auftreten, die eine Komponente mit einer oder mehreren anderen Komponenten verbindet. Während eine schrittweise manuelle Prüfung jeder Komponente schließlich die fehlerhafte Komponente durch ein empirisch-praktisches Verfahren identifizieren kann, kann der Prozess unzuverlässig und zeitraubend sein.
  • Es ist eine Aufgabe der vorliegenden Erfindung, ein Verfahren zum Identifizieren einer fehlerhaften Komponente in einer Gruppe von Komponenten zu schaffen, das eine umfassendere Art zum Analysieren und Korrelieren von Fehlern, die innerhalb einer Gruppe von Komponenten oder FRUs auftreten, erlaubt, so dass die Identifikation der fehlerhaften FRU verbessert ist.
  • Genauer schafft die vorliegende Erfindung ein Verfahren zum Identifizieren einer fehlerhaften Komponente in einer Gruppe von Komponenten nach Anspruch 1.
  • Gemäß einem zweiten Aspekt wird ein System zum Identifizieren einer fehlerhaften Komponente in einer Gruppe von Komponenten nach Anspruch 11 geschaffen.
  • Die vorhergehenden und anderen Aspekte der Erfindung werden aus der folgenden Beschreibung ihrer spezifischen Ausführungsformen und der beigefügten Zeichnung, die lediglich beispielhaft die Prinzipien der Erfindung veranschaulichen, offensichtlicher. In der Zeichnung, in der gleiche Elemente gleiche Bezugszeichen aufweisen (und in der einzelne Elemente eindeutige alphabetische Suffixe tragen), zeigen:
  • 1 einen Blockschaltplan eines Kommunikationsnetzes, das mehrere Netzelemente einschließlich eines Knotens, der eine Weiterleitungs-Vermittlung umfasst, umfasst;
  • 2A einen schematischen Blockschaltplan verschiedener Komponenten der Weiterleitungs-Vermittlung nach 1;
  • 2B einen Blockschaltplan einer möglichen Anordnung verschiedener FRUs, die innerhalb verschiedener Baugruppenträger der Weiterleitungs-Vermittlung nach 1 konfiguriert sind;
  • 2C einen Blockschaltplan, der ein Beispiel der verschiedenen definierten Schnittstellengruppen zeigt, die Sätze verbundener FRUs innerhalb eines Peripherie-Baugruppenträgers in 2B umfassen;
  • 3A eine schematische graphische Darstellung einer Architektur einer diagnostischen Infrastruktur-Software, die einem Fehleranalyse- und -korrektur-Verfahren und -System (EAC-Verfahren und -System) gemäß einer Ausführungsform der vorliegenden Erfindung zugeordnet ist und die verwendet werden kann, um fehlerhafte Komponenten oder FRUs innerhalb einer ausgewählten Schnittstellengruppe in 2C zu identifizieren;
  • 3B ein Zustandsdiagramm, das eine EAC-Zustandsmaschine zeigt, die einer Schnittstellengruppe zugeordnet ist, die durch das in 3A gezeigte EAC-Modul analysiert wird;
  • 4 einen Ablaufplan eines beispielhaften Prozesses, der den Betrieb des EAC-Verfahrens und -Systems gemäß einer Ausführungsform veranschaulicht, um eine fehlerhafte FRU innerhalb einer LFI-Schnittstellengruppe (die im Folgenden weiter definiert ist) zu identifizieren, der in 3A gezeigt ist; und
  • 5 einen Ablaufplan eines beispielhaften Prozesses, der den Betrieb des EAC-Verfahrens und -Systems gemäß einer Ausführungsform veranschaulicht, um eine fehlerhafte FRU innerhalb einer LII-Schnittstellengruppe (die im Folgenden weiter definiert ist) zu identifizieren, der in 2C gezeigt ist.
  • Die folgende Beschreibung und die darin beschriebenen Ausführungsformen sind als Veranschaulichung eines Beispiels oder von Beispielen von speziellen Ausführungsformen der Prinzipien der vorliegenden Erfindung vorgesehen. Diese Beispiele sind zum Zweck der Erklärung und nicht der Einschränkung dieser Prinzipien und der Erfindung vorgesehen. In der folgenden Beschreibung sind gleiche Teile überall in der Beschreibung und in der Zeichnung mit den gleichen entsprechenden Bezugszeichen markiert.
  • In dieser Beschreibung werden die folgenden Akronyme verwendet.
    Acronym Beschreibung
    AE Anwendungsumgebung – Bezieht sich auf einen Software-Bereich in einer Steuerkarte, der alle AM-Objekte und einen Nachrichten-Server umfasst.
    AM CAM Anwendungsmodul – Ein Software-Modul, das sich sowohl mit physikalischen Systemkomponenten, wie z. B. Karten, Anschlüssen und Strömen, als auch Anwendungen, die sich mit nichtphysikalischen Komponenten, wie z. B. Alarmen und Systemkomponenten, befassen, befasst. Kartenanwendungsmodul – Ein Anwendungsmodul-Objekt, das in einer Karte steht und für das Übertragen von Konfigurations- und Statusinformationen mit dem entsprechenden AM in der Steuerkarte verwendet wird.
    EAC Fehleranalyse und -korrelation
    FIC Fabric-Schnittstellenkarte
    FRU Austauscheinheit – Eine physikalische Entität in einem System oder Knoten, die ersetzt werden kann, um Probleme zu beseitigen oder um Hochrüstungen auszuführen.
    HSPS IGSM Hochgeschwindigkeits-Peripherie-Baugruppenträger Schnittstellengruppen-Zustandsmaschine
    IOC E/A-Karte – Eine FRU, die an einer Leitungskarte angebracht ist und mit Kommunikationsverbindungen einschließlich Verbindungen von anderen Knoten verbunden ist.
    LC Leitungskarte
    LFI LC/FIC-Schnittstelle
    LII LC/IOC-Schnittstelle
    PS Peripherie-Baugruppenträger
  • Das Folgende ist ein veranschaulichendes Beispiel eines Kommunikationsnetzes, das mehrere Netzelemente (z. B. einen Knoten, der eine Weiterleitungs-Vermittlung umfasst) umfasst, in dem das Verfahren und das System für die Fehleranalyse und -korrelation (EAC) gemäß einer Ausführungsform der Erfindung praktiziert werden können.
  • In 1 ist ein Kommunikationsnetz 100 gezeigt. Das Netz 100 erlaubt den Vorrichtungen (wie z. B. den Teilnehmereinrichtungen oder CPEs) 102a, 102b und 102c, mit anderen Vorrichtungen 104A und 104B über die Netzwolke 106 zu kommunizieren. Die CPEs 102a, 102b, 102c können mit einem Knoten 112a verbunden sein, der Zugriff auf die Daten 114 haben kann und ferner mit einem Netzübergangsknoten oder einer Weiterleitungs-Vermittlung 108 am Netzübergang der Netzwolke 106 verbunden ist. Die Weiterleitungs-Vermittlung 108 dient als der Verbindungspunkt für die verschiedenen Knoten 112a, 112b für den Zugriff auf die Netzwolke 106.
  • In der Netzwolke 106 sind mehrere Vermittlungen 110a, 110b und 110c verbunden, wobei sie die Kommunikations-Haupttrasse der Netzwolke 106 bilden. Die Verbindungen von der Netzwolke 106 sind wiederum über verschiedene andere (nicht gezeigte) Verbindungen und Vermittlungen mit den Vorrichtungen 104a und 104b verbunden.
  • Während eine Weiterleitungs-Vermittlung 108 als ein veranschaulichendes Beispiel für den Zweck dieser Erörterung ausgewählt worden ist, ist klar, dass die Lehren der vorliegenden Erfindung auf praktisch jeden Knotentyp anwendbar sind, der Fehlererfassungsfähigkeiten besitzt und eine oder mehrere Komponenten oder FRUs umfasst, die für die Fehleranalyse und -korrelation zusammen gruppiert werden können, wie im Folgenden ausführlicher beschrieben ist.
  • In 2A sind die Einzelheiten eines Knotens gezeigt, in dem die Weiterleitungs-Vermittlung 108 eine Mehrprotokoll-Weiterleitungs-Vermittlungs-Plattform ist, die mehrere Kommunikationsverbindungen verbinden und vermitteln kann. Die Weiterleitungs-Vermittlung 108 erlaubt die Skalierung der Vermittlungskapazität durch Einfügen oder Entfernen von Baugruppenträgern und Komponenten in die Weiterleitungs-Vermittlung 108.
  • Wie in 2B und unter Bezugnahme auf 2A gezeigt ist, kann die Weiterleitungs-Vermittlung 108 z. B. zwei Vermittlungs-Baugruppenträger 200X und 200Y, einen Steuerkomplex 202 und verschiedene Peripherie-Baugruppenträger 203, 205, 207 umfassen. Der Steuerkomplex 202 kann sich in einer Ausführungsform im Baugruppenträger 207 befinden, wobei er die Steuerkarten 224 umfasst, die ein zentrales Management für die Weiterleitungs-Vermittlung 108 bereitstellen können.
  • Die Vermittlungs-Baugruppenträger 200X und 200Y schaffen eine Datenzellen-Vermittlungskapazität für die Weiterleitungs-Vermittlung 108. Die Peripherie-Baugruppenträger 203, 205, 207 schaffen eine E/A-Konnektivität für die Weiterleitungs-Vermittlung 108, die den Anschluss verschiedener Vorrichtungstypen, wie z. B. der Teilnehmer-CPEs 102a, 102b und 102c, erlaubt, die durch den Knoten 112a mit der Weiterleitungs-Vermittlung 108 verbunden sind (1).
  • In einer Ausführungsform ermöglichen die Kommunikationsverbindungen 206, 208 den Vermittlungs-Baugruppenträgern 200X, 200Y, den Peripherie-Baugruppenträgern 203, 205, 207 und dem Steuerkomplex 202, einander Daten und Statusinformationen mitzuteilen. Hochgeschwindigkeitsverbindungen zwischen den Baugruppenträgern (HISLs) 206 verbinden die Vermittlungs-Baugruppenträger 200X, 200Y mit den verschiedenen Peripherie-Baugruppenträgern 203, 205, 207. Die Steuerdienstverbindungen (CSLs) 208 verbinden den Steuerkomplex 202 mit den Vermittlungs-Baugruppenträgern 200X und 200Y und mit den Peripherie-Baugruppenträgern 203, 205, 207.
  • In den 2A und 2B enthält in einer Ausführungsform jeder Vermittlungs-Baugruppenträger 200X und 200Y einen Vermittlungs-Fabric-Kern 214 und bis zu 32 Vermittlungs-Zugangskarten (SACs) 212. Wie in 2B gezeigt ist, kommuniziert jede FIC 218, 218', 218'' in den Peripherie-Baugruppenträgern 205, 203, 207 über die SACs 212 mit dem Vermittlungskern 214.
  • Zum Zweck der Veranschaulichung werden nun zwei Typen der Peripherie-Baugruppenträger 203, 205, die in 2B gezeigt sind, ausführlicher beschrieben.
  • Der erste Typ ist ein regulärer Peripherie-Baugruppenträger (PS), der als der Baugruppenträger 205 dargestellt ist. Der PS 205 enthält die LCs 220, die IOCs 222 und die FICs 218. Die FICs 218 können entweder als Doppel-Fabric-Schnittstellenkarten (DFIC) oder als Vierfach-Fabric-Schnittstellenkarten (QFIC) konfiguriert sein.
  • Der zweite Typ ist ein Hochgeschwindigkeitsperipherie-Baugruppenträger (HSPS), der als der Peripherie-Baugruppenträger 203 dargestellt ist. Der HSPS 203 enthält Hochgeschwindigkeits-Leitungsverarbeitungs-Karten (HSLP-Karten) 220', E/A-Karten 222', Hochgeschwindigkeits-Fabric-Schnittstellenkarten (HFICs) 218' und zwei redundante Hochgeschwindigkeits-Baugruppenträger-Steuereinheits-Karten (HSC-Karten) 224'.
  • In 2C ist eine vergrößerte Ansicht des Peripherie-Baugruppenträgers 205 nach 2B gezeigt. Wie gezeigt ist, können die Komponenten oder FRUs zusammen gruppiert sein, um verschiedene Schnittstellengruppen zu definieren. Die Schnittstelle zwischen den LCs 220a, 220b und den IOCs 222a, 220b wird z. B. als Leitungskarten-IOC-Schnittstelle (LII) bezeichnet, wobei die LCs 220a, 220b und die IOCs 222a, 222b die LIIa-Gruppe bilden. Wie in 2C gezeigt ist, besitzt in der Gruppe LIIa jede IOC 222 eine Verbindung mit jeder LC 220, wobei dadurch ein redundanter Datenpfad für den Verkehr, der durch die LIIa verarbeitet wird, in dem Fall eines Ausfalls einer der IOCs 222 oder einer der LCs 220 geschaffen wird. Analog bilden die LCs 220c, 220d und die IOCs 222c, 222d die LIIb-Gruppe, wobei sie die gleiche redundante Struktur besitzen. Es ist jedoch klar, dass eine LII-Gruppe keine redundante Konfiguration besitzen muss, wie sie beschrieben worden ist (z. B. kann es anstelle von zwei eine einzige LC geben).
  • Als ein weiteres Beispiel wird die Schnittstelle zwischen den LCs 220a, 220b, 220c, 220d und den FICs 218a, 218b als eine Leitungskarten-Fabric-Karten-Schnittstelle (LFI) bezeichnet, wobei die LCs 220a, 220b, 220c, 220d und die FICs 218a, 218b die LFI-Gruppe bilden. Wie bei den oben beschriebenen LII-Gruppen besitzt jede LC 220 eine Verbindung zu jeder FIC 218, wobei dadurch ein redundanter Datenpfad für den Verkehr, der durch irgendeine Komponente in der LFI-Gruppe verarbeitet wird, geschaffen wird. Eine LFI-Gruppe muss jedoch keine redundante Konfiguration besitzen, wie sie beschrieben worden ist.
  • Im Allgemeinen kann eine Schnittstellengruppe an irgendeinem Schnittstellenpunkt zwischen den Sätzen von untereinander verbundenen Komponenten, wie z. B. der LIIa, der LIIb und der LFI, die in 2C gezeigt sind, gebildet werden. Vor allem bilden die LCs 220a, 220b, 220c, 220d und die IOCs 222a, 222b, 222c, 222d gemeinsam keine Schnittstellengruppe, da es z. B. keine gemeinsam benutzte Schnittstelle zwischen der LC 220a und der IOC 222c gibt. Eine Schnittstellengruppe umfasst jedoch wenigstens eine erste Komponente, die über eine Schnittstelle mit einer zweiten Kommunen verbunden ist, und ferner über die Schnittstelle mit wenigstens einer dritten Komponente verbunden ist.
  • Während hier eine spezifische FRU-Konfiguration beispielhaft beschrieben ist, ist klar, dass die Lehren der vorliegenden Erfindung auf praktisch jeden Typ der FRU-Konfiguration ausgedehnt werden können, die gruppiert und als Teil einer Schnittstellengruppe definiert werden kann, wie oben beschrieben worden ist. Während in 2C beispielhaft drei Gruppen gezeigt sind, nämlich die LIIa-Gruppe, die LIIb-Gruppe und die LFI-Gruppe, ist es folglich selbstverständlich, dass verschiedene andere Schnittstellengruppen für andere Konfigurationen und andere Gruppen von FRUs definiert werden können.
  • Es wird außerdem angegeben, dass die Konfiguration in 2C zum Zweck der Veranschaulichung vereinfacht worden ist. In einer Ausführungsform kann z. B. jedes redundante Paar von LCs 220' in einem HSPS 203 mit bis zu acht IOCs 222' zwischen ihnen verbunden sein. In 2C sind für die Einfachheit nur zwei IOCs 222 gezeigt. Es ist klar, dass die spezielle Anordnung und Konfiguration der FRUs auf ihren technischen Konstruktions- und Verbindungsfähigkeiten basieren und von denen, die in 2C gezeigt sind, verschieden sein können.
  • In 3A ist eine System-Fehleranalyse und -korrelation (System-EAC) gemäß einer Ausführungsform gezeigt und durch das Bezugszeichen 300A im Allgemeinen bezeichnet. Wie im Folgenden weiter erklärt wird, ist die EAC besonders geeignet, um persistente Fehler zu analysieren und zu korrelieren, die in einer Komponentenschnittstelle erfasst werden, und wo die isolierte Komponente nicht bestimmen kann, ob sie für die Verursachung des Fehlers verantwortlich ist oder ob der Fehler durch eine weitere Komponente, die mit dieser Schnittstelle verbunden ist, verursacht worden ist.
  • Wie in 3A gezeigt ist, umfasst die diagnostische Infrastruktur 300A eine Managementschicht 310, die Kenntnis vom Status des ganzen Netzelements besitzt, und eine Betriebsmittelschicht 320, die in jeder Komponente oder FRU steht und nur die Kenntnis besitzt, die diese FRU betrifft.
  • Die Managementschicht kann z. B. Software-Module umfassen, die im Steuerkomplex 202 arbeiten. Die Managementschicht 310 empfängt Fehlerstatusberichte von den Elementen in der Betriebsmittelschicht 320. Diese Berichte werden zum Systemdiagnose-AM 312 kanalisiert, das einfach ein Container-Objekt für jedes EAC-Software-Modul 313 ist. Folglich versieht das Systemdiagnose-AM 312 das EAC-Modul 313 mit einer externen Schnittstelle zu anderen AM-Objekten. Anhand der Fehlerstatusberichte bewertet das EAC-Modul 313 die Mängelfreiheit der überwachten Elemente, um wahrscheinlich defekte Komponenten zu identifizieren, wenn durch die Elemente in der Betriebsmittelschicht 320 Fehler gemeldet werden. Ein Zeitgeber 316 ist durch das EAC-Modul zugänglich, um die verschiedenen hierin beschriebenen EAC-Tasks auszuführen.
  • In einer Ausführungsform sind die Fehlerstatus-Aktualisierungen Nachrichten, die von der Betriebsmittelschicht 320 in verschiedenen FRUs (z. B. in einer Baugruppenträger-Steuereinheit oder einer Leitungskarte, wie in 3A gezeigt ist) an die Managementschicht 310 gesendet werden. In der Managementschicht 310 leitet ein AE-Server-Task 319 die Nachrichten zum entsprechenden AM-Objekt weiter. Das AM-Objekt leitet wiederum die relevanten Fehlerstatusinformationen zum EAC-Modul 313 weiter. In diesem veranschaulichenden Beispiel werden die Statusberichte durch die EAC 313 von verschiedenen AM-Objekten, einschließlich z. B. eines FIC-AM-Objekts 314, eines Leitungskarten-AM-Objekts (LC-AM-Objekts) 316 und eines IOC-AM-Objekts 317, empfangen.
  • In der Betriebsmittelschicht 320 überwacht jeder Diagnostik-Task 330 und 334 auf in den Komponenten oder FRUs erfasste Fehler, einschließlich Fehler, die in den Kommunikationsschnittstellen zu anderen FRUs (folglich "Schnittstellefehler") vorhanden sind. Die Schnittstellenfehler können auf Grund der Tatsache, dass eine isolierte FRU nicht bestimmen kann, ob sie für die Verursachung des Fehlers verantwortlich ist oder ob der Fehler durch eine weitere FRU auf der anderen Seite der Schnittstelle verursacht worden ist, unbestimmt sein. Falls ein Fehler erfasst wird oder ein Fehler beseitigt wird, berichten die Diagnostik-Tasks 330 und 334 diese Statusänderung dem CAM, das der FRU entspricht.
  • Beispielhaft sind in 3A ein FIC-CAM-Objekt 322, ein LC-CAM-Objekt 324 und ein IOC-CAM-Objekt 326 gezeigt. Die verschiedenen CAMs 322, 324, 326 sind Objekte des CLT-Server-Tasks 328, die einen Nachrichtenschnittstellenpunkt zwischen der Betriebsmittelschicht 320 und den entsprechenden AM-Objekten in der Managementschicht 310 schaffen.
  • In einer Ausführungsform kommunizieren die CAMs 322, 324, 326 über die Nachrichtenübermittlung zwischen dem AE-Server-Task 319 und den CTL-Server-Tasks 328 mit den entsprechenden Zugangsmodulen 314, 316 und 317.
  • Die durch den LC-Diagnostik-Task 330 und den FIC-Diagnostik-Task 334 erfassten Fehler werden z. B. über die entsprechenden AM- und CAM-Objekte zum EAC-Modul 313 weitergeleitet. Falls das EAC-Modul 313 bestimmt, dass eine spezielle FIC 218 eine fehlerhafte FRU ist, informiert das EAC-Modul 313 ein Mehrfach-Baugruppenträger-Fabric-AM 318, um den Fehler zu behandeln. Das Mehrfach-Baugruppenträger-Fabric-AM 318 weist dem geeigneten Fabric (d. h. dem Fabric 'X' oder dem Fabric 'Y' in den 2A ... 2C) Mängelpunkte zu, um möglicherweise eine Fabric-Aktivitätsvermittlung entfernt von der fehlerhaften FIC 218 zu verursachen. Falls andernfalls eine LC 220 oder eine IOC 222 fehlerhaft ist, kann das EAC-Modul 313 durch einen Funktionsaufruf für das geeignete IOC-AM-Objekt 317 oder Leitungskarten-AM-Objekt 316 veranlassen, dass der speziellen LC 220 oder IOC 222 Mängelpunkte zugewiesen werden.
  • Um unbestimmte Schnittstellenfehlerangaben in einer Schnittstellengruppe von Komponenten oder FRUs zu analysieren, sollte das EAC-Modul 313 über die Mängelfreiheit aller in diese Schnittstellen einbezogenen FRUs auf dem Laufenden gehalten werden. Die Statusänderungen der LC 220 und der IOC 222 und alle Änderungen der Redundanzkonfiguration der LC 220 können z. B. durch ihre entsprechenden AM-Objekte 316, 317 dem EAC-Modul 313 berichtet werden. Als ein weiteres Beispiel kann der FIC-Diagnostik-Task 334 dem EAC-Modul 313 berichten, wenn bestimmte FIC-Fehler erklärt oder entfernt werden. Im Allgemeinen sollte das EAC-Modul 313 viele verschiedene Typen der Fehlerangaben und Statusänderungen analysieren und korrelieren können.
  • Im vorliegenden Beispiel sind die Eingangsfunktionen, die allen Schnittstellengruppen (z. B. LIIa, LIIb, LFI nach 2C) gemeinsam sind, die Grundlage für alle gemeinsamen Komponenten des EAC-Moduls 313. In der folgenden Tabelle A ist beispielhaft ein Satz von Funktionsnamen, die durch das EAC-Modul 313 verwendet werden können, und ihre zugeordneten Beschreibungen gezeigt: TABELLE A
    Funktionsname Beschreibung
    HandleInterfaceError() Behandelt die Schnittstellenfehler.
    HandleShelfStatusChange() Behandelt die Baugruppenträger-Statusänderung.
    HandleCardStatusChange() Aktualisiert die Schnittstellengruppe mit der Kartenstatusänderung.
    HandleCardRedundancyChange() Aktualisiert die Schnittstellengruppe mit der Kartenredundanzänderung.
  • In einer Ausführungsform enthält die EAC 313 eine statische Liste von Funktionszeigern, die durch den Schnittstellengruppentyp (z. B. LFI, LII) indexiert wird. Jedem Schnittstellengruppentyp (z. B. LFI, LII) können Daten zugeordnet sein, die in einem Feld von Funktionszeigern, ein Zeiger für jede in der obigen Tabelle A aufgelistete Funktion, gespeichert sind. Falls in Reaktion auf eine gegebene Eingabe keine Handlung für eine spezielle Schnittstellengruppe erforderlich ist, kann ein Nullfunktionszeiger vorgesehen sein. Das EAC-Modul 313 schafft eine Funktion, die die Parameter einer Eingabe überprüft, um zu bestimmen, welche Felder der funktionalen Zeiger (jedem Feld ist eine Schnittstellengruppe zugeordnet) aktualisiert werden sollten. Falls z. B. über ein FIC-AM-Objekt 314 ein unbestimmter Schnittstellenfehler berichtet wird, identifiziert die LII-Funktion HandleInterfaceError(), dass der Schnittstellenfehler eine LII-Gruppe nicht beeinflusst, wobei sie die Statusaktualisierung für alle LII-Gruppen ignoriert. Die LFI-Funktion HandleInterfaceError() bestimmt jedoch, welche LFT-Gruppe beeinflusst wird, und aktualisiert ihre Daten.
  • Nachdem die EAC eine Änderung der Statusinformationen für eine gegebene Schnittstellengruppe empfangen hat, muss sie in einer Ausführungsform sicherstellen, dass alle relevanten Informationen eine Chance gehabt haben, berichtet zu werden, bevor eine Bestimmung der fehlerhaften FRU ausgeführt wird. Deshalb kann eine vorgegebene Warteperiode verwendet werden, um alle relevanten Informationen zu empfangen, bevor mit der Analyse und Korrelation fortgefahren wird.
  • In 3B ist eine EAC-Schnittstellengruppen-Zustandsmaschine (EAC-IGSM) für das EAC-Modul 313 nach 3A gezeigt und im Allgemeinen durch das Bezugszeichen 300B bezeichnet. Wie angegeben ist, sammelt das EAC-Modul 313 die Informationen von verschiedenen Komponenten oder FRUs in jedem Baugruppenträger, bevor die fehlerhafte(n) FRU(s) bestimmt wird (werden), wobei dies durch die EAC-IGSM ausgeführt wird. Die EAC-IGSM ist allen LII- und LFI-Fehlerbehandlungen gemeinsam und schafft ein Entprellungsintervall, bevor das EAC-Modul 313 die Fehlerkorrelation für die Schnittstellengruppe ausführt. Wie in 3B gezeigt ist, besitzt in einer Ausführungsform die EAC-IGSM drei Zustände: den fehlerfreien Zustand 352, den Wartezustand 354 und den stationären Fehlerzustand 356.
  • Im vorliegenden veranschaulichenden Beispiel kann das EAC-Modul 313 die Fehler von der LFI-Gruppe, der LIIa-Gruppe und der LIIb-Gruppe abwickeln (2C). Außerdem kann die EAC 313 die LFI- und LII-Schnittstellengruppen für verschiedene Baugruppenträgertypen, wie z. B. einen PS 205 oder einen HSPS 203, unterstützen. Die Gesamtzahl der LFI- und LII-Gruppen pro Baugruppenträger basiert auf dem Baugruppenträgertyp, wobei es eine EAC-IGMS für jede Schnittstellengruppe gibt. Wenn ein Baugruppenträger zuerst konfiguriert wird, gibt jede EAC-IGSM den fehlerfreien Zustand 352 als den Anfangszustand vor. Der fehlerfreie Zustand 352 zeigt an, dass in allen Schnittstellen keine Fehler vorhanden sind. Die EAC-IGSM bleibt in diesem fehlerfreien Zustand 352, bis ein Schnittstellenfehler erfasst wird. Wenn es Komponentenstatusänderungen oder Komponentenredundanzänderungen gibt, die eine gegebene Schnittstellengruppe beeinflussen, werden ihre Daten aktualisiert, wie früher beschrieben worden ist. Ihre EAC-IGSM verbleibt jedoch im fehlerfreien Zustand 352. Bei der Erfassung eines Schnittstellenfehlers zeichnet jedoch die EAC 313 den Fehler im Datenfeld der Schnittstellengruppe auf, wobei die EAC-IGSM in den Wartezustand 354 geht.
  • Der Wartezustand 354 erlaubt, dass weitere Fehler und Statusänderungen, die die Schnittstellengruppe umfassen, während einer vorgegebenen Zeitperiode zur EAC 313 berichtet werden. Die Dauer der Zeitperiode kann z. B. davon abhängig sein, wie oft Fehler berichtet werden und wie lange es dauert, bis die Nachrichten von der Betriebsmittelschicht 320 zur Managementschicht 310 verbreitet werden. Während sich die EAC 313 im Wartezustand 354 befindet, zeichnet sie neu berichtete Fehler in den Daten der Schnittstellengruppe auf, aber sie korreliert die Daten nicht. Beim Eintreten in den Wartezustand 354 startet die EAC-IGSM den Zeitgeber 316. Wenn der Zeitgeber 316 abläuft, bestimmt die EAC-IGSM den nächsten Zustand, indem sie überprüft, ob es irgendwelche aufgezeichneten ausstehenden Schnittstellenfehler gibt. Falls alle Schnittstellenfehler beseitigt sind, wenn der Zeitgeber 316 abläuft, (d. h. es ist kein Fehler oder Defekt persistent), geht die EAC-IGSM zurück in den fehlerfreien Zustand 352 und entfernt alle Komponenten- und Fabric-"Mängelpunkte", die sie in der Vergangenheit zugewiesen haben kann. Andernfalls tritt die EAC-IGSM in den stationären Fehlerzustand 356 ein und beginnt die Fehleranalyse und -korrelation, um die fehlerhafte FRU zu bestimmen.
  • Im stationären Fehlerzustand 356 bestimmt die EAC 313 die fehlerhafte(n) FRU(s), die für die Schnittstellenfehler verantwortlich ist (sind), gemäß der vorliegenden Ausführungsform. Diese Bestimmung basiert auf einer Korrelation der von der Schnittstellengruppe gesammelten Informationen, wie z. B. dem Komponententyp, dem Komponentenstatus und der Redundanzkonfiguration. Sobald die FRU(s), die für die Schnittstellenfehler verantwortlich gemacht werden sollte(n), bestimmt worden ist/sind, berichtet die EAC 313 die fehlerhaften FRUs der Benutzer-Managementschnittstelle und ordnet dementsprechend anhand der vorhergehenden Fehlerhistorie für diese Schnittstellengruppe Mängelpunkte zu oder entfernt dementsprechend anhand der vorhergehenden Fehlerhistorie für diese Schnittstellengruppe Mängelpunkte. In dem Beispiel einer LFI-Gruppe können die Mängelpunkte über das Mehrfach-Baugruppenträger-Fabric-AM 318 dem Fabric einer FIC (2C) oder einer LC über ihr LC-AM-Objekt 316 zugewiesen werden. Nachdem dieser Schritt unternommen worden ist, bleibt die EAC-IGSM im stationären Fehlerzustand 356, bis es eine weitere Statusänderung, die ihre Schnittstellengruppe einschließt, gibt, was die EAC-IGSM veranlasst, zurück in den Wartezustand 354 zu geben. Diese Statusänderung könne z. B. die Hinzufügung oder die Entfernung eines Schnittstellenfehlers, eine Komponentenstatusänderung (z. B. vom OK-Zustand in den Fehlerzustand) oder eine Änderung der Komponentenredundanzkonfiguration (z. B. von redundant zu nicht redundant) sein.
  • Für jede Schnittstellengruppe (2C) ist klar, dass die berichteten Fehler durch die EAC 313 in verwandte Kategorien für die Korrelation klassifiziert werden können. Die LFI-Schnittstellenfehler können z. B. als Datenpfadschnittstellen-Fehler, Steuerpfadschnittstellen-Fehler oder Konnektivitätsfehler kategorisiert werden. Ähnlich können die LII-Schnittstellenfehler als Datenpfadschnittstellen-Fehler oder Steuerpfadschnittstellen-Fehler kategorisiert werden. Die Tabelle B stellt ein Beispiel der Schnittstellenfehlerkategorien für jeden Schnittstellengruppentyp in der vorliegenden veran schaulichenden Ausführungsform dar. Die Fehler in den separaten Kategorien mit der gleichen Schnittstellengruppe werden als orthogonal betrachtet und können unabhängig korreliert werden, obwohl die Korrelation die gleichen Kartenstatus- und Redundanzinformationen einbezieht. TABELLE B
    Fehlerkategorie Beispiele der erfassten unbestimmten Schnittstellenfehler
    LFI-Datenpfad – Ein am Eingangsdateneingang einer FIC erfasster Paritätsfehler. – Ein am Ausgangsdateneingang einer LC erfasster Verlust des Taktes.
    LFI-Steuerpfad – Ein durch die HSPS-LC im von der FIC gesendeten Gegendruck-Steuerrahmen erfasster Rahmenfehlsynchronisations-Fehler.
    LPI-Konnektivität – Ein Ausfall der Zellentestdiagnostik, die durch die LC ausgeführt wird, die periodisch eine Testzelle aus dem Fabric prellt.
    LII-Datenpfad – Ein am Eingangsdateneingang einer LC erfasster Zellenkopftest-Fehler. – Ein am Ausgangsdateneingang einer IOC erfasster Zellenfehlsynchronisations-Fehler.
    LII-Steuerpfad – Ein durch eine IOC in einem durch eine LC gesendeten Steuerrahmen erfasster Paritätsfehler. – Ein durch eine LC in einem von einer IOC gesendeten Steuerrahmen erfasster Synchronisationsfehler.
  • Wenn eine EAC-IGSM für eine LFI- oder LII-Gruppe in den stationären Fehlerzustand 356 eintritt, führt sie in einer Ausführungsform die Fehleranalyse und -korrelation anhand der durch das EAC-Modul 313 für diese Schnittstellengruppe gesammelten Daten aus. Diese Daten enthalten z. B. den Status aller Komponenten in der Schnittstellengruppe (OK oder fehlerhaft/mangelhaft), ob die LCs in der Gruppe für die Redundanz konfiguriert sind und eine Liste aller Komponentenschnittstellen, die gegenwärtig Fehler in der gegebenen Kategorie (z. B. Datenpfad, Steuerpfad) erleben.
  • In einer Ausführungsform besteht der erste Schritt des Korrelationsverfahrens darin, zu bestimmen, welche Schnittstellenfehler ignoriert werden können. Die Fehler in einer gegebenen Schnittstelle werden ignoriert, wenn irgendeine über diese Schnittstelle angeschlossene Karte einen Fehler aufweist. Wenn eine Komponente oder FRU einen Fehler aufweist, wird die fehlerhafte FRU der Benutzer-Managementschnittstelle berichtet, wobei eine Redundanzvermittlung weg von der fehlerhaften FRU ausgeführt werden kann. In diesem Fall gibt es keine Notwendigkeit, dass das EAC-Modul 313 weitere Schritte gegen die auf Grund des Schnittstellenfehlers fehlerhafte FRU unternimmt. Nach dem Untersuchen des Status aller Komponenten oder FRUs in der Schnittstellengruppe wird das EAC-Modul 313 mit einer Liste ausstehender Schnittstellenfehler zurückgelassen, die nicht einer vorher identifizierten fehlerhaften Komponente zugeschrieben werden können.
  • Für die Veranschaulichung dieser Ausführungsform wird nun das Fehleranalyse- und -korrelationsverfahren für Schnittstellenfehler, die in einer LFI-Gruppe in einer ihrer Kategorien auftreten, beschrieben.
  • Das LFI-Fehleranalyse- und -korrelationsverfahren
  • In 4 ist ein veranschaulichender Prozess, der Regeln implementiert, um zu bestimmen, welche FRU(s) für irgendwelche ausstehenden Schnittstellenfehler einer LFI-Gruppe (2C) verantwortlich gemacht werden sollte(n), gezeigt und im Allgemeinen durch das Bezugszeichen 400 bezeichnet. Der Prozess 400, der eine EAC-Funktion für die LFI-Schnittstellenfehlerkorrektur beschreibt, beginnt im Block 402 und durchläuft durch jede Komponente oder Karte in der LFI-Gruppe eine Schleife, wie gezeigt ist. In einer Ausführungsform kann der Prozess 400 mit den FICs beginnen und mit den LCs enden. Es ist jedoch klar, dass der Prozess 400 stattdessen mit den LCs beginnen kann, wobei in diesem Fall die Bezugnahmen auf die FICs und LCs im Prozess 400, der in 4 gezeigt ist, vertauscht sein würden.
  • Für jede Komponente oder Karte zählt der Prozess 404 die Anzahl der Schnittstellenfehler, die die Komponente einschließen. Falls die Antwort auf die Frage im Block 406 (ist der Fehler-Zählerstand größer als 1?) ja lautet, geht der Prozess 400 zum Block 408 weiter und macht die Komponente für die mehreren Fehler verantwortlich. Falls die verantwortlich gemachte Karte eine FIC 218 (2C) ist, weist das EAC-Modul 313 durch das Mehrfach-Baugruppenträger-Fabric-AM-Objekt 318 dem Fabric dieser FIC Mängelpunkte zu, falls es dies nicht bereits entsprechend irgendeiner früheren Fehlerhistorie getan hat (d. h. die FIC bereits getadelt worden ist). Falls die verantwortlich gemachte Karte eine LC ist, tadelt das EAC-Modul 313 diese LC durch ihr LC-AM-Objekt 316, falls es dies nicht bereits entsprechend ihrer früheren Fehlerhistorie getan hat.
  • Falls die Antwort auf die Frage im Block 406 nein lautet, geht der Prozess 400 zum Block 412 weiter, in dem der Prozess 400 fragt, ob das Ergebnis der Zählung im Block 404 gleich 1 ist und der Kartentyp LC ist. Falls die Antwort nein lautet, geht der Prozess 400 zum Block 410 weiter und geht zur nächsten Komponente in der Schnittstellengruppe, indem er in der Schleife zurück zum Block 402 läuft. Falls die Antwort auf die Frage im Block 412 ja lautet, geht der Prozess 400 zum Block 414 weiter und fragt, ob die mit dem anderen Ende der fehlerhaften Schnittstelle der LC verbundene FIC bereits für Schnittstellenfehler verantwortlich gemacht worden ist. Falls die Antwort ja lautet, geht der Prozess 400 zum Block 410 weiter und geht zur nächsten Komponente in der Schnittstellengruppe, indem er in der Schleife zurück zum Block 402 läuft. Falls die Antwort auf die Frage im Block 414 nein lautet, geht der Prozess 400 zum Block 416 weiter und fragt, ob die LC Teil eines mängelfreien redundanten Paares ist (d. h. beide LCs des redundanten Paares besitzen einen Status von OK). Falls die Antwort ja lautet, macht der Prozess im Block 418 die LC für den einzelnen Fehler verantwortlich, damit ein fehlerfreier aktiver Pfad durch eine LC-Aktivitätsvermittlung wiederhergestellt werden kann, anstatt das ganze Fabric zu vermitteln (und potentiell einen größeren Zellenverlust zu verursachen). Demzufolge weist das EAC-Modul 313 der LC durch ihr LC-AM-Objekt 316 Mängelpunkte zu, falls es dies nicht bereits entsprechend ihrer Fehlerhistorie getan hat.
  • Falls die Antwort auf die Frage im Block 416 nein lautet, geht der Prozess 400 zum Block 420 weiter und macht die zugeordnete FIC für den einzelnen Fehler verantwortlich, weil ohne LC-Redundanz eine Fabric-Aktivitätsvermittlung erforderlich ist, um einen fehlerfreien aktiven Datenpfad wiederherzustellen. Demzufolge weist das EAC-Modul 313 durch das Mehrfach-Baugruppenträger-Fabric-AM-Objekt 318 dem Fabric der FIC Mängelpunkte zu, falls es dies nicht bereits getan hat. Vom Block 420 geht der Prozess 400 zum Block 410 weiter und läuft in der Schleife zum Block 402 zurück, bis alle Komponenten in der Schnittstellengruppe analysiert und korreliert worden sind.
  • Während oben eine mögliche Ausführungsform gezeigt und beschrieben worden ist, ist klar, dass andere ähnliche Prozesse verwendet werden können, um eine fehlerhafte Komponente in der Schnittstellengruppe zu analysieren und ihr die Verantwortung zuzuweisen.
  • Nun wird ein weiteres Beispiel eines Fehleranalyse- und -korrelationsverfahrens für Schnittstellenfehler, die in einer LII-Gruppe in einer ihrer Kategorien auftreten, bereitgestellt.
  • Das LII-Fehleranalyse- und -korrelationsverfahren
  • In 5 ist ein Ablaufplan eines veranschaulichenden Prozesses, der Regeln implementiert, um zu bestimmen, welche FRU(s) für die ausstehenden Schnittstellenfehler einer LII-Gruppe (2C) verantwortlich gemacht werden sollte(n), gezeigt und im Allgemeinen durch das Bezugszeichen 500 bezeichnet. Der Prozess 500, der eine EAC-Funktion für die LII-Schnittstellenfehlerkorrektur beschreibt, beginnt im Block 502 und durchläuft durch jede Komponente in der LII-Gruppe eine Schleife, wie gezeigt ist. In einer Ausführungsform kann der Prozess 500 mit den IOCs beginnen und mit den LCs enden. Es ist jedoch abermals klar, dass der Prozess 500 stattdessen mit den LCs beginnen könnte, wobei aber die Bezugnahmen auf die IOCs und LCs im Prozess 500, der in 5 gezeigt ist, vertauscht sein würden.
  • Im Block 504 zählt der Prozess 500 für jede Komponente die Anzahl der Schnittstellenfehler, die die Komponente einschließen. Dann geht der Prozess 500 zum Block 506 weiter, wobei, falls die Antwort auf die Frage im Block 506 (ist der Fehler-Zählerstand im Block 504 größer als 1?) ja lautet, der Prozess 500 zum Block 508 weitergeht und die Komponente mit dem Mehrfachfehlerzählerstand als die fehlerhafte FRU verantwortlich macht. Falls die verantwortlich gemachte FRU eine IOC ist, weist das EAC-Modul 316 dieser IOC durch ihr IOC-AM-Objekt 317 Mängelpunkte zu, falls es dies nicht bereits entsprechend ihrer Fehlerhistorie getan hat.
  • Falls die Antwort auf die Frage im Block 506 nein lautet, geht der Prozess 500 zum Block 512 weiter und fragt, ob der Fehlerzählerstand im Block 504 gleich 1 ist und der Kartentyp LC ist. Falls die Antwort nein lautet, geht der Prozess 500 zum Block 510 weiter und geht zur nächsten Komponente in der Schnittstellengruppe, indem er in der Schleife zurück zum Block 502 läuft. Falls die Antwort auf die Frage im Block 506 ja lautet, geht der Prozess 500 zum Block 514 weiter und fragt, ob die mit dem anderen Ende der fehlerhaften Schnittstelle der LC verbundene IOC bereits für Schnittstellenfehler verantwortlich gemacht worden ist. Falls die Antwort ja lautet, geht der Prozess 500 zum Block 510 weiter und geht zur nächsten Komponente in der Schnittstellengruppe, indem er in der Schleife zurück zum Block 502 läuft. Falls die Antwort auf die Frage im Block 514 nein lautet, geht der Prozess 500 zum Block 516 weiter und fragt, ob die LC Teil eines mängelfreien redundanten Paares ist (d. h. beide LCs besitzen einen Status von OK). Falls die Antwort ja lautet, geht der Prozess 500 zum Block 518 und macht die LC für den einzelnen Fehler verantwortlich, damit ein fehlerfreier aktiver Datenpfad durch eine LC-Aktivitätsvermittlung wiederhergestellt werden kann. Demzufolge weist das EAC-Modul 313 der LC durch ihr LC-AM-Objekt 316 Mängelpunkte zu, falls es dies nicht bereits getan hat.
  • Falls die Antwort auf die Frage im Block 516 nein lautet, geht der Prozess 500 zum Block 520 weiter und macht die IOC für den einzelnen Fehler verantwortlich. Demzufolge weist das EAC-Modul 313 der IOC durch ihr IOC-AM-Objekt 317 Mängelpunkte zu, falls es dies nicht bereits getan hat. Vom Block 520 geht der Prozess 500 zum Block 510 weiter, wobei, falls es in der Schnittstellengruppe irgendwelche weiteren Komponenten gibt, der Prozess 500 in der Schleife zurück zum Block 502 läuft.
  • Es wird angegeben, dass den Fachleuten auf dem Gebiet klar ist, dass verschiedene Modifikationen der Einzelheiten an der vorliegenden Ausführungsform vorgenommen werden können, wobei sie alle in den Umfang der Erfindung fallen würden. Vor allem weisen die oben beschriebenen und gezeigten Prozesse eine iterative Art auf, wobei sie durch jede Komponente innerhalb einer Schnittstellengruppe gehen, um die Fehler- und Statusdaten zu sammeln, die für die Analyse und die Korrelation erforderlich sind. Es ist jedoch klar, dass eine derartige Sammlung der Daten in irgendeiner aus einer Anzahl von Arten ausgeführt werden kann, einschließlich der gleichzeitigen Sammlung oder der parallelen Sammlung der Daten durch die Verwendung einer Anzahl von Prozessen, bevor die Schnittstellengruppe als Ganzes analysiert wird. Außerdem ist klar, dass die durch die oben unter Bezugnahme auf die 4 und 5 beschriebenen veranschaulichenden Prozesse implementierten Regeln alternativ in einer Tabellen- oder Feldform implementiert sein können, wobei ein oder mehrere Faktoreneingaben eine vorgegebene Ausgabe erzeugen.

Claims (15)

  1. Verfahren zum Identifizieren einer fehlerhaften Komponente in einer Gruppe von Komponenten (222, 220, 218), wobei die Gruppe in einer verbundenen Konfiguration eine erste Komponente (220a) mit einer ersten Verbindungsschnittstelle, die mit einer zweiten Verbindungsschnittstelle einer zweiten Komponente (218a) und mit einer dritten Verbindungsschnittstelle einer dritten Komponente (218b) verbunden ist, aufweist, wobei das Verfahren dadurch gekennzeichnet ist, dass es die folgenden Schritte umfasst: i) Ausführen einer Überwachung bei jeder Verbindungsschnittstelle, um Fehler zu erfassen; und ii) Berichten aller Fehler, die von jeder Verbindungsschnittstelle erfasst werden, an eine Steuereinheit (202) für die Gruppe von Komponenten; iii) Speichern von Fehlerstatusberichten, die während einer vorgegebenen Zeitdauer von allen Verbindungsschnittstellen empfangen werden, in der Steuereinheit; iv) Ausführen einer regelbasierten Analyse von Fehlerstatusberichten der Gruppe von Komponenten in der Steuereinheit, um die von den Verbindungsschnittstellen gemeldeten Fehler zu korrelieren, um eine wahrscheinlich fehlerhafte Komponente zu isolieren; und v) Zuweisen von Mängelpunkten an die fehlerhafte Komponente, wobei die Steuereinheit die Fehler wenigstens in eine Kategorie für Datenpfadschnittstellen-Fehler, in eine Kategorie für Steuerpfadschnittstellen-Fehler und in eine Kategorie für Konnektivitätsfehler klassifiziert und wobei Fehler in verschiedenen Kategorien unabhängig korreliert werden.
  2. Verfahren nach Anspruch 1, bei dem eine erste Regel, die für die regelbasierte Analyse verwendet wird, Ortsinformationen, die den Fehlern zugeordnet sind, als einen Faktor bei der Identifizierung der fehlerhaften Komponente verwendet.
  3. Verfahren nach Anspruch 2, bei dem eine zweite Regel, die für die regelbasierte Analyse verwendet wird, Häufigkeitsinformationen, die den Fehlern zugeordnet sind, als einen zweiten Faktor bei der Identifizierung der fehlerhaften Komponente verwendet.
  4. Verfahren nach Anspruch 3, bei dem eine dritte Regel, die für die regelbasierte Analyse verwendet wird, eine Komponentenredundanz in der Konfiguration als einen dritten Faktor bei der Identifizierung der fehlerhaften Komponente verwendet.
  5. Verfahren nach Anspruch 1, bei dem eine Regel, die für die regelbasierte Analyse verwendet wird, auf der Grundlage einer Fehlerhistorie der Komponente einen Wahrscheinlichkeitswert verwendet, dass eine bestimmte Komponente der Gruppe die fehlerhafte Komponente ist.
  6. Verfahren nach Anspruch 4 oder Anspruch 5, das ferner die folgenden Schritte umfasst: vi) Überwachen auf Zustandsänderungen in wenigstens einer Komponente der Gruppe; und vii) Verwenden irgendwelcher Zustandsänderungen in einer vierten Regel als einen weiteren Faktor bei der Identifizierung der fehlerhaften Komponente.
  7. Verfahren nach Anspruch 1, das ferner den folgenden Schritt umfasst: vi) vor dem Schritt v) Entwickeln wenigstens einer Regel zum Identifizieren der fehlerhaften Komponente in Abhängigkeit von wenigstens einer Charakteristik eines möglichen Fehlers und von wenigstens einer Charakteristik der Konfiguration.
  8. Verfahren nach Anspruch 7, das ferner den folgenden Schritt umfasst: vii) Verwenden von Ortsinformationen, die dem möglichen Fehler zugeordnet sind, als einen Faktor bei der Entwicklung der wenigstens einen Regel zum Identifizieren einer fehlerhaften Komponente.
  9. Verfahren nach Anspruch 8, das ferner den folgenden Schritt umfasst: viii) Verwenden von Häufigkeitsinformationen, die dem möglichen Fehler zugeordnet sind, als einen weiteren Faktor bei der Entwicklung der wenigstens einen Regel zum Identifizieren einer fehlerhaften Komponente.
  10. Verfahren nach Anspruch 9, das ferner den folgenden Schritt umfasst: ix) Verwenden einer Komponentenredundanz in der Konfiguration als einen weiteren Faktor bei der Entwicklung der wenigstens einen Regel zum Identifizieren einer fehlerhaften Komponente.
  11. System zum Identifizieren einer fehlerhaften Komponente in einer Gruppe von Komponenten (222, 220, 218), wobei die Gruppe in einer verbundenen Konfiguration eine erste Komponente (220a) mit einer ersten Verbindungsschnittstelle, die mit einer zweiten Verbindungsschnittstelle einer zweiten Komponente (218b) und mit einer dritten Verbindungsschnittstelle einer dritten Komponente (218b) verbunden ist, umfasst, wobei das System dadurch gekennzeichnet ist, dass es umfasst: a) eine Überwachungseinrichtung zum Ausführen einer Überwachung bei jeder Verbindungsschnittstelle, um Fehler zu erfassen; und b) Berichtsmittel zum Berichten aller Fehler, die durch jede Verbindungsschnittstelle erfasst werden, an eine Steuereinheit (220) für die Gruppe von Komponenten; c) Speichermittel zum Speichern von Fehlerstatusberichten, die während einer vorgegebenen Zeitdauer von allen Verbindungsschnittstellen empfangen werden, in der Steuereinheit; d) Ausführungsmittel zum Ausführen einer regelbasierten Analyse von Fehlerstatusberichten der Gruppe von Komponenten in der Steuereinheit, um die von den Verbindungsschnittstellen gemeldeten Fehler zu korrelieren, um eine wahrscheinlich fehlerhafte Komponente zu isolieren, und e) Zuweisen von Mängelpunkten an die fehlerhafte Komponente, wobei die Steuereinheit die Fehler wenigstens in eine Kategorie für Datenpfadschnittstellen-Fehler, eine Kategorie für Steuerpfadschnittstellen-Fehler und eine Kategorie für Konnektivitätsfehler klassifiziert und wobei Fehler in verschiedenen Kategorien unabhängig korreliert werden.
  12. System nach Anspruch 11, bei dem die Gruppe wenigstens ein redundantes Paar von Komponenten enthält, wobei jede Komponente jedes redundanten Paars mit wenigstens einer anderen Komponente verbunden ist.
  13. System nach Anspruch 11 oder Anspruch 12, bei dem eine erste Regel, die für die von dem Prozessor verarbeitete regelbasierte Analyse verwendet wird, Ortsinformationen, die den Fehlern zugeordnet sind, als einen Faktor bei der Identifizierung der fehlerhaften Komponente verwendet.
  14. System nach Anspruch 13, bei dem esine zweite Regel, die für die von dem Prozessor verarbeitete regelbasierte Analyse verwendet wird, Häufigkeitsinformationen, die den Fehlern zugeordnet sind, als einen weiteren Faktor bei der Identifizierung der fehlerhaften Komponente verwendet.
  15. System nach Anspruch 13 oder Anspruch 14, bei dem eine dritte Regel, die für die regelbasierte Analyse verwendet wird, eine Komponentenredundanz in der Gruppe als einen weiteren Faktor bei der Identifizierung der fehlerhaften Komponente verwendet.
DE60314025T 2002-01-24 2003-01-23 System und Verfahren zur Identifizierung einer fehlerhaften Komponente in einem Netzwerkelement Expired - Lifetime DE60314025T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CA002369351A CA2369351A1 (en) 2002-01-24 2002-01-24 System and method for providing error analysis and correlation in a network element
CA2369351 2002-01-24

Publications (2)

Publication Number Publication Date
DE60314025D1 DE60314025D1 (de) 2007-07-12
DE60314025T2 true DE60314025T2 (de) 2008-01-24

Family

ID=4171090

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60314025T Expired - Lifetime DE60314025T2 (de) 2002-01-24 2003-01-23 System und Verfahren zur Identifizierung einer fehlerhaften Komponente in einem Netzwerkelement

Country Status (4)

Country Link
US (1) US7082554B2 (de)
EP (1) EP1333615B1 (de)
CA (1) CA2369351A1 (de)
DE (1) DE60314025T2 (de)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7316016B2 (en) * 2002-07-03 2008-01-01 Tripwire, Inc. Homogeneous monitoring of heterogeneous nodes
US8140635B2 (en) 2005-03-31 2012-03-20 Tripwire, Inc. Data processing environment change management methods and apparatuses
EP1460801B1 (de) * 2003-03-17 2006-06-28 Tyco Telecommunications (US) Inc. System und Verfahren zur Fehlerdiagnose mittels verteilter Alarmkorrelation
US20040221198A1 (en) * 2003-04-17 2004-11-04 Vecoven Frederic Louis Ghislain Gabriel Automatic error diagnosis
US7536605B2 (en) * 2005-05-25 2009-05-19 Alcatel-Lucent Usa Inc. Injection of software faults into an operational system
US9104650B2 (en) 2005-07-11 2015-08-11 Brooks Automation, Inc. Intelligent condition monitoring and fault diagnostic system for preventative maintenance
EP1913506A4 (de) * 2005-07-11 2008-08-13 Brooks Automation Inc Intelligente zustandsüberwachung und fehlerdiagnosesystem für prädiktive wartung
WO2007021823A2 (en) 2005-08-09 2007-02-22 Tripwire, Inc. Information technology governance and controls methods and apparatuses
US10318894B2 (en) * 2005-08-16 2019-06-11 Tripwire, Inc. Conformance authority reconciliation
CN101047738B (zh) * 2006-06-16 2010-06-09 华为技术有限公司 通信设备故障定位的方法和系统
US20080229153A1 (en) * 2007-03-13 2008-09-18 At&T Knowledge Ventures, Lp System and method of network error analysis
US7821947B2 (en) * 2007-04-24 2010-10-26 Microsoft Corporation Automatic discovery of service/host dependencies in computer networks
US8914341B2 (en) 2008-07-03 2014-12-16 Tripwire, Inc. Method and apparatus for continuous compliance assessment
US8086907B1 (en) * 2008-09-30 2011-12-27 Juniper Networks, Inc. Systems and methods for network information collection
US7992044B2 (en) * 2008-12-05 2011-08-02 Oracle America, Inc. Method and system for platform independent fault management
JP5287402B2 (ja) * 2009-03-19 2013-09-11 富士通株式会社 ネットワーク監視制御装置
WO2010137063A1 (ja) * 2009-05-26 2010-12-02 株式会社日立製作所 管理サーバ及び管理システム
US8108724B2 (en) * 2009-12-17 2012-01-31 Hewlett-Packard Development Company, L.P. Field replaceable unit failure determination
US8943364B2 (en) * 2010-04-30 2015-01-27 International Business Machines Corporation Appliance for storing, managing and analyzing problem determination artifacts
US8595553B2 (en) * 2010-06-03 2013-11-26 Siemens Aktiengesellschaft Error pattern identification in an installed base of systems
CN106941423B (zh) * 2017-04-13 2018-06-05 腾讯科技(深圳)有限公司 故障原因定位方法及装置
US11456934B2 (en) 2017-11-09 2022-09-27 Nokia Shanghai Bell Co., Ltd Method, management node and processing node for continuous availability in cloud environment
CN109818763B (zh) * 2017-11-20 2022-04-15 北京绪水互联科技有限公司 设备故障的分析统计方法和系统及设备实时质控方法和系统
US11126495B2 (en) * 2018-03-07 2021-09-21 Micron Technology, Inc. Dynamic error handling in a memory system

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5309448A (en) * 1992-01-03 1994-05-03 International Business Machines Corporation Methods and systems for alarm correlation and fault localization in communication networks
SG47696A1 (en) * 1993-02-23 1998-04-17 British Telecomm Event correlation
US5666481A (en) * 1993-02-26 1997-09-09 Cabletron Systems, Inc. Method and apparatus for resolving faults in communications networks
FR2724026B1 (fr) * 1994-08-29 1996-10-18 Aerospatiale Procede et dispositif pour l'identification de pannes dans un systeme complexe
US6118936A (en) * 1996-04-18 2000-09-12 Mci Communications Corporation Signaling network management system for converting network events into standard form and then correlating the standard form events with topology and maintenance information
US5768501A (en) * 1996-05-28 1998-06-16 Cabletron Systems Method and apparatus for inter-domain alarm correlation
US5771274A (en) * 1996-06-21 1998-06-23 Mci Communications Corporation Topology-based fault analysis in telecommunications networks
US5864662A (en) * 1996-06-28 1999-01-26 Mci Communication Corporation System and method for reported root cause analysis
JP4108877B2 (ja) * 1998-07-10 2008-06-25 松下電器産業株式会社 ネットワークシステム,ネットワーク端末,およびネットワークシステムにおける障害箇所の特定方法
US6253339B1 (en) * 1998-10-28 2001-06-26 Telefonaktiebolaget Lm Ericsson (Publ) Alarm correlation in a large communications network
US6707795B1 (en) * 1999-04-26 2004-03-16 Nortel Networks Limited Alarm correlation method and system
US6604208B1 (en) * 2000-04-07 2003-08-05 Telefonaktiebolaget Lm Ericsson (Publ) Incremental alarm correlation method and apparatus
US6775236B1 (en) * 2000-06-16 2004-08-10 Ciena Corporation Method and system for determining and suppressing sympathetic faults of a communications network
JP2002009833A (ja) * 2000-06-21 2002-01-11 Nec Corp パケット転送方法及びパケット転送装置
US6748557B1 (en) * 2000-09-27 2004-06-08 International Buisness Machines Corporation System, method, and program for determining the availability of interfaces to a control unit

Also Published As

Publication number Publication date
US20030145249A1 (en) 2003-07-31
EP1333615B1 (de) 2007-05-30
EP1333615A2 (de) 2003-08-06
EP1333615A3 (de) 2005-02-09
CA2369351A1 (en) 2003-07-24
DE60314025D1 (de) 2007-07-12
US7082554B2 (en) 2006-07-25

Similar Documents

Publication Publication Date Title
DE60314025T2 (de) System und Verfahren zur Identifizierung einer fehlerhaften Komponente in einem Netzwerkelement
DE60116178T2 (de) Grundursachenanalyse in einer verteilten Netzwerk-Managementarchitektur
DE602004007878T2 (de) Speicherplattenanordnung mit einer Mehrzahl von austauschbaren Magnetplatteneinheiten
EP0632617B1 (de) Verfahren und Einrichtung zur Unterstützung des Netzwerkmanagements
EP2359204B1 (de) Adaptives zentrales wartungssystem und verfahren zum planen von wartungsvorgängen von systemen
DE60210034T2 (de) Verfahren und System zur Fehlerortung in einem Kommunikationsgerät
DE60024260T2 (de) Eingrenzung von netzwerkfehlern
US7409576B2 (en) High-availability cluster with proactive maintenance
WO2002013015A1 (de) System zur ermittlung von fehlerursachen
EP1703350B1 (de) Diagnose eines Automatisierungssystems
DE112013006475T5 (de) Verwaltungssystem und Verfahren zur Unterstützung einer Analyse in Bezug auf eine Hauptursache eines Ereignisses
DE4305522C2 (de) Einrichtung zur rechnergestützten Diagnose eines aus Modulen bestehenden technischen Systems
DE112019002196T5 (de) Netzwerkgesundheitsüberwachung
DE102004015503A1 (de) Verfahren und Vorrichtung zum Korrigieren diagnostischer Analysekonzepte in komplexen Systemen
EP2293494A1 (de) Anordnung und Verfahren zur automatisierten Erfassung und nachfolgenden Verfügbarkeitsberechnung einer Netzwerkstruktur mit aktiven Vermittlungsknoten für industrielle Anwendungen
DE112013006588T5 (de) Verwaltungssystem zum Verwalten eines Computersystems und Verwaltungsverfahren hierfür
EP1231537A1 (de) Automatische Inbetriebnahme eines Clustersystems nach einem heilbaren Fehler
EP3628078A1 (de) Verfahren zum betrieb eines mehrere kommunikationsgeräte umfassenden kommunikationsnetzes eines industriellen automatisierungssystems und steuerungseinheit
EP1820307B1 (de) Verfahren zum nachweis der verf]gbarkeit von systemkomponenten eines redundanten kommunikationssystems
DE102004015501A1 (de) Verfahren und Vorrichtung für Wartbarkeit komplexer Systeme
DE102005027977A1 (de) System und Verfahren zur Hochkapazitätsfehlerkorrelation
DE69932302T2 (de) Vorrichtung und Verfahren zur Ausforschung von Traces in einem Kommunikationsnetzwerk
DE102006047762B4 (de) System zum Testen der Funktion eines Computernetzwerkes
DE60304306T2 (de) System und Verfahren zur Bereitstellung eines Managements der Verbindungen von Komponenten in einem Netzelement
JPH0397330A (ja) ネツトワーク障害診断方式

Legal Events

Date Code Title Description
8364 No opposition during term of opposition