DE112016004368T5 - Verwaltung eines Fehlerzustands in einem Datenverarbeitungssystem - Google Patents

Verwaltung eines Fehlerzustands in einem Datenverarbeitungssystem Download PDF

Info

Publication number
DE112016004368T5
DE112016004368T5 DE112016004368.6T DE112016004368T DE112016004368T5 DE 112016004368 T5 DE112016004368 T5 DE 112016004368T5 DE 112016004368 T DE112016004368 T DE 112016004368T DE 112016004368 T5 DE112016004368 T5 DE 112016004368T5
Authority
DE
Germany
Prior art keywords
message
error
data
interest
subscription
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE112016004368.6T
Other languages
English (en)
Inventor
Annapurna Dasari
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of DE112016004368T5 publication Critical patent/DE112016004368T5/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

Systeme, Vorrichtungen und/oder Verfahren können einen Fehlerzustand in einem Computersystem verwalten. Eine Vorrichtung kann eine Nachricht über ein Veröffentlicher-Abonnent-System dynamisch veröffentlichen und eine Nachricht über das Veröffentlicher-Abonnent-System dynamisch abonnieren, wobei wenigstens eine Nachricht verwendet werden kann, um einen Fehlerzustand im Datenverarbeitungssystem zu bewältigen. Die Vorrichtung kann einen Fehlerzustand in einem HPC (High Performance Computing, Hochleistungsdatenverarbeitung)-System vorhersagen, Fehlerinformationen an einen Benutzer übermitteln, den Zustand des HPC-Systems überwachen, auf den Fehlerzustand im HPC-System reagieren, den Fehlerzustand im HPC-System beheben, eine Regel für eine Fehlerverwaltungskomponente aufrechterhalten und/oder die Fehlerinformationen über das Veröffentlicher-Abonnent-System in Echtzeit übermitteln. Nachrichten können auch gesammelt werden, um den Fehlerinformationsverkehr zu minimieren. Das Veröffentlicher-Abonnent-System kann eine koordinierte, integrierte (z. B. systemweite) und/oder skalierbare dynamische und/oder Echtzeit-Fehlerverwaltung ermöglichen.

Description

  • QUERVERWEISUNG AUF VERWANDTE ANMELDUNGEN
  • Die vorliegende Anmeldung beansprucht den Prioritätsvorteil der nicht vorläufigen US amerikanischen Patentanmeldung 14/865,872 , eingereicht am 25. September 2015.
  • TECHNISCHES GEBIET
  • Ausführungsformen beziehen sich im Allgemeinen auf die Fehlerverwaltung. Insbesondere beziehen sich Ausführungsformen auf die Nutzung von Nachrichten über ein Veröffentlichungs- und Abonnement (Publication-Subscription)-System, um einen Fehlerzustand in einem Hochleistungs-Datenverarbeitungssystem zu verwalten.
  • HINTERGRUND DER ERFINDUNG
  • Die Fehlerverwaltung in einem Datenverarbeitungssystem kann relativ komplex sein. Zum Beispiel können Informationen im Zusammenhang mit einem bestimmten Fehler relativ umfangreich sein, da eine große Anzahl der Sensoren Sensordaten für dasselbe Ereignis bereitstellen können. Somit kann es in Anbetracht der Größe des Datenverarbeitungssystems und der zugehörigen durch Sensoren ausgesendeten Fehleridentifikationsdaten relativ schwierig sein, einen Fehler zu erkennen und/oder zu verwalten. Außerdem können geeignete Verwaltungskommunikationspfade nicht vorab festgelegt sein. Auch können vorab festgelegte Pfade überflüssig werden, da ein Laufzeitkontext eines Datenverarbeitungssystems zum Zeitpunkt eines Fehlers unvorhersagbar sein kann. Darüber hinaus können Fehlerreaktion und -behebung unzureichend sein.
  • Figurenliste
  • Die verschiedenen Vorteile der Ausführungsformen werden für den Fachmann aus dem Studium der nachfolgenden Beschreibung und der beigefügten Ansprüche sowie anhand der nachfolgenden Zeichnungen ersichtlich, wobei:
    • 1 ein Blockschaltbild eines Beispiels eines Fehlerverwaltungssystems zum Verwalten eines Fehlerzustands gemäß einer Ausführungsform ist;
    • 2 ein Blockschaltbild eines Beispiels einer Vorrichtung zum Verwalten eines Fehlerzustands gemäß einer Ausführungsform ist;
    • 3 ein Blockschaltbild eines Beispiels eines Hochleistungs-Datenverarbeitungssystems, das ein Fehlerverwaltungssystem zum Verwalten eines Fehlerzustands aufweist, gemäß einer Ausführungsform ist;
    • 4 ein Flussdiagramm eines Beispiels eines Verfahrens zum Verwalten eines Fehlerzustands gemäß einer Ausführungsform ist;
    • 5 ein Blockschaltbild eines Beispiels eines Prozessors gemäß einer Ausführungsform ist; und
    • 6 ein Blockschaltbild eines Beispiels eines Systems gemäß einer Ausführungsform ist.
  • BESCHREIBUNG VON AUSFÜHRUNGSFORMEN
  • 1 stellt ein Fehlerverwaltungssystem 10 zum Verwalten eines Fehlerzustands in einem Datenverarbeitungssystem 12 dar. Dem Fehlerzustand zugeordnete Fehlerinformationen, die von Interesse sein können, beinhalten zum Beispiel Fehler, mögliche Fehler, Betriebsstatistiken, durchgeführte Maßnahmen, durchzuführende Maßnahmen, Richtlinienaktualisierungen, Meldedaten und so weiter. Wie nachstehend ausführlich beschrieben, können Fehlerinformationen unter Fehlerverwaltungskomponenten 14 (14a-14e) in Echtzeit über Nachrichten, die veröffentlicht werden und die von interessierten Fehlerverwaltungskomponenten abonniert werden, dynamisch geteilt werden, um den Fehlerzustand zu bewältigen.
  • Das dargestellte Datenverarbeitungssystem 12 kann ein HPC (High Performance Computing, Hochleistungsdatenverarbeitung)-System aufweisen. In diesem Fall kann der Fehlerzustand einen Ausfall und/oder einen vorhergesagten Ausfall einer im Feld austauschbaren Einheit (Field Replacement Unit, FRU) im HPC-System beinhalten. Die FRU kann eine Vorrichtung wie einen Computerknoten (Computer Node, CN), einen Eingabe-/Ausgabe-Knoten (Input/Output Node, ION), einen Server, einen Teil davon (z. B. eine Baugruppe, einen Lüfter, ein Netzteil, eine Netzwerkschnittstelle, Speicher etc.) und so weiter aufweisen. Die FRU kann auch eine Softwarekomponente wie eine Anwendung, ein Betriebssystem, Mikrocode, ein Dateisystem, einen Teil davon (z. B. eine Softwareerweiterung („Plug-in“), einen Treiber, eine Funktion, ein Verzeichnis, etc.) und so weiter aufweisen. Außerdem kann das Datenverarbeitungssystem 12 einen Sensor (z. B. eine Million Sensoren in einem HPC-System) zum Erfassen und Bereitstellen von Daten aufweisen, die dem Zustand einer jeweiligen überwachten Hardwarekomponente und/oder einer jeweiligen überwachten Softwarekomponente entsprechen.
  • Die Fehlerverwaltungskomponenten 14 (14a-14e) können Fehlerinformationen über ein Veröffentlicher-Abonnent (Publisher-Subscriber, Pub-Sub)-System 16 austauschen. Die Fehlerverwaltungskomponenten 14 können ein Fehlermeldeelement 14a zum Übermitteln von Fehlerinformationen an einen Benutzer, ein Fehlerüberwachungselement 14b zum Überwachen des Zustands des Datenverarbeitungssystems 12, ein Fehlervorhersageelement 14c zum Vorhersagen eines Fehlerzustands im Datenverarbeitungssystem 12, ein Fehlerverarbeitungselement 14d zum Reagieren auf den Fehlerzustand und/oder zum Beheben des Fehlerzustands im Datenverarbeitungssystem 12 und ein „Fault Policy“ (Fehlerrichtlinien)-Aufrechterhaltungselement 14e zum Aufrechterhalten einer Regel für die Fehlerverwaltungskomponenten 14 aufweisen. Die Fehlerverwaltungskomponenten 14 können Teilkomponenten wie zum Beispiel ein Fehlerreaktionselement des Fehlerverarbeitungselements 14d zum Reagieren auf einen Fehlerzustand, ein Fehlerbehebungselement des Fehlerverarbeitungselements 14d zum Beheben eines Fehlerzustands und so weiter aufweisen.
  • Das dargestellte Fehlermeldeelement 14a kann einem Benutzer (z. B. einem Systemadministrator, einem Endbenutzer etc.) Fehlerinformationen einschließlich Sensordaten, Vorhersagedaten, Maßnahmedaten, Richtliniendaten und so weiter bereitstellen. Das Fehlermeldeelement 14a kann Fehlerinformationen über beispielsweise eine grafische Benutzerschnittstelle (Graphical User Interface, GUI), eine Befehlszeilenschnittstelle, eine Schnittstelle für elektronische Nachrichten und so weiter bereitstellen. Das dargestellte Fehlerüberwachungselement 14b kann den Zustand einer Hardwarekomponente und/oder einer Softwarekomponente (z. B. FRUs) des Datenverarbeitungssystems 12 überwachen. In einem Beispiel kann das Fehlerüberwachungselement 14b kontinuierlich Werte von entsprechenden Hardwaresensoren und/oder entsprechenden Softwaresensoren mit einer bestimmten Frequenz auslesen und Fehler basierend auf vorab festgelegten Kriterien (z. B. Schwellwerten etc.) erkennen.
  • Das dargestellte Fehlervorhersageelement 14c kann Echtzeit-Sensordaten vom Fehlerüberwachungselement 14b nutzen, um Vorhersagedaten zu erzeugen wie zum Beispiel eine Vorhersage einer Wahrscheinlichkeit eines möglichen Fehlers, eine Vorhersage eines Zeitraums eines möglichen Fehlers, eine Vorhersage einer Stelle eines möglichen Fehlers und so weiter. In einem Beispiel kann das Fehlervorhersageelement 14c eine Heuristik auf die Echtzeit-Sensordaten anwenden, um eine proaktive Erkennung eines wahrscheinlichen Fehlers bereitzustellen, bevor der Fehler auftritt, und um geeignete Maßnahmen zu ermöglichen, bevor der Fehler auftritt. Das dargestellte Fehlerverarbeitungselement 14d kann eine systemweise Reaktion auf einen Fehler bereitstellen, der aufgetreten ist oder dessen zukünftiges Auftreten vorhergesagt wird, indem reaktive und/oder proaktive Maßnahmen implementiert werden, die an verschiedenen Stellen durchgeführt werden können, um einen Fehlerzustand zu bewältigen.
  • Das dargestellte „Fault Policy“-Aufrechterhaltungselement 14e kann Regeln für die Fehlerverwaltungskomponenten 14 aufrechterhalten. Die Regeln können beispielsweise Überwachungsrichtlinien beinhalten (z. B. was überwacht werden soll, wo überwacht werden soll, wann überwacht werden soll, wie überwacht werden soll etc.), Vorhersagerichtlinien (z. B. was vorhergesagt werden soll, wo vorhergesagt werden soll, wann vorhergesagt werden soll, wie vorhergesagt werden soll etc.), Melderichtlinien (z. B. welche erkannten Fehler gemeldet werden sollen, wo erkannte Fehler gemeldet werden sollen, wann erkannte Fehler gemeldet werden sollen, wie erkannte Fehler gemeldet werden sollen etc.) Reaktions- und Behebungsrichtlinien (z. B. welche Maßnahme durchgeführt werden soll, um zu reagieren oder einen Fehler zu beheben, wo Maßnahmen durchgeführt werden sollen, wie Maßnahmen durchgeführt werden sollen, wann Maßnahmen durchgeführt werden sollen etc.). Jede oder alle Richtlinien können durch einen Benutzer basierend auf einem aktuellen Zustand des Datenverarbeitungssystems 12 und/oder Fehlerinformationen vom Fehlerverwaltungssystem 10 geändert werden.
  • Die dargestellten Fehlerverwaltungskomponenten 14 können als unabhängige monolithische Komponenten implementiert werden. Zum Beispiel kann/können das Fehlermeldeelement 14a und/oder das Fehlervorhersageelement 14c unabhängige Komponenten sein, die an speziellen Stellen und/oder Knoten (z. B. einem Aggregatorknoten) laufen. In einem Beispiel kann/können das Fehlermeldeelement 14a und/oder das Fehlervorhersageelement 14c an einer Steuerungssystemkomponente (z. B. für ein HPC-System) wie einer Baugruppenträger-Steuereinrichtung (Rack Controller, RC), einer Zeilen-Steuereinrichtung (Row Controller, RoC), einem Systemverwaltungssystem (System Management System, SMS) mit einer RAS (Reliability Availability Serviceability, Zuverlässigkeit, Verfügbarkeit, Wartbarkeit)-Engine, einem Ressourcen-Manager (RM), einem Fabric-Manager (FM), einer Laufzeit-Engine und so weiter laufen. Somit kann zum Beispiel das Fehlervorhersageelement 14a ein einzelnes Fehlervorhersageelement an einem RM, an einem FM und so weiter aufweisen. In einem anderen Beispiel kann/können das Fehlermeldeelement 14a und/oder das Fehlervorhersageelement 14c an dedizierten Knoten außerhalb eines Steuerungssystems laufen und mit dem Steuerungssystem über das „Pub-Sub“-System 16 oder über ein anderes „Pub-Sub“-System gekoppelt sein.
  • Die dargestellten Fehlerverwaltungskomponenten 14 können auch als eine Sammlung von Agenten implementiert werden, die an verschiedenen Stellen laufen und/oder die mit einem Aggregatorknoten (z. B. derselben Klasse) kommunizieren. In einem Beispiel kann/können das Fehlerüberwachungselement 14b und/oder das Fehlerverarbeitungselement 14d als dezentrale Agenten an mehreren Stellen des Datenverarbeitungssystems 12 laufen, wie an beliebigen oder allen Sensoren in einem HPC-System, beliebigen oder allen Rechenknoten in einem HPC-System, beliebigen oder allen E/A-Knoten in einem HPC-System, auf beliebigen oder allen Betriebssystemen im HPC-System und so weiter. In einem anderen Beispiel kann/können das Fehlerüberwachungselement 14b und/oder das Fehlerverarbeitungselement 14d als dezentrale Agenten an verschiedenen Steuerungssystemkomponenten wie einem RM, einem FM und so weiter laufen. Somit kann zum Beispiel das Fehlerverarbeitungselement 14b als dezentrale Agenten in einem RM, in einem FM und so weiter laufen. In einem weiteren Beispiel kann das Fehlerüberwachungselement 14b als dezentrale Agenten auf einer niedrigeren Ebene einer Fehlerverwaltungssystemhierarchie laufen und einem Aggregator auf einer höheren Ebene der Fehlerverwaltungssystemhierarchie Daten bereitstellen.
  • Das dargestellte „Pub-Sub“-System 16 weist einen „Pub-Sub“-Bus 18 zum Verteilen von Nachrichten zwischen Nachrichtenerzeugern und Nachrichtenabonnenten auf. Zum Beispiel können Nachrichtenbestimmungselemente 24 (24a-24e) eine Nachricht über den „Pub-Sub“-Bus 18 veröffentlichen und/oder können eine Nachricht über den „Pub-Sub”-Bus 18 über Systemschnittstellen 26 (26a-26e) abonnieren. In dieser Hinsicht können beliebige oder alle Nachrichtenbestimmungselemente 24 Nachrichten weiterleiten und/oder Nachrichten unter Verwendung von asynchronen dynamischen Kommunikationspfaden über den „Pub-Sub“-Bus 18 empfangen. Zum Beispiel kann ein Nachrichtenerzeuger/-veröffentlicher zum Veröffentlichen einer Nachricht die Identität eines Nachrichtenabonnenten nicht kennen und ein Nachrichtenabonnent kann zum Abonnieren einer Nachricht die Identität eines Nachrichtenerzeugers/-veröffentlichers nicht kennen, weil der „Pub-Sub“-Bus 18 unabhängig von der Kenntnis des jeweils anderen dem Nachrichtenerzeuger/-veröffentlicher erlaubt, Nachrichten zu veröffentlichen, und dem Nachrichtenabonnenten erlaubt, Nachrichten zu abonnieren. Somit können asynchrone dynamische Kommunikationspfade in Echtzeit hergestellt werden, um Informationen von Interesse über den „Pub-Sub“-Bus 18 auszutauschen. In einem Beispiel kann der „Pub-Sub“-Bus 18 als logischer Bus implementiert werden, der unter Verwendung von physischen Schnittstellen implementiert wird, um physische Kommunikationsverbindungen zwischen verschiedenen Entitäten des Datenverarbeitungssystems 12 bereitzustellen.
  • Darüber hinaus weist das dargestellte „Pub-Sub“-System 16 einen Makler 20 (z. B. einen Zentralserver) auf, um einen Maklerdienst zwischen den Nachrichtenerzeugern und den Nachrichtenabonnenten bereitzustellen. Zum Beispiel können beliebige oder alle Nachrichtenbestimmungselemente 24 mit dem Makler 20 kommunizieren, um Nachrichten über den „Pub-Sub“-Bus 18 zu senden, die an Nachrichtenabonnenten durch den Makler 20 über den „Pub-Sub“-Bus 18 weitergeleitet werden. Beliebige oder alle Nachrichtenbestimmungselemente 24 können auch mit dem Makler 20 kommunizieren, um Nachrichten zu identifizieren, die über den „Pub-Sub“-Bus 18 verfügbar sind. Zum Beispiel können beliebige oder alle Nachrichtenbestimmungselemente 24 mit dem Makler 20 kommunizieren, um sich beim Makler über den „Pub-Sub“-Bus 18 zu registrieren, und ein interessiertes Nachrichtenbestimmungselement kann den Makler 20 nach den Typen von Nachrichten fragen, die erzeugt/veröffentlicht werden, um ein Ereignis von Interesse zu identifizieren und/oder spezielle zu abonnierende Nachrichten von Interesse zu bestimmen. Das interessierte Nachrichtenbestimmungselement kann dann ein Abonnement beim Makler 20 registrieren, der das Abonnement validieren und Abonnentenkontaktinformationen an den geeigneten Nachrichtenerzeuger/- veröffentlicher weiterleiten kann, um zu ermöglichen, dass die Nachrichten von Interesse direkt an das interessierte Nachrichtenbestimmungselement (z. B. den Nachrichtenabonnenten) weitergeleitet werden.
  • Das interessierte Nachrichtenbestimmungselement kann ferner Nachrichten erzeugen/veröffentlichen, die für andere Nachrichtenbestimmungselemente von Interesse sein können. Zum Beispiel können die durch das interessierte Nachrichtenbestimmungselement erzeugten/veröffentlichten Nachrichten eine neue Nachricht basierend auf einer durch das interessierte Nachrichtenbestimmungselement durchgeführten Aktion, eine neue Nachricht basierend auf einer Evaluierung von Daten in einer empfangenen Nachricht, eine Nachricht basierend auf einer Verwaltungsfähigkeit einer Fehlerverwaltungskomponente, die dem interessierten Nachrichtenbestimmungselement zugeordnet ist, und so weiter beinhalten. In diesem Fall können andere Nachrichtenbestimmungselemente in ähnlicher Weise die Nachrichten (z. B. die von Interesse sind), die durch das interessierte Nachrichtenbestimmungselement erzeugt/veröffentlicht werden, dynamisch in Echtzeit abonnieren und Nachrichten dynamisch erzeugen/veröffentlichen, die über den „Pub-Sub“-Bus 18 übermittelt werden sollen.
  • Entsprechend können beliebige oder alle Nachrichtenbestimmungselemente 24 eine Veröffentlichungsfunktionalität und Abonnierfunktionalität aufweisen, um Nachrichten dynamisch zu veröffentlichen und Nachrichten dynamisch zu abonnieren, um Fehlerinformationen in Echtzeit auszutauschen (z. B. Fehlerüberwachungsdaten und Fehlerreaktionsdaten etc.). Darüber hinaus können beliebige oder alle Nachrichtenbestimmungselemente 24 Nachrichtentypen und/oder Nachrichten dynamisch hinzufügen. Zum Beispiel können dynamisch hinzugefügte Nachrichten eine Fehlerüberwachungsnachricht (z. B. einschließlich Sensordaten), eine Fehlerreaktionsnachricht (z. B. einschließlich einer Fehlerreaktionsmaßnahme), eine Fehlerbehebungsnachricht (z. B. einschließlich einer Fehlerbehebungsmaßnahme), eine Fehlermeldungsnachricht (z. B. einschließlich eines Fehlerzustands), eine Fehlerrichtliniennachricht (z. B. einschließlich einer Regel oder einer Aktualisierung einer Regel), eine Fehlervorhersagenachricht (z. B. einschließlich eines vorhergesagten Fehlerzustands) und so weiter beinhalten.
  • Das dynamische Hinzufügen von Nachrichtenerzeugern, Nachrichtenabonnenten, Nachrichten und/oder Nachrichtentypen kann eine koordinierte, integrierte (z. B. systemweite) und/oder skalierbare Echtzeit- und/oder dynamische Fehlerverwaltung ermöglichen. Zum Beispiel kann eine Steuerungssystemkomponente nicht allein funktionieren, da Nachrichtenbestimmungselemente durch dynamisches Teilen Kenntnis von Eingängen in und Ausgängen aus andere/n Nachrichtenbestimmungselemente/n für koordinierte und/oder integrierte Fehlerzustandsreaktion haben können (z. B. durch geteilte Kenntnis eines Fehlerzustands und von Reaktions-/Korrekturmaßnahmen, die an einer beliebigen Stelle in einem Datenverarbeitungssystem durchgeführt werden können). Darüber hinaus kann Skalierbarkeit bereitgestellt werden, da Fehlerüberwachungselemente, Fehlervorhersageelemente, Fehlerverarbeitungselemente etc. Fehler auf einer Komponentenebene durch den Austausch von Fehlerinformationen in Echtzeit besser verwalten können, um sich an einen aktuellen Zustand eines Datenverarbeitungssystems anzupassen und darauf zu reagieren.
  • Beliebige oder alle Nachrichtenbestimmungselemente 24 können auch direkt Informationen austauschen, wenn zum Beispiel ein Endpunkt eines Kommunikationspfads und/oder eine Unterstruktur der Kommunikation (z. B. Inhalte der Nachrichten müssen ausgetauscht werden) vorab definiert und/oder bekannt sind. Zum Beispiel können vorab definierte Kommunikationspfade (z. B. statische Kommunikation) das Senden von Fehlerinformationen vom Fehlerüberwachungselement 14b an das Fehlermeldeelement 14a, das Senden von anfänglichen Richtlinien und/oder Konfigurationsdaten vom „Fault Policy“-Aufrechterhaltungselement 14e an das Fehlerüberwachungselement 14b und so weiter beinhalten. Insbesondere können jedoch dynamisch hergestellte Kommunikationspfade durch Nachrichtenaustausch über das „Pub-Sub“-System 16 in Echtzeit eine Fehlerverwaltung basierend auf einem Laufzeitkontext des Datenverarbeitungssystems 12 zum Zeitpunkt eines Fehlers oder eines vorhergesagten Fehlers berücksichtigen.
  • Auch wenn unabhängige Fehlerverwaltungskomponenten und/oder bestimmte Kommunikationsflüsse dargestellt wurden, ist einzusehen, dass eine oder mehrere der Fehlerverwaltungskomponenten kombiniert, ausgelassen, umgangen, neu angeordnet etc. werden können und/oder dass die Kommunikation in jeder beliebigen Konfiguration, Reihenfolge und/oder Richtung verlaufen kann. In einem Beispiel kann der Makler 20 ausgelassen werden, wenn die Nachrichtenbestimmungselemente 24 Nachrichten direkt über den „Pub-Sub“-Bus 18 austauschen. In einem anderen Beispiel kann das Fehlerüberwachungselement 14b über eine statische Verbindung mit dem Fehlermeldeelement 14a kommunizieren, um das „Pub-Sub“-System 16 zu umgehen.
  • Es wird nun Bezug genommen auf 2; eine Fehlerverwaltungsvorrichtung 30 weist eine Netzwerkschnittstelle 32 zum Austauschen von Nachrichten über ein mit einem Fehlerverwaltungssystem gekoppelten Datennetzwerk auf. Die Netzwerkschnittstelle 32 kann Kommunikationsfunktionalität für eine breite Vielfalt von Zwecken aufweisen, wie zum Beispiel Mobiltelefon (z. B. WCDMA (Wideband Code Division Multiple Access, Breitband-Codemultiplex-Vielfachzugriff) (UMTS (Universal Mobile Telecommunications System, universelles mobiles Telekommunikationssystem)), CDMA2000 (IS-856/IS-2000) etc.), WiFi („Wireless Fidelity“, z. B. Spezifikationen von IEEE (Institute of Electrical and Electronics Engineers) 802.11-2007 für WLAN (Wireless Local Area Network, drahtloses lokales Netz) MAC (Medium Access Control, Medienzugriffssteuerung) und für die physikalische (PHY) Schicht), 4G LTE (Fourth Generation Long Term Evolution, Langzeitevolution der vierten Generation), Bluetooth (z. B. IEEE (Institute of Electrical and Electronics Engineers) 802.15.1-2005, Wireless Personal Area Networks (drahtlose Netze für den persönlichen Bereich)), WiMax (z. B. IEEE 802.16-2004, LAN/MAN Breitband-Wireless-LANs), GPS (Global Positioning System, globales Positionsbestimmungssystem), Spreizband (z. B. 900 MHz), Nahfeldkommunikation (ECMA-340, ISO/IEC 18092) und andere Hochfrequenz (HF)-Zwecke.
  • Die Vorrichtung 30 weist auch ein Nachrichtenbestimmungselement 34 zum dynamischen Veröffentlichen einer Nachricht und/oder dynamischen Abonnieren einer Nachricht auf. Somit kann die Vorrichtung 30 in das bereits erläuterte Fehlerverwaltungssystem 10 (1) implementiert werden. Das dargestellte Nachrichtenbestimmungselement 34 weist ein Datenbestimmungselement 36 zum dynamischen Bestimmen eines Bedarfs an Daten auf, die für das Nachrichtenbestimmungselement 34 von Interesse sind. Das Datenbestimmungselement 36 kann zum Beispiel mit einem Makler kommunizieren, um eine Nachricht (z. B. einen Nachrichtentyp) zu identifizieren, die über ein Veröffentlicher-Abonnent (Publisher-Subscriber, Pub-Sub)-System (z. B. einen „Pub-Sub”-Bus) veröffentlicht wird. Das Datenbestimmungselement 36 kann auch bestimmen, das spezielle Fehlerinformationen für das Nachrichtenbestimmungselement 34 von Interesse sind. Zum Beispiel kann das Datenbestimmungselement 36 eine Verwaltungsfähigkeit einer Fehlerverwaltungskomponente, die dem Nachrichtenbestimmungselement 34 zugeordnet ist, berücksichtigen, um die Daten von Interesse zu bestimmen.
  • Das Nachrichtenbestimmungselement 34 weist ferner ein Nachrichtenerzeugungselement 38 zum Erzeugen/Veröffentlichen einer Anforderungsnachricht auf, die einem Makler und/oder einem anderen Nachrichtenbestimmungselement über das „Pub-Sub“-System bereitgestellt werden soll. Die Anforderungsnachricht kann eine Anforderung zum Abonnieren einer Nachricht beinhalten, die durch das andere Nachrichtenbestimmungselement veröffentlicht wird, wobei das Abonnement validiert werden kann, bevor eine Nachricht, die die Daten von Interesse enthält, an das Nachrichtenbestimmungselement 34 weitergeleitet wird. Die Anforderungsnachricht kann auch eine Beschreibung der Daten beinhalten, die für das Nachrichtenbestimmungselement 34 von Interesse sind. Zum Beispiel kann das Nachrichtenerzeugungselement 38 eine Anforderungsnachricht erzeugen/veröffentlichen, die einen Wunsch nach bestimmten Fehlerinformationen angibt (z. B. nach einem bestimmten Fehler oder konkreter z. B. wenn ein CN in einem Baugruppenträger eines HPC-Systems ausfällt, einen Wunsch nach allen Fehlerinformationen von diesem Baugruppenträger etc.). In diesem Fall kann zum Beispiel die veröffentlichte Anforderungsnachricht von einem Fehlerüberwachungselement abonniert werden, um Sensordaten (z. B. die bereits erzeugt, veröffentlicht etc. sein können) bereitzustellen, die für das Nachrichtenbestimmungselement 34 von Interesse sind, wenn die Sensordaten von einem Fehlervorhersageelement benötigt werden, die dem Nachrichtenbestimmungselement 34 zugeordnet ist.
  • Das Nachrichtenerzeugungselement 38 kann auch eine Datennachricht erzeugen/veröffentlichen. In einem Beispiel kann die Datennachricht eine Fehlerrichtliniennachricht wie eine Richtlinienaktualisierungsnachricht beinhalten, die eine Regel (z. B. Frequenz der Sensorüberwachung) und/oder einen Parameter der Regel (z. B. welche Sensoren, Häufigkeit der Überwachung etc.) identifiziert. Entsprechend kann zum Beispiel ein „Fault Policy“-Aufrechterhaltungselement die Richtlinienaktualisierungsnachricht abonnieren und Richtlinien des Nachrichtenbestimmungselements 34 ändern (z. B. aktualisieren) (z. B. die Sensorüberwachung verstärken). In diesem Fall kann das „Fault Policy“-Aufrechterhaltungselement auch Richtlinienaktualisierungsnachrichten zum Abonnieren durch die anderen Nachrichtenbestimmungselemente erzeugen/veröffentlichen, die wiederum die Richtlinienaktualisierungsnachrichten abonnieren können, um gemäß geänderten Verwaltungsfähigkeiten zu arbeiten (z. B. um bestimmte Sensordaten, Daten mit einer bestimmten Frequenz etc. bereitzustellen). Somit können Fehlerinformationen gemäß dynamisch aktualisierten Richtlinien veröffentlicht werden.
  • Das Datenbestimmungselement 36 kann auch eine Fähigkeit, Daten bereitzustellen, die für andere Nachrichtenbestimmungselemente von Interesse sind, dynamisch bestimmen. Zum Beispiel kann das Datenbestimmungselement 36 eine Anforderungsnachricht empfangen und eine Fähigkeit, die Daten bereitzustellen, die für interessiere Nachrichtenbestimmungselemente von Interesse sind, basierend auf einer Beschreibung der Daten von Interesse in der Anforderungsnachricht, basierend auf einer Aktualisierung einer Richtlinie für das Nachrichtenbestimmungselement 34 und so weiter bestimmen. Das Datenbestimmungselement kann auch eine Fähigkeit zum Bereitstellen von Daten bestimmen, indem eine Verwaltungsfähigkeit einer Fehlerverwaltungskomponente, die dem Nachrichtenbestimmungselement 34 zugeordnet ist, evaluiert wird. Außerdem kann das Datenbestimmungselement 36 annehmen, dass die Zustellung einer Anforderungsnachricht an das Nachrichtenbestimmungselement 34 ausreicht, um die Fähigkeit zum Bereitstellen der Daten von Interesse zu schaffen, und kann Prozesse implementieren, um die Fähigkeit zu verifizieren.
  • Darüber hinaus kann das Nachrichtenerzeugungselement 38 eine Datennachricht erzeugen, die die Daten beinhaltet, die für interessierte Nachrichtenbestimmungselemente (z. B. Abonnenten) von Interesse sind, wobei das Nachrichtenbestimmungselement 34 die Datennachricht über das „Pub-Sub“-System veröffentlichen kann, damit sie den interessieren Nachrichtenbestimmungselementen, die spezielle Fehlerinformationen anfordern, bereitgestellt wird. Es ist davon auszugehen, dass das Nachrichtenerzeugungselement 38 Datennachrichten unabhängig davon, ob interessierte Nachrichtenbestimmungselemente (z. B. Abonnenten) vorhanden sind, erzeugen/veröffentlichen kann. In dieser Hinsicht kann das Nachrichtenerzeugungselement 38 jede Datennachricht, die das Nachrichtenerzeugungselement 38 möchte, veröffentlichen. Das Nachrichtenerzeugungselement 38 kann Datennachrichten erzeugen/veröffentlichen, die Informationen beinhalten, die allen oder einem Teil der Verwaltungsfähigkeiten einer Fehlerverwaltungskomponente entsprechen, die dem Nachrichtenbestimmungselement 34 zugeordnet ist.
  • Das Nachrichtenbestimmungselement 34 weist ferner ein Abonnementgenehmigungselement 40 auf. Das Abonnementgenehmigungselement 40 kann bestimmen, ob erlaubt wird, dass andere Nachrichtenbestimmungselemente, eine Datennachricht abonnieren, die Daten von Interesse beinhalten kann, die durch das Nachrichtenerzeugungselement 38 erzeugt/veröffentlicht werden. Das Abonnementgenehmigungselement 40 kann auch dem Nachrichtenbestimmungselement 34 das Abonnement einer Anforderungsnachricht erlauben, die eine Beschreibung von Daten von Interesse beinhaltet, um zu bewirken, dass das Nachrichtenerzeugungselement 38 mit dem Erzeugen/Veröffentlichen der Daten beginnt, die für ein bestimmtes interessiertes Nachrichtenbestimmungselement von Interesse sind.
  • In einem Beispiel kann das Abonnementgenehmigungselement 40 eine Anforderungsnachricht ignorieren, um den Zugang zu einer durch das Nachrichtenerzeugungselement 38 veröffentlichten Datennachricht zu unterbinden (z. B. kann keine Daten von Interesse erzeugen, kann Zugang zu Daten von Interesse verhindern etc.). In einem anderen Beispiel kann das Abonnementgenehmigungselement 40 darauf verzichten, eine Anforderungsnachricht zu abonnieren, um den Zugang zu der durch das Nachrichtenerzeugungselement 38 erzeugten Datennachricht zu unterbinden. Somit kann zum Beispiel ein Fehlerüberwachungselement Sensordaten in einer Nachricht bereitstellen, die veröffentlicht wird und erfolgreich von einem Fehlervorhersagelement, von einem Fehlerreaktionselement, von einem Tool eines Drittanbieters etc. abonniert wird, die an Fehlern interessiert sein können, um geeignete Maßnahmen durchzuführen (z. B. interessiert an einer Komponente und/oder einer Aufgabe, die kontinuierlich fehlschlägt, um Maßnahmen durchzuführen etc.).
  • Zusätzlich können Abonnenten, die eine Datennachricht dynamisch abonniert haben, wiederum dynamisch mehr Parameter hinzufügen, nach neuen Arten von Fehlern suchen und/oder bestimmte Fehler ignorieren. Zum Beispiel weist das Nachrichtenbestimmungselement 34 ein Fähigkeitsanpassungselement 42 auf, um zu bestimmen, ob eine Verwaltungsfähigkeit einer Fehlerverwaltungskomponente, die dem Nachrichtenbestimmungselement 34 zugeordnet ist, angepasst werden soll. In einem Beispiel kann das Fähigkeitsanpassungselement 42 eine Verwaltungsfähigkeit anpassen basierend auf einer Beschreibung von Daten von Interesse in einer Veröffentlichungsanforderungsnachricht, in einer Richtliniennachricht für das Nachrichtenbestimmungselement 34 und so weiter. Somit kann zum Beispiel das Datenbestimmungselement 36 bestimmen, dass ein Fehlervorhersageelement bestimmte Fehlerdaten von einer Nachricht haben muss, die vom Nachrichtenbestimmungselement 34 (z. B. das Parameter hinzufügt, das bestimmte Daten sucht etc.) abonniert wird, und einen Typ von bereitgestellten Sensordaten, eine Frequenz von bereitgestellten Sensordaten, einen Umfang von bereitgestellten Sensordaten etc. über das Fähigkeitsanpassungselement 42 anpassen. Somit kann ein Nachrichtenerzeuger/- veröffentlicher auf eine Anforderung reagieren und eine Nachricht und/oder Attribute einer Nachricht, die veröffentlicht wird, ändern.
  • Auch wenn unabhängige Fehlerverwaltungsvorrichtungskomponenten dargestellt wurden, ist einzusehen, dass eine oder mehrere der Fehlerverwaltungsvorrichtungskomponenten kombiniert, ausgelassen, umgangen, neu angeordnet etc. werden können. In einem Beispiel kann das Abonnementgenehmigungselement 40 ausgelassen werden, wenn ein Makler ein Abonnement genehmigt, wenn alle Nachrichten abonniert werden können und so weiter. In einem anderen Beispiel kann/können das Datenbestimmungselement 36, das Abonnementgenehmigungselement 40 und/oder das Fähigkeitsanpassungselement 42 in einer Fehlerverwaltungskomponente außerhalb des Nachrichtenbestimmungselements 34 angeordnet sein.
  • 3 stellt ein HPC (High Performance Computing, Hochleistungsdatenverarbeitung)-System 44 dar, das ein Fehlerverwaltungssystem aufweist, das an verschiedenen im Feld austauschbaren Einheiten (Field Replacement Units, FRUs) und/oder an verschiedenen Steuerungssystemkomponenten implementiert werden kann. In dem dargestellten Beispiel weisen die FRUs Steuerknoten (Control Nodes, CNs) 46 auf, die Aufgaben über Eingabe-/Ausgabeknoten (Input/Output Nodes, IONs) 48 mit Zugang zu Dateistrukturen (File Structures, FSs) 50 verarbeiten können. Die CNs 46 können miteinander durch Hochgeschwindigkeits-Interconnects (z. B. ein Fabric) kommunizieren. Darüber hinaus können die IONs 48 mit den FSs 50 parallelgeschaltet sein, um zu ermöglichen, dass auf ein Dateisystem parallel zugegriffen wird. Ein Benutzer kann eine Schnittstelle zum HPC-System 44 über Anmeldeknoten 52 herstellen, um Aufgaben auszuführen.
  • Das Steuerungssystem kann HPC-Systemressourcen verwalten, Ressourcen für HPC-Aufgaben zuteilen, Aufgaben planen, eine Inventarerfassung bereitstellen, eine HPC-Laufzeitverwaltung bereitstellen, eine Systemzustandsüberwachung bereitstellen, eine Netzwerkverwaltung bereitstellen, eine Fabric-Verwaltung bereitstellen, eine Systemverwaltung bereitstellen, eine E/A-Verwaltung bereitstellen, eine Speichersystemverwaltung bereitstellen und so weiter. Komponenten des Steuerungssystems können Softwarekomponenten aufweisen, die jeweils für eine Aufgabe zuständig sind.
  • In einem Beispiel können die Komponenten des Steuerungssystems ein Systemverwaltungssystem (System Management System, SMS) 54 zum Bereitstellen von Fehlerinformationen für einen Benutzer, einen Ressourcen-Manager (RM) 56 zum Planen einer Aufgabe und/oder zum Zuteilen von Ressourcen für die Aufgabe, einen Fabric-Manager (FM) 58 zum Verwalten eines Fabric, das zur Kommunikation zwischen den CNs 46 verwendet wird, Baugruppenträger-Steuereinrichtungen (Rack Controllers, RCs) 60 zum Überwachen der CNs 46 auf einer jeweiligen niedrigeren Ebene einer Fehlerverwaltungssystemhierarchie, eine Zeilen-Steuereinrichtung (nicht dargestellt) zum Überwachen der RCs 60 und so weiter aufweisen. Die Steuerungssystemkomponenten können miteinander über das Hochgeschwindigkeits-Interconnect des HPC-Systems 44, ein dediziertes Management-Interconnect mit niedriger Bandbreite und so weiter kommunizieren.
  • Komponenten des Fehlerverwaltungssystems können als eine monolithische Komponente, eine Sammlung von Agenten und Aggregator und so weiter implementiert werden. In einem Beispiel kann ein Veröffentlichungs-Abonnent (Publication-Subscriber, Pub-Sub)-Bus auf einer logischen Verwaltungsebene an einem oder mehreren Knoten des HPC-Systems 44 laufen, um Nachrichtenveröffentlichern und Nachrichtenabonnenten einen logischen Kommunikationsbus bereitzustellen. In einem anderen Beispiel kann ein Makler am SMS 54, am RM 56 und/oder an einer anderen beliebigen Stelle laufen. In einem weiteren Beispiel kann ein Fehlermeldeelement als eine Sammlung von Agenten an beliebigen oder allen Sensoren laufen, die den CNs 46, den IONs 48, den FSs 50 und so weiter entsprechen. Somit können zum Beispiel Teile der Fehlerüberwachungsfunktionalität auf verschiedenen Ebenen einer Fehlerüberwachungssystemhierarchie und an verschiedenen Stellen des Steuerungssystems und/oder des HPC-Systems 44 erfolgen.
  • Ein Agent kann als ein Aggregator laufen, um Daten zu sammeln. Zum Beispiel kann ein Fehlerüberwachungselement als ein Aggregator an den RCs 60 (z. B. Aggregatorknoten) laufen, um Sensordaten und/oder Nachrichten von Agenten zu sammeln, die Sensordaten erfassen und/oder Nachrichten veröffentlichen, die CNs 46 auf einer niedrigeren Ebene der Fehlerverwaltungssystemhierarchie entsprechen. Das Veröffentlichen und/oder Abonnieren kann daher auf einer relativ höheren Ebene erfolgen (z. B. auf der höchsten Ebene, auf jeder Ebene etc.), um den Verkehr zu minimieren. Darüber hinaus kann ein Aggregator Daten filtern. Zum Beispiel können Agenten einen Fehler melden (z. B. Fehlerüberwachungsnachrichten) und ein Aggregator, der z. B. an den RCs 60 läuft, kann repetitive Fehlerinformationen herausfiltern, um einem Aggregator auf einer höheren Ebene und/oder einer Fehlerverwaltungskomponente auf derselben Ebene oder einer höheren Ebene der Fehlerverwaltungshierarchie weniger Verkehr bereitzustellen. Somit kann der Aggregator eine Reihe von Nachrichten minimieren, die über ein „Pub-Sub“-System für einen bestimmen Fehler veröffentlicht werden, der relativ groß (z. B. tausend Nachrichten für einen Fehler) sein kann.
  • Außerdem kann das Veröffentlichen auf einer höheren Ebene und/oder Abonnieren auf einer höheren Ebene zusätzliche gezielte Nachrichtenzustellung an interessiere Fehlerverwaltungskomponenten vorsehen. Zum Beispiel kann ein Aggregator Nachrichten filtern und spezielle Nachrichten nur an interessierte Fehlerverwaltungskomponenten weiterleiten, die die Nachrichten ausdrücklich wollen. In einem Beispiel kann eine interessierte Fehlerverwaltungskomponente wie ein Fehlerverarbeitungselement, das am RM 56 läuft, ein Tool, das eine Aufgabe im HPC-System 44 überwacht, etc. einen Wunsch zum Überwachen von Daten von einem bestimmten Teil des HPC-Systems 44, von einem bestimmten Baugruppenträger eines HPC-Systems 44 und so weiter angeben. In diesem Fall kann/können zum Beispiel das Fehlerverarbeitungselement am RM 56 und/oder das Tool eines Drittanbieters eine Nachricht, dass mehr Informationen benötigt werden, einen Wunsch, alle Sensordaten zu abonnieren, die für die Aufgaben relevant sind, und so weiter veröffentlichen. In Reaktion darauf können Abonnenten der veröffentlichten Nachricht dem Fehlerverarbeitungselement am RM 56 und/oder den Aggregatoren direkt antworten. Darüber hinaus können Abonnenten Sensoren einstellen. Zum Beispiel kann ein „Fault Policy“-Aufrechterhaltungselement, das an den RCs 60 läuft, Nachrichten abonnieren, die um eine Aktualisierung einer Richtlinie bitten, und kann wiederum Richtlinienaktualisierungsnachrichten erzeugen, um zu bewirken, dass Sensoren eingestellt werden, um interessierten Fehlerverwaltungskomponenten spezielle Daten von Interesse bereitzustellen.
  • In einem weiteren Beispiel kann ein Fehlerverarbeitungselement als eine Sammlung von Agenten implementiert werden, die am RM 56 laufen, die am FM 58 laufen etc., und kann Fehlerüberwachungsnachrichten, Fehlerreaktionsnachrichten und/oder Fehlerbehebungsnachrichten abonnieren, um eine geeignete durchzuführende Maßnahme zu bestimmen. In diesem Fall kann zum Beispiel das Fehlerverarbeitungselement, das am RM 56 läuft, Fehlerüberwachungsnachrichten von einem Fehlerüberwachungselement, das an den CNs 46 läuft, und Fehlerbehebungsnachrichten von einem Fehlerverarbeitungselement, das am FM 58 läuft, abonnieren, um zu bestimmen, ob und/oder wie Ressourcen für eine Aufgabe neu zugeteilt werden. Darüber hinaus kann ein Aggregator, der an den RCs 60 läuft, dem interessierten Fehlerverarbeitungselement am RM 56 die Fehlerüberwachungsnachrichten und die Fehlerbehebungsnachrichten bereitstellen, die aus allen verfügbaren Nachrichten gefiltert wurden, die von einer niedrigeren Ebene der Fehlerverwaltungssystemhierarchie empfangen werden und/oder als eine gezielte Datenzustellung nur an das interessierte Fehlerverarbeitungselement am RM 56 bereitgestellt werden.
  • Entsprechend kann die Kommunikation über den „Pub-Sub“-Bus erlauben, dass Informationen hinsichtlich auftretender Fehler über veröffentlichte Nachrichten gemeinsam genutzt werden, und kann ein Abonnement von Informationen über einen bestimmten aufgetretenen Fehler und die Maßnahme, die in Reaktion darauf durchgeführt wurde, erlauben. In dieser Hinsicht muss eine Fehlerverwaltungskomponente gegebenenfalls wissen, welche Fehler aufgetreten sind und welche Reaktionen unternommen wurden, damit die Fehler einen Echtzeit-Kontext eines Systemzustands haben. Zum Beispiel kann ein Fehlerverarbeitungselement, das am RM 56 läuft, Fehlerverarbeitungselement-Nachrichten vom FM 58 abonnieren, der auf einen Fehlerzustand reagiert hat, indem er eine Neuberechnung eines Netzwerks ausgeführt hat, wobei der RM 56 gegebenenfalls von dem neuen Zustand erfahren möchte, um Ressourcen für die Aufgabe zuzuteilen. Somit kann/können eine Reaktion und/oder Behebung koordiniert werden, wie die koordinierten Maßnahmen, die durch die Fehlerverarbeitungselemente durchgeführt werden, die am RM 56 und am FM 58 laufen.
  • Zusätzlich können Reaktionsmaßnahmen und/oder Behebungsmaßnahmen spezifisch für eine Fehlerverwaltungskomponente sein, die eine Maßnahme durchführt (z. B. Maßnahme auf Komponenten-Ebene). Darüber hinaus können einige Fehlerverwaltungskomponenten an bestimmten Informationen interessiert sein und deren Maßnahmen können basierend auf abonnierten Informationen unterschiedlich sein. In einem Beispiel kann eine Maßnahme, die durchgeführt wird, um auf einen Fehlerzustand zu reagieren und/oder einen Fehlerzustand zu beheben, das Neuzuweisen von Ressourcen durch ein Fehlerverarbeitungselement beinhalten, das am RM 56 läuft, kann das Herunterfahren einer Baugruppe durch ein Fehlerverarbeitungselement beinhalten, der an den CNs 46 läuft, kann das Zurücksetzen auf eine frühere Version durch ein Fehlerverarbeitungselement beinhalten, das an den FSs 50 läuft, und so weiter. In einem anderen Beispiel kann ein Fehlerüberwachungselement Fehlerinformationen veröffentlichen und Nachrichten abonnieren, die verschiedene Typen von Fehlerüberwachungsdaten und/oder Aktualisierungen von Fehlerüberwachungsrichtlinien anfordern.
  • Die Fähigkeit, parallel und/oder über Teile des HPC-Systems 44 hinweg auf Fehler zu reagieren oder Fehler zu beheben (z. B. systemweite Fehlerreaktion und/oder Fehlerbehebung), kann ermöglichen, dass Fehlerzustände vermieden und/oder relativ schnell bewältigt werden. Eine Reaktion und/oder Behebung kann/können auch integriert werden, da z. B. der RM 56 Maßnahmen gegebenenfalls nicht mehr allein durchführen muss. In dieser Hinsicht kann eine integrierte Lösung bereitgestellt werden, um Informationen für Fehler und durchgeführte oder durchzuführende Maßnahmen weiterzuleiten, wobei ein Teil der oder alle Fehlerverwaltungskomponenten des Fehlerverwaltungssystems synchronisiert werden kann/können, redundante Maßnahmen minimiert werden können und/oder der Systemzustand konsistent sein kann.
  • Zusätzlich können beliebige oder alle Fehlerverwaltungskomponenten anfordern, Nachrichten zu abonnieren, und ein Erzeuger/Veröffentlicher der Nachrichten kann entscheiden, ob der interessierten Fehlerverwaltungskomponente die Nachrichten gegeben werden können. Außerdem können neue Abonnenten neue Nachrichten abonnieren, indem ein Erkennungsprozess (z. B. Erkennen von Nachrichtentypen, Nachrichten etc.) iterativ in Echtzeit implementiert wird. Auch können beliebige oder alle Fehlerverwaltungskomponenten jede Nachricht abonnieren und entscheiden, welche Informationen behalten und welche Informationen verworfen werden. Zum Beispiel können beliebige oder alle Fehlerverwaltungskomponenten ein Abonnent abbrechen, entscheiden, dass sie mehr Informationen wollen, und ähnliche Nachrichten anfordern und so weiter.
  • Auch wenn bestimmte Fehlerverwaltungskomponenten besprochen wurden, ist einzusehen, dass eine oder mehrere der Fehlerverwaltungskomponenten kombiniert, ausgelassen, umgangen, neu angeordnet etc. werden können. In einem Beispiel kann der Aggregator ausgelassen werden, wenn die Bandbreite keine Rolle spielt, wenn die Fehlerverwaltungskomponenten alle verfügbaren Informationen für alle Fehler, für bestimmte Fehler, für bestimmte Teile des HPC-Systems 44, für bestimmte Aufgaben und so weiter austauschen möchten. In einem anderen Beispiel kann ein Fehlermeldeelement am SMS 54 laufen, um Fehlerinformationen zu empfangen, kann einem Benutzer über die Anmeldeknoten 52 Informationen bereitstellen und so weiter.
  • Es wird nun auf 4 Bezug genommen; sie zeigt ein Verfahren 62 zum Verwalten eines Fehlerzustands. Das Verfahren 62 kann zum Beispiel durch beliebige oder alle vorstehend erläuterten Fehlerverwaltungskomponenten 14 (1), das vorstehend erläuterte Nachrichtenbestimmungselement 30 (2) und/oder beliebige oder alle vorstehend erläuterten Fehlerverwaltungskomponenten (3) implementiert werden. Das Verfahren 62 kann als eine Baugruppe oder zugehörige Komponente in einem Satz logischer Befehle implementiert sein, die auf einem nichtflüchtigen maschinen- oder computerlesbaren Speichermedium, wie Speicher mit wahlfreiem Zugriff (Random Access Memory, RAM), Festwertspeichern (Read Only Memory, ROM), programmierbarer Festwertspeicher (Programmable ROM, PROM), Firmware, Flash-Speicher, etc., in konfigurierbarer Logik wie zum Beispiel programmierbare logische Anordnungen (Programmable Logic Arrays, PLAs), feldprogrammierbare Gatteranordnungen (Field Programmable Gate Arrays, FPGAs), komplexe programmierbare Logikbausteine (Complex Programmable Logic Devices, CPLDs), in Hardwarelogik mit fester Funktionalität basierend auf Schaltungstechnik wie zum Beispiel anwendungsspezifische integrierte Schaltung (Application Specific Integrated Circuit, ASIC), komplementäre Metalloxid-Halbleiter (Complementary Metal Oxide Semiconductor, CMOS) oder Transistor-Transistor-Logik (TTL)-Technologie, oder einer beliebigen Kombination derselben gespeichert sind. Zum Beispiel kann ein Computerprogrammcode zum Ausführen von Operationen, die im Verfahren 62 dargestellt sind, in jeder beliebigen Kombination von einer oder mehreren Programmiersprache(n), einschließlich einer objektbezogenen Programmiersprache wie JAVA, SMALLTALK, C++ oder desgleichen sowie herkömmlichen prozeduralen Programmiersprachen wie die Programmiersprache „C“ oder ähnlichen Programmiersprachen geschrieben sein.
  • Der dargestellte Verarbeitungsblock 64 sieht das Bestimmen eines Bedarfs an Fehlerinformationen vor. Die Fehlerinformationen können Daten von Interesse, wie einen Fehler und/oder einen möglichen Fehler in einem Datenverarbeitungssystem, der für eine bestimmte Fehlerverwaltungskomponente von Interesse ist, eine Eigenschaft einer Betriebs-Hardware und/oder -Software im Datenverarbeitungssystem, die für die bestimmte Fehlerverwaltungskomponente von Interesse ist, durchgeführte und/oder durchzuführende Maßnahmen zum Reagieren auf den Fehler und/oder den möglichen Fehler und/oder zum Beheben des Fehlers und/oder des möglichen Fehlers durch bestimmte Fehlerverwaltungskomponenten, Meldedaten, die einem Benutzer durch bestimmte Fehlerverwaltungskomponenten bereitgestellt werden und/oder bereitgestellt werden sollen, Sensordaten von einem bestimmten Teil des Datenverarbeitungssystems, die für die bestimmte Fehlerverwaltungskomponente von Interesse sind, Sensordaten für eine bestimmte Aufgabe, die für die bestimmte Fehlerverwaltungskomponente von Interesse sind, und so weiter beinhalten. In einem Beispiel kann der Bedarf an Daten die Reaktion auf einen Auslöser wie die Erkennung eines Fehlerzustands darstellen. In einem anderen Beispiel können Daten alle erforderlichen Daten zum Betreiben einer Fehlerverwaltungskomponente beinhalten.
  • Eine Bestimmung, ob ein Kontakt mit einem Makler hergestellt wird, kann am Verarbeitungsblock 66 vorgenommen werden. Falls dies nicht der Fall ist, sieht der dargestellte Verarbeitungsblock 68 das Erzeugen und/oder Veröffentlichen einer Nachricht über das „Pub-Sub“-System vor. Der Block 68 kann Nachrichten direkt identifizieren (z. B. Nachrichten analysieren, Schlüsselwortvergleiche etc.), die die Daten von Interesse beinhalten, und die Nachrichten abonnieren. Falls der Block 66 bestimmt, einen Kontakt mit dem Makler herzustellen, sorgt der dargestellte Verarbeitungsblock 70 für das Registrieren von Abonnements beim Makler. In einem Beispiel können Abonnements validiert werden, bevor die Daten von Interesse empfangen werden.
  • Der Block 68 sieht das Erzeugen und/oder Veröffentlichen einer Nachricht über das „Pub-Sub“-System vor. In einem Beispiel kann der Block 68 eine Anforderungsnachricht veröffentlichen, um ein Abonnement einer Nachricht anzufordern, die die Daten von Interesse beinhaltet, die durch eine Fehlerverwaltungskomponente (z. B. einen Veröffentlicher) veröffentlicht werden. In einem anderen Beispiel kann der Block 68 eine Anforderungsnachricht veröffentlichen, die eine Fehlerverwaltungskomponente (z. B. einen Veröffentlicher) auffordert, die Anforderungsnachricht zu abonnieren, um zu bewirken, dass die Fehlerverwaltungskomponente die Daten von Interesse bereitstellt.
  • In einem Beispiel kann eine Fehlerverwaltungskomponente, die die Fähigkeit besitzt, Daten von Interesse bereitzustellen, die Anforderungsnachricht abonnieren (z. B. direkt und/oder durch den Makler) und eine Datennachricht ausgeben, die Fehlerinformationen beinhaltet, die in Reaktion auf die Veröffentlichungsanforderungsnachricht erzeugt werden. Somit sorgt der dargestellte Verarbeitungsblock 72 für das Empfangen der Fehlerinformationen von der Fehlerverwaltungskomponente, z. B. über die Datennachricht. In dieser Hinsicht können die Fehlerinformationen (z. B. über Nachrichten) bei einem Aggregator gesammelt werden, gefiltert werden und dem Block 72 nach Bedarf bereitgestellt werden.
  • Darüber hinaus kann der Empfang der Fehlerinformationen bewirken, dass Fehlerverwaltungskomponenten Maßnahmen zum Bewältigen eines Fehlerzustands koordinieren. Zum Beispiel kann ein Fehlerverarbeitungselement, das als eine Sammlung von Agenten implementiert ist, Maßnahmen koordinieren, die an jeweiligen Stellen in einem Datenverarbeitungssystem und/oder in einem Steuerungssystem durchgeführt werden sollen. In diesem Fall kann eine systemweite Reaktion ermöglicht werden, wobei durchgeführte Maßnahmen spezifisch für eine Computersystemkomponente, in der jedes Fehlerverarbeitungselement läuft, eine Steuersystemkomponente, in der jedes Fehlerverarbeitungselement läuft, den Typ von abonnierten Informationen und so weiter sein können. In einem Beispiel können Maßnahmen, die durch ein Fehlerverarbeitungselement an einem Fabric-Manager durchgeführt werden, das Neukonfigurieren eines Schaltgeflechts (Switch Fabric) beinhalten, können Maßnahmen, die durch ein Fehlerverarbeitungselement an einem Ressourcenmanager durchgeführt werden, das lokale Neuzuweisen von Ressourcen beinhalten, können Maßnahmen, die durch ein Fehlerverarbeitungselement an einem Dateisystem durchgeführt werden, das Zurücksetzen auf eine frühere Version einer Datenbankstruktur beinhalten und so weiter. In einem anderen Beispiel kann sich ein „Fault Policy“-Aufrechterhaltungselement mit einem Fehlerüberwachungselement abstimmen, um Sensordaten einzustellen. In diesem Fall können zum Beispiel Sensordaten für spezielle Abonnenten dynamisch zugeschnitten werden. In einem weiteren Beispiel kann sich ein Fehlervorhersageelement mit einem Fehlerverarbeitungselement abstimmen, um die Ausfallzeit zu minimieren und/oder die Systemproduktivität zu maximieren, indem potentielle Fehler dynamisch und effizienter erkannt und/oder behoben werden.
  • Der dargestellte Verarbeitungsblock 74 kann eine Fähigkeit zum Bereitstellen von Fehlerinformationen bestimmen. In einem Beispiel kann das Bestimmen in Reaktion auf einen Auslöser wie den Empfang einer Anforderungsnachricht, den Empfang einer Richtlinienaktualisierungsnachricht, den Beitritt zum „Pub-Sub“-System und so weiter erfolgen. In einem Beispiel kann der Block 74 eine Nachricht abonnieren und reagieren, wenn die abonnierte Nachricht empfangen wird. Die Fehlerinformationen können Daten, die für eine Fehlerverwaltungskomponenten von Interesse sind, beinhalten, wie einen Fehler und/oder einen möglichen Fehler in einem Datenverarbeitungssystem, eine Eigenschaft einer Betriebs-Hardware und/oder -Software im Datenverarbeitungssystem, durchgeführte und/oder durchzuführende Maßnahmen zum Reagieren auf den Fehler und/oder den möglichen Fehler und/oder zum Beheben des Fehlers und/oder des möglichen Fehlers, Meldedaten, die einem Benutzer bereitgestellt werden und/oder bereitgestellt werden sollen, Sensordaten von einem bestimmten Teil des Datenverarbeitungssystems, Sensordaten für eine bestimmte Aufgabe und so weiter. Der Block 74 kann zum Beispiel eine Verwaltungsfähigkeit einer Fehlerverwaltungskomponente bestimmen, die dem Block 74 zugeordnet ist, um die Fähigkeit, Fehlerinformationen bereitzustellen, zu bestimmen.
  • Eine Bestimmung, ob ein Abonnement erlaubt wird, kann am Verarbeitungsblock 76 vorgenommen werden. Zum Beispiel kann der Block 76 bestimmen, ob erlaubt wird, dass eine Fehlerverwaltungskomponente eine Datennachricht abonniert, die die Daten von Interesse beinhaltet. Falls dies nicht der Fall ist, sorgt der dargestellte Verarbeitungsblock 78 dafür, dass die Nachricht von der Fehlerverwaltungskomponente und/oder irgendeine andere Kommunikation für nicht autorisierten Zugriff auf die Daten direkt oder indirekt von der Fehlerverwaltungskomponente verworfen und/oder ignoriert wird. Falls dies so ist, bestimmt der dargestellte Verarbeitungsblock 80, ob eine Verwaltungsfähigkeit angepasst werden soll. In einem Beispiel kann die Verwaltungsfähigkeit basierend auf einer Beschreibung von Daten von Interesse in einer Anforderungsnachricht angepasst werden. Zum Beispiel kann eine Anforderungsnachricht eine Beschreibung beinhalten, die angibt, dass Daten von einem Sensor häufiger benötigt werden, und der Block 80 kann die Verwaltungsfähigkeit eines Sensors anpassen, um Daten häufiger zu erfassen. In ähnlicher Weise kann der Block 80 eine Richtlinienaktualisierungsnachricht empfangen, die eine Aktualisierung der Frequenz der Datenerfassung definiert, und der Block 80 kann die Verwaltungsfähigkeit des Sensors basierend auf der Aktualisierung anpassen.
  • Der dargestellte Verarbeitungsblock 82 stellt der interessierten Fehlerverwaltungskomponente, die die Informationen anfordert, die Fehlerinformationen bereit. Zum Beispiel kann der Block 82 eine Datennachricht erzeugen und/oder über das „Pub-Sub“-System veröffentlichen. In dieser Hinsicht können die Fehlerinformationen (z. B. über Nachrichten) bei einem Aggregator gesammelt werden, gefiltert werden und der interessierten Fehlerverwaltungskomponente, die die Informationen anfordert, nach Bedarf bereitgestellt werden. Darüber hinaus kann die Datennachricht bei einem Makler registriert werden, um eine effiziente Erkennung über das „Pub-Sub“-System zu ermöglichen.
  • Auch wenn unabhängige Verfahren, Blöcke und/oder eine bestimmte Reihenfolge dargestellt wurden, ist einzusehen, dass einer oder mehrere der Blöcke des Verfahrens 62 kombiniert, ausgelassen, umgangen, neu angeordnet und/oder in einer beliebigen Reihenfolge erfolgen können. In einem Beispiel können die dargestellten Blöcke 64-72 und 74-82 sequenziell und/oder parallel erfolgen. In einem anderen Beispiel können die Blöcke 66, 70 umgangen werden, wenn ein Makler ausgelassen wird. In einem weiteren Beispiel können die Blöcke 64-72 und 74-82 an derselben/demselben oder unterschiedlichen Fehlerverwaltungskomponenten, Nachrichtenbestimmungselementen und/oder Fehlerverwaltungsvorrichtungen implementiert sein, soweit jede Fehlerverwaltungskomponente Veröffentlichungs- und Abonnementfunktionalität aufweisen kann.
  • 5 stellt einen Prozessorkern 200 gemäß einer Ausführungsform dar. Der Prozessorkern 200 kann der Kern für einen beliebigen Typ von Prozessor wie einen Mikroprozessor, einen eingebetteten Prozessor, einen digitalen Signalprozessor (DSP), einen Netzwerkprozessor oder eine andere Vorrichtung zum Ausführen von Code sein. Obwohl nur ein Prozessorkern 200 in 5 dargestellt ist, kann ein Verarbeitungselement alternativ mehr als einen des in 5 dargestellten Prozessorkerns 200 aufweisen. Der Prozessorkern 200 kann ein einfädiger Kern sein oder bei wenigstens einer Ausführungsform kann der Prozessorkern 200 mehrfädig sein, dadurch dass er mehr als einen Hardwarefadenkontext (oder „logischen Prozessor“) pro Kern aufweist.
  • 5 stellt auch einen Speicher 270 dar, der mit dem Prozessorkern 200 gekoppelt ist. Der Speicher 270 kann einer von einer breiten Vielfalt von Speichern (darunter verschiedene Speicherhierarchieebenen) sein, wie sie Fachleuten bekannt oder anderweitig verfügbar sind. Der Speicher 270 kann eine oder mehrere Anweisungen in Code 213 aufweisen, die durch den Prozessorkern 200 ausgeführt werden sollen, wobei der Code 213 das bereits erläuterte Verfahren 62 (4) implementieren kann. Der Prozessorkern 200 folgt einer Programmsequenz von Anweisungen, die durch den Code 213 angegeben wird. Jede Anweisung kann in einen Frontend-Teil 210 eintreten und durch einen oder mehrere Decodierer 220 verarbeitet werden. Der Decodierer 220 kann als seine Ausgabe eine Mikrooperation wie eine Mikrooperation mit fester Breite in einem vordefinierten Format erzeugen oder kann andere Anweisungen, Mikrobefehle oder Steuersignale erzeugen, die die ursprüngliche Codeanweisung wiedergeben. Der dargestellte Frontend-Teil 210 weist auch eine Registerumbenennungslogik 225 und eine Planungslogik 230 auf, die im Allgemeinen Ressourcen zuweisen und die Operation, die der Konvertierungsanweisung entspricht, zur Ausführung in die Warteschlange stellen.
  • Der Prozessorkern 200 wird gezeigt, einschließlich der Ausführungslogik 250 mit einem Satz von Ausführungseinheiten 255-1 bis 255-N. Einige Ausführungsformen können eine Reihe von Ausführungseinheiten aufweisen, die für spezielle Funktionen oder Sätze von Funktionen vorgesehen sind. Andere Ausführungsformen können nur eine Ausführungseinheit oder eine Ausführungseinheit, die eine bestimmte Funktion ausführen kann, aufweisen. Die dargestellte Ausführungslogik 250 führt die Operationen aus, die durch Codeanweisungen spezifiziert sind.
  • Nach Beendigung der Ausführung der durch die Codeanweisungen spezifizierten Operationen führt die Backend-Logik 260 eine Rückordnung der Anweisungen des Codes 213 durch. In einer Ausführungsform erlaubt der Prozessorkern 200 eine „Out-of-Order“-Ausführung (nicht reihenfolgegetreue Ausführung), erfordert jedoch eine „In-Order“-Rückordnung (reihenfolgegetreue Rückordnung) von Anweisungen. Die Rückordnungslogik 265 kann verschiedene Formen annehmen, wie diese Fachleuten des Bereichs bekannt sind (z. B. „Re-Order”-Puffer (Neuordnungspuffer) oder dergleichen). Auf diese Weise wird der Prozessorkern 200 während der Ausführung des Codes 213 wenigstens im Hinblick auf die durch den Decodierer erzeugte Ausgabe, die durch die Registerumbenennungslogik 225 verwendeten Hardwareregister und Tabellen und alle durch die Ausführungslogik 250 geänderten Register (nicht gezeigt) transformiert.
  • Obwohl nicht in 5 dargestellt, kann ein Verarbeitungselement auf dem Chip mit dem Prozessorkern 200 andere Elemente aufweisen. Zum Beispiel kann ein Verarbeitungselement Speichersteuerungslogik zusammen mit dem Prozessorkern 200 aufweisen. Das Verarbeitungselement kann E/A-Steuerungslogik aufweisen und/oder kann eine in Speichersteuerlogik integrierte E/A-Steuerungslogik aufweisen. Das Verarbeitungselement kann auch einen oder mehrere Caches aufweisen.
  • Es wird nun Bezug genommen auf 6; gezeigt wird ein Blockschaltbild einer Ausführungsform des Systems 1000 gemäß einer Ausführungsform. In 6 wird ein Multiprozessorsystem 1000 gezeigt, das ein erstes Verarbeitungselement 1070 und ein zweites Verarbeitungselement 1080 aufweist. Auch wenn zwei Verarbeitungselemente 1070 und 1080 gezeigt werden, ist davon auszugehen, dass eine Ausführungsform des Systems 1000 auch nur ein solches Verarbeitungselement aufweisen kann.
  • Das System 1000 wird als Punkt-zu-Punkt-Interconnect-System dargestellt, wobei das erste Verarbeitungselement 1070 und das zweite Verarbeitungselement 1080 über ein Punkt-zu-Punkt-Interconnect 1050 gekoppelt sind. Es ist davon auszugehen, dass beliebige oder alle der in 6 dargestellten Interconnects als ein Multi-Drop-Bus anstelle eines Punkt-zu-Punkt-Interconnects implementiert werden können.
  • Wie in 6 gezeigt, kann jedes der Verarbeitungselemente 1070 und 1080 Mehrkernprozessoren sein, die erste und zweite Prozessorkerne (d. h. die Prozessorkerne 1074a und 1074b und Prozessorkerne 1084a und 1084b) aufweisen. Solche Kerne 1074a, 1074b, 1084a, 1084b können konfiguriert werden, um einen Anweisungscode auf eine ähnliche Art auszuführen, wie vorstehend in Zusammenhang mit 5 erörtert.
  • Jedes Verarbeitungselement 1070, 1080 kann wenigstens einen gemeinsam genutzten Cache 1896a, 1896b (z. B. einen statischen Direktzugriffsspeicher (Static Random Access Memory, SRAM)) aufweisen. Der gemeinsam genutzte Cache 1896a, 1896b kann Daten (z. B. Objekte, Anweisungen) speichern, die von einer oder mehreren Komponenten des Prozessors wie den Kernen 1074a, 1074b bzw. 1084a, 1084b verwendet werden. Zum Beispiel kann der gemeinsam genutzte Cache 1896a, 1896b in einem Speicher 1032, 1034 gespeicherte Daten lokal zwischenspeichern, damit die Komponenten des Prozessors schneller auf diese zugreifen können. In einer oder mehreren Ausführungsformen kann der gemeinsam genutzte Cache 1896a, 1896b einen oder mehrere Mid-Level-Caches, beispielsweise Level 2 (L2), Level 3 (L3), Level 4 (L4) oder andere Cache-Level, einen Last-Level-Cache (LLC) und/oder Kombinationen davon aufweisen.
  • Auch wenn hier nur zwei Verarbeitungselemente 1070, 1080 gezeigt werden, ist davon auszugehen, dass der Schutzbereich der Ausführungsformen nicht hierauf beschränkt ist. In anderen Ausführungsformen können ein oder mehrere zusätzliche Verarbeitungselemente in einem gegebenen Prozessor vorhanden sein. Alternativ kann/können eines oder mehrere der Verarbeitungselemente 1070, 1080 ein anderes Element sein als ein Prozessor, etwa ein Beschleuniger oder ein feldprogrammierbares Gate-Array. Zum Beispiel kann/können (ein) zusätzliche(s) Verarbeitungselement(e) (einen) zusätzliche(n) Prozessor(en), der/die identisch mit einem ersten Prozessor 1070 ist/sind, (einen) zusätzliche(n) Prozessor(en), der/die heterogen oder asymmetrisch zum Prozessor ist/sind, einen ersten Prozessor 1070, Beschleuniger (wie beispielsweise Grafikbeschleuniger oder Digitalsignal-Verarbeitungseinheiten (DSP)), feldprogrammierbare Gate-Arrays oder ein beliebiges anderes Verarbeitungselement aufweisen. Es kann verschiedene Unterschiede zwischen den Verarbeitungselementen 1070, 1080 im Hinblick auf ein Spektrum von Gütemetriken geben, einschließlich architektonische, mikroarchitektonische, thermische, leistungsaufnahmebezogene Eigenschaften und dergleichen. Diese Unterschiede können sich effektiv in Asymmetrie und Heterogenität zwischen den Verarbeitungselementen 1070, 1080 bemerkbar machen. In wenigstens einer Ausführungsform können die verschiedenen Verarbeitungselemente 1070, 1080 in demselben Die-Paket enthalten sein.
  • Das erste Verarbeitungselement 1070 kann ferner eine Speichercontroller (Memory Controller, MC)-Logik 1072 und Punkt-zu-Punkt (P-P)-Schnittstellen 1076 und 1078 aufweisen. In ähnlicher Weise kann das zweite Verarbeitungselement 1080 einen MC 1082 und P-P-Schnittstellen 1086 und 1088 aufweisen. Wie in 6 gezeigt, koppeln die MCs 1072 und 1082 die Prozessoren mit den jeweiligen Speichern, nämlich einem Speicher 1032 und einem Speicher 1034, die Teile des lokal mit den jeweiligen Prozessoren verbundenen Hauptspeichers sein können. Auch wenn der MC 1072 und 1082 als in die Verarbeitungselemente 1070, 1080 integriert dargestellt ist, kann bei alternativen Ausführungsformen die MC-Logik statt in die Verarbeitungselemente 1070, 1080 integriert eine diskrete Logik außerhalb sein.
  • Das erste Verarbeitungselement 1070 und das zweite Verarbeitungselement 1080 können jeweils über die P-P-Interconnects 1076, 1086 mit einem E/A-Untersystem 1090 gekoppelt sein. Wie in 7 gezeigt, weist das E/A-Untersystem 1090 P-P-Schnittstellen 1094 und 1098 auf. Ferner weist das E/A-Untersystem 1090 eine Schnittstelle 1092 auf, um das E/A-Untersystem 1090 mit einer Hochleistungsgrafik-Engine 1038 zu koppeln. In einer Ausführungsform kann der Bus 1049 verwendet werden, um die Grafik-Engine 1038 mit dem E/A-Untersystem 1090 zu koppeln. Alternativ kann ein Punkt-zu-Punkt-Interconnect diese Komponenten koppeln.
  • Das E/A-Untersystem 1090 kann wiederum über eine Schnittstelle 1096 mit einem ersten Bus 1016 gekoppelt sein. In einer Ausführungsform kann der erste Bus 1016 ein Peripheriegeräteverbindungsbus (Peripheral Component Interconnect, PCI) oder ein Bus wie ein PCI Express-Bus oder ein anderer E/A-Interconnect-Bus der dritten Generation sein, wenngleich der Schutzbereich der Ausführungsformen nicht hierauf beschränkt ist.
  • Wie in 6 gezeigt, können verschiedene E/A-Vorrichtungen 1014 (z. B. Kameras, Sensoren) mit dem ersten Bus 1016 gekoppelt sein, zusammen mit einer Busbrücke 1018, die den ersten Bus 1016 mit einem zweiten Bus 1020 koppeln kann. In einer Ausführungsform können verschiedene Vorrichtungen mit dem zweiten Bus 1020 gekoppelt sein, darunter beispielsweise eine Tastatur/Maus 1012, Netzwerk-Controller/(eine) Kommunikationsvorrichtung(en) 1026 (die wiederum in Kommunikationsverbindung mit einem Computernetzwerk sein können) und eine Datenspeichereinheit 1019, wie zum Beispiel ein Plattenlaufwerk oder eine andere Massenspeichervorrichtung, die den Code 1030 aufweisen kann. Der Code 1030 kann Anweisungen zur Durchführung von Ausführungsformen von einem oder mehreren der vorstehend beschriebenen Verfahren beinhalten. Somit kann der dargestellte Code 1030 das bereits erläuterte Verfahren 62 (4) implementieren und kann ähnlich dem bereits erläuterten Code 213 (5) sein. Ferner kann ein Audio-E/A 1024 mit dem zweiten Bus 1020 gekoppelt sein.
  • Es ist zu beachten, dass andere Ausführungsformen in Betracht gezogen werden. So kann ein System beispielsweise anstelle der Punkt-zu-Punkt-Architektur aus 6 einen Multi-Drop-Bus oder eine andere derartige Kommunikationstopologie implementieren. Ebenfalls können die Elemente aus 6 alternativ mittels mehr oder weniger integrierter Chips, als in 6 gezeigt, partitioniert werden. Außerdem können die Netzwerk-Controller/Kommunikationsvorrichtung(en) 1026 als eine Host-Fabric-Schnittstelle (Host Fabric Interface, HFI), auch bekannt als Netzwerkschnittstellenkarte (Network Interface Card, NIC) implementiert sein, die mit einem oder mehreren der Verarbeitungselemente 1070, 1080 entweder auf demselben Halbleiterplättchen oder in demselben Paket integriert ist.
  • Zusätzliche Anmerkungen und Beispiele:
    • Beispiel 1 kann ein System zum Verwalten eines Fehlers beinhalten, das einen Sensor zum Sammeln von Daten in einem HPC (High Performance Computing, Hochleistungsdatenverarbeitung)-System und mehrere Nachrichtenbestimmungselemente umfasst, wobei jedes der Nachrichtenbestimmungselemente dynamisch eine Nachricht über ein Veröffentlicher-Abonnent-System veröffentlichen soll und dynamisch eine Nachricht über das Veröffentlicher-Abonnent-System abonnieren soll und wobei wenigstens eine Nachricht den Daten vom Sensor entsprechen soll und zur Koordination von Maßnahmen verwendet werden soll, um einen Fehlerzustand im HPC-System zu verwalten.
    • Beispiel 2 kann das System aus Beispiel 1 beinhalten, das ferner ein Fehlervorhersageelement zum Vorhersagen eines Fehlerzustands im HPC-System, ein Fehlermeldeelement zum Übermitteln von Fehlerinformationen an einen Benutzer, ein dezentrales Fehlerüberwachungselement zum Überwachen des Zustands des HPC-Systems, ein dezentrales Fehlerverarbeitungselement zum Reagieren auf den Fehlerzustand im HPC-System und/oder Beheben des Fehlerzustands im HPC-System, ein „Fault Policy“-Aufrechterhaltungselement zum Aufrechterhalten einer Regel für eine Fehlerverwaltungskomponente und eine Systemschnittstelle zum Übermitteln der Fehlerinformationen über das Veröffentlicher-Abonnent-System in Echtzeit an ein oder mehrere interessierte Nachrichtenbestimmungselemente aufweist.
    • Beispiel 3 kann das System aus einem der Beispiele 1 bis 2 beinhalten, wobei wenigstens eines der Nachrichtenbestimmungselemente Informationen von einem Makler empfangen soll und wobei die Informationen eine Datennachricht, die Daten von Interesse beinhaltet, und/oder Abonnentenkontaktinformationen beinhalten sollen.
    • Beispiel 4 kann das System aus einem der Beispiele 1 bis 3 beinhalten, wobei wenigstens eines der Nachrichtenbestimmungselemente einem Aggregator eine Nachricht auf einer höheren Ebene einer Fehlerverwaltungssystemhierarchie bereitstellen soll und wobei der Aggregator Nachrichten aus einer niedrigeren Ebene der Fehlerverwaltungssystemhierarchie sammeln soll und die Nachrichten filtern soll, um einer höheren Ebene der Fehlerverwaltungssystemhierarchie eine Teilmenge wenigstens aus allen verfügbaren Fehlerinformationen bereitzustellen.
    • Beispiel 5 kann das System aus einem der Beispiele 1 bis 4 beinhalten, wobei ein Nachrichtenbestimmungselement ein Datenbestimmungselement zum dynamischen Bestimmen eines Bedarfs an Daten, die für das Nachrichtenbestimmungselement von Interesse sind, und ein Nachrichtenerzeugungselement zum Erzeugen einer Anforderungsnachricht aufweisen soll, um ein Abonnement einer Nachricht, die die Daten von Interesse beinhalten soll, anzufordern und/oder ein Abonnement der Anforderungsnachricht zu veranlassen, um zu bewirken, dass die Daten von Interesse über das Veröffentlichungs- und Abonnement-System veröffentlicht werden.
    • Beispiel 6 kann das System aus einem der Beispiele 1 bis 5 beinhalten, wobei ein Nachrichtenbestimmungselement ein Datenbestimmungselement zum dynamischen Bestimmen einer Fähigkeit, Daten bereitzustellen, die für wenigstens ein anderes Nachrichtenbestimmungselement von Interesse sind, ein Abonnementgenehmigungselement zum Bestimmen, ob ein Abonnement erlaubt wird, um eine Datennachricht, die die Daten von Interesse beinhaltet, bereitzustellen, ein Fähigkeitsanpassungselement zum Bestimmen, ob eine Verwaltungsfähigkeit einer Fehlerverwaltungskomponente, die dem Nachrichtenbestimmungselement zugeordnet ist, basierend auf einer Beschreibung der Daten von Interesse und/oder einer aktualisierten Richtlinie für das Nachrichtenbestimmungselement angepasst werden soll, und ein Nachrichtenerzeugungselement zum Erzeugen der Datennachricht, die über das Veröffentlichungs- und Abonnement-System veröffentlicht werden soll, aufweisen soll.
    • Beispiel 7 kann das System aus einem der Beispiele 1 bis 6 beinhalten, wobei wenigstens eine Nachricht eine Fehlerüberwachungsnachricht, eine Fehlerreaktionsnachricht, eine Fehlerbehebungsnachricht, eine Fehlermeldungsnachricht, eine Fehlerrichtliniennachricht oder eine Fehlervorhersagenachricht beinhalten soll.
    • Beispiel 8 kann eine Vorrichtung zum Verwalten eines Fehlerzustands beinhalten, die ein Nachrichtenbestimmungselement zum dynamischen Veröffentlichen einer Nachricht über ein Veröffentlicher-Abonnent-System und zum dynamischen Abonnieren einer Nachricht über das Veröffentlicher-Abonnent-System umfasst, wobei wenigstens eine Nachricht zur Koordination von Maßnahmen verwendet werden soll, um einen Fehlerzustand in einem Computersystem zu verwalten.
    • Beispiel 9 kann die Vorrichtung aus Beispiel 8 beinhalten, die ferner eines oder mehrere von einem Fehlervorhersageelement zum Vorhersagen eines Fehlerzustands in einem HPC (High Performance Computing, Hochleistungsdatenverarbeitung)-System, einem Fehlermeldeelement zum Übermitteln von Fehlerinformationen an einen Benutzer, einem Fehlerüberwachungselement zum Überwachen des Zustands des HPC-Systems, einem Fehlerverarbeitungselement zum Reagieren auf den Fehlerzustand im HPC-System und/oder Beheben des Fehlerzustands im HPC-System, einem „Fault Policy“-Aufrechterhaltungselement zum Aufrechterhalten einer Regel für eine Fehlerverwaltungskomponente oder einer Systemschnittstelle zum Übermitteln der Fehlerinformationen über das Veröffentlicher-Abonnent-System in Echtzeit an ein oder mehrere interessierte Nachrichtenbestimmungselemente aufweist.
    • Beispiel 10 kann die Vorrichtung aus einem der Beispiele 8 bis 9 beinhalten, wobei das Nachrichtenbestimmungselement Informationen von einem Makler empfangen soll, wobei die Informationen eine Datennachricht, die Daten von Interesse beinhaltet, und/oder Abonnentenkontaktinformationen beinhalten sollen, und/oder einem Aggregator eine Nachricht auf einer höheren Ebene einer Fehlerverwaltungssystemhierarchie bereitstellen soll.
    • Beispiel 11 kann die Vorrichtung aus einem der Beispiele 8 bis 10 beinhalten, die ferner eines oder mehrere der folgenden aufweist: ein Datenbestimmungselement zum dynamischen Bestimmen eines Bedarfs an Daten, die für das Nachrichtenbestimmungselement von Interesse sind, oder ein Nachrichtenerzeugungselement zum Erzeugen einer Anforderungsnachricht, um ein Abonnement einer Nachricht anzufordern, die die Daten von Interesse beinhaltet, und/oder ein Abonnement der Anforderungsnachricht zu veranlassen, um zu bewirken, dass die Daten von Interesse über das Veröffentlichungs- und Abonnement-System veröffentlicht werden.
    • Beispiel 12 kann die Vorrichtung aus einem der Beispiele 8 bis 11 beinhalten, die ferner eines oder mehrere der folgenden aufweist: ein Datenbestimmungselement zum dynamischen Bestimmen einer Fähigkeit, Daten bereitzustellen, die für wenigstens ein anderes Nachrichtenbestimmungselement von Interesse sind, ein Abonnementgenehmigungselement zum Bestimmen, ob ein Abonnement erlaubt wird, um eine Datennachricht, die die Daten von Interesse beinhaltet, bereitzustellen, ein Fähigkeitsanpassungselement zum Bestimmen, ob eine Verwaltungsfähigkeit einer Fehlerverwaltungskomponente, die dem Nachrichtenbestimmungselement zugeordnet ist, basierend auf einer Beschreibung der Daten von Interesse und/oder einer aktualisierten Richtlinie für das Nachrichtenbestimmungselement angepasst werden soll, oder ein Nachrichtenerzeugungselement zum Erzeugen der Datennachricht, die über das Veröffentlichungs- und Abonnement-System veröffentlicht werden soll.
    • Beispiel 13 kann die Vorrichtung aus einem der Beispiele 8 bis 12 beinhalten, wobei wenigstens eine Nachricht eine Fehlerüberwachungsnachricht, eine Fehlerreaktionsnachricht, eine Fehlerbehebungsnachricht, eine Fehlermeldungsnachricht, eine Fehlerrichtliniennachricht oder eine Fehlervorhersagenachricht beinhalten soll.
    • Beispiel 14 kann ein Verfahren zum Verwalten eines Fehlerzustands beinhalten, das das dynamische Veröffentlichen einer Nachricht über ein Veröffentlicher-Abonnent-System durch ein Nachrichtenbestimmungselement und das dynamische Abonnieren einer Nachricht über das Veröffentlicher-Abonnent-System durch das Nachrichtenbestimmungselement umfasst, wobei wenigstens eine Nachricht zur Koordination von Maßnahmen verwendet wird, um einen Fehlerzustand in einem Computersystem zu verwalten.
    • Beispiel 15 kann das Verfahren aus Beispiel 14 beinhalten, das ferner eines oder mehrere der folgenden beinhaltet: Vorhersagen eines Fehlerzustands in einem HPC (High Performance Computing, Hochleistungsdatenverarbeitung)-System, Übermitteln von Fehlerinformationen an einen Benutzer, Überwachen des Zustands des HPC-Systems, Reagieren auf den Fehlerzustand im HPC-System und/oder Beheben des Fehlerzustands im HPC-System, Aufrechterhalten einer Regel für eine Fehlerverwaltungskomponente; oder Übermitteln der Fehlerinformationen über das Veröffentlicher-Abonnent-System in Echtzeit an ein oder mehrere Nachrichtenbestimmungselemente.
    • Beispiel 16 kann das Verfahren aus einem der Beispiele 14 bis 15 beinhalten, das ferner eines oder mehrere der folgenden beinhaltet: Empfangen von Informationen von einem Makler, wobei die Informationen eine Datennachricht, die Daten von Interesse beinhaltet, und/oder Abonnentenkontaktinformationen beinhalten, oder Bereitstellen einer Nachricht für einen Aggregator auf einer höheren Ebene einer Fehlerverwaltungssystemhierarchie.
    • Beispiel 17 kann das Verfahren aus einem der Beispiele 14 bis 16 beinhalten, das ferner eines oder mehrere der folgenden beinhaltet: Bestimmen eines Bedarfs an Daten, die für das Nachrichtenbestimmungselement von Interesse sind, oder Erzeugen einer Anforderungsnachricht, um ein Abonnement einer Nachricht anzufordern, die die Daten von Interesse beinhaltet, und/oder ein Abonnement der Anforderungsnachricht zu veranlassen, um die Daten von Interesse über das Veröffentlichungs-Abonnement-System zu veröffentlichen.
    • Beispiel 18 kann das Verfahren aus einem der Beispiele 14 bis 17 beinhalten, das ferner eines oder mehrere der folgenden beinhaltet: Bestimmen einer Fähigkeit, Daten bereitzustellen, die für wenigstens ein anderes Nachrichtenbestimmungselement von Interesse sind, das eine Veröffentlichungsanforderungsnachricht veröffentlicht hat, die eine Beschreibung der Daten von Interesse beinhaltet, Bestimmen, ob ein Abonnement erlaubt wird, um eine Datennachricht, die die Daten von Interesse beinhaltet, bereitzustellen, Bestimmen, ob eine Verwaltungsfähigkeit einer Fehlerverwaltungskomponente, die dem Nachrichtenbestimmungselement zugeordnet ist, basierend auf einer Beschreibung der Daten von Interesse und/oder einer aktualisierten Richtlinie für das Nachrichtenbestimmungselement angepasst wird, oder Erzeugen der Datennachricht, die über das Veröffentlichungs- und Abonnement-System veröffentlicht werden soll.
    • Beispiel 19 kann das Verfahren aus einem der Beispiele 14 bis 18 beinhalten, wobei wenigstens eine Nachricht eine Fehlerüberwachungsnachricht, eine Fehlerreaktionsnachricht, eine Fehlermeldungsnachricht, eine Fehlerrichtliniennachricht oder eine Fehlervorhersagenachricht beinhalten soll.
    • Beispiel 20 kann wenigstens ein computerlesbares Speichermedium beinhalten, das einen Satz von Anweisungen umfasst, die, wenn sie durch eine Vorrichtung ausgeführt werden, bewirken, dass die Vorrichtung eine Nachricht über das Veröffentlicher-Abonnent-System durch ein Nachrichtenbestimmungselement dynamisch veröffentlicht und eine Nachricht über das Veröffentlicher-Abonnent-System durch das Nachrichtenbestimmungselement dynamisch abonniert, wobei wenigstens eine Nachricht zur Koordination von Maßnahmen verwendet werden soll, um einen Fehlerzustand in einem Computersystem zu verwalten.
    • Beispiel 21 kann das wenigstens eine computerlesbare Speichermedium aus Beispiel 20 beinhalten, wobei die Anweisungen, wenn sie ausgeführt werden, die Vorrichtung zu einem oder mehreren der folgenden veranlassen: Vorhersagen eines Fehlerzustands in einem HPC (High Performance Computing, Hochleistungsdatenverarbeitung)-System, Übermitteln von Fehlerinformationen an einen Benutzer, Überwachen des Zustands des HPC-Systems, Reagieren auf den Fehlerzustand im HPC-System und/oder Beheben des Fehlerzustands im HPC-System, Aufrechterhalten einer Regel für eine Fehlerverwaltungskomponente oder Übermitteln der Fehlerinformationen über das Veröffentlicher-Abonnent-System in Echtzeit an ein oder mehrere Nachrichtenbestimmungselemente.
    • Beispiel 22 kann das wenigstens eine computerlesbare Speichermedium aus einem der Beispiele 20 bis 21 beinhalten, wobei die Anweisungen, wenn sie ausgeführt werden, eine Vorrichtung zu einem oder mehreren der folgenden veranlassen: Empfangen von Informationen von einem Makler, wobei die Informationen eine Datennachricht, die Daten von Interesse beinhaltet, und/oder Abonnentenkontaktinformationen beinhalten sollen, oder Bereitstellen einer Nachricht für einen Aggregator auf einer höheren Ebene einer Fehlerverwaltungssystemhierarchie.
    • Beispiel 23 kann das wenigstens eine computerlesbare Speichermedium aus einem der Beispiele 20 bis 22 beinhalten, wobei die Anweisungen, wenn sie ausgeführt werden, eine Vorrichtung zu einem oder mehreren der folgenden veranlassen: Bestimmen eines Bedarfs an Daten, die für das Nachrichtenbestimmungselement von Interesse sind, oder Erzeugen einer Anforderungsnachricht, um ein Abonnement einer Nachricht, die die Daten von Interesse beinhaltet, anzufordern und/oder ein Abonnement der Anforderungsnachricht zu veranlassen, um zu bewirken, dass die Daten von Interesse über das Veröffentlichungs- und Abonnement-System veröffentlicht werden.
    • Beispiel 24 kann das wenigstens eine computerlesbare Speichermedium aus einem der Beispiele 20 bis 23 beinhalten, wobei die Anweisungen, wenn sie ausgeführt werden, die Vorrichtung zu einem oder mehreren der folgenden veranlassen: Bestimmen einer Fähigkeit, Daten bereitzustellen, die für wenigstens ein anderes Nachrichtenbestimmungselement von Interesse sind, Bestimmen, ob ein Abonnement erlaubt wird, um eine Datennachricht bereitzustellen, die Daten von Interesse beinhaltet, Bestimmen, ob eine Verwaltungsfähigkeit einer Fehlerverwaltungskomponente, die dem Nachrichtenbestimmungselement zugeordnet werden soll, basierend auf einer Beschreibung der Daten von Interesse und/oder einer aktualisierten Richtlinie für das Nachrichtenbestimmungselement angepasst werden soll, oder Erzeugen der Datennachricht, die über das Veröffentlichungs- und Abonnement-System veröffentlicht werden soll.
    • Beispiel 25 kann das wenigstens eine computerlesbare Speichermedium aus einem der Beispiele 20 bis 24 beinhalten, wobei wenigstens eine Nachricht eine Fehlerüberwachungsnachricht, eine Fehlerreaktionsnachricht, eine Fehlermeldungsnachricht, eine Fehlerrichtliniennachricht oder eine Fehlervorhersagenachricht beinhalten soll.
    • Beispiel 26 kann eine Vorrichtung zum Verwalten eines Fehlerzustands beinhalten, die Mittel zum Ausführen des Verfahrens gemäß einem der Beispiele 14 bis 19 aufweist.
  • Somit können hier beschriebene Verfahren skalierbare Fehlerverwaltung in einem HPC-System, Fehlermeldungs- und Fehlerreaktionskommunikation in Echtzeit und integrierte Fehlerreaktion bereitstellen. Zum Beispiel können sowohl Fehlerinformationen als auch eine Reaktionsmaßnahme von allen Fehlerverwaltungskomponenten in Echtzeit für ein ganzes Fehlerverwaltungssystem übermittelt werden, um das HPC-System in einem bestimmten Kontext anzupassen und/oder zu verwalten. In einem Beispiel ist ein Veröffentlichungs-Abonnent-Bus ein dynamisches Zwei-Wege-Kommunikationssystem zum Austauschen von Fehlerinformationen (z. B. Fehler und Reaktionsmaßnahmen) in Echtzeit, um vollständig koordinierte, skalierbare und/oder Echtzeit-Verwaltungsmaßnahmen unter Verwendung des „Pub-Sub“-Bussystems bereitzustellen. Das „Pub-Sub”-Bussystem kann ein dynamisches (z. B. im laufenden Betrieb) Hinzufügen von Nachrichten (und Nachrichtentypen), Erzeuger/Veröffentlicher und Verbraucher/Abonnenten ermöglichen. Somit können Fehlerverwaltungskomponenten besser an einen aktuellen Systemzustand angepasst werden und darauf reagieren, indem Fehlererkennungs- und Reaktionsinformationen ausgetauscht werden.
  • In einem Beispiel kann ein Fehlervorhersageelement ein Auftreten eines Fehlers vorhersagen und diese Informationen in Echtzeit veröffentlichen. Interessierte Verbraucher wie Fehlerreaktionselemente, „Fault Policy“-Aufrechterhaltungselemente etc. können diese Informationen abonnieren und das HPC-System adaptiv verwalten. Kommunikationsnachrichten und/oder Kommunikationspfade, die aufgrund von Änderungen im Laufzeitkontext zum Zeitpunkt eines Fehlers nicht vordefiniert werden können (z. B. kontextuelle Kommunikation), können bereitgestellt werden, indem neue Nachrichtentypen erstellt und veröffentlicht werden und interessierten Abonnenten erlaubt wird, Inhalte zu erkennen und dynamisch nach Bedarf zu beziehen. Außerdem kann Skalierbarkeit bereitgestellt werden, indem transiente Kommunikation auf Anfrage nur für interessierte Entitäten ermöglicht wird. Somit kann ein Echtzeit-„Pub-Sub“-System genutzt werden, um die Übermittlung von transienten, dynamischen und/oder kontextuellen Nachrichten für die Fehlerverwaltung zu ermöglichen. Darüber hinaus können Fehlererkennungs-, Fehlervorhersage- und/oder Reaktionsmaßnahmen fortlaufend ausgetauscht werden, um die Fehlerverwaltung in einem groß angelegten HPC-System zu maximieren.
  • Ausführungsformen sind für eine Verwendung mit allen Typen von Halbleiterchips für integrierte Schaltkreise (Integrated Circuits, ICs) anwendbar. Beispiele für diese IC-Chips beinhalten unter anderem, sind aber nicht beschränkt auf, Prozessoren, Steuerungen, Chipsatzkomponenten, programmierbare logische Anordnungen (Programmable Logic Arrays, PLAs), Speicherchips, Netzwerkchips, Ein-Chip-Systeme (Systems-on-Chip, SoCs), SSD-/NAND-Controller-ASICs (Application-Specific Integrated-Circuits, anwendungsspezifische integrierte Schaltungen) und dergleichen. Darüber hinaus werden in einigen Zeichnungen Signalleiterbahnen durch Linien dargestellt. Einige können unterschiedlich sein, um mehrere einzelne Signalwege zu kennzeichnen, eine Nummerierung tragen, um eine Anzahl von einzelnen Signalwegen anzugeben, und/oder an einem oder mehreren Enden Pfeile aufweisen, um die Hauptrichtung des Informationsflusses anzuzeigen. Dies sollte jedoch nicht in einschränkender Weise ausgelegt werden. Vielmehr kann ein solches zusätzliches Detail im Zusammenhang mit einer oder mehreren beispielhaften Ausführungsformen genutzt werden, um eine Schaltung verständlicher zu machen. Alle dargestellten Signalleitungen, sei es mit oder ohne zusätzliche Informationen, können tatsächlich ein oder mehrere Signal(e) umfassen, das/die sich in mehrere Richtungen ausbreitet/ausbreiten, und mit jeder geeigneten Art von Signalschema, z. B. digitale oder analoge Leitungen, die mit Differentialpaaren, Glasfaserleitungen und/oder Leitungen mit einseitigem Anschluss implementiert sind, implementiert werden können.
  • Beispiele für Größen/Modelle/Werte/Bereiche können angegeben sein, obwohl die Ausführungsformen nicht auf diese beschränkt sind. Da die Herstellungstechniken (z. B. Fotolithografie) mit der Zeit immer ausgereifter werden, ist zu erwarten, dass Vorrichtungen mit geringerer Größe hergestellt werden könnten. Außerdem können ausreichend bekannte Strom-/Erdungsverbindungen mit IC-Chips und anderen Komponenten der Einfachheit der Darstellung und Erörterung halber, sowie um die Verständlichkeit bestimmter Aspekte der Ausführungsformen nicht zu beeinträchtigen, in den Figuren dargestellt oder nicht dargestellt sein. Ferner können Anordnungen in Form von Blockschaltbildern dargestellt sein, um zu vermeiden, dass die Verständlichkeit von Ausführungsformen beeinträchtigt wird, und auch im Hinblick auf die Tatsache, dass spezifische Merkmale in Bezug auf die Implementierung solcher Anordnungen von Blockschaltbildern in hohem Maße von der Plattform abhängig sind, in der die Ausführungsform implementiert werden soll, d. h. solche spezifischen Merkmale sollten innerhalb des Kenntnisbereichs eines Fachmanns auf diesem Gebiet liegen. Dort, wo spezielle Einzelheiten (z. B. Schaltungen) dargelegt werden, um beispielhafte Ausführungsformen zu beschreiben, sollte für den Fachmann klar sein, dass Ausführungsformen ohne diese oder mit Abänderungen dieser speziellen Einzelheiten in die Praxis umgesetzt werden können. Somit ist die Beschreibung als veranschaulichend und nicht als einschränkend zu verstehen.
  • Der Begriff „gekoppelt“ kann hier verwendet werden, um auf jede Art direkter oder indirekter Beziehung zwischen den betreffenden Komponenten Bezug zu nehmen, und kann auf elektrische, mechanische, fluide, optische, elektromagnetische, elektromechanische oder andere Verbindungen angewandt werden. Weiterhin werden die Begriffe „erster/es/e“, „zweiter/es/e“ etc. hier nur verwendet, um eine Erörterung zu erleichtern, und haben keine besondere zeitliche oder chronologische Bedeutung, wenn nicht anders angegeben.
  • Wie in dieser Anmeldung und in den Ansprüchen verwendet, kann eine Liste von Positionen mit dem Ausdruck „ein/eine/eines oder mehrere von“ jede Kombination der aufgeführten Ausdrücke bedeuten. Zum Beispiel kann die Formulierung „ein/eine/eines oder mehrere von A, B oder C“ A; B; C; A und B; A und C; B und C; oder A, B und C bedeuten. Darüber hinaus kann eine Liste von Positionen mit dem Ausdruck „und so weiter“ oder „etc.“ jede Kombination der aufgeführten Ausdrücke und jede Kombination mit anderen Ausdrücken bedeuten.
  • Fachleute auf diesem Gebiet werden aus der vorstehenden Beschreibung erkennen, dass die umfassenden Techniken der Ausführungsformen in vielfältigen Formen implementiert werden können. Daher soll, obwohl die Ausführungsformen in Verbindung mit bestimmten Beispielen derselben beschrieben wurden, der tatsächliche Schutzumfang der Ausführungsformen nicht auf diese beschränkt sein, da für den Fachmann nach dem Studium der Zeichnungen, der Beschreibung und der nachfolgenden Ansprüche weitere Modifikationen offensichtlich sind.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 14/865872 [0001]
  • Zitierte Nicht-Patentliteratur
    • ISO/IEC 18092 [0020]

Claims (25)

  1. System zum Verwalten eines Fehlerzustands, umfassend: einen Sensor zum Sammeln von Daten in einem HPC (High Performance Computing, Hochleistungsdatenverarbeitung)-System; und mehrere Nachrichtenbestimmungselemente, wobei jedes der Nachrichtenbestimmungselemente dynamisch eine Nachricht über ein Veröffentlicher-Abonnent-System veröffentlichen soll und dynamisch eine Nachricht über das Veröffentlicher-Abonnent-System abonnieren soll und wobei wenigstens eine Nachricht den Daten vom Sensor entsprechen soll und zur Koordination von Maßnahmen verwendet werden soll, um einen Fehlerzustand im HPC-System zu verwalten.
  2. System nach Anspruch 1, das ferner aufweist: ein Fehlervorhersageelement zum Vorhersagen eines Fehlerzustands im HPC-System; ein Fehlermeldeelement zum Übermitteln von Fehlerinformationen an einen Benutzer; ein dezentrales Fehlerüberwachungselement zum Überwachen des Zustands des HPC-Systems; ein dezentrales Fehlerverarbeitungselement zum Reagieren auf den Fehlerzustand im HPC-System und/oder Beheben des Fehlerzustands im HPC-System; ein „Fault Policy“ (Fehlerrichtlinien)-Aufrechterhaltungselement zum Aufrechterhalten einer Regel für eine Fehlerverwaltungskomponente; und eine Systemschnittstelle zum Übermitteln der Fehlerinformationen über das Veröffentlicher-Abonnent-System in Echtzeit an ein oder mehrere interessierte Nachrichtenbestimmungselemente.
  3. System nach Anspruch 1, wobei wenigstens eines der Nachrichtenbestimmungselemente Informationen von einem Makler empfangen soll und wobei die Informationen eine Datennachricht, die Daten von Interesse beinhaltet, und/oder Abonnentenkontaktinformationen beinhalten sollen.
  4. System nach Anspruch 1, wobei wenigstens eines der Nachrichtenbestimmungselemente einem Aggregator eine Nachricht auf einer höheren Ebene einer Fehlerverwaltungssystemhierarchie bereitstellen soll und wobei der Aggregator Nachrichten aus einer niedrigeren Ebene der Fehlerverwaltungssystemhierarchie sammeln soll und die Nachrichten filtern soll, um einer höheren Ebene der Fehlerverwaltungssystemhierarchie eine Teilmenge wenigstens aus allen verfügbaren Fehlerinformationen bereitzustellen.
  5. System nach Anspruch 1, wobei ein Nachrichtenbestimmungselement Folgendes aufweisen soll: ein Datenbestimmungselement zum dynamischen Bestimmen eines Bedarfs an Daten, die für das Nachrichtenbestimmungselement von Interesse sind; und ein Nachrichtenerzeugungselement zum Erzeugen einer Anforderungsnachricht, um ein Abonnement einer Nachricht anzufordern, die die Daten von Interesse beinhalten soll, und/oder ein Abonnement der Anforderungsnachricht zu veranlassen, um zu bewirken, dass die Daten von Interesse über das Veröffentlichungs- und Abonnement-System veröffentlicht werden.
  6. System nach Anspruch 1, wobei ein Nachrichtenbestimmungselement Folgendes aufweisen soll: ein Datenbestimmungselement zum dynamischen Bestimmen einer Fähigkeit, Daten bereitzustellen, die für wenigstens ein anderes Nachrichtenbestimmungselement von Interesse sind; ein Abonnementgenehmigungselement zum Bestimmen, ob ein Abonnement erlaubt wird, um eine Datennachricht bereitzustellen, die die Daten von Interesse beinhaltet; ein Fähigkeitsanpassungselement zum Bestimmen, ob eine Verwaltungsfähigkeit einer Fehlerverwaltungskomponente, die dem Nachrichtenbestimmungselement zugeordnet ist, basierend auf einer Beschreibung der Daten von Interesse und/oder einer aktualisierten Richtlinie für das Nachrichtenbestimmungselement angepasst werden soll; und ein Nachrichtenerzeugungselement zum Erzeugen der Datennachricht, die über das Veröffentlichungs- und Abonnement-System veröffentlicht werden soll.
  7. System nach einem der Ansprüche 1 bis 6, wobei wenigstens eine Nachricht eine Fehlerüberwachungsnachricht, eine Fehlerreaktionsnachricht, eine Fehlerbehebungsnachricht, eine Fehlermeldungsnachricht, eine Fehlerrichtliniennachricht oder eine Fehlervorhersagenachricht beinhalten soll.
  8. Vorrichtung zum Verwalten eines Fehlerzustands, umfassend: ein Nachrichtenbestimmungselement zum dynamischen Veröffentlichen einer Nachricht über ein Veröffentlicher-Abonnent-System und zum dynamischen Abonnieren einer Nachricht über das Veröffentlicher-Abonnent-System, wobei wenigstens eine Nachricht zur Koordination von Maßnahmen verwendet werden soll, um einen Fehlerzustand in einem Computersystem zu verwalten.
  9. Vorrichtung nach Anspruch 8, die ferner eines oder mehrere der folgenden aufweist: ein Fehlervorhersageelement zum Vorhersagen eines Fehlerzustands in einem HPC (High Performance Computing, Hochleistungsdatenverarbeitung)-System; ein Fehlermeldeelement zum Übermitteln von Fehlerinformationen an einen Benutzer; ein Fehlerüberwachungselement zum Überwachen des Zustands des HPC-Systems; ein Fehlerverarbeitungselement zum Reagieren auf den Fehlerzustand im HPC-System und/oder Beheben des Fehlerzustands im HPC-System; ein „Fault Policy“-Aufrechterhaltungselement zum Aufrechterhalten einer Regel für eine Fehlerverwaltungskomponente; oder eine Systemschnittstelle zum Übermitteln der Fehlerinformationen über das Veröffentlicher-Abonnent-System in Echtzeit an ein oder mehrere interessierte Nachrichtenbestimmungselemente.
  10. Vorrichtung nach Anspruch 8, wobei das Nachrichtenbestimmungselement eines oder mehrere der folgenden durchführen soll: Empfangen von Informationen von einem Makler, wobei die Informationen eine Datennachricht, die Daten von Interesse beinhaltet, und/oder Abonnentenkontaktinformationen beinhalten sollen; oder Bereitstellen einer Nachricht für einen Aggregator auf einer höheren Ebene einer Fehlerverwaltungssystemhierarchie.
  11. Vorrichtung nach Anspruch 8, die ferner eines oder mehrere der folgenden aufweist: ein Datenbestimmungselement zum dynamischen Bestimmen eines Bedarfs an Daten, die für das Nachrichtenbestimmungselement von Interesse sind; oder ein Nachrichtenerzeugungselement zum Erzeugen einer Anforderungsnachricht, um ein Abonnement einer Nachricht anzufordern, die die Daten von Interesse beinhaltet, und/oder ein Abonnement der Anforderungsnachricht zu veranlassen, um zu bewirken, dass die Daten von Interesse über das Veröffentlichungs- und Abonnement-System veröffentlicht werden.
  12. Vorrichtung nach Anspruch 8, die ferner eines oder mehrere der folgenden aufweist: ein Datenbestimmungselement zum dynamischen Bestimmen einer Fähigkeit, Daten bereitzustellen, die für wenigstens ein anderes Nachrichtenbestimmungselement von Interesse sind; ein Abonnementgenehmigungselement zum Bestimmen, ob ein Abonnement erlaubt wird, um eine Datennachricht bereitzustellen, die die Daten von Interesse beinhaltet; ein Fähigkeitsanpassungselement zum Bestimmen, ob eine Verwaltungsfähigkeit einer Fehlerverwaltungskomponente, die dem Nachrichtenbestimmungselement zugeordnet ist, basierend auf einer Beschreibung der Daten von Interesse und/oder einer aktualisierten Richtlinie für das Nachrichtenbestimmungselement angepasst werden soll; oder ein Nachrichtenerzeugungselement zum Erzeugen der Datennachricht, die über das Veröffentlichungs- und Abonnement-System veröffentlicht werden soll.
  13. Vorrichtung nach einem der Ansprüche 8 bis 12, wobei wenigstens eine Nachricht eine Fehlerüberwachungsnachricht, eine Fehlerreaktionsnachricht, eine Fehlerbehebungsnachricht, eine Fehlermeldungsnachricht, eine Fehlerrichtliniennachricht oder eine Fehlervorhersagenachricht beinhalten soll.
  14. Verfahren zum Verwalten eines Fehlerzustands, umfassend: dynamisches Veröffentlichen einer Nachricht über ein Veröffentlicher-Abonnent-System durch ein Nachrichtenbestimmungselement; und dynamisches Abonnieren einer Nachricht über das Veröffentlicher-Abonnent-System durch das Nachrichtenbestimmungselement, wobei wenigstens eine Nachricht zur Koordination von Maßnahmen verwendet wird, um einen Fehlerzustand in einem Computersystem zu verwalten.
  15. Verfahren nach Anspruch 14, das ferner eines oder mehrere der folgenden beinhaltet: Vorhersagen eines Fehlerzustands in einem HPC (High Performance Computing, Hochleistungsdatenverarbeitung)-System; Übermitteln von Fehlerinformationen an einen Benutzer; Überwachen des Zustands des HPC-Systems; Reagieren auf den Fehlerzustand im HPC-System und/oder Beheben des Fehlerzustands im HPC-System; Aufrechterhalten einer Regel für eine Fehlerverwaltungskomponente; oder Übermitteln der Fehlerinformationen über das Veröffentlicher-Abonnent-System in Echtzeit an ein oder mehrere Nachrichtenbestimmungselemente.
  16. Verfahren nach Anspruch 14, das ferner eines oder mehrere der folgenden beinhaltet: Empfangen von Informationen von einem Makler, wobei die Informationen eine Datennachricht, die Daten von Interesse beinhaltet, und/oder Abonnentenkontaktinformationen beinhalten; oder Bereitstellen einer Nachricht für einen Aggregator auf einer höheren Ebene einer Fehlerverwaltungssystemhierarchie.
  17. Verfahren nach Anspruch 14, das ferner eines oder mehrere der folgenden beinhaltet: Bestimmen eines Bedarfs an Daten, die für das Nachrichtenbestimmungselement von Interesse sind; oder Erzeugen einer Anforderungsnachricht, um ein Abonnement einer Nachricht anzufordern, die die Daten von Interesse beinhaltet, und/oder ein Abonnement der Anforderungsnachricht zu veranlassen, um zu bewirken, dass die Daten von Interesse über das Veröffentlichungs- und Abonnement-System veröffentlicht werden.
  18. Verfahren nach Anspruch 14, das ferner eines oder mehrere der folgenden beinhaltet: Bestimmen einer Fähigkeit, Daten bereitzustellen, die für wenigstens ein anderes Nachrichtenbestimmungselement von Interesse sind, das eine Veröffentlichungsanforderungsnachricht veröffentlicht hat, die eine Beschreibung der Daten von Interesse beinhaltet; Bestimmen, ob ein Abonnement erlaubt wird, um eine Datennachricht bereitzustellen, die die Daten von Interesse beinhaltet; Bestimmen, ob eine Verwaltungsfähigkeit einer Fehlerverwaltungskomponente, die dem Nachrichtenbestimmungselement zugeordnet ist, basierend auf einer Beschreibung der Daten von Interesse und/oder einer aktualisierten Richtlinie für das Nachrichtenbestimmungselement angepasst werden soll; oder Erzeugen der Datennachricht, die über das Veröffentlichungs- und Abonnement-System veröffentlicht werden soll.
  19. Verfahren nach einem der Ansprüche 14 bis 18, wobei wenigstens eine Nachricht eine Fehlerüberwachungsnachricht, eine Fehlerreaktionsnachricht, eine Fehlermeldungsnachricht, eine Fehlerrichtliniennachricht oder eine Fehlervorhersagenachricht beinhalten soll.
  20. Computerlesbares Speichermedium oder computerlesbare Speichermedien, das/die einen Satz von Anweisungen umfasst/umfassen, die, wenn sie durch eine Vorrichtung ausgeführt werden, bewirken, dass die Vorrichtung: eine Nachricht über ein Veröffentlicher-Abonnent-System durch ein Nachrichtenbestimmungselement dynamisch veröffentlicht; und eine Nachricht über das Veröffentlicher-Abonnent-System vom Nachrichtenbestimmungselement dynamisch abonniert, wobei wenigstens eine Nachricht zur Koordination von Maßnahmen verwendet werden soll, um einen Fehlerzustand in einem Computersystem zu verwalten.
  21. Computerlesbares Speichermedium oder computerlesbare Speichermedien nach Anspruch 20, wobei die Anweisungen, wenn sie ausgeführt werden, die Vorrichtung zu einem oder mehreren der folgenden veranlassen: Vorhersagen eines Fehlerzustands in einem HPC (High Performance Computing, Hochleistungsdatenverarbeitung)-System; Übermitteln von Fehlerinformationen an einen Benutzer; Überwachen des Zustands des HPC-Systems; Reagieren auf den Fehlerzustand im HPC-System und/oder Beheben des Fehlerzustands im HPC-System; Aufrechterhalten einer Regel für eine Fehlerverwaltungskomponente; oder Übermitteln der Fehlerinformationen über das Veröffentlicher-Abonnent-System in Echtzeit an ein oder mehrere Nachrichtenbestimmungselemente.
  22. Computerlesbares Speichermedium oder computerlesbare Speichermedien nach Anspruch 20, wobei die Anweisungen, wenn sie ausgeführt werden, eine Vorrichtung zu einem oder mehreren der folgenden veranlassen: Empfangen von Informationen von einem Makler, wobei die Informationen eine Datennachricht, die Daten von Interesse beinhaltet, und/oder Abonnentenkontaktinformationen beinhalten sollen; oder Bereitstellen einer Nachricht für einen Aggregator auf einer höheren Ebene einer Fehlerverwaltungssystemhierarchie.
  23. Computerlesbares Speichermedium oder computerlesbare Speichermedien nach Anspruch 20, wobei die Anweisungen, wenn sie ausgeführt werden, eine Vorrichtung zu einem oder mehreren der folgenden veranlassen: Bestimmen eines Bedarfs an Daten, die für das Nachrichtenbestimmungselement von Interesse sind; oder Erzeugen einer Anforderungsnachricht, um ein Abonnement einer Nachricht, die die Daten von Interesse einschließt, anzufordern und/oder ein Abonnement der Anforderungsnachricht zu veranlassen, um zu bewirken, dass die Daten von Interesse über das Veröffentlichungs- und Abonnement-System veröffentlicht werden.
  24. Computerlesbares Speichermedium oder computerlesbare Speichermedien nach Anspruch 20, wobei die Anweisungen, wenn sie ausgeführt werden, eine Vorrichtung zu einem oder mehreren der folgenden veranlassen: Bestimmen einer Fähigkeit, Daten bereitzustellen, die für wenigstens ein anderes Nachrichtenbestimmungselement von Interesse sind; Bestimmen, ob ein Abonnement erlaubt wird, um eine Datennachricht bereitzustellen, die Daten von Interesse beinhaltet; Bestimmen, ob eine Verwaltungsfähigkeit einer Fehlerverwaltungskomponente, die dem Nachrichtenbestimmungselement zugeordnet werden soll, basierend auf einer Beschreibung der Daten von Interesse und/oder einer aktualisierten Richtlinie für das Nachrichtenbestimmungselement angepasst werden soll; oder Erzeugen der Datennachricht, die über das Veröffentlichungs- und Abonnement-System veröffentlicht werden soll.
  25. Vorrichtung zum Verwalten eines Fehlerzustands, die Mittel zum Durchführen des Verfahrens nach einem der Ansprüche 14 bis 19 umfasst.
DE112016004368.6T 2015-09-25 2016-08-22 Verwaltung eines Fehlerzustands in einem Datenverarbeitungssystem Withdrawn DE112016004368T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/865,872 2015-09-25
US14/865,872 US9804913B2 (en) 2015-09-25 2015-09-25 Management of a fault condition in a computing system
PCT/US2016/047951 WO2017052872A1 (en) 2015-09-25 2016-08-22 Management of a fault condition in a computing system

Publications (1)

Publication Number Publication Date
DE112016004368T5 true DE112016004368T5 (de) 2018-08-30

Family

ID=58387276

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112016004368.6T Withdrawn DE112016004368T5 (de) 2015-09-25 2016-08-22 Verwaltung eines Fehlerzustands in einem Datenverarbeitungssystem

Country Status (4)

Country Link
US (2) US9804913B2 (de)
CN (1) CN107924359B (de)
DE (1) DE112016004368T5 (de)
WO (1) WO2017052872A1 (de)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9804913B2 (en) * 2015-09-25 2017-10-31 Intel Corporation Management of a fault condition in a computing system
GB2553784B (en) * 2016-09-13 2019-02-06 Advanced Risc Mach Ltd Management of log data in electronic systems
GB2563242B (en) 2017-06-07 2020-01-29 Ge Aviat Systems Ltd A method and system for enabling component monitoring redundancy in a digital network of intelligent sensing devices
CN109525625B (zh) * 2017-09-20 2020-12-22 华为技术有限公司 一种信息订阅方法及装置
US11093518B1 (en) 2017-09-23 2021-08-17 Splunk Inc. Information technology networked entity monitoring with dynamic metric and threshold selection
US11159397B2 (en) 2017-09-25 2021-10-26 Splunk Inc. Lower-tier application deployment for higher-tier system data monitoring
CN108650110B (zh) * 2018-03-27 2021-01-08 北京航空航天大学 一种hpc间接网络环境下的链路故障检测方法
JP7047621B2 (ja) * 2018-06-21 2022-04-05 日本電信電話株式会社 オペレーション装置、および、オペレーション方法
US10831592B1 (en) * 2018-09-27 2020-11-10 Juniper Networks, Inc Apparatus, system, and method for correcting slow field-replaceable units in network devices
US11151121B2 (en) 2019-08-30 2021-10-19 International Business Machines Corporation Selective diagnostics for computing systems
US20220385548A1 (en) * 2019-11-08 2022-12-01 Nippon Telegraph And Telephone Corporation Operational device of maintenance management system, maintenance management system, operation method and program
JP7335532B2 (ja) * 2020-02-05 2023-08-30 日本電信電話株式会社 保守管理システム、メッセージ制御装置、メッセージ制御方法、およびプログラム
US11621881B2 (en) 2020-02-10 2023-04-04 International Business Machines Corporation Error detection and broadcasting using partner sensors
US11340809B1 (en) * 2020-10-29 2022-05-24 EMC IP Holding Company LLC Redirecting i/o communications based on network topology
US11676072B1 (en) 2021-01-29 2023-06-13 Splunk Inc. Interface for incorporating user feedback into training of clustering model
US11914457B2 (en) * 2022-03-30 2024-02-27 Bank Of America Corporation System for early detection of operational failure in component-level functions within a computing environment
EP4307117A1 (de) * 2022-07-15 2024-01-17 NXP USA, Inc. Geschichtete architektur zur verwaltung der gesundheit eines elektronischen systems und verfahren zur geschichteten gesundheitsverwaltung

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5664093A (en) * 1994-12-27 1997-09-02 General Electric Company System and method for managing faults in a distributed system
US6789257B1 (en) * 2000-04-13 2004-09-07 International Business Machines Corporation System and method for dynamic generation and clean-up of event correlation circuit
US7406537B2 (en) 2002-11-26 2008-07-29 Progress Software Corporation Dynamic subscription and message routing on a topic between publishing nodes and subscribing nodes
US7822801B2 (en) * 2004-10-14 2010-10-26 International Business Machines Corporation Subscription propagation in a high performance highly available content-based publish/subscribe system
US7281112B1 (en) * 2005-02-28 2007-10-09 Sun Microsystems, Inc. Method for storing long-term performance data in a computer system with finite storage space
US7681075B2 (en) * 2006-05-02 2010-03-16 Open Invention Network Llc Method and system for providing high availability to distributed computer applications
US8352589B2 (en) * 2005-11-15 2013-01-08 Aternity Information Systems Ltd. System for monitoring computer systems and alerting users of faults
US20070174768A1 (en) * 2006-01-20 2007-07-26 International Business Machines Corporation Adaptive alert management
US8065411B2 (en) 2006-05-31 2011-11-22 Sap Ag System monitor for networks of nodes
US8706451B1 (en) * 2006-12-15 2014-04-22 Oracle America, Inc Method and apparatus for generating a model for an electronic prognostics system
CN101159710B (zh) * 2007-11-06 2011-03-23 中国科学院计算技术研究所 面向服务的架构下服务组合的搜索方法和系统
US8731724B2 (en) * 2009-06-22 2014-05-20 Johnson Controls Technology Company Automated fault detection and diagnostics in a building management system
JP2011170724A (ja) 2010-02-22 2011-09-01 Hitachi Ltd 故障診断システム、故障診断装置および故障診断プログラム
DE112012002097T5 (de) * 2011-05-18 2014-07-24 International Business Machines Corp. Verwalten eines Nachrichtenabonnements in einem Publikations-Abonnement- Nachrichtensystem
US9280437B2 (en) * 2012-11-20 2016-03-08 Bank Of America Corporation Dynamically scalable real-time system monitoring
US9274902B1 (en) * 2013-08-07 2016-03-01 Amazon Technologies, Inc. Distributed computing fault management
US9940835B2 (en) 2014-01-16 2018-04-10 International Business Machines Corporation Dynamically routing messages in a publish/subscribe system by creating temporal topics for subscriptions and publications
US9390814B2 (en) 2014-03-19 2016-07-12 Sandisk Technologies Llc Fault detection and prediction for data storage elements
US9804913B2 (en) * 2015-09-25 2017-10-31 Intel Corporation Management of a fault condition in a computing system

Also Published As

Publication number Publication date
US20200233738A1 (en) 2020-07-23
CN107924359A (zh) 2018-04-17
CN107924359B (zh) 2021-09-14
US20170091007A1 (en) 2017-03-30
WO2017052872A1 (en) 2017-03-30
US9804913B2 (en) 2017-10-31
US11175974B2 (en) 2021-11-16

Similar Documents

Publication Publication Date Title
DE112016004368T5 (de) Verwaltung eines Fehlerzustands in einem Datenverarbeitungssystem
DE102018214776A1 (de) Technologien für die Verwaltung von Netz-Statistik-Zählern
DE102019112700A1 (de) Autonome anomalieerkennung und ereignisauslösung für datenströme
DE112017005412T5 (de) Systeme und verfahren zum überwachen und analysieren von computer- und netzwerkaktivitäten
DE102021103080B4 (de) Data center troubleshooting-mechanismus
DE112021006232T5 (de) Proaktive anomalieerkennung
DE102014211504A1 (de) Verfahren und System zur Gewinnung und Analyse von forensischen Daten in einer verteilten Rechnerinfrastruktur
DE102016125808A1 (de) Peer-gestützte offline-übermittlung von benachrichtigungen
DE112016004325T5 (de) Universalsensor und/oder Sensorcluster zur Bereitstellung eines Detektionsmusters
DE102014114108A1 (de) Prozessleitsysteme und -verfahren
DE202014010885U1 (de) Beschleunigung basierend auf zwischengespeicherte Flüsse
DE112016007091T5 (de) Selbstständig adaptive leistungsüberwachung
DE102022120616A1 (de) Selbstheilung und Rechenzentren
DE112019003854T5 (de) Flusssteuerungssichtbarkeit
DE102013201664B4 (de) Vorausschauendes Zwischenspeichern bei Telekommunikationstürmen unter Verwendung der Weitergabe der Kennung von Elementen von Daten mit hohem Bedarf auf einer geographischen Ebene
DE112017001757T5 (de) Verfahren und vorrichtung zum koordinieren und authentifizieren von anfragen nach daten
CN118119926A (zh) 基于候选运行手册的结果与事件的补救的相关性推荐候选运行手册
DE102021125019B4 (de) Orchestrierung von einheiten für das internet der dinge
DE112012004301T5 (de) Erzeugen einer vorhersagenden Datenstruktur
DE112021004854T5 (de) Dynamische ersetzung von verarbeitungselementen mit einem leistungsabfall in streaming-anwendungen
DE102013201973A1 (de) Verteilte Anwendung mit Vorwegnahme von Server-Antworten
DE112021003657T5 (de) Fehlerlokalisierung für cloud-native anwendungen
DE112020004688T5 (de) Debuggen und erstellen von profilen von maschinenlernmodelltraining
DE112016002949T5 (de) VM-zu-VM-Verkehrs-Schätzung in Mehrmieterdatenzentren
DE112022002157T5 (de) Dynamische microservice-interkommunikations-konfiguration

Legal Events

Date Code Title Description
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee