DE202009019133U1 - Thermische Überwachung einer Datenzentrale - Google Patents

Thermische Überwachung einer Datenzentrale Download PDF

Info

Publication number
DE202009019133U1
DE202009019133U1 DE202009019133.8U DE202009019133U DE202009019133U1 DE 202009019133 U1 DE202009019133 U1 DE 202009019133U1 DE 202009019133 U DE202009019133 U DE 202009019133U DE 202009019133 U1 DE202009019133 U1 DE 202009019133U1
Authority
DE
Germany
Prior art keywords
computer
thermal health
value
program product
computer program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE202009019133.8U
Other languages
English (en)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of DE202009019133U1 publication Critical patent/DE202009019133U1/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • G06F1/206Cooling means comprising thermal management
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/20Modifications to facilitate cooling, ventilating, or heating
    • H05K7/20709Modifications to facilitate cooling, ventilating, or heating for server racks or cabinets; for data centers, e.g. 19-inch computer racks
    • H05K7/20836Thermal management, e.g. server temperature control
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Thermal Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Investigating Or Analyzing Materials Using Thermal Means (AREA)
  • Arrangements For Transmission Of Measured Signals (AREA)

Abstract

In einem maschinenlesbaren Datenträger konkret verkörpertes Computerprogrammprodukt, des Weiteren umfassend Anweisungen, die beim Prozessor folgende Funktionen auslösen: das Empfangen einer für die Temperatur eines Computers indikativen Messung; und das Berechnen eines Werts der thermischen Gesundheit für den Computer.

Description

  • TECHNISCHES GEBIET
  • Dieses Dokument bezieht sich auf die thermische Überwachung von Computern.
  • HINTERGRUND
  • Der durch den Mikroprozessor verbrauchte Strom wird in Wärme umgewandelt. Ein auf einer Einzel-Hauptplatine bereitgestelltes Paar Mikroprozessoren kann eine Leistung von 200–400 Watt oder mehr aufnehmen. Wenn diese Leistungsaufnahme mit mehreren Tausenden (oder Zehntausenden) multipliziert wird, um die Computer in einem Datenzentrum zu erfassen, so kann das Potential der Wärmeerzeugung gewürdigt werden. Ein Betreiber eines Datenzentrums muss nicht nur den Strom zur Betreibung der Computer bezahlen, sondern er muss auch die Kühlung der Computer bezahlen. Die Kosten der Wärmeableitung können einen bedeutenden Kostenfaktor beim Betrieb von großen Datenzentren darstellen.
  • Außerdem unterliegen Computer-Komponenten, beispielsweise Mikroprozessor, Speicher oder Laufwerk, Störungen, wenn diese Komponenten hohen Temperaturen ausgesetzt werden. Ein Ventilator kann eine stabile Luftdurchströmung durch die Computer-Komponenten bereitstellen, um die Hitze davonzutragen; gleichzeitig können Kühlkörper an einige Komponenten angeschlossen werden, insbesondere an den Mikroprozessor, um die Wärmeübertragung in die Umgebungsluft zu verbessern. Trotz dieser Vorsichtsmaßnahmen können die Computerkomponenten noch immer überhitzen und ausfallen, insbesondere bei einem Betrieb bei hoher Auslastung.
  • ZUSAMMENFASSUNG
  • In einem Punkt umfasst ein Verfahren den Empfang einer indikativen Messung der Temperatur eines Computers und die Kalkulation des Wertes der thermischen Gesundheit für der Computer aufgrund der Messung.
  • Anwendungen der Erfindung können eine oder mehrere der nachfolgenden Merkmale umfassen. Die Kalkulation des Wertes der thermischen Gesundheit kann den Vergleich der Messungen zu gespeicherten Schwellenwerten umfassen. Die Messung kann eine oder mehrere Messungen der Temperatur, der Leistungsaufnahme des Computers, der Auslastung des Computers oder die Drehzahl des Computerlüfters darstellen. Es kann eine Vielzahl von Messungen verschiedener Typen eingehen und die Kalkulation des Wertes der thermischen Gesundheit kann eine Vielzahl von Messungen kombinieren. Die Messung kann eine Temperaturmessung einer oder mehrerer Zentraleinheiten des Computers, des Computer-Laufwerks, des Computer-Speichermoduls, der Computer-Hauptplatine oder die Luft in der Nähe des Computers darstellen. Der Wert der thermischen Gesundheit kann einen dimensionslosen Wert, z. B. eine Zahl, z. B. im Bereich von 0 bis 1 oder im Bereich von 0 bis 10, darstellen. Ein Deskriptor kann für den Wert der thermischen Gesundheit aus einer endlichen Menge an Deskriptoren ausgewählt werden. Die Kalkulation des Wertes der thermischen Gesundheit kann eine Normalisierung für den Plattformtyp des Computers umfassen. Ein Alarm kann generiert werden, wenn der Wert der thermischen Gesundheit einen Schwellenwert überschreitet. Es können eine oder mehrere Funktionen Leistung, Kühlung und Auslastung aufgrund des Wertes der thermischen Gesundheit angepasst werden. Eine indikative Messung der Computertemperatur kann von Jeder der Computerpluralität empfangen werden, und ein Wert der thermischen Gesundheit kann für jede der Computerpluralität kalkuliert werden. Zumindest einige der Computer-Pluralitäten können unterschiedliche Plattformen sein, wobei die Kalkulation des Wertes der thermischen Gesundheit für jeden dieser Computerpluralität derweise normalisiert wird, dass jeder Wert der thermischen Gesundheit innerhalb des gleichen Wertebereichs liegt. Der Wertebereich kann ein Computerverhalten abbilden, dass über unterschiedliche Plattformen einheitlich ist. Die Werte der thermischen Gesundheit können aggregiert werden, z. B. aus den Werten der thermischen Gesundheit der Computerpluralität kann ein Mittelwert gebildet werden, woraus ein Wert der thermischen Gesundheit für die Computerpluralität generiert wird. Die Werte der thermischen Gesundheit können über eine oder mehrere Leistungsdomänen, eine Kühldomäne, eine Logikdomäne und eine physische Standortdomäne aggregiert werden.
  • In einem anderen Aspekt wird ein Computerprogrammprodukt konkret in einem maschinenlesbaren Datenträger verkörpert, das Anweisungen für den Prozessor, diese Verfahren auszuführen, umfasst.
  • Vorteile können eine oder mehrere der nachfolgenden Merkmale umfassen. Ein Betreiber kann mühelos die thermische Gesundheit von Computern in einem Datenzentrum auf unterschiedlichen Aggregationsniveaus auswerten. Der Wert der thermischen Gesundheit kann über einen gewissen Zeitraum überwacht werden, wobei vergangenes Verhalten zur Prognose von künftiger thermischer Gesundheit verwertet werden kann. Korrekturmaßnahmen können getroffen werden, wenn die Variable der thermischen Gesundheit darauf hindeutet, dass die Computer einem Ausfallrisiko ausgesetzt sind, dadurch werden die Zuverlässigkeit verbessert und die Ausfallzeit des Datenzentrums reduziert.
  • Die Details einer oder mehrerer Ausführungsformen sind in den begleitenden Zeichnungen und der nachfolgenden Beschreibung dargelegt. Andere Merkmale, Objekte und Vorteile sind aus der Beschreibung und den Zeichnungen sowie aus den Patentansprüchen ersichtlich.
  • BESCHREIBUNG DER ZEICHNUNGEN
  • 1A und 1B sind sektionale Seiten- und Planansichten bzw. Ansichten eines Objekts, das als Datenzentrum betrieben wird.
  • 1C ist eine schematische Ansicht von Computers-Komponenten im Datenzentrum.
  • 2 ist eine schematische Darstellung von Computern eines Datenzentrums, das zur Bereitstellung von Temperaturinformationen an einen Überwachungscomputer konfiguriert wurde.
  • 3 ist ein Ablaufdiagramm, das das Verfahren des Datensammelns von Ausfalltemperaturen für die Computerkomponenten darstellt.
  • 4 ist ein Ablaufdiagramm, das das Verfahren der thermischen Überwachung eines Datenleistungszentrums darstellt.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Groß angelegte Internetleistungen und die dafür zur Unterstützung erforderliche massive parallele Computer-Infrastruktur kann die Gestaltung von Computersystemen in der Größe von Lagerhallen, z. B. Datenzentrumsanlagen, bestehend aus Tausenden oder Zehntausenden von Rechenknoten, deren zugeordnete Speicherhierarchie und Verbindungsinfrastruktur, erfordern. Das Datenzentrum kann zahlreiche verschiedene Computerausstattungstypen umfassen, z. B. unterschiedliche Computer-Typen, und jedes Ausstattungsstück ist typisch konstruiert aus einer Vielzahl von kleineren elektronischen Komponenten.
  • Wie oben angeführt, generieren Computerkomponenten Wärme. Thermische Ereignisse, z. B. Situationen, in denen die Temperatur der Computerkomponenten auf eine ausreichende Höhe ansteigt und zu kurzzeitiger Leistungsstörung führt oder langzeitige Zuverlässigkeit reduziert, können durch eine Vielfalt an Faktoren verursacht werden, beispielsweise durch Ausfälle von Kühlanlagen, Einsatz einer zu großen Computeranzahl in unmittelbarer Nähe (sodass die lokal generierte Wärme größer als die lokalen Kühlmöglichkeiten des Kühlsystems ist), übermäßige Auslastung und saisonbedingte Schwankungen.
  • Unterschiedliche Computer können verschiedene Empfindlichkeitsstufen hohen Temperaturen gegenüber aufweisen, z. B. die Temperatur, bei der Komponenten ausfallen, eine Leistungsstörung erleiden oder langfristig an Zuverlässigkeit verlieren; außerdem variiert die Art des Ausfalls von Plattform zu Plattform unterschiedlicher Konfiguration. Außerdem ist davon auszugehen, dass nur Spezialisten die Gefahr verstehen, die für Computer von ursprünglichen Temperaturmessungen ausgehen. Um Temperaturdaten für einen fachunkundigen Betreiber hilfreicher zu gestalten, z. B. zum Zwecke des menschlichen Entscheidungsprozesses in reeller Zeit oder zur Gestaltung von vorprogrammierten Reaktionen, können Temperaturdaten für einen Computer oder eine Computergruppe in einen Wert der thermischen Gesundheit übersetzt werden.
  • Obwohl ein Wert der thermischen Gesundheit für eine einzelne Maschine generiert werden kann, ist thermische Gesundheit insbesondere bei der Auswertung einer großen Anzahl an Maschinen, z. B. eines gesamten Clusters, hilfreich.
  • Der Wert der thermischen Gesundheit kann auf eine Bandbreite hinweisen, z. B. wie „nah“ der Computer oder die Computergruppe bei einer Leistungsstörung liegt. Die gesamte thermische Gesundheit eines Datenzentrums kann durch eine Verteilung anstatt als einzelner Extremfall oder maximaler Wert geregelt werden.
  • Ein exemplarisches Datenzentrum-Objekt wird als Einleitung zu den Themen der thermischen Überwachung beschrieben.
  • 1A und 1B sind Seiten- und Planansichten zur Darstellung eines exemplarischen Objekts 10, das als Datenzentrum dient. Das Objekt 10 umfasst einen angefügten Raum 12 und kann im Wesentlichen ein ganzes Gebäude oder aber einen oder mehrere Räume innerhalb eines Gebäudes besetzen. Die Größe des beigefügten Raums 12 reicht zur Installierung von zahlreichen (Dutzenden oder Hunderten oder Tausenden von) Regalen mit Computer-Ausstattung aus; und somit könnten hier Hunderte, Tausende oder Zehntausende von Computern untergebracht werden.
  • Module, z. B. Käfige 20, von auf Regalen montierten Computern werden im Raum in Reihen angeordnet 22, voneinander getrennt durch Zugangsgänge 24. Jeder Käfig 20 kann eine Vielzahl von Regalen 26 umfassen, z. B. von vier bis acht Regale, wobei jedes Regal eine Vielzahl von Computern 28, z. B. Ablagen, umfasst.
  • 1C ist eine schematische Ansicht eines Computers vom Regal aus. Im Allgemeinen kann jeder Computer 28 eine Leiterplatte 50 umfassen, beispielsweise eine Hauptplatine, auf der eine Vielfalt an computerverbundenen Komponenten installiert ist, beispielsweise eine Zentraleinheit (CPU) 52, Speicher 54, eine oder mehrere Laufwerke 56, und ein Eingangs-/Ausgangsport 58 zur Verbindung des Computers mit dem Netzwerk anderer Computer im Datenzentrum.
  • Wieder unter Bezug auf 1A und 1B, das Objekt umfasst auch ein Kühlsystem, um Wärme vom Datenzentrum über einen oder mehrere Wärmeaustauschprozesse abzuleiten, z. B. eine Luftkühlanlage zum Einblasen von Kaltluft durch den Raum, oder Kühlschlangen, die ein flüssiges Kühlmittel an den Regalen vorbei tragen, und ein Datenraster 40 (siehe 1C) zur Verbindung mit den auf den Regalen montierten Computern, um Daten zwischen den Computern und dem externen Netzwerk, z. B. dem Internet, zu transportieren.
  • Wie oben erwähnt, können bei Computer-Komponenten, beispielsweise dem Mikroprozessor, Speicher oder Laufwerk, Fehler eintreten, wenn diese hohen Temperaturen ausgesetzt sind. Das Ausfallen einer Komponente umfasst typischerweise eine Vielzahl von Modi, beispielsweise eine erste Temperaturzone, wo die Leistung der Komponente sich verändert (in der Regel reduziert wird), eine höhere zweite Temperaturzone, in der die Fehlerrate der Komponente, z. B. Lese-/Schreibfehler für ein Laufwerk, dramatisch ansteigt, und eine noch höhere dritte Temperaturzone, in der die Komponente komplett ausfällt. Die Temperaturen, bei denen Komponenten die unterschiedlichen Ausfallmodi aufweisen, können unabhängig durch empirische Mittel charakterisiert werden. Allerdings können andere Erwägungen eintreten, die die Leistung beeinträchtigen können, einschließlich Komponenten-Einschaltdauer, Spannung und Herstellungsvarianten.
  • Die Reihenfolge, in der Komponenten in Abhängigkeit von Temperatur ausfallen, kann ähnlich sein oder über unterschiedliche Plattformen variieren, z. B. bei einigen Plattformen kann der Speicher mit dem Temperaturanstieg zuerst ausfallen, gefolgt vom Laufwerk, gefolgt von der Zentraleinheit. Andere Reihenfolgen sind möglich. So kann zum Beispiel auf einigen Plattformen die Leistung der Zentraleinheit äußerst anfällig für Temperaturüberschreitungen sein, gefolgt von Laufwerken und danach vom Speicher. Allerdings variiert die exakte Temperatur, bei der Störungen auftreten, bei Plattformen unterschiedlicher Konfiguration. So werden zum Beispiel bei verschiedenen Modellen von Zentraleinheiten bei verschiedenen Temperaturen Fehler eintreten. Somit kann es durchaus sein, auch wenn Temperaturdaten zur Verfügung stehen, dass die Temperaturdaten an für sich nicht zwingend hilfreiche Informationen über die thermische Gesundheit der Maschine bereitstellen, geschweige denn eine Sammlung von Maschinen mit unterschiedlichen Konfigurationen, wie dies beispielsweise typischerweise in einem Datenzentrum der Fall ist.
  • Somit wäre es, wie oben angegeben, für den menschlichen Betreiber eines Datenzentrums hilfreich, Anzeigen des thermischen Zustandes eines Computers oder einer Gruppe von Computern aufweisen, die keine Kenntnisse einer bestimmten Plattform erfordern, um auswerten zu können, ob der Computer ausfallen wird oder ob eine Ausfallgefahr besteht. Ausfall kann sowohl verminderte Leistung oder irreparablen Schaden oder beides bedeuten, verschiedene Ausfalltypen können verschiedene Gewichtungen bei der Festlegung der thermischen Gesundheit empfangen.
  • Die Tatsache, dass Komponenten dazu tendieren, mit dem Temperaturanstieg der gleichen Reihenfolge an Ausfallmodi begegnen, führt mit dem Temperaturanstieg zu einer bestimmten Sequenz an Fehlermodi. Auf diese Weise wird der Computer mit dem Temperaturanstieg dazu tendieren, durch mehrere Zonen der thermischen „Gesundheit“ durchzugehen, z. B. bei niedrigeren Temperaturen wird der Computer normal funktionieren und kann als „gesund“ betrachtet werden, bei höheren Temperaturen werden bestimmte Fehler auftreten und der Computer könnte als „ungesund“ erachtet werden; sobald aber der Computer komplett ausfällt, könnte dieser als „tot“ erachtet werden. Außerdem könnte der „ungesunde“ Zustand mehrere Niveaus umfassen, weil die Fehler dann häufiger werden oder aber weil Fehler dann bei einer größeren Anzahl an Komponenten auftreten. Außerdem kann es eine „Gefahren-“Phase geben, die anzeigt, dass der Computer bei einem weiteren Temperaturanstieg die „ungesunde“ Phase betritt und bei noch höherer Temperatur eine „kritische“ Phase, die anzeigt, dass der Computer am Rande eines Totalausfalls steht. Es könnte fast jegliche Anzahl an einzigartigen Gesundheitsniveaus definiert werden.
  • Diese allgemeine Anzeige des thermischen Zustandes des Computers kann als „Variable der thermischen Gesundheit“ bezeichnet werden, die einen „Wert der thermischen Gesundheit“ aufweisen kann. Somit ist die Variable der thermischen Gesundheit ein metrischer, typischerweise ein dimensionsloser metrischer, thermischer Zustand eines Einzelcomputers oder eine Aggregation von Computern im Datenzentrum, der aber unabhängig von der besonderen Konfiguration des Computers ist.
  • Die Variable der thermischen Gesundheit kann über Computer unterschiedlicher Konfiguration normalisiert werden. Das heißt, der Wert der thermischen Gesundheit wird für den einzelnen Computer kalkuliert und fällt in eine Skala über mehrere Computer hinweg, z. B. über alle Computer eines Datenzentrums, mindestens mit den Endpunkten der gemeinsamen Skala (und potentiell mindestens einigen Mittelpunkten auf der Skala), die ähnliches Verhalten der Computer darstellen. Solch ein Wert der thermischen Gesundheit kann aus der Kombination von aktuellen Messungen der für die Maschine indikativen Temperatur kalkuliert werden, und der historisch empirischen Messungen von Temperaturen, bei welchen dieses Verhalten auftritt. Da Datenzentren eine heterogene Sammlung von Ausstattungen darstellen, bietet eine Normalisierung über diese Unterschiede hinweg einen verwertbaren Parameter zur Beurteilung der thermischen Gesundheit des gesamten Clusters. Im Wesentlichen sollte die Variable der thermischen Gesundheit die Gesundheit des Computers oder der Computergruppe darstellen, aber unabhängig von den einzelnen Maschinenbesonderheiten sein.
  • In einigen Fällen ist das System nur so gesund wie dessen ungesündeste Komponente. Wenn beispielsweise eine Zentraleinheit „tot“ ist, dann ist der gesamte Computer tot. In einigen Fällen ist die thermische Gesundheit eine Aggregation von einzelnen thermischen Gesundheiten. Thermische Gesundheit auf einem Datenzentrum-Niveau ist beispielsweise eine Aggregation von thermischen Gesundheiten für einzelne Maschinen. In einigen Umsetzungen können die thermischen Gesundheiten aggregiert werden, um die thermische Gesundheit der Aggregation von Computern zu bereitstellen, einfach durch das Zusammenziehen des Durchschnitts der thermischen Gesundheit der einzelnen Computer in der Aggregation.
  • 2 ist ein schematisches Diagramm eines Systems zur Festlegung eines Werts der thermischen Gesundheit. Mindestens einige der Computer 28 im Datenzentrum sind mittels eines Netzwerks verbunden, z. B. des Datenrasters 40, an einen Überwachungscomputer 60, beispielsweise einen Universalcomputer, z. B. eine Arbeitsstation.
  • Jeder dieser Computer 28 weist mindestens einen Sensor auf, der die Temperatur mindestens einer der Komponenten misst. So können beispielsweise die Computer 28 Sensoren zum Messen der Temperatur von Zentraleinheit, Speicher, Laufwerk oder Hauptplatine benutzen. Außerdem können die Computer 28 andere indikative Daten der thermischen Gesundheit, beispielsweise Ventilatorgeschwindigkeit kumulieren, die anzeigen würde, wie schwer die Maschine zur eigenen Kühlung arbeitet. Wenn beispielsweise zwei Maschinen die gleiche Temperatur aufweisen, die Ventilatorgeschwindigkeit der ersten Maschine jedoch das Maximum ihres möglichen Werts erreicht, während die Ventilatorgeschwindigkeit der zweiten Maschine einen nominalen Wert aufweist, so würde die thermische Gesundheit für die erste Maschine als etwas schlechter berichtet werden, weil diese Maschine weniger imstande ist, ihre thermische Gesundheit unter ungünstigen Bedingungen aufrecht zu erhalten. Außerdem können Sensoren in den Regalen oder Käfigen zum Messen der Umgebungstemperatur installiert werden, z. B. der Lufttemperatur in der Nähe des Computers 28; diese Daten können dann bei der Festlegung der thermischen Gesundheit verwendet werden. Außerdem können die Computer Daten im Zusammenhang mit deren Leistungsaufnahme und/oder Auslastung sammeln, denn bei Temperatur kann davon ausgegangen werden, dass diese mit Leistung und Auslastung skaliert wird. Der Computer 28 kann thermische Daten von anderen Wärmesensoren auf Ablageniveau empfangen und von anderen Sensoren auf Regal- oder Käfigniveau, z. B. Sensoren zur Überwachung der Kühlinfrastruktur für ein Regal oder einen Käfig, z. B. die die eintretende Lufttemperatur messen (EAT), die austretende Lufttemperatur (LAT), die eintretende Wassertemperatur (EWT) und die austretende Wassertemperatur (LWT).
  • In einigen Umsetzungen kalkuliert jeder Computer seine eigene thermische Gesundheit auf der Grundlage der Besonderheiten seiner einzelnen Komponenten und verfügbaren Daten von Sensoren. In einigen Umsetzungen senden einige oder alle Computer ihre Messungen an einen Überwachungscomputer 60, und der Überwachungscomputer 60 kalkuliert die thermische Gesundheit aufgrund der eingegangenen Daten. Der Überwachungscomputer 60 kann thermische Daten von anderen Wärmesensoren auf Ablageniveau und von anderen Quellen der Hardware-Gesundheitsinformation empfangen. In einigen Umsetzungen werden die von den Computern 28 kalkulierten Werte der thermischen Gesundheit an den Überwachungscomputer 60 gesendet und der Überwachungscomputer kann thermische Gesundheit für Aggregationen der Computer 28 kalkulieren.
  • 3 ist ein Ablaufdiagramm, das das Verfahren zur Festlegung der Ausfalltemperaturen eines Computers darstellt. Zunächst wird die Reaktion eines oder mehrerer Computer auf Temperatur, einschließlich der Ausfalltemperatur von Computerkomponenten, empirisch bestimmt (Schritt 102). Ein Testcomputer mit bekannten Komponenten kann beispielsweise in ein Umfeld mit Temperaturkontrolle, z. B. einen Ofen, platziert werden. Der Testcomputer ist in Betrieb, während die Umgebungstemperatur angehoben wird. Die Leistung des Testcomputers wird überwacht, der Testcomputer kann nun z.B. Testroutinen durchlaufen und über Fehler berichten, während Thermoelemente oder andere Sensoren die Temperaturen der Komponenten messen können. Aufgrund dieser Daten können die Temperaturen, bei denen die Komponenten ausfallen, bestimmt werden. Die Daten zur Anzeige der Komponenten und deren Ausfalltemperaturen können in einer Datenbank gespeichert werden (Schritt 104).
  • Für jeden Plattform-Typ kann eine Funktion zur Zuordnung der für diese Plattform verfügbaren Sensoren-Messungen zum Wert der thermischen Gesundheit generiert werden. Diese Funktionen können auch in einer die Plattformen mit den Funktionen verbindenden Datenbank gespeichert werden. Ein im Datenzentrum installierter Computer kann (vor oder nach der Installierung) konfiguriert werden, um eine seiner Plattform entsprechende Funktion einzubeziehen. Die ursprüngliche Entscheidung darüber, was einen „Ausfall“ bei einer bestimmten Komponente oder einem Computer ausmacht, um einen zugeordneten Schwellenwert einzustellen, kann einige Beurteilungen durch den Gestalter des Überwachungssystems der thermischen Gesundheit einbeziehen, aber so lange das Mapping konsistent ist, indem die eine Seite den Bereich für den Wert der thermischen Gesundheit eine gute Leistung darstellen, und die andere Seite einen Fast-Totalausfall darstellt, sollte die Variable der thermischen Gesundheit hilfreiche Informationen bereitstellen. Außerdem kann eine einigermaßen konsistente Regel für ähnliche Komponenten aufgestellt werden, d.h. wir können davon ausgehen, dass wenn unterschiedliche Plattformen den gleichen Wert der thermischen Gesundheit aufweisen, diese den gleichen Leistungsabfall durchmachen. So kann beispielsweise eine bestimmte Fehlerrate (z. B. im Sinne von Fehlern/Sekunde), für einen bestimmten Komponententypen, z. B. für den Speicher, durch den Designer ausgewählt werden, und somit konsistent einen bestimmten Wert der thermischen Gesundheit, z. B. einen Schwellenwert zwischen den verschiedenen gewünschten Deskriptoren, z. B. „gesund“ und „ungesund“, abbilden.
  • 4 ist ein Ablaufdiagramm, das das Verfahren zur Festlegung eines Werts der thermischen Gesundheit während des Betriebs eines Datenzentrums darstellt. Einige oder alle Computer senden Daten, die die Temperatur ihrer Komponenten anzeigen, an den Überwachungscomputer (Schritt 110). Für jeden Computer kalkuliert der Überwachungscomputer eine Variable der thermischen Gesundheit aufgrund der eingegangenen Temperaturdaten und der zuvor gemessenen Ausfalltemperaturen für die Komponente im Computer (Schritt 112). In einigen Umsetzungen speichert der Computer die Funktion und kalkuliert seine eigene thermische Gesundheit aufgrund der Besonderheiten seiner einzelnen Komponenten und der verfügbaren Sensoren und sendet danach die kalkulierte thermische Gesundheit an einen Überwachungscomputer.
  • Die Variable der thermischen Gesundheit kann aus Daten aus einer Vielfalt aus Sensoren an jedem Computer kalkuliert werden, einschließlich Temperatursensoren, Ventilatorgeschwindigkeit, Leistung und Auslastung. Um Vergleiche über verschiedene Plattformtypen zu ermöglichen, wird die Variable der thermischen Gesundheit normalisiert, um ähnliche Maschinenverhalten bei ähnlichen thermischen Gesundheitswerten zu signalisieren. Zum Beispiel fallen beim niedrigsten Wert der thermischen Gesundheit, z. B. bei 0, alle Maschinen in die Kategorie einer erheblichen Toleranz zum gefahrlosen Temperaturanstieg, wobei beim höchsten Wert der thermischen Gesundheit, z. B. bei 10, alle Maschinen in die Kategorie der permanenten Schäden fallen. Wie zuvor ausgeführt, stehen die Maschinenverhalten in Beziehung zu zuvor gemessenen Ausfalltemperaturen (Schritt 112).
  • Die kalkulierte Variable der thermischen Gesundheit kann eine dimensionslose Metrik, z. B. eine Zahl, sein. In einigen Umsetzungen weist die Variable der thermischen Gesundheit eine begrenzte geringe Anzahl an möglichen Werten auf. Die Variable der thermischen Gesundheit kann beispielsweise eine ganze Zahl von 0 bis 10 oder von 1 bis 5 sein, z. B. mit niedrigeren Zahlen, die auf eine bessere Gesundheit hindeuten. In einigen Umsetzungen kann die Variable der thermischen Gesundheit eine Zahl mit einer sehr hohen Anzahl an möglichen Werten sein, z. B. vertreten durch ein Wort von Daten im Computer; in solchen Umsetzungen kann der Wert der thermischen Gesundheit eine reelle Zahl sein, z. B. im Bereich von 0 bis 1 oder von 0 bis 10.
  • Die Variable der thermischen Gesundheit kann dem Betreiber angezeigt werden. In einigen Umsetzungen kann die Variable der thermischen Gesundheit mit einer zugeordneten Textbeschreibung angezeigt werden, z. B. „gut“, „Ok“ oder „schlecht“. Andere Deskriptoren können folgende Textbeschreibungen umfassen: „Erhebliche Toleranz“, „Normale Betriebsbedingung“, „Überschreitung der normalen Betriebsbedingung“, „Verminderte Leistung“, „Erhöhte Fehlerrate“, und „Permanente Störung.“ In einigen Umsetzungen wird der numerische Wert nicht angezeigt und es wird nur die Textbeschreibung angezeigt.
  • Wo die Variable der thermischen Gesundheit eine begrenzte geringe Anzahl an möglichen Werten aufweist, könnten die textuellen Beschreibungen auf der Basis 1:1 mit den Werten abgebildet werden, oder der Wert der thermischen Gesundheit könnte selbst eine textuelle Beschreibung sein (eher als eine Zahl). Wo die Variable der thermischen Gesundheit effizient kontinuierlich sein kann, können unterschiedliche Wertebereiche den textuellen Deskriptoren zugeordnet werden. Wenn die Variable der thermischen Gesundheit beispielsweise zwischen 0 und 1 skaliert, dann können Werte von 0 bis 0,75 darauf hinweisen, dass die Maschine innerhalb des erwarteten Temperaturbereichs funktioniert, Werte von 0,75 bis 0,9 können darauf hinweisen, dass die Maschine außerhalb des erwarteten kontrollierbaren Temperaturbereichs funktioniert, Werte von 0,9 bis 1 können darauf hinweisen, dass die Maschine die Drossel- oder die maximal zulässige Temperatur erreicht hat, und ein Wert von 1 weist darauf hin, dass die Maschine die maximal zulässige Temperatur erreicht hat.
  • Im Allgemeinen können die eingegangenen Temperaturdaten zur Kalkulation der Variable der thermischen Gesundheit einer Funktion zugeführt werden, in der die zuvor gemessenen Ausfalltemperaturen der Testcomputer die Schwellenwerte festlegt. Die eingegangenen Temperaturen werden zur Festlegung der Variable der thermischen Gesundheit mit den Schwellenwerten verglichen. Beispielsweise wird durch das Überschreiten jeglicher ersten eingestellten Schwellenwerte die thermische Variable als „ok“ eingestellt, wobei durch das Überschreiten jeglicher zweiten eingestellten Schwellenwerte die thermische Variable als „schlecht“ eingestellt wird. Die Funktion kann ziemlich kompliziert sein, einschließlich der Kalkulation eines Werts von Unterschieden zwischen den Temperaturmessungen und den Schwellenwerten und Abwägung der Unterschiede aufgrund der Komponententypen oder Schwellenwert.
  • Zuzüglich zu den Konstanten in der Funktion (z. B. den empirisch gemessenen Schwellenwerten), die sich von Maschine zu Maschine unterscheiden und von den Toleranzen der Komponenten von bestimmten Maschinen abhängig sind, können die in der Funktion verwendeten Variablen (z. B. der Messungstyp, beispielsweise Temperatur oder Auslastung) und das Verhältnis der Variablen in der Funktion von Maschine zu Maschine variieren, so lange der kalkulierte Wert innerhalb der über mehrere Computer gemeinsamen Skala fällt. So verwenden beispielsweise einige Computer Temperaturmessungen, um den Wert der thermischen Gesundheit zu kalkulieren, und andere Computer verwenden die Auslastung, um den Wert der thermischen Gesundheit zu kalkulieren. So lange die Werte eine gemeinsame Skala anwenden, können diese zur Bestimmung der thermischen Gesundheit des Computer-Aggregats, z. B. durch eine einfache Durchschnittsbildung, aggregiert werden. In einigen Umsetzungen werden einige Computer im Zusammenhang mit der thermischen Gesundheit des Computer-Aggregats mehr gewichtet als andere Computer.
  • In einigen Umsetzungen ist der Wert der thermischen Gesundheit ein numerischer aus anderen numerischen Messungen und empirisch gemessenen Schwellenwerten von Verhalten kalkulierter Wert. In einem Beispiel lautet ein Algorithmus zur Ableitung eines normalisierten dimensionslosen Werts der thermischen Gesundheit zwischen 0 und 1, wobei 0 die maximal mögliche Toleranz bedeutet und 1 anzeigt, dass die Maschine in der oder über der höchsten/schlechtesten Verhaltenszone ist, wie folgt: THV – 1 – [Tzulässig – T]/Mmax wobei THV den Wert der thermischen Gesundheit bedeutet, Tzulässig ist die maximal zulässige Temperatur vor den höchsten/schlechtesten Verhaltensänderungen, T die berichtete Temperatur vom Sensor, und Mmax ist die maximal zulässige erwartete Toleranz, die zur Normalisierung der Ergebnisse zwischen 0 und 1 verwendet wird.
  • Der Überwachungscomputer kommuniziert mit den einzelnen Computern durch das gesamte Datenzentrum. Wahlweise kann der Überwachungscomputer die Daten der thermischen Gesundheit zur weiteren Prozessierung aggregieren, z. B. der Überwachungscomputer kann wahlweise die Variablen der thermischen Gesundheit für eine oder mehrere Computer-Aggregationen kalkulieren (Schritt 114). Der Wert der thermischen Gesundheit der Aggregation kann als Mittelwert der Variablen der thermischen Gesundheit der einzelnen Computer in der Aggregation kalkuliert werden, obwohl andere Techniken, beispielsweise die kumulativen Verteilungsfunktionen oder Effektivwerte anwendbar sind.
  • Die Aggregation kann eine standortbasierte Aggregation sein, d.h. sie basiert auf dem physischen Standort der Computer. So kann beispielsweise der Wert der thermischen Gesundheit für eine Computergruppe innerhalb des jeweiligen Regals, Moduls, Reihe, Clusters oder Datenzentrums bestimmt werden.
  • Die Aggregation kann eine infrastrukturbasierte Aggregation sein, d.h. auf der Basis von Computern, die eine gemeinsame Infrastruktur-Komponente teilen. So könnte beispielsweise der Wert der thermischen Gesundheit für eine Computergruppe innerhalb einer bestimmten Leistung oder Kühldomäne bestimmt werden.
  • Die Aggregation kann eine servicebasierte Aggregation sein, d.h. auf der Basis der von dem Computer im Datenzentrum erbrachten Funktion, oder sogar auf der Basis des Kunden, dem die Computer dienen. So könnte beispielsweise der Wert der thermischen Gesundheit für eine Computergruppe im Datenzentrum bestimmt werden, die Suchergebnissen, E-Mails oder dem Mapping dienen. Die Aggregation kann eine logische Netzwerkgruppierung sein, z. B. auf der Basis von Computern innerhalb einer bestimmten Netzwerkdomäne oder Subdomäne.
  • Die Darstellung der thermischen Gesundheit einer Aggregation als kumulative Verteilungsfunktion, d.h. der Prozentsatz an Computer, die bei oder unter dem jeweiligen Wert der thermischen Gesundheit funktionieren, kann hilfreich sein.
  • Sobald die Variable der thermischen Gesundheit bestimmt wurde, kann sie verwendet werden, z. B. automatisch durch die Kontrollsoftware, um die Leistung der Computer anzupassen und somit einen thermisch bedingten Ausfall zu verhindern. Wenn beispielsweise die Variable der thermischen Gesundheit einen bestimmten Schwellenwert überschreitet oder eine Warnung anzeigt, dann können die Computer in einer Aggregation gedrosselt werden, z. B. durch Umleitung von Anfragen zu anderen Computern, um die Auslastung der Computer in der Aggregation und somit den Stromverbrauch und die Temperatur zu reduzieren. Als ein anderes Beispiel kann die Variable der thermischen Gesundheit zur Kontrolle des Kühlsystems oder anderer Kühlressourcen verwendet werden, z. B. wenn der Wert der thermischen Gesundheit einen bestimmten Schwellenwert überschreitet, dann kann die Geschwindigkeit der Wärmeabfuhr angehoben werden, um die Temperatur der Computer zu senken und die Ausfallgefahr zu reduzieren. Umgekehrt kann das bedeuten, wenn der Wert der thermischen Gesundheit unterhalb eines bestimmten Schwellenwerts liegt, dass die Computer eine bestimmte Toleranz zur Betreibung bei höherer Temperatur aufweisen und dass die Geschwindigkeit der Wärmeabfuhr gesenkt werden kann, um die Kühlungskosten zu reduzieren. In Extremsituationen können Computer automatisch abgeschaltet werden, wenn ein oder mehrere Computer einen kritischen Schwellenwert überschreiten, um permanenten Schaden an den Computerkomponenten zu verhindern.
  • Der Überwachungscomputer kann automatisch einen Alarm generieren, um den Betreiber des Datenzentrums zu alarmieren, wenn eine Variable der thermischen Gesundheit einen Schwellenwert überschreitet, z. B. wenn diese einen voreingestellten Wert überschreitet. Beispielsweise kann der Wert der thermischen Gesundheit eines Regal-Niveaus als Mittelwert der thermischen Gesundheit aller Computer im betreffenden Regal generiert werden. Als Beispiel einer Alarmbedingung kann ein Alarm generiert werden, wenn ein voreingestellter Prozentsatz, z. B. 4% zu 10%, der Regale im Cluster einen Wert der thermischen Gesundheit aufweisen, dass einen voreingestellten Wert überschreitet, z. B. 0,75 auf einer Skala von 0 bis 1. Die Funktion kann eine Sicherheitstoleranz umfassen, sodass wenn einige Temperaturen nahe beim Schwellenwert liegen, die Variable der thermischen Gesundheit eine Warnung anzeigt.
  • Die Variable der thermischen Gesundheit kann auch verwendet werden, um Entscheidungen betreffend die Maschinenplatzierung zu treffen. So kann ein Betreiber beispielsweise durch Vergleich der am Regalniveau aggregierten Werte der thermischen Gesundheit bestimmen, welche Regale eine größere Kapazität aufweisen, um zusätzliche thermische Belastungen zu bewältigen (z. B. in der Annahme, dass Regale mit den niedrigsten Werten der thermischen Gesundheit am besten in der Lage sind, um zusätzliche thermische Belastungen zu bewältigen). Danach können Prioritäten bei der Platzierung von neuen Maschinen in die Regale mit der größeren Kapazität gesetzt werden, um zusätzliche thermische Belastungen zu bewältigen.
  • Die relative Abwägung der Störungskategorien (z. B. verminderte Leistung versus irreparablen Schaden) könnte für oder durch den Kunden eingestellt werden, denn einige Kunden betrachten einen Störungstyp schlimmer als einen anderen.
  • Eine thermische Änderungsquote, z. B. die zeitliche Ableitung aus der thermischen Variable, kann für einen Computer oder eine Aggregation von Computern kalkuliert werden. Eine hohe Änderungsquote kann darauf hindeuten, dass eine Maschine oder eine Gruppe von Maschinen in Schwierigkeiten ist. Diese thermische Änderungsquote kann – wie oben erörtert – für die Variable der thermischen Gesundheit normalisiert werden.
  • Der Wert der thermischen Gesundheit kann kalkuliert werden, auch wenn keine empirischen Messungen auf einer bestimmten Plattform durchgeführt wurden. Angenommen, dass die Merkmale der Plattform gespeichert sind, z. B. der Typ der Zentraleinheit, des Speichers und der Anzahl sowie der Typ von Laufwerken, und angenommen, dass empirische Messungen auf einer ähnlichen Ausstattung durchgeführt wurden, z. B. mit gleichen oder ähnlichen Komponenten, so können ungefähre Ausfalltemperaturen kalkuliert werden. So können beispielsweise Ausfalltemperaturen von den gemessenen Ausfalltemperaturen der anderen Testkomponenten interpoliert werden, z. B. Testkomponenten des gleichen Herstellers.
  • Unterschiedliche Schritte der oben erörterten Verfahren, insbesondere die Kalkulation des Wertes der thermischen Gesundheit, werden von einem Computer ausgeführt. Einige Schritte, beispielsweise das Abschalten von Computern als Reaktion auf erhöhte Gefahrenniveaus der Variable der thermischen Gesundheit, könnten von menschlichen Betreibern ausgeführt werden als Reaktion auf die eingegangene Variable der thermischen Gesundheit, z. B. wenn diese angezeigt wird oder automatisch durch die Kontrollsoftware, z. B. im Überwachungscomputer.
  • Ein Vorteil der thermischen Gesundheit einer Maschine liegt darin, dass normalisierte Werte generiert werden; deshalb braucht der Betreiber oder ein Programmierer, der eine Variable der thermischen Gesundheit verwendende Kontrollsoftware gestaltet, den Plattformtyp nicht zu kennen. Die thermische Gesundheit kann über zahlreiche unterschiedliche Dimensionen aggregiert werden, und zahlreiche unterschiedliche statistische Verfahren können zum Sammeln von Informationen über die Gesundheit der Computer angewandt werden. Außerdem kann die Variable der thermischen Gesundheit nicht nur bei Computern zum Einsatz kommen, sondern auch bei anderer Computerausstattung, die infolge von hohen Temperaturen ausfallen könnte, beispielsweise Netzwerkschalter, Smart-Regale oder Stromversorgungsaggregate.
  • Die Ausführungsformen und alle in dieser Spezifikation beschriebenen funktionellen Arbeitsweisen können in digital elektronischen Schaltungen oder in Computer-Software, -Firmware oder -Hardware implementiert werden, einschließlich der in dieser Spezifikation offengelegten strukturellen Mittel und deren strukturellen Äquivalenten oder in Kombinationen davon. Die Ausführungsformen der Erfindung können als ein oder mehrere Computerprogrammprodukte implementiert werden, d.h. eines oder mehrere Computerprogramme konkret verkörpert in einem Informationsträger, z. B. in einem maschinenlesbaren Datenträger, beispielsweise einem Speicher oder einer Disk, oder in einem verbreiteten Signal, zur Ausführung durch oder zur Kontrolle des Betriebs von Datenverarbeitungsgeräten, z. B. eines programmierbarer Prozessors, eines Computers, oder mehrerer Prozessoren oder Computer.
  • Eine Anzahl an Ausführungsformen der Erfindung wurde beschrieben. Allerdings wird dabei vorausgesetzt, dass unterschiedliche Modifikationen gemacht werden können, ohne von der Reichweite und dem Umfang der Erfindung abzuweichen. Dementsprechend liegen Ausführungsformen innerhalb des Umfangs der nachfolgenden Ansprüche.

Claims (17)

  1. In einem maschinenlesbaren Datenträger konkret verkörpertes Computerprogrammprodukt, des Weiteren umfassend Anweisungen, die beim Prozessor folgende Funktionen auslösen: das Empfangen einer für die Temperatur eines Computers indikativen Messung; und das Berechnen eines Werts der thermischen Gesundheit für den Computer.
  2. Computerprogrammprodukt nach Anspruch 1, worin Anweisungen zum Berechnen des Wertes der thermischen Gesundheit Anweisungen zum Vergleichen der Messung zu gespeicherten Schwellenwerten beinhalten.
  3. Computerprogrammprodukt nach Anspruch 1, worin die Messung eine oder mehrere Temperaturen, eine Leistungsaufnahme des Computers, eine Auslastung des Computers oder eine Drehzahl des Computerlüfters umfasst.
  4. Computerprogrammprodukt nach Anspruch 3, des Weiteren umfassend Anweisungen zum Empfangen mehrerer Messungen verschiedener Arten, und worin die Anweisungen zum Berechnen des thermischen Gesundheitswerts Anweisungen zum Kombinieren der Vielzahl von Messungen beinhalten.
  5. Computerprogrammprodukt nach Anspruch 3, worin die Messung eine Temperaturmessung von einer oder mehreren zentralen Recheneinheiten des Computers, eines Computer-Laufwerks, eines Computer-Speichermoduls, einer Computer-Hauptplatine oder der Luft in der Nähe des Computers umfasst.
  6. Computerprogrammprodukt nach Anspruch 3, worin der Wert der thermischen Gesundheit ein dimensionsloser Wert ist.
  7. Computerprogrammprodukt nach Anspruch 6, worin der Wert der thermischen Gesundheit eine Zahl im Bereich von 0 bis 1 ist.
  8. Computerprogrammprodukt nach Anspruch 6, worin der Wert der thermischen Gesundheit eine Zahl im Bereich von 0 bis 10 ist.
  9. Computerprogrammprodukt nach Anspruch 1, des Weiteren umfassend Anweisungen zum Auswählen eines Deskriptors für den Wert der thermischen Gesundheit aus einer endlichen Menge an Deskriptoren.
  10. Computerprogrammprodukt nach Anspruch 1, worin die Anweisungen zum Berechnen des Wertes der thermischen Gesundheit Anweisungen zum Normalisieren für einen Plattformtyp des Computers enthalten.
  11. Computerprogrammprodukt nach Anspruch 1, des Weiteren umfassend Anweisungen zum Generieren eines Alarms, wenn der Wert der thermischen Gesundheit einen Schwellenwert überschreitet.
  12. Computerprogrammprodukt nach Anspruch 1, des Weiteren umfassend Anweisungen zum Anpassen einer oder mehrerer der Funktionen Leistung, Kühlung und Auslastung aufgrund des Wertes der thermischen Gesundheit.
  13. Computerprogrammprodukt nach Anspruch 1, des Weiteren umfassend Anweisungen zum Empfangen eines jeden von einer Vielzahl von Computern, wobei die Messung indikativ ist für die Temperatur des Computers, und wobei ein Wert für die thermische Gesundheit für jeden von einer Vielzahl von Computern berechnet wird.
  14. Computerprogrammprodukt nach Anspruch 13, worin mindestens einige der Vielzahl von Computern unterschiedliche Plattformen bilden, und worin die Anweisungen zum Berechnen eines Werts der thermischen Gesundheit für jeden der Vielzahl von Computern Anweisungen zu einer solchen Normalisierung beinhaltet, dergestelt, dass jeder Wert der thermischen Gesundheit in denselben Wertebereich fällt.
  15. Computerprogrammprodukt nach Anspruch 14, dadurch gekennzeichnet, dass der Wertebereich Mapping-Werte des Computer-Verhaltens bereitstellt, das über unterschiedliche Plattformen einheitlich ist.
  16. Computerprogrammprodukt nach Anspruch 14, des Weiteren umfassend Anweisungen zum Aggregieren der Werte der thermischen Gesundheit.
  17. Computerprogrammprodukt nach Anspruch 16, des Weiteren umfassend Anweisungen zum Aggregieren der thermischen Gesundheit über eine oder mehrere Leistungsdomänen, eine Kühldomäne, eine Logikdomäne und eine physische Standortdomäne.
DE202009019133.8U 2008-06-26 2009-06-26 Thermische Überwachung einer Datenzentrale Expired - Lifetime DE202009019133U1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US7610408P 2008-06-26 2008-06-26
US61/076,104 2008-06-26

Publications (1)

Publication Number Publication Date
DE202009019133U1 true DE202009019133U1 (de) 2017-01-04

Family

ID=41445372

Family Applications (1)

Application Number Title Priority Date Filing Date
DE202009019133.8U Expired - Lifetime DE202009019133U1 (de) 2008-06-26 2009-06-26 Thermische Überwachung einer Datenzentrale

Country Status (11)

Country Link
US (1) US8223025B2 (de)
EP (1) EP2313831B1 (de)
JP (1) JP5237449B2 (de)
AU (1) AU2009261991B2 (de)
BR (1) BRPI0914537A2 (de)
CA (1) CA2729143C (de)
CL (1) CL2010001564A1 (de)
DE (1) DE202009019133U1 (de)
DK (1) DK2313831T3 (de)
MX (1) MX2010014463A (de)
WO (1) WO2009158683A2 (de)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8180494B2 (en) * 2008-08-27 2012-05-15 International Business Machines Corporation System and method for dynamically managing blowers and vents
US9709965B2 (en) 2008-12-04 2017-07-18 Baselayer Technology, Llc Data center intelligent control and optimization
US9081676B2 (en) * 2009-06-02 2015-07-14 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Operating computer memory
US9495272B2 (en) * 2009-06-11 2016-11-15 Oracle America, Inc. Method and system for generating a power consumption model of at least one server
US20110093132A1 (en) * 2009-10-19 2011-04-21 Apple Inc. Platform-independent thermal management of components in electronic devices
US8595535B1 (en) * 2010-12-16 2013-11-26 Emc Corporation Techniques for managing data storage systems using energy information
EP2659372B1 (de) * 2010-12-27 2016-01-20 Amplidata NV Verteiltes objektsspeichersystem mit kleinleistungsspeicherknoten
US8694279B1 (en) * 2010-12-30 2014-04-08 Exaflop Llc Data center thermal monitoring
US20120215373A1 (en) * 2011-02-17 2012-08-23 Cisco Technology, Inc. Performance optimization in computer component rack
WO2013002754A1 (en) * 2011-06-27 2013-01-03 Hewlett-Packard Company, L.P. Temperature band operation logging
CN102902289A (zh) * 2011-07-29 2013-01-30 富泰华工业(深圳)有限公司 测试系统以及测试方法
US9295183B2 (en) * 2011-09-16 2016-03-22 Tata Consultancy Services Limited Method and system for real time monitoring, prediction, analysis and display of temperatures for effective thermal management in a data center
TWI468594B (zh) * 2011-10-25 2015-01-11 Ibm 多重效率風扇控制系統與具有風扇控制系統的電腦系統
US20130169816A1 (en) * 2011-12-28 2013-07-04 Jhen-Jia Hu Monitoring and managing device, monitoring and managing system and method of data center
TWI431555B (zh) * 2011-12-28 2014-03-21 Ind Tech Res Inst 監測管理裝置、資料中心的監測管理系統以及監測管理方法
JP5801732B2 (ja) * 2012-01-24 2015-10-28 株式会社日立製作所 情報処理システムの運用管理方法
JP5572772B2 (ja) 2012-04-20 2014-08-13 オリンパスメディカルシステムズ株式会社 手術装置
US9218237B1 (en) 2012-11-29 2015-12-22 Amazon Technologies, Inc. Network of interconnected circuit protection devices
US20140188405A1 (en) * 2012-12-28 2014-07-03 International Business Machines Corporation Predicting a time of failure of a device
US9851726B2 (en) * 2013-09-04 2017-12-26 Panduit Corp. Thermal capacity management
US9279597B1 (en) 2013-11-11 2016-03-08 Brocade Communications Systems, Inc. Selection of environmental profile based on system configuration
US9883009B2 (en) 2013-12-27 2018-01-30 International Business Machines Corporation Automatic computer room air conditioning control method
US11171851B2 (en) * 2014-01-28 2021-11-09 Hewlett Packard Enterprise Development Lp Group alert in server systems
US9763356B2 (en) * 2014-03-26 2017-09-12 Lenovo (Singapore) Pte. Ltd. Closed-loop control and monitoring in cooling electronic components
US9945576B2 (en) * 2014-10-08 2018-04-17 Dell Products, Lp System and method for detecting the presence of alternate cooling systems
US10877530B2 (en) * 2014-12-23 2020-12-29 Intel Corporation Apparatus and method to provide a thermal parameter report for a multi-chip package
CN109324768B (zh) * 2014-12-30 2021-10-22 珠海奔图电子有限公司 一种通过移动终端将用户帐号与图像形成设备绑定的方法及系统
US10642325B2 (en) * 2015-01-30 2020-05-05 Microsoft Technology Licensing, Llc Implementing thermal remediations in reaction to execution of software
US9970674B2 (en) 2015-04-29 2018-05-15 International Business Machines Corporation Automated, adaptive ventilation for a data center
US10203994B2 (en) * 2016-05-12 2019-02-12 Lenovo Enterprise Solutions (Singapore) Pte. Ltd Determining and using correlative thermal efficiency impacts to distribute workloads
US10698460B2 (en) 2017-03-13 2020-06-30 Samsung Electronics Co., Ltd. Advanced thermal control for SSD
US10809780B2 (en) * 2017-03-13 2020-10-20 Samsung Electronics Co., Ltd. Active disturbance rejection based thermal control
US10860071B2 (en) 2017-05-04 2020-12-08 Microsoft Technology Licensing Llc Thermal excursion detection in datacenter components
KR102351681B1 (ko) * 2017-07-25 2022-01-14 삼성전자주식회사 능동 방해 제거 기반의 열 제어를 위한 시스템 및 방법
US10488901B1 (en) * 2018-09-20 2019-11-26 Dell Products L.P. Dynamic thermal responses for computing components
US10671051B2 (en) 2018-10-09 2020-06-02 Hewlett Packard Enterprise Development Lp Thermal event detection in electrical systems
US11510338B2 (en) 2019-02-01 2022-11-22 Arista Networks, Inc. Low temperature threshold fan gating
CN111627189B (zh) * 2019-02-12 2022-04-22 珠海格力电器股份有限公司 一种设备异常处理方法、系统及存储介质
TWI689221B (zh) * 2019-03-14 2020-03-21 國家中山科學研究院 基地站主動式智慧型散熱系統
US11009928B2 (en) * 2019-06-12 2021-05-18 Arista Networks, Inc. Optimizing airflow in a network device
US11694017B2 (en) * 2020-07-15 2023-07-04 Micron Technology, Inc. Temperature-based on board placement of memory devices

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2900901B2 (ja) * 1996-11-13 1999-06-02 三菱電機株式会社 サーバシステムの保守運用管理方式
US6338150B1 (en) * 1997-05-13 2002-01-08 Micron Technology, Inc. Diagnostic and managing distributed processor system
AR028658A1 (es) 2000-06-01 2003-05-21 Aerocast Com Inc Metodo de indicacion de buen estado holistico y aparato de distribucion de posibilidad de indicacion.
US7111059B1 (en) * 2000-11-10 2006-09-19 Microsoft Corporation System for gathering and aggregating operational metrics
US6873883B2 (en) * 2001-12-26 2005-03-29 Hewlett-Packard Development Company, L.P. Adaptive fan controller for a computer system
US7360122B2 (en) * 2002-02-22 2008-04-15 Bea Systems, Inc. Method for initiating a sub-system health check
WO2003075117A2 (en) * 2002-03-01 2003-09-12 Bmc Software, Inc. System and method for assessing and indicating the health of components
US6786056B2 (en) * 2002-08-02 2004-09-07 Hewlett-Packard Development Company, L.P. Cooling system with evaporators distributed in parallel
US6938433B2 (en) * 2002-08-02 2005-09-06 Hewlett-Packard Development Company, Lp. Cooling system with evaporators distributed in series
US7197433B2 (en) * 2004-04-09 2007-03-27 Hewlett-Packard Development Company, L.P. Workload placement among data centers based on thermal efficiency
US7353409B2 (en) * 2004-06-29 2008-04-01 International Business Machines Corporation System and method to maintain data processing system operation in degraded system cooling condition
US7002479B1 (en) * 2004-09-03 2006-02-21 Cooler Master Co., Ltd. Hardware monitoring device
US20060168975A1 (en) * 2005-01-28 2006-08-03 Hewlett-Packard Development Company, L.P. Thermal and power management apparatus
US7493193B2 (en) * 2005-08-04 2009-02-17 International Business Machines Corporation Monitoring and real-time heat load control based upon server and environmental parameters
JP4172594B2 (ja) * 2005-08-25 2008-10-29 本田技研工業株式会社 温度センサの故障判定装置
US7726144B2 (en) * 2005-10-25 2010-06-01 Hewlett-Packard Development Company, L.P. Thermal management using stored field replaceable unit thermal information
JP4895266B2 (ja) * 2005-12-28 2012-03-14 富士通株式会社 管理システム、管理プログラムおよび管理方法
US7836314B2 (en) * 2006-08-21 2010-11-16 International Business Machines Corporation Computer system performance estimator and layout configurator

Also Published As

Publication number Publication date
JP5237449B2 (ja) 2013-07-17
BRPI0914537A2 (pt) 2015-12-15
AU2009261991A1 (en) 2009-12-30
CA2729143C (en) 2015-08-18
WO2009158683A3 (en) 2010-04-29
EP2313831B1 (de) 2018-02-21
DK2313831T3 (en) 2018-03-12
EP2313831A2 (de) 2011-04-27
US8223025B2 (en) 2012-07-17
CA2729143A1 (en) 2009-12-30
JP2011526395A (ja) 2011-10-06
AU2009261991B2 (en) 2013-03-14
US20100085196A1 (en) 2010-04-08
EP2313831A4 (de) 2012-02-08
WO2009158683A2 (en) 2009-12-30
CL2010001564A1 (es) 2011-06-03
MX2010014463A (es) 2011-07-20

Similar Documents

Publication Publication Date Title
DE202009019133U1 (de) Thermische Überwachung einer Datenzentrale
AU2009324936B2 (en) System and method for assessing and managing data center airflow and energy usage
CN109412870A (zh) 告警监控方法及平台、服务器、存储介质
US9858106B2 (en) Virtual machine capacity planning
CN111624986A (zh) 基于案例库的故障诊断方法和系统
CN112380089A (zh) 一种数据中心监控预警方法及系统
CN113269905A (zh) 护理装备和系统的性能参数化
CN116914917A (zh) 一种基于大数据的配电柜运行状态监测管理系统
CN113992602B (zh) 一种电缆监测数据上传方法、装置、设备以及存储介质
Jia et al. Software aging analysis and prediction in a web server based on multiple linear regression algorithm
CN113837625B (zh) 电网连锁故障的风险定量评估方法、装置及设备
CN117391675B (zh) 一种数据中心基础设施运维管理方法
WO2017071639A1 (en) Energy consumption alerting method, energy consumption alerting system and platform
Huang et al. ARL-unbiased control charts with alarm and warning lines for monitoring Weibull percentiles using the first-order statistic
CN116663747A (zh) 一种基于数据中心基础设施的智能预警方法及系统
CN116361703A (zh) 一种数据中心的节能控制方法、装置、电子设备及可读介质
CN113689042B (zh) 监测节点的故障源预测方法
US11748674B2 (en) System and method for health reporting in a data center
CN115203973A (zh) 设备孪生数据的模拟系统以及设备孪生数据的模拟方法
CN117117856A (zh) 一种电力设备的状态预测方法和装置
CN116432066A (zh) 电缆温度数据处理方法、装置、计算机设备和存储介质
CN117745059A (zh) 天然脂变压器风险评估方法、装置和计算机设备
CN115169965A (zh) 一种中压配电网线损分析系统及方法
KR20230050140A (ko) 데이터센터 내의 설비를 자동 제어하기 위한 제어 정책을 결정하는 서버, 방법 및 컴퓨터 프로그램
CN117150032A (zh) 一种水电站发电机组的智能维护系统及方法

Legal Events

Date Code Title Description
R207 Utility model specification
R151 Utility model maintained after payment of second maintenance fee after six years
R152 Utility model maintained after payment of third maintenance fee after eight years
R081 Change of applicant/patentee

Owner name: GOOGLE LLC (N.D.GES.D. STAATES DELAWARE), MOUN, US

Free format text: FORMER OWNER: GOOGLE, INC., MOUNTAIN VIEW, CALIF., US

R082 Change of representative

Representative=s name: MAIKOWSKI & NINNEMANN PATENTANWAELTE PARTNERSC, DE

R081 Change of applicant/patentee

Owner name: GOOGLE LLC (N.D.GES.D. STAATES DELAWARE), MOUN, US

Free format text: FORMER OWNER: GOOGLE LLC (N.D.GES.D. STAATES DELAWARE), MOUNTAIN VIEW, CALIF., US

R082 Change of representative

Representative=s name: MAIKOWSKI & NINNEMANN PATENTANWAELTE PARTNERSC, DE

R071 Expiry of right