DE112006002265B4

DE112006002265B4 - Zuverlässiges Rechnen mit einem Mehrkern-Prozessor

Info

Publication number: DE112006002265B4
Application number: DE112006002265T
Authority: DE
Inventors: Shekhar Beaverton Borkar; Yatin Portland Hoskote; Shu-Ling Santa Clara Garver
Original assignee: Intel Corp
Current assignee: Tahoe Research Ltd
Priority date: 2005-09-28
Filing date: 2006-09-26
Publication date: 2011-02-17
Anticipated expiration: 2026-09-27
Also published as: JP5535481B2; JP2014211910A; JP2017076414A; DE112006002265T5; JP2009510618A; US20070074011A1; JP2012216232A; US7412353B2; WO2007038530A3; CN101278264B; CN101278264A; WO2007038530A2

Abstract

Ein Rechnersystem umfassend:
einen Mehrkern-Prozessor mit:
mehreren Prozessorkernen;
einer Verschaltung; wenigstens einem Speichermodul, wobei die mehreren Kerne und das wenigstens eine Speichermodul mit der Verschaltung gekoppelt sind; und
einem Profilierungsmodul zum dynamischen Profilieren von Eigenschaften jedes Kerns in dem Mehrkern-Prozessor, wobei ein dynamisches Profil für jeden der mehreren Prozessorkerne durch periodische Tests erzeugt und nach jedem Test aktualisiert wird;
wobei das Profilierungsmodul wenigstens eines der folgenden Module aufweist:
ein den Leistungsverbrauch messendes Modul zum periodischen Messen des Leistungsverbrauchs von jedem der Kerne in dem Mehrkern-Prozessor;
ein Modul zum periodischen Messen der maximalen Geschwindigkeit von jedem der Kerne in dem Mehrkern-Prozessor; und
ein Modul zum Erfassen der Zuverlässigkeit zum Gewinnen einer Zuverlässigkeitsinformation jedes Kerns in dem Mehrkern-Prozessor basierend teilweise auf den gemessenen Leistungsverbrauchsdaten und den Maximalgeschwindigkeiten jedes Kerns in dem Mehrkern-Prozessor; und
einen Aufgabenallokator, welcher eine Aufgabe basierend auf Anforderungen der Aufgabe...

Description

HINTERGRUND
1. GEBIET
Diese Offenbarung bezieht sich im Allgemeinen auf Mikroprozessoren und insbesondere auf Prozessoren, die mehrere Kerne haben.
2. STAND DER TECHNIK
Aus der Druckschrift US2005/0040810 A1 ist ein Verfahren bekannt, bei dem ein Mikrocontroller eingesetzt wird, der eine VLSI-Umgebung überwacht und steuert, um den Betrieb einer integrierten Schaltung zu optimieren.
3. BESCHREIBUNG
Die Erfindung umfasst ein Rechnersystem gemäß Anspruch 1 und ein Verfahren nach Anspruch 12.
Ein Mehrkern-Prozessor hat mehrere Rechenkerne auf demselben Chip. Da der Fortschritt der Prozesstechnologie zu sehr kleinen Dimensionen führt, ist die gegenwärtig vordringende Ausgestaltung des Erreichens einer hohen Leistungsfähigkeit durch eine zunehmende Prozessorfrequenz erheblich durch den drastisch steigenden Leistungsverbrauch begrenzt. Ein alternativer Ausgestaltungsansatz zum Erreichen einer hohen Leistungsfähigkeit ist das Verteilen der Aufgaben über mehrere „kleine” Kerne, die gleichzeitig mit einer geringeren Geschwindigkeit als ein typischer „großer” Kern laufen. Da jeder „kleine” Kern einfacher, kleiner und weit weniger leistungshungrig ist, als ein „großer” Kern, wobei er jedoch eine erhebliche Leistungsfähigkeit hat, kann der auf mehreren Kernen basierende Ausgestaltungsansatz dazu beitragen, den Leistungsverbrauch effizienter zu verwalten, als ein auf einem großen Kern basierender Ausgestaltungsansatz.
Obwohl ein Mehrkern-Prozessor Vorteile hat gegenüber einem Prozessor mit einem Kern oder einem Prozessor mit weniger großen Kernen, sieht es sich vielen Anforderungen gegenüber, da die Prozesstechnologie zu kleineren Dimensionen führt. Beispielsweise können Prozessvariationen, entweder statisch und dynamisch, Transistoren unzuverlässig machen, die transienten Fehlerraten können hoch sein, da die Kapazität bei den Speicherknoten gering ist und die Spannungen klein sind und die Zuverlässigkeit über die Zeit kann abnehmen, da die Verschlechterung der Transistoren über die Zeit schlimmer werden kann. Solche Anforderungen können zu Situationen führen, in denen die Kerne in einem Mehrkern-Prozessor, der während eines Fabriktests gut arbeitet, schlechter arbeiten als zuvor oder aber über die Zeit vollständig versagen. Dies macht einen einmaligen Fabriktest und einen Burn-In, wie er bei üblichen Prozessoren verwendet wird, wenig effektiv, um ein zuverlässiges Rechnen bei einem Mehrkernprozessor über die Zeit sicher zu stellen. Es ist daher erwünscht, die Möglichkeit zu haben, die Leistungsfähigkeit von Kernen in Mehrkern-Prozessoren über die Lebensdauer periodisch zu testen und die Testdaten, die so gewonnen worden sind, zur Verbesserung seiner Leistungsfähigkeit bei Anwendungen zu nutzen.
KURZE ERLÄUTERUNG DER ZEICHNUNGEN
Die Merkmale und Vorteile des offenbarten Gegenstands ergeben sich aus der nachfolgenden eigenen Beschreibung des Gegenstands, wobei:
1 einen beispielhaften Mehrkern-Prozessor zeigt;
2 ein beispielhaftes Blockdiagramm eines dynamischen Profilierungsapparats zeigt, der periodisch ein dynamisches Profilieren für jeden Kern in einem Mehrkern-Prozessor ausführt;
3 Beispiele des Durchführens eines dynamischen Profilierens in einem Mehrkern-Prozessor zeigt;
4 ein Flussdiagramm eines beispielhaften Vorgangs zum Ausführen eines dynamischen Profilierens für jeden Kern in einem Mehrkern-Prozessor zeigt;
5 ein Beispiel eines Rechnersystems zeigt, in dem ein Mehrkern-Prozessor verwendet werden kann;
6 ein weiteres Beispiel eines Rechnersystems zeigt, bei dem ein Mehrkernprozessor verwendet werden kann;
7 ein weiteres Beispiel eines Rechensystems zeigt, bei dem ein Mehrkern-Prozessor verwendet werden kann;
8 ein beispielhaftes Blockdiagramm eines Systems zeigt, das ein dynamisches Profil jeden Kerns in einem Mehrkern-Prozessor zum Verbessern der Wirksamkeit der Ausführung einer Aufgabe verwendet,
9 ein Beispiel zum Verwalten der Kapazität und des Leistungsverbrauchs bei einem Mehrkernprozessor zeigt; und
10 ein Flussdiagramm eines beispielhaften Verfahrens zum Verwenden eines dynamischen Profils jedes Kerns in einem Mehrkern-Prozessor zur Verbesserung der Wirksamkeit der Ausführung einer Aufgabe zeigt.
EINGEHENDE BESCHREIBUNG
Nach einem Ausführungsbeispiel des offenbarten Gegenstands dieser Anmeldung können Kerne in einem Mehrkern-Prozessor zum Gewinnen und/oder Auffrischen ihrer dynamischen Profile periodisch getestet werden. Das dynamische Profil eines Kerns kann eine Information über seine maximale Betriebsfrequenz, Leistungsverbrauch, Leistungsverlust, funktionale Korrektheit und andere Parameter beinhalten. Das dynamische Profil kann auch die Trendinformation dieser Parameter beinhalten, was die Zuverlässigkeit der Kerne über die Zeit angibt. Diese Parameter können durch Module gewonnen werden, die in dem Mehrkern-Prozessor eingebettet sind, etwa einem die Betriebsgeschwindigkeit messenden Modul, einem den Leistungsverbrauch messenden Modul, Temperatursensoren und ein die funktionale Korrektheit prüfendes Modul. Die Information, die sich auf die funktionale Korrektheit jedes Kerns bezieht, kann durch Verwendung eines die grobe funktionale Redundanz prüfendes Schema („FRC”) und/oder ein feines FRC Schema erhalten werden. Das dynamische Profil für jeden Kern kann in dem eigenen Kern des Speichers gespeichert werden oder aber in einem Speicher, der einem oder allen Kernen gemeinsam ist. Wenn ein dynamisches Profil zunächst gewonnen wird, weist es keine Trendinformation auf, von dem zweiten periodischen Text an kann jedoch eine Trendinformation gewonnen werden und nach einem weiteren Test aufgefrischt werden.
Wenn ein dynamisches Profil einmal für jeden Kern erzeugt worden ist, können die Kerne in einem Mehrkern-Prozessor in unterschiedliche Bins entsprechend ihren Eigenschaften gruppiert werden. Beispielsweise können Kerne mit einer hohen maximalen Betriebsfrequenz als schnelle Kerne bezeichnet werden, Kerne mit einem geringen Leistungsverbrauch können als wenig Leistung verbrauchende Kerne bezeichnet werden, Kerne mit einer guten Trendinformation können als zuverlässige Kerne bezeichnet werden usw. Basierend auf den dynamischen Profilen und der Gruppierungsinformation kann das Betriebssystem („OS”) oder eine Zwischensoftwareschicht eine Aufgabe auf diejenigen Kerne verteilen, die für die Aufgabe am besten geeignet sind. Wenn die Aufgabe beispielsweise eine intensive Berechnung erfordert, kann die Aufgabe schnellen Kernen zugewiesen werden. Falls bestimmte Kerne für die Aufgabe ausgewählt werden, kann die Verschaltung des Mehrkern-Prozessor rekonfiguriert werden, um einen hohen Pegel an Konnektivität unter den ausgewählten Kernen sicherzustellen, so dass eine wenigstens akzeptable Bandbreite und Latenz über die ausgewählten Kerne erreicht werden können. Zusätzlich kann das OS Kerne einer Aufgabe neu zuteilen in Antwort auf Änderungen der Umgebung und das Zwischenverbindungs-Netzwerk kann entsprechend neu konfiguriert werden.
Bezugnahme in der Beschreibung auf „ein Ausführungsbeispiel” oder „das Ausführungsbeispiel” des offenbarten Gegenstands bedeutet, dass ein bestimmtes Merkmal, eine Struktur oder eine Eigenschaft, die in Verbindung mit dem Ausführungsbeispiel beschrieben wird, in wenigstens einem Ausführungsbeispiel des offenbarten Gegenstands vorhanden ist. Das Auftreten des Ausdrucks „in einem Ausführungsbeispiel”, das an verschiedenen Orten in dieser Beschreibung auftritt, bezieht sich nicht notwendigerweise immer auf dasselbe Ausführungsbeispiel.
1 zeigt die Struktur eines beispielhaften Mehrkern-Prozessors 100. Der Prozessor 100 weist ein 8-mal-8 ein Feld von Kernen (beispielsweise, Kern 110) in einem zweidimensionalen (2D) Verschaltung 130 sitzt. Jeder Kern kann seinen örtlichen Speicher haben (in der Fig. nicht gezeigt). Es sind weiter geteilte Speicher (beispielsweise 120) an dem Zwischenverbindungs-Netzwerk 120 angebracht. Verglichen mit Prozessoren, die einen einzigen Kern haben oder nur wenige Kerne haben, ist die Anzahl von Kernen in einem Mehrkern-Prozessor groß. Infolgedessen ist die Größe jedes Kerns in einem Mehrkern-Prozessor klein, verglichen mit solchen Kernen in einem Einkern- oder Wenigkern-Prozessor. Obwohl 1 einen beispielhaften Prozessors 100 zeigt, der nur 64 Kerne hat, kann die Anzahl der Kerne in einem Mehrkern-Prozessor variieren und kann viel größer sein als 64 (beispielsweise, 256, 512, 1024). Der Prozessor 100 kann weiter Eingangs/Ausgangs (I/O) Verbindungen haben (in der Figur nicht gezeigt), um jeden Kern mit Peripheriegeräten (beispielsweise graphischen Geräten) zu verbinden. Bei einem Ausführungsbeispiel können die I/O-Verbindungen all diese Kerne in dem Prozessorchip umgeben. Bei einem anderen Ausführungsbeispiel können die I/O Verbindungen zwischen den Kernen eingebettet sein.
Typischerweise wird ein Prozessor getestet, nachdem er fertiggestellt ist, um sicherzustellen, dass er geeignet arbeitet. Für einen Mehrkern-Prozessor kann jedoch ein derartiges einmaliges Testen der Fabrik nicht ausreichend sein, um seine Qualität sicherzustellen, da die Prozesstechnologie kleineren Prozessoren ermöglicht (beispielsweise 35 Nanometer (nm) oder auch einer feineren Prozesstechnologie). Die maximale Betriebsfrequenz eines Kern kann beispielsweise aufgrund der Alterung abnehmen. Es ist daher erwünscht, periodisch Kerne im Inneren eines Mehrkern-Prozessors zu prüfen und eine Anwendung durchzuführen, die auf dem Prozessor entsprechend den Testdaten läuft. Daten von periodischen Tests können verwendet werden, um ein Profil für jeden Kern zu erzeugen. Das Profil ist dynamisch, da es nach jedem Test aufgefrischt werden kann. Das dynamische Profil jeden Kerns kann eine Information bezüglich der maximalen Frequenz des Kerns, des Leistungsverbrauchs, des Leistungsverlusts, der funktionalen Korrektheit und einen Parameter beinhalten. Die dynamischen Profile können weiter eine Trendinformation bezüglich dieser Parameter aufweisen.
2 zeigt ein beispielhaftes Blockdiagramm einer dynamischen Profilierungsvorrichtung 200, die periodisch eine dynamische Profilierung für jeden Kern in einem Mehrkern-Prozessor ausführt. Die Vorrichtung 200 weist ein Modul 200 zum Messen des Leistungsverbrauchs, Temperatursensoren 220, ein Modul 240 zum Prüfen der funktionalen Korrektheit, ein Modul 250 zum Ermitteln der Zuverlässigkeit und einen Controller 260 auf. Es ist zu beachten, dass eine dynamische Profilierungsvorrichtung weitere Komponenten aufweisen kann, die zum Messen anderer Parameter eines Kerns zusätzlich zu denen, die in 2 gezeigt sind, verwendet werden. Komponenten in einer dynamischen Profilierungsvorrichtung können in Firmware und/oder Hardware implementiert sein und in einem Mehrkern-Prozessor gespeichert sein.
Das Modul 210 zum Messen des Leistungsverbrauchs kann den Leistungsverbrauch eines Kerns durch Laufenlassen eines Leistungsvirus oder anderer leistungshungriger Anwendungen messen. Das Modul zum Messen des Leistungsverbrauchs kann weiter den Leistungsverbrauch eines Kerns, den Strombedarf des Kerns, den Spannungsabfall oder auch die Temperatur des Kerns messen. Bei einem Ausführungsbeispiel kann ein Mehrkern-Prozessor ein Modul zum Messen des Leistungsverbrauchs haben zum Messen des Leistungsverbrauchs jeden Kerns nacheinander gleichzeitig während eines Tests. Bei einem anderen Ausführungsbeispiel kann jeder Kern ein Modul zum Messen des Leistungsverbrauchs haben oder mehrere Kerne teilen sich ein Modul zum Messen des Leistungsverbrauchs. Temperatursensoren 220 können mit den Modulen zum Messen des Leistungsverbrauchs arbeiten zum Messen der Temperaturerhöhung, die sich aus dem Leistungsverbrauch durch jeden Kern ergibt und/oder zum Messen des Leistungsverlustes jedes Kerns in einem Mehrkern-Prozessor. Der Leistungsverlust eines Kerns kann gemessen werden durch den Leckstrom des Kerns. Der Leckstrom kann in Kombination mit der Temperatur und dem Spannungsabfall eines Kerns benutzt werden zum Gewinnen einer Information über den Leistungsverlust und einer Trendinformation des Kerns. Temperatursensoren 220 können weiter verwendet werden zum Bestimmen der Temperaturvariation über dem Chip eines Mehrkern-Prozessors und zum Identifizieren von heißen Punkten in dem Chip. Die so gewonnene Information kann angeben, welcher der Kerne mehr Hitze als andere erzeugt, so dass die OS-Kerne Aufgaben zuordnen kann entsprechend dem Vermeiden einer Konzentration derartiger Kerne, die dazu neigen, mehr Hitze zu erzeugen.
Das Modul 230 zum Messen der Betriebsgeschwindigkeit kann die maximale Betriebsgeschwindigkeit eines Kerns durch dynamisches Variieren der Spannungsversorgung und der Phase Lock Loop (PLL) Taktfrequenz des Kerns messen. Typischerweise hilft die Spannungserhöhung die Betriebsfrequenz eines Kerns zu steigern. Die maximale Betriebsfrequenz des Kerns kann durch Erhöhen der PLL Taktfrequenz bis die PLL Taktfrequenz nicht weiter erhöht werden kann unterhalb der oberen Grenze der Spannung gehalten werden, die dem Kern zugeführt werden kann. Das dynamische Profil eines Kerns kann einen Satz von Betriebsfrequenzen aufweisen, wobei jede maximale Betriebsfrequenz unter einem bestimmten Spannungswert ist. Das Modul zum Messen der Frequenz kann mit dem Modul zum Messen des Leistungsverbrauchs zusammenwirken und den Temperatursensoren zum Messen des und des Verlusts und der maximalen Betriebsfrequenzen eines Kerns gemeinsam.
Das Modul 240 zum Prüfen der funktionalen Korrektheit kann dynamisch Fehler oder ein Versagen durch Verwendung von funktionalen Kernebenenprüfschemen messen. Wenn ein derartiges Schema verwendet wird, führt ein zweiter Kern, der „Checker” in einem Lock-Step mit dem „Master”-Kern aus. Der Checker tastet die Ausgänge des Masters ab, vergleicht diese Werte mit den Werten, die es intern berechnet und gibt ein Fehlersignal aus, wenn eine Fehlanpassung auftritt. Der Checker kann auch andere Operationen ausführen. Er ist so nicht nur ein redundanter Kern, wie in den FRC Schemata, sondern führt gleichzeitig eine nützliche Arbeit aus. Ein dritter Kern kann zum erneuten Ausführen der Berechnung verwendet werden, wenn die Ergebnisse des Checkers von den Ergebnissen des Masters abweichen. Wenn Ergebnisse von den dritten Kernen mit den Ergebnissen entweder von dem Checker oder von dem Master übereinstimmen, kann der Kern zwischen dem Checker und dem Master, dessen Ergebnisse von den Ergebnissen von dem dritten Kern abweichen, als ein Kern, der Fehler verursacht, identifiziert werden. Falls Ergebnisse von dem dritten Kern nicht mit den Ergebnissen entweder von dem Checker oder von dem Master übereinstimmen, kann der dritte Kern selbst fehlerhaft sein und ein vierte Kern kann erforderlich sein, um die Berechnung erneut auszuführen. Dieser Prozess kann sich wiederholen, bis Ergebnisse von einem zusätzlichen Kern, der die Berechnung erneut ausführt, mit den Ergebnissen entweder von dem Checker oder dem Master übereinstimmt. Fehlerhafte oder langsame Prozessoren werden mit einer Flagge versehen, die für eine geeignete Aufgabenzuordnung in bestimmte Fehlerklassen eingeordnet sind.
Das Modul zum Prüfen der funktionalen Korrektheit kann die Ergebnisse eines feinkörnigen Pegels (z. B., jeder oder einer wenigen Zyklen) oder eines grobkörnigen Pegels (beispielsweise jeder 100 Zyklen) prüfen. Das Modul für die funktionale Korrektheit kann eine grobkörnige Information etwa als einen Bruchteil von Tests, die versagen, die Anzahl von Fehlern usw., als auch eine feinkörnige Information wie die, welche funktionalen Blöcke oder Fehler erzeugen, gewinnen. Das auf FRC basierende Prüfen der funktionalen Korrektheit kann zwischen zwei benachbarten Kernen durchgeführt werden, wie dies in den 3A und 3B gezeigt ist. Die paarweise Zuordnung des Prüfens auf die funktionale Korrektheit kann regelmäßig geändert werden (beispielsweise von Zuordnung, wie sie in 3A gezeigt sind, Zuordnungen, die in 3B gezeigt sind), um die Änderungen eines fehlerhaften Kerns, der immer einen Kern, der Funktionen richtig prüft, zu reduzieren.
Bei einem anderen Ausführungsbeispiel können einige wenige Kerne ausgewählt werden, um das auf FRC basierende Prüfen auf funktionale Korrektheit für alle anderen Kerne des Prozessors durchzuführen. Diese ausgewählten Kerne führen ein Prüfen auf funktionale Korrektheit unter ihnen selbst aus (beispielsweise paarweises Prüfen untereinander). Das Modul zum Prüfen der funktionalen Korrektheit kann bestimmen, wie die Prüfungen auszuführen sind, beispielsweise, ob ein paarweises Prüfen verwendet wird und wann Paare zu wechseln sind, oder ob einige wenige Kerne zum Ausführen der Prüfungen ausgewählt werden.
Das Modul zum Prüfen der funktionalen Korrektheit kann während des normalen Betriebs Prüfungen ausführen, wobei die Ergebnisse der Berechnung an regulären Prüfpunkten validiert werden. Diese Prüfungen können auch in einem Standby-Betrieb bei nicht-kritischen Anwendungen ausgeführt werden, bei denen der Leistungsverbrauch ein wichtigerer Faktor sein kann als die funktionale Genauigkeit. Beispiele von graphischen Anwendungen laufen auf tragbaren Geräten. Diese funktionalen Prüfungen könnten als Verwenderanwendungsprogramme oder vorgezeichneten Testroutinen verwendet werden, die systematisch jeden funktionalen Betrieb des Kerns prüfen. Fehler, die während der Prüfungen auf funktionale Korrektheit geprüft werden, können entweder transient oder statisch sein. Transiente Fehler können von statischen Fehlern durch erneutes Durchführen derselben Prüfung unterschieden werden. Wenn der Fehler nach einer erneuten Prüfung verschwindet, sind die Fehler transient, ansonsten sind sie statisch. Obwohl transiente Fehler nicht so problematisch wie statische Fehler sein könnten, können Kerne, die bezüglich transienten Fehlern anfällig sind, für eine genauere Beobachtung gekennzeichnet werden.
Das Modul 250 zum Erfassen der Zuverlässigkeit kann, wie in 2 gezeigt, eingebettete Routinen verwenden, um die Trenninformation von Parameter zu gewinnen, etwa der maximalen Betriebsfrequenz, des Leistungsverbrauchs und des Lecks, Raten von funktionalen Fehlern usw. Die Trendinformation kann nach dem ersten Test nicht verfügbar sein. Nach dem zweiten Test können die Ergebnisse des zweiten Tests mit den Ergebnissen des ersten Tests verglichen werden, um Änderungen zwischen diesen Tests zu ermitteln. Typischerweise wird die Trendinformation über die Zeit zuverlässiger, da mehr Daten verfügbar sind.
Der Controller 260 kann zwischen verschiedenen Komponenten in dem dynamischen Profilierungsapparat koordinieren und Operationen für diese Komponenten steuern. Beispielsweise kann der Controller einen Test zum dynamischen Profilieren triggern. Nachdem ein Test getriggert ist, können verschiedene Komponenten (beispielsweise das Modul zum Messen des Leistungsverbrauchs und das Modul zum Messen der Betriebsgeschwindigkeit) starten, ihre entsprechenden Parameter zu messen. Bei einem Ausführungsbeispiel kann der Controller periodisch einen Test zum dynamischen Profilieren selbst auslösen. Bei einem anderen Ausführungsbeispiel kann die OS den Controller auffordern, einen Test auszubilden.
Zusätzlich kann der Controller das Timing der Messung durch jede Komponente während jeden Tests steuern. Beispielsweise kann der Controller die Temperatursensoren auffordern zu warten, bis eine Testanwendung (beispielsweise eine leistungshungrige Anforderung) über eine bestimmte Zeitdauer läuft, bevor die Temperaturen gemessen werden. Auch kann der Controller einer Komponente befehlen, während eines Tests nichts auszuführen. Beispielsweise kann der Controller während des aller ersten Tests das Modul zum Prüfen der Zuverlässigkeit auffordern, nichts auszuführen, der Controller kann weiter das Modul zum Prüfen der Zuverlässigkeit auffordern, eine Trendinformation nach jeweils mehreren Tests durchzuführen als nach jedem einzelnen Test. Weiter kann der Controller eine Komponente anweisen, ein bestimmtes Verfahren durchzuführen, um die gewünschte Information zu gewinnen. Beispielsweise kann der Controller das Modul zum Prüfen der funktionalen Korrektheit anweisen, das paarweise Verfahren anzuwenden, um Tests durchzuführen und um Paare nach jeweils einer bestimmten Anzahl von Tests zu ändern. Weiter kann der Controller verschiedene Komponenten koordinieren, um bestimmte Parameter zu gewinnen. Beispielsweise kann der Controller das Modul zum Messen des Leistungsverbrauchs, die Temperatursensoren und das Modul zum Messen der Betriebsgeschwindigkeit koordinieren, um das Verhältnis zwischen dem Leistungsverbrauch und der Spannung, der Leckleistung und der Betriebsgeschwindigkeit eines Kerns zu gewinnen.
Obwohl dies nicht in 2 gezeigt ist, kann Information, die während des dynamischen Profilierens erhalten wird, in geteilten Speichern in einem Mehrspeicher-Prozessor gespeichert werden. Ein vordefinierter Sektor eines geteilten Speichers kann zum Speichern von dynamischen Profilen für alle Kerne bestimmt sein. Auf die dynamischen Profile können von OS und/oder anderen Anwendungen zugegriffen werden.
Bei einem Ausführungsbeispiel kann das dynamische Profil für einen Kern durch einen benachbarten Kern gebildet sein, wie dies in den 3A–3B gezeigt ist. Beispielsweise kann jeder Kern ein Modul zum Messen des Leistungsverbrauchs aufweisen, der zum Messen des Leistungsverbrauchs und des Verlustes seiner benachbarten Kerne verwendet werden kann. Die paarweise Zuordnung für sich aufbauende dynamische Profile kann regelmäßig geändert werden, beispielsweise von den Anordnungen, die in 3A gezeigt sind, zu den Anordnungen, die in 3B gezeigt sind, um die Änderungen eines fehlerhaften Kernaufbaus bei einem unrichtigen Profil bei einem Kern, der korrekt arbeitet, zu reduzieren. Bei einem anderen Ausführungsbeispiel können bestimmte Kerne als Profilbilder bestimmt sein. Diese Profilbilder bauen dynamische Profile für andere Kerne untereinander und füreinander auf.
4 zeigt ein Flussdiagramm eines beispielhaften Prozessors 400 zum Ausführen eines dynamischen Profilierens für jeden Kern in einem Mehrkern-Prozessor. Bei dem Block 410 kann der Test initiiert werden. Ein Test kann periodisch initiiert werden (beispielsweise jede Stunde) oder zu jedem Zeitpunkt von dem OS. Bei dem Block 420 kann der Leistungsverbrauch jedes Kerns gemessen werden. Bei dem Block 430 kann die maximale Betriebsgeschwindigkeit jedes Kerns gemessen werden. Eine maximale Betriebsgeschwindigkeit bei jedem Pegel der Spannung kann gemessen werden. Bei dem Block 440 können Temperaturen über den Chipbereich jedes Kerns gemessen werden, um Hotspots und Temperaturvariationen zu identifizieren. Bei dem Block 450 kann eine Prüfung der funktionalen Korrektheit ausgeführt werden. Obwohl die Blöcke 420 bis 450 in 4 zum Zwecke der Darstellung gesondert dargestellt sind, können Funktionen, die in diesen Blöcken ausgeführt werden, entweder nacheinander oder parallel oder miteinander verschränkt ausgeführt werden. Zusätzlich können andere Aktionen ausgeführt werden, um mehr Parameter oder Beziehungen zwischen den Parametern für ein dynamisches Profil jeden Kerns ausgeführt werden.
Bei dem Block 460 können mehr Parameter, die einen Kern kennzeichnen, aus den Daten hergeleitet werden, die von den Funktionen, die in den Blöcken 420 bis 450 ausgeführt werden, gewonnen werden. Es ist zu beachten, dass die Funktionen, die bei dem Block 460 gebildet werden, mit den Funktionen zusammengefügt werden, die in vorangehenden Blöcken ausgeführt werden (beispielsweise dem Block 420 oder eine Kombination von verschiedenen Blöcken). Bei dem Block 470 kann eine Trendinformation erhalten werden durch Vergleichen von Parametern, die während des gegenwärtigen Tests gewonnen worden sind und denjenigen, die aus vorangehenden Tests gewonnen worden sind. Dies wird ausgehend von dem zweiten Test durchgeführt. Die Zuverlässigkeit eines Kerns kann durch die Trendinformation von Parametern, die den Kern kennzeichnen, angegeben werden. Bei dem Block 480 kann ein dynamisches Profil einschließlich aller Parameter und jeder Trendinformation für jeden Kern gewonnen und gespeichert werden. Es ist zu beachten, dass dieser Block gesondert von anderen Blöcken lediglich zum Zwecke der Darstellung gezeigt ist. In der Praxis können die Parameter gespeichert werden, sobald sie gewonnen werden.
5 zeigt ein Beispiel eines Rechnersystems 500, bei dem ein Mehrkern-Prozessor verwendet werden kann. Das Rechnersystem 500 kann einen oder mehrere Prozessoren 510 aufweisen, die mit einer Systemverbindung 515 gekoppelt sind. Der Prozessor 510 kann ein Mehrkern-Prozessor sein, der einen dynamischen Profilierungsapparat hat zum Aufbauen eines dynamischen Profils für jeden Kern. Dynamische Profile können über ein periodisches Testen, das durch die dynamische Profilierungsvorrichtung selbst oder durch Tests initiiert werden, aufgebaut werden. Jedes dynamische Profil kann eine Information bezüglich der maximalen Betriebsfrequenz, des Leistungsverbrauchs, des Leistungsverlusts, der funktionalen Korrektheit und anderer Parameter des Kerns aufweisen. Das dynamische Profil kann die Trendinformation dieser Parameter einschließen.
Das Rechnersystem 500 kann weiter einen Chipsatz 530 aufweisen, der mit der Systemverbindung 515 gekoppelt ist. Der Chipsatz 530 kann ein oder mehrere integrierte Schaltungen oder Chips aufweisen. Der Chipsatz 530 kann eine oder mehrere Geräteschnittstellen 535 aufweisen, um Datenübergänge zu und/oder von anderen Komponenten 560 des Rechnersystems 500 wie, beispielsweise, BIOS Firmware, Tastaturen, Mäuse, Speichereinheiten, Netzwerkschnittstellen usw. aufweisen. Der Chipsatz 530 kann mit einem Peripheral Component Interconnect (PCI) Bus 570 gekoppelt sein. Der Chipsatz 530 kann eine PCI Brücke 545 aufweisen, die eine Schnittstelle zu dem PCI Bus 570 liefert. Die PCI Brücke 545 kann einen Datenweg zwischen den Prozessoren 510 als auch anderen Komponenten 560 schaffen sowie Peripheriegeräten wie, beispielsweise, einer Audioeinheit 580 und einem Disktreiber 590. Obwohl dies nicht gezeigt ist, können andere Geräte ebenfalls mit dem PCI Bus 570 gekoppelt sein. Weiter kann der Chipsatz 530 einen Speichercontroller 525 aufweisen, der mit einem Hauptspeicher 550 gekoppelt ist. Der Hauptspeicher 550 kann Daten und Abfolgen von Befehlen speichern, die von dem Prozessor 510 oder jedem anderen Gerät, das in dem System eingebunden ist, ausgeführt werden. Der Speichercontroller 525 kann auf den Hauptspeicher 550 in Antwort auf Speichertransaktionen zurückgreifen, die dem Prozessor 510 zugehörig sind und anderen Geräten in dem Rechnersystem 500. Bei einem Ausführungsbeispiel kann der Speichercontroller 550 in dem Prozessor 510 oder einigen anderen Schaltungen angeordnet sein. Der Hauptspeicher 550 kann verschiedene Speichereinheiten aufweisen, die adressierbare Speicherorte schaffen, aus denen der Speichercontroller 525 Daten auslesen und/oder in die der Speichercontroller 525 Daten einschreiben kann. Der Hauptspeicher 550 kann einen oder mehrere Arten von Speichereinheiten aufweisen wie einen dynamischen Speicher mit wahlfreiem Zugriff (DRAM) Einheiten, Synchronen DRAM (SDRAM) Einheiten, Double Data Rate (DDR) SDRAM Einheiten oder anderen Speichereinheiten.
6 zeigt ein weiteres beispielhaftes Rechnersystem 600, bei dem ein Mehrkern-Prozessor verwendet werden kann. Das System 600 weist mehrere Prozessoren auf wie den Prozessor 620A. Einer oder mehrere Prozessoren in dem System kann Kerne aufweisen. Der bzw. die Mehrkern-Prozessor(en) können einen dynamischen Profilierungsapparat haben, um ein dynamisches Profil für jeden Kern aufzubauen. Dynamische Profile können aufgebaut werden bei periodischem Testen, das durch den dynamischen Profilierungsapparat selbst oder durch Tests, die von der OS initiiert werden, aufbauen. Jedes dynamische Profil kann Information bezüglich der maximalen Betriebsfrequenz, des Leistungsverbrauchs, des Leistungsverlustes, der funktionalen Korrektheit und anderer Parameter beinhalten. Das dynamische Profil kann weiter die Trendinformation dieser Parameter einschließen. Prozessoren in dem System 600 können miteinander unter Verwendung einer Systemverbindung 610 verbunden werden. Die Systemverbindung 610 kann ein Front Side Bus (FSB) sein. Jeder Prozessor kann mit Eingangs/Ausgangs (I/O) Geräten als auch einem Speicher 630 durch eine Systemverbindung verbunden sein.
7 zeigt ein weiteres beispielhaftes Rechnersystem 700, bei dem ein Mehrkern-Prozessor verwendet werden kann. Bei dem System 700 ist die Systemverbindung 710, die verschiedene Prozessoren verbindet (beispielsweise 720A, 720B, 720C und 720D) ein auf eine auf Links basierende Punkt-zu-Punkt-Verbindung. Jeder Prozessor kann mit der Systemverbindung über einen Linkshub verbunden sein (beispielsweise 730A, 730B, 730C und 730D). Bei einigen Ausführungsbeispielen kann ein Linkshub gemeinsam mit einem Speichercontroller angeordnet sein, der den Verkehr zu und von einem Systemspeicher koordiniert. Einer oder mehrere Prozessoren kann mehrere Kerne haben. Der bzw. die Mehrkern-Prozessor(en) kann (können) einen dynamischen Profilierungsapparat haben, um ein dynamisches Profil für jeden Kern aufzubauen. Dynamische Profile können über periodische Tests, die von dem dynamischen Profilierungsapparat selbst aufgebaut werden oder durch Tests, die von der OS initiiert werden, aufgebaut werden. Jedes dynamische Profil kann eine Information bezüglich der maximalen Betriebsfrequenz, des Leistungsverbrauchs, des Leistungsverlustes, der funktionalen Korrektheit und anderer Parameter aufweisen. Das dynamische Profil kann weiter die Trendinformation dieser Parameter beinhalten.
8 zeigt ein Blockdiagramm eines beispielhaften Systems 800, das ein dynamisches Profil jeden Kerns in einem Mehrkern-Prozessor zur Verbesserung der Wirksamkeit der Ausführung einer Aufgabe verwendet. Das System 800 kann dynamische Profile 810 für jeden seiner Kerne in dem Mehrkern-Prozessor aufweisen, einem Modul 800 zum Kernklassifizieren, einem Aufgabencontroller 830, einem Rekonfigurator 840 und einem Eigenschaften- und Leistungsmanager 850. Die dynamischen Profile 810 können aufgebaut und aufgefrischt werden durch einen dynamischen Profilierungsapparat, wie er in 2 beschrieben ist. Die dynamischen Profile können in einem zugewiesenen Abschnitt eines Speichers gespeichert werden, der von den Kernen in dem Mehrkern-Prozessor geteilt werden. Die dynamischen Profile sind von dem OS zugreifbar.
Das Modul 820 zum Kernklassifizierer kann Kerne in einem Mehrkern-Prozessor in einen oder mehrere Bins entsprechend einem oder mehrerer den Kern kennzeichnenden Parameter in den dynamischen Profilen gruppieren. Beispielsweise können, basierend auf den dynamischen Profilen, einige Kerne als schnelle Kerne ausgebildet sein, einige könne langsame Kerne sein und andere können als Ersatzkerne reserviert sein. Die Anzahl von Bins wird eingestellt, so dass eine bessere Steuerung der Anzahl von Kernen in einem bestimmten Bin erreicht wird. Ein Kern kann aus dem schnellen Pool in den langsamen Pool über die Zeit aufgrund einer Verschlechterung seiner Leistungsfähigkeit bewegt werden. Wenn dies auftritt, kann die Anzahl von Optionen dazu veranlasst werden, die Leistungsfähigkeit des Prozessors auf seinem Binlevel beizubehalten. Ein Ersatzkern kann zu dem schnell Pool zugewiesen werden, oder vorhandene Kerne können bei einer höheren Frequenz arbeiten unter Verwendung einer Spannungsanpassung oder aber Körpervorspanneinstelltechniken.
Bei einem anderen Beispiel können die Kerne in Bins entsprechend dem Pegel ihres Leistungsverbrauchs oder entsprechend der anderen Parameter, etwa den Zuverlässigkeitsparametern gruppiert werden. Bei noch einem anderen Beispiel können Kerne in unterschiedliche Sätze von Bins gruppiert werden, einem Satz entsprechend der Betriebsgeschwindigkeit, eine entsprechend dem Leistungsverbrauchspegel, einem entsprechend dem Zuverlässigkeitsparameter usw. Bei einem Ausführungsbeispiel können Kerne in unterschiedliche Sätze von Bins gruppiert werden, nachdem die dynamischen Profile aufgebaut sind. Der Klassifizierungsprozess kann durch ein Software/Firmware-Modul, das in dem Mehrkern-Prozessor eingebettet ist, ausgeführt werden. Bei einem anderen Ausführungsbeispiel kann der Klassifizierungsprozess ausgeführt werden, wenn eine Aufgabe von dem OS empfangen wird, so dass Kerne im Dienst entsprechend den spezifischen Anforderungen der Aufgabe gruppiert werden können. Wenn die Aufgabe beispielsweise sehr rechenintensiv ist, können die Kerne in Bins entsprechend ihrer Betriebsgeschwindigkeit probiert werden, wenn eine Aufgabe batteriegeschützt auszuführen ist, können die Kerne in Bins entsprechend der Höhe ihres Leistungsverbrauchs angeordnet werden. Bei einem anderen Ausführungsbeispiel kann das Kernbindungsmodul Kerne in wenige grundlegende Bins entsprechend einiger Parameter wie der Betriebsgeschwindigkeit und dem Leistungsverbrauch gruppieren, nachdem die dynamischen Profile für alle Kerne aufgebaut sind. Gruppenkerne in andere Sätze von Bins entsprechend der bestimmten Anforderungen der Aufgabe und der Anleitung des OS, wenn eine Aufgabe empfangen wird. Bins, die für eine bestimmte Aufgabe (oder Aufgaben) ausgebildet sind, können entmantelt werden oder beibehalten werden, nachdem die Aufgabe(n) vollendet ist) sind.
Da die Eigenschaften eines Kerns sich von einem Test zu einem anderen ändern können, müssen Kerne über unterschiedliche Bins möglicherweise nach jedem Test umgesetzt werden und/oder ein Kern, der ursprünglich in einen Bin fällt, und nach einem neuen Test nicht dem Standard des Bins entspricht, muss rekonfiguriert werden, so dass er in dem Bin verbleiben kann. Beispielsweise kann die Erhöhung der Spannung eines Kerns seine Operationsgeschwindigkeit erhöhen und eine Verringerung der Spannung eines Kerns und/oder Geschwindigkeit kann den Leistungsverbrauch des Kerns verringern.
Der Aufgabenallokator 830, der in 8 gezeigt ist, kann Kernen Aufgaben zuweisen oder dynamisch Kernen neu zuordnen basierend auf den jeweiligen dynamischen Profilen der Kerne. Bei einem Ausführungsbeispiel können Anforderungen jeder Aufgabe vorgegeben sein basierend auf Aufgabenkategorien. Wenn, beispielsweise eine Aufgabe eine große Menge von Daten in Echtzeit verarbeitet, kann die Aufgabe schnelle Kerne erfordern; wenn eine Aufgabe auszuführen ist, während der Prozessor von einer Batterie versorgt wird, kann die Aufgabe Kerne benötigen mit einem geringeren Leistungsverbrauch. Bei einem anderen Ausführungsbeispiel kann das OS die Aufgabe analysieren, um dessen Anforderungen zu bestimmen. Basierend auf den Anforderungen jeder Aufgabe kann der Aufgabenallokator die Aufgabe einem Kern oder Kernen mit entsprechenden Eigenschaften oder einer Kombination von unterschiedlichen Kernen zuordnen, so dass den Anforderungen der Aufgabe entsprochen werden kann. Wenn die Kernprofile sich während der Ausführung einer Aufgabe ändern, kann der Allokator die Zuordnung dynamisch ändern, um den Eigenschaftspegel, der dem Task zugeordnet ist, beizubehalten.
Der Rekonfigurator 840 kann Verbindungen zwischen unterschiedlichen Kernen rekonfigurieren. Die Verschaltung eines Mehrkern-Prozessors (wie demjenigen, der in 1 gezeigt ist), kann rekonfigurierbar sein, um einen Nutzen von jedem Bin von Kernen herzuleiten. Da die Eigenschaft eines Kerns in einem bestimmten Bin sich über die Zeit ändern kann, ist die Bandbreite und die Latenz zwischen den Kernen Gegenstand erheblicher Fluktuation in einem statischen Netz. Es ist so erwünscht, ein flexibles und dynamisches rekonfigurierbares Netz zu haben. An jedem Prüfpunkt, an dem das Gemisch aus Kernen in den Bins geändert wird, kann die verfügbare Bandbreite und Latenz über die Kerne in einem Bin evaluiert werden und das Geflecht kann wenn erforderlich, rekonfiguriert werden, um ein hohes Ausmaß an Konnektivität zu erhalten. Während der physikalische Ort der Kerne auf dem Chip nicht geändert werden kann, können die Schalter, die das Geflecht bilden, rekonfiguriert werden, so dass die Kerne in demselben Bin in logischer Nähe zueinander sind. Die Verfügbarkeit von vielen Kernen, der Pool von Vorratskernen und ein Netz hoher Konnektivität ermöglichen eine schnelle Erholung von Fehlern mit einer minimalen Verringerung der Leistungsfähigkeit. Sobald ein Test ein Problem mit einem bestimmten Kern identifiziert, kann der Kern ausgemustert werden und aus dem aktiven Dienst entfernt werden. Ein Kern aus dem Vorratspool kann den Platz einnehmen. Entsprechend kann die Verschaltung auch rekonfiguriert werden, um den Effekt des Entlassens eines Fehlers des Kerns aus dem Dienst zu bewirken. Dies verbessert erheblich die Fähigkeit des Prozessors, Fehler aufgrund einer Variation und einem Abbau zu tolerieren.
Der Manager für die Leistungsfähigkeit und die Leistung 850, der in 8 gezeigt ist, kann eine Aufgabe zu einer verschiedenen Kombination von Kernen zuordnen und denselben Satz von Kernen in Antwort auf eine sich ändernde Umwelt neu balancieren. Das Bewegen eines Systems von einer elektrischen Spannungsquelle zu einer Batterieleistung ist ein Beispiel, bei dem eine Reallokation von Aufgaben zu Kernen, die ein geringeres Leck haben und die weniger Spannung benötigen, erforderlich sein kann. Eine Erhöhung der Systemlast aufgrund einer höheren Anzahl von leistungshungrigen Anwendungen kann ebenfalls ein neues Ausgleichen der Arbeitslast zwischen den Kernen erforderlich machen. Diese System- und Umgebungsfaktoren müssen in dem dynamischen Management der Kerne betrachtet werden, zusätzlich zu den Kernprofilen selbst. Techniken, die die Spannung, die Frequenz, eine Vorspannung für einen Einkern-Prozessor mit Leistungsanforderungen können angewandt werden bei einer Mehrkern-Umgebung mit der zusätzlichen Optimierungsvariablen der Anzahl von verfügbaren Kernen. Beispielsweise kann eine Geschwindigkeitsstufungstechnik angewendet werden zum neuen Ausgleichen der Kerne, die einer Aufgabe zugeordnet sind, in Antwort auf eine sich ändernde Situation, in welchem Fall die Geschwindigkeit des Kerns reduziert oder erhöht werden kann durch Reduzieren oder Verringern der Spannungsversorgung; der Leistungsverbrauch eines Kerns kann durch Absenken seiner Betriebsgeschwindigkeit und/oder seiner Versorgungsspannung reduziert werden.
9 zeigt ein Beispiel zum Verwalten der Leistungsfähigkeit und des Leistungsverbrauchs für einen Mehrkern-Prozessor. Die x-Achse der Figur zeigt die Leistungsfähigkeit in GFLOPs an, die y-Achse gibt den Leistungsverbrauch einer Gruppe von Kernen an. Kurven in der Figur stellen die Beziehung zwischen der Leistungsfähigkeit und dem Leistungsverbrauch für eine unterschiedliche Anzahl von Kernen dar. Die Kurve 910 repräsentiert einen Fall, bei dem die Anzahl von Kernen 64 ist (beispielsweise 8×8); die Kurve 920 stellt einen Fall dar, in dem die Anzahl von Kernen 80 ist (beispielsweise 8×10) und die Kurve 930 stellt einen Fall dar, in dem die Anzahl von Kernen 96 ist (beispielsweise 8×12). Es kann gezeigt werden, dass dann, wenn mehr Kerne verwendet werden, die Leistungsfähigkeit besser ist und weniger Leistung verbraucht wird. Dies liegt daran, dass, wenn mehr Kerne verwendet werden, jeder Kern bei einer niedrigen Spannung parallel laufen kann, um dieselbe oder eine bessere Leistungsfähigkeit zu erhalten (verglichen mit einer Situation, bei der eine geringere Anzahl von Kernen verwendet wird und jeder Kern bei einer hohen Spannung läuft) es kann so der Gesamtleistungsverbrauch reduziert werden. Wenn eine sich ändernde Umgebung erfordert, dass der Leistungsverbrauch abgesenkt wird, kann der Manager für die Leistungsfähigkeit und die Leistung entscheiden, mehr Kerne zu verwenden und den Spannungsverbrauch für jeden Kern zu reduzieren.
10 zeigt ein Flussdiagramm eines beispielhaften Prozesses 1000 zum Verwenden eines dynamischen Profils jeden Kerns in einem Mehrkern-Prozessor zur Verbesserung der Wirksamkeit des Ausführens einer Aufgabe. Der Prozess 1000 kann ausgeführt werden, nachdem dynamische Profile von Kernen in dem Mehrkern-Prozessor aufgebaut sind. Bei dem Block 1010 kann eine Aufgabe von dem OS empfangen werden. Bei dem Block 1020 kann das OS die Aufgabe analysieren, um dessen Anforderung zu bestimmen (beispielsweise Leistungsfähigkeit und Leistungsanforderung). Ein beispielhafter Ansatz zum Bestimmen der Anforderungen einer Aufgabe ist das Betrachten der von der Aufgabe zu verarbeitenden Daten. Wenn zum Beispiel eine große Menge von Daten in Echtzeit zu verarbeiten ist, benötigt die Aufgabe schnelle Kerne. In einigen Situationen muss die OS nicht die Aufgabe analysieren, um dessen Anforderungen zu bestimmen, da diese Anforderungen vorgegeben sind basierend auf einigen vorgegebenen Aufgabenkategorien (beispielsweise ist eine mobile Anwendung von Batterien zu versorgen, diese kann gekennzeichnet werden als eine, die einen geringen Leistungsverbrauch benötigt). In dem Block 1030 können Kerne in dem Mehrkern-Prozessor in unterschiedliche Bins gruppiert werden können basierend auf den dynamischen Profilen der Kerne als auch den Erfordernissen der Aufgaben. Bei einem Ausführungsbeispiel kann der Klassifizierungsprozess in diesem Block teilweise oder vollständig ausgeführt werden, noch bevor die Aufgabe empfangen worden ist.
In dem Block 1040 kann die Aufgabe Kernen zugeordnet werden, deren Eigenschaften diese dazu in die Lage versetzen, die Anforderungen der Aufgabe zu erfüllen. In dem Block 1050 kann die Verschaltung in dem Mehrkern-Prozessor rekonfiguriert sein, so dass die Kerne, die dieselbe Aufgabe erfüllen, so verbunden sein können, dass sie die verfügbare Bandbreite erhöhen und die Latenz zwischen diesen verringern. In dem Block 1060 kann die Aufgabe ausgeführt werden. Während des Prozesses der Ausführung der Aufgabe kann eine sich ändernde Umgebung eine Reallokation eines unterschiedlichen Satzes von Kernen zur der Aufgabe und/oder ein neues Ausgleichen desselben Satzes von Kernen auslösen.
Obwohl ein beispielhaftes Ausführungsbeispiel des offenbarten Gegenstands unter Bezugnahme auf den Block und das Flussdiagramm in den 1–10 beschrieben worden ist, wird der Fachmann erkennen, dass viele andere Verfahren zur Implementierung des offenbarten Gegenstands alternativ verwendet werden können. Beispielsweise kann die Reihenfolge der Ausführung der Blöcke in den Flussdiagrammen geändert werden und/oder einige der Blöcke in den beschriebenen Block-/Flussdiagrammen geändert, eliminiert oder kombiniert werden können.
In der vorangehenden Beschreibung wurden verschiedene Aspekte des offenbarten Gegenstands beschrieben. Zum Zwecke der Erläuterung wurden bestimmte Zahlen, Systeme und Konfigurationen angegeben, um ein völliges Verständnis des Gegenstands zu ermöglichen. Es versteht sich jedoch für den Fachmann, der Nutzen aus dieser Offenbarung zieht, dass der Gegenstand ohne diese bestimmten Einzelheiten verwirklicht werden kann. In anderen Fällen wurden allgemein bekannte Merkmale, Komponenten oder Module nicht erläutert, vereinfacht, kombiniert oder gespalten, um den offenbarten Gegenstand nicht unklar zu machen.
Verschiedene Ausführungsbeispiele des offenbarten Gegenstands können in Hardware, Firmware, Software oder Kombinationen daraus verwirklicht werden und können unter Bezugnahme auf oder in Verbindung mit einem Programmcode, etwa als Befehle, Funktionen, Verfahren, Datenstrukturen, Logik, Applikationsprogramme, Designdarstellungen oder Formate zur Simulation, Emulation und Herstellung einer Ausbildung beschrieben werden, dass, bei Zugriff von einer Maschine, dazu führt, dass die Maschine Aufgaben erfüllt, abstrakte Datentypen oder Kontexte mit einfacher Hardware definiert oder ein Ergebnis erzeugt.
Für Simulationen kann der Programmcode eine Hardware unter Verwendung einer die Hardwarebeschreibungssprache oder eine andere funktionale Beschreibungssprache verwendenden Sprache verwenden, die im wesentlichen ein Modell schafft, wie erwartet wird, dass die ausgebildete Hardware arbeitet. Der Programmcode kann eine Geräte- oder Maschinensprache oder Daten sein, die kompiliert und/oder interpretiert werden. Weiter ist in der Fachsprache üblich, in der einen oder anderen Form von Ausführen einer Aktion oder Verursachen eines Ergebnisses zu sprechen, Diese Ausdrücke sind nur eine Kurzform zum Ausdrücken des Ausführens eines Programmcodes von einem Rechnersystem, das einen Prozessor veranlasst, eine Aktion auszuführen oder ein Programm zu erzeugen.
Der Programmcode kann gespeichert werden in, beispielsweise, flüchtigen und/oder nichtflüchtigen Speichern, etwa einer Speichereinheit und/oder einem zugehörigen maschinenlesbaren oder von einer Maschine zugreifbaren Medium einschließlich einem Festspeicher, einer Hard-Disk, Floppy-Disk, einem optischen Speicher, Bändern, einem Flashspeicher, Speicher-Sticks, digitalen Video-Disks, Digital Versatile-Disks (DVDs) usw., aber auch exotischeren Medien wie einem von einer Maschine zugreifbaren einen biologischen Zustand aufrechterhaltenden Speicher. Ein maschinenlesbares Medium kann jeden Mechanismus zum Speichern, Übertragen oder Empfangen von Information in Form eines von einer Maschine lesbaren Mediums einschließen. Das Medium kann ein berührbares Medium aufweisen, durch das elektrische, optische, akustische oder andere Formen von fortschreitenden Signalen oder Trägerwellen, die den Programmcode codieren, verlaufen können, etwa Antennen, optischen Fasern, Kommunikationsschnittstellen usw. Der Programmcode kann in der Form von Paketen, seriellen Daten, parallelen Daten, fortschreitenden Signalen usw. sein und kann in einem komprimierten oder verschlüsselten Format verwendet werden.
Der Programmcode kann in einem Programm implementiert sein, das auf programmierbaren Maschinen, die einem mobilen oder ortsfesten Rechner, Personal Digital Assistants, Set Top Boxes, zellularen Telefonen und Pagern und anderen elektronischen Geräten ausgeführt werden, einschließlich einem Prozessor, einem flüchtigen und/oder nicht-flüchtigem Speicher, der von dem Prozessor lesbar ist, wenigstens einer Eingabeeinheit und/oder einem oder mehreren Ausgabegeräten. Der Programmcode kann auf die Daten angewendet werden, die unter Verwendung einer Eingabeeinrichtung eingegeben worden sind zum Ausführen der beschriebenen Ausführungsbeispiele und zum Erzeugen einer Ausgangsinformation. Die Ausgangsinformation kann zu einem oder mehreren Ausgabegeräten angelegt werden. Der Fachmann versteht, dass die Ausführungsbeispiele des offenbarten Gegenstands bei verschiedenen Computersystemen verwirklicht werden können, einschließlich Multiprozessoren oder Mehrkern-Prozessorsystemen, Minicomputer, Mainframe-Rechnern als auch Kleincomputern oder -prozessoren, die in praktisch jedes Gerät eingebettet sein können. Ausführungsbeispiele des offenbarten Gegenstands können auch in distributierten Rechnerumgebungen verwirklicht werden, wenn Aufgaben ausgeführt werden müssen durch entfernte Rechengeräte, die über ein Kommunikationsnetz verlinkt sind.
Obwohl Vorgänge als ein sequenzieller Prozess beschrieben sein können, können manche Vorgänge tatsächlich auch parallel, gleichzeitig und/oder in einer distributierten Umgebung ausgeführt werden sowie mit einem örtlich oder entfernt gespeicherten Programmcode zum Zugriff durch Ein- oder Mehrprozessor-Maschinen. Zusätzlich kann bei einigen Ausführungsbeispielen die Reihenfolgen der Operationen neu angeordnet werden, ohne sich von dem Grundgedanken des offenbarten Gegenstandes zu lösen. Ein Programmcode kann verwendet werden durch oder in Verbindung mit eingebetteten Controllern.
Obwohl der offenbarte Gegenstand unter Bezugnahme auf beispielhafte Ausführungsbeispiele beschrieben worden ist, soll die Beschreibung nicht in einem begrenzenden Sinn verstanden werden. Verschiedene Modifikationen der illustrierten Ausführungsbeispiele, als auch anderer Ausführungsbeispiele des Gegenstandes, die sich dem Fachmann, an den sich der offenbarte Gegenstand richtet, zugänglich sind, liegen in dem Schutzbereich des offenbarten Gegenstands.

Claims

Ein Rechnersystem umfassend: einen Mehrkern-Prozessor mit: mehreren Prozessorkernen; einer Verschaltung; wenigstens einem Speichermodul, wobei die mehreren Kerne und das wenigstens eine Speichermodul mit der Verschaltung gekoppelt sind; und einem Profilierungsmodul zum dynamischen Profilieren von Eigenschaften jedes Kerns in dem Mehrkern-Prozessor, wobei ein dynamisches Profil für jeden der mehreren Prozessorkerne durch periodische Tests erzeugt und nach jedem Test aktualisiert wird; wobei das Profilierungsmodul wenigstens eines der folgenden Module aufweist: ein den Leistungsverbrauch messendes Modul zum periodischen Messen des Leistungsverbrauchs von jedem der Kerne in dem Mehrkern-Prozessor; ein Modul zum periodischen Messen der maximalen Geschwindigkeit von jedem der Kerne in dem Mehrkern-Prozessor; und ein Modul zum Erfassen der Zuverlässigkeit zum Gewinnen einer Zuverlässigkeitsinformation jedes Kerns in dem Mehrkern-Prozessor basierend teilweise auf den gemessenen Leistungsverbrauchsdaten und den Maximalgeschwindigkeiten jedes Kerns in dem Mehrkern-Prozessor; und einen Aufgabenallokator, welcher eine Aufgabe basierend auf Anforderungen der Aufgabe einem oder mehreren Kernen mit entsprechenden Eigenschaften gemäß dem gemessenen dynamischen Profil zuordnet, so dass den Anforderungen der Aufgabe entsprochen wird.
System nach Anspruch 1, weiter mit wenigstens einem Temperatursensor zum Messen der Temperaturverteilung und zum Identifizieren von Hotspots über den Chipbereich jeden Kerns und die Verschaltung in dem Mehrkern-Prozessor.
System nach Anspruch 2, wobei das Modul zum Erfassen der Zuverlässigkeit eine Trendinformation der Temperaturverteilung und der Hotspots über die Zeit gewinnt.
System nach Anspruch 1, weiter mit einem Modul zum Prüfen der funktionalen Korrektheit jedes Kerns in dem Mehrkern-Prozessor.
System nach Anspruch 4, wobei das Modul zum Prüfen der funktionalen Korrektheit auf wenigstens einer groben Ebene Prüfungen der funktionalen Korrektheit ausführt.
System nach Anspruch 4, wobei das Modul zum Prüfen der Zuverlässigkeit eine Trendinformation der funktionalen Korrektheit jedes Kerns in dem Mehrkern-Prozessor über die Zeit gewinnt.
System nach Anspruch 1, weiter mit einem Kontroller zum Steuern und Koordinieren wenigstens des Moduls zum Messen des Leistungsverbrauchs und des Moduls zum Messen der Betriebsgeschwindigkeit und des Moduls zum Erfassen der Zuverlässigkeit in einem Prozess des dynamischen Profilierens der Eigenschaften jedes Kerns in dem Mehrkern-Prozessor.
System nach Anspruch 1, wobei der Prozessor weiter ein Kernklassifizierungsmodul aufweist zur Verwendung bei wenigstens einer Eigenschaft des Kerns als ein Kriterium zum Gruppieren von Kernen in dem Prozessor in mehrere Klassen basierend auf dem dynamischen Profil des Kerns, wobei die mehreren Klassen verwendet werden durch das die Aufgaben allokierende Modul zum Allokieren der Aufgabe zu dem ersten Satz von Kernen.
System nach Anspruch 1, weiter mit einem Leistungs- und Energiemanager wenigstens zum Reallokieren der Aufgabe zu einem zweiten Satz von Kernen und zum Neuausgleichen des ersten Satzes von Kernen in Antwort auf eine sich ändernde Bedingung, wobei der zweite Satz von Kernen wenigstens einen von dem ersten Satz von Kernen unterschiedlichen Kern aufweist.
System nach Anspruch 9, weiter mit einem Rekonfigurator zum Rekonfigurieren von Verbindungen zwischen wenigstens dem ersten Satz von Kernen und/oder dem zweiten Satz von Kernen.
System nach Anspruch 9, wobei die sich ändernde Bedingung ein Kern in dem ersten Satz von Kernen und/oder die sich ändernde Umgebung ist.
Verfahren, welches in einem Rechnersystem nach einem der vorhergehenden Ansprüche ausgeführt wird, zum dynamischen Profilieren der Eigenschaften jedes der Kerne in dem Mehrkern-Prozessor mit: periodischem Initiieren eines Tests für jeden der Kerne in dem Mehrkern-Prozessor; Messen von Leistungsverbrauchsdaten von jedem der Kerne in dem Mehrkern-Prozessor während des Tests; Messen der maximalen Betriebsgeschwindigkeit von jedem der Kerne in dem Mehrkern-Prozessor während jedes Tests; und/oder Gewinnen einer Zuverlässigkeitsinformation von jedem der Kerne in dem Mehrkern-Prozessor basierend wenigstens teilweise auf den Leistungsverbrauchsdaten und der maximalen Betriebsgeschwindigkeit, die während jeden Tests gewonnen worden sind; und Aufnehmen einer Aufgabe; Analysieren der Aufgabe zum Bestimmen der Anforderungen dieser Aufgabe; Allokieren dieser Aufgabe zu einem ersten Satz von Kernen in dem Mehrkern-Prozessor basierend auf den Anforderungen der Aufgabe; und Ausführen der Aufgabe unter Verwendung des ersten Satzes von Kernen.
Verfahren nach Anspruch 12 weiter mit: Messen der Temperaturen zum Ermitteln von Hotspots und einer Temperaturvariation über dem Bereich jedes Kerns und der Verschaltungen in dem Mehrkern-Prozessor; und Ausführen von funktionalen Korrektheitsprüfungen zum Gewinnen einer Information über die funktionale Korrektheit jeden Kerns in dem Mehrkern-Prozessor.
Verfahren nach Anspruch 13, wobei die Zuverlässigkeitsinformation eine Trenninformation der Hotspots aufweist und der Temperaturvariation über den Chipbereich und die funktionale Korrektheitsinformation jeden Kerns in dem Mehrkern-Prozessor über die Zeit.
Verfahren nach Anspruch 13, weiter mit Gewinnen und Speichern eines Leistungsprofils jeden Kerns in dem Mehrkern-Prozessor, wobei das Leistungsprofil wenigstens Energieverbrauchsdaten, die maximale Betriebsgeschwindigkeit, eine Information über die funktionale Korrektheit, die Hotspots und die Temperaturvariation über den Chipbereich jeden Kerns aufweist und die Trendinformation darauf für jeden Kern in dem Mehrkern-Prozessor.
Verfahren nach Anspruch 12, weiter mit dem Gruppieren von Kernen in dem Mehrkern-Prozessor in mehrere Klassen basierend auf einem dynamischen Profil jeden Kerns entsprechend wenigstens einer Eigenschaft des Kerns in dem Mehrkern-Prozessor.
Verfahren nach Anspruch 12, weiter mit wenigstens dem Reallokieren der Aufgabe zu einem zweiten Satz von Kernen und Neubalancieren des ersten Satzes von Kernen in Antwort auf eine sich ändernde Bedingung, wobei der zweite Satz von Kernen wenigstens einen von den ersten Kernen unterschiedlichen Kern aufweist.
Verfahren nach Anspruch 12, wobei die sich ändernde Bedingung einen sich ändernden Zustand wenigstens eines Kerns in dem ersten Satz von Kernen und/oder eine sich ändernde Umgebung ist.
Verfahren nach Anspruch 12, weiter mit Rekonfigurieren von Verbindungen zwischen einem ersten Satz von Kernen und/oder dem zweiten Satz von Kernen.