DE112011103216T5

DE112011103216T5 - Scheduling von Anwendungen in heterogenen Multiprozessorcomputerplattformen

Info

Publication number: DE112011103216T5
Application number: DE112011103216T
Authority: DE
Inventors: Ravishankar Iyer; Sadagopan Srinivasan; Rameshkumar G. Illikkal; Li Zhao
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2010-09-25
Filing date: 2011-09-24
Publication date: 2013-07-04
Also published as: GB201303285D0; TW201229781A; WO2012040684A2; US20160132354A1; TWI450104B; JP2013537346A; GB2497449A; KR20140114074A; TW201714103A; TWI550413B; WO2012040684A3; TWI603207B; BR112013006483A2; US9268611B2; KR20130062999A; CN103119580A; GB2497449B; KR101561496B1; TW201437828A; JP5774707B2

Abstract

Verfahren und Vorrichtungen zum Scheduling von Anwendungen in heterogenen Multiprozessorcomputerplattformen werden beschrieben. In einer Ausführungsform werden Informationen betreffend der Leistung (z. B. Ausführungsleistung und/oder Stromverbrauchsleistung) von mehreren Prozessorkernen eines Prozessors in Zählern und/oder Tabellen gespeichert (und verfolgt). Eine Logik in dem Prozessor bestimmt aufgrund der gespeicherten Informationen, welcher Prozessorkern eine Anwendung ausführen soll. Andere Ausführungsformen werden außerdem beansprucht und offenbart.

Description

GEBIET
Die vorliegende Erfindung betrifft allgemein das Gebiet der Elektronik. Insbesondere betrifft eine Ausführungsform der Erfindung Techniken zum Scheduling von Anwendungen in heterogenen Multiprozessorcomputerplattformen.
HINTERGRUND
Um die Leistung zu verbessern, weisen einige Computersysteme mehrere Prozessoren auf. Die Skalierung von Multiprozessorcomputersystemen ist jedoch durch Strombeschränkungen eingeschränkt. Das heißt, wenn mehr Prozessoren zu einem System hinzugefügt werden, steigt der Stromverbrauch an. Außerdem erzeugt der höhere Stromverbrauch mehr Wärme. Die Wärme- und Stromerfordernisse können daher die Skalierung von Multiprozessorcomputersystemen beschränken.
KURZE BESCHREIBUNG DER FIGUREN
Die detaillierte Beschreibung nimmt Bezug auf die beigefügten Figuren. In den Figuren stellt oder stellen die am weitesten links befindlichen Ziffer(n) von dem Bezugszeichen die Figur dar, in welcher die Bezugszeichen zum ersten Mal auftreten. Die Verwendung von gleichen Bezugszeichen in verschiedenen Figuren deutet auf gleiche oder identische Gegenstände hin.
1, 5 und 6 stellen Blockdiagramme von Ausführungsformen von Computersystemen dar, welche benutzt werden können, um verschiedene Ausführungsformen, die hier diskutiert werden, zu implementieren.
2 stellt ein Blockdiagramm von Abschnitten eines Prozessorkerns und anderen Komponenten eines Computersystems gemäß einer Ausführungsform dar.
3 bis 4 stellen Ablaufdiagramme gemäß einiger Ausführungsformen dar.
DETAILLIERTE BESCHREIBUNG
In der folgenden Beschreibung werden zahlreiche Details ausgeführt, um ein vollständiges Verständnis der verschiedenen Ausführungsformen zu geben. Verschiedene Ausführungsformen der Erfindung können jedoch ohne die speziellen Details ausgeführt werden. In anderen Fällen wurden gut bekannte Verfahren, Vorgänge, Komponenten und Schaltungen nicht im Detail beschrieben, um von speziellen Ausführungsformen der Erfindung nicht abzulenken. Weitere verschiedene Aspekte der Ausführungsform der Erfindung können unter Verwendung verschiedener Einrichtungen ausgeführt werden, wie mit integrierten Halbleiterschaltkreisen („Hardware”), computerlesbaren Anweisungen, die in ein oder mehrere Programme („Software”) gegliedert sind, oder einigen Kombinationen von Hardware und Software. Zum Zweck dieser Beschreibung soll die Bezugnahme auf „Logik” entweder Hardware, Software oder Kombinationen davon bedeuten. Außerdem ist die Verwendung von „Anweisungen” und „Mikro-Operation” (uop) wie hier diskutiert austauschbar.
Als Chip-Multiprozessor(CMP)-Systeme, z. B. für Server- und Client-Plattformen, bekannt geworden sind, haben heterogene CMP einen Aufschwung erfahren. Beispielsweise bieten kleinere Prozessorkerne einen besseren Leistungs-/Wattvorteil. Dadurch kann das Hinzufügen von kleineren Prozessorkernen zusammen mit größeren Prozessorkernen attraktiv werden. Wie hierin diskutiert wird, beinhaltet ein heterogener CMP einen Satz von Kernen, die sich in der Leistung, dem Platzbedarf und/oder der Energieverteilung unterscheiden. Solche Plattformen bieten Möglichkeiten, um eine bessere Abbildung von Rechnerressourcen auf verschiedene Anwendungen zu ermöglichen, so dass sowohl die Leistung als auch die Energieeffizienz in einigen Ausführungsformen erreicht werden kann.
Einer der Schlüsselvorteile von heterogenen CPM-Plattformkonstruktionen ist jedoch das Anwendungs-Scheduling, d. h. die Abbildung von Anwendungen auf mehrere Prozessorkerne, welche die Leistung und/oder Energieeffizienz optimiert. Dazu bezieht sich eine Ausführungsform auf dynamisches Scheduling von Anwendungen unter heterogenen Kernen (z. B. auf einem einzelnen integrierten Schaltkreis (IC) eines Chips/Halbleiterbauelements). In einer Ausführungsform können zwei Komponenten benutzt werden, um Anwendungen zu planen (schedule). Erstens können Modellvorhersageheuristiken für Prozessorkerne vorgesehen sein.
Zweitens kann eine Scheduling-Logik benutzt werden, um Anwendungen für heterogene Prozessorkerne aufgrund der Kernmodellvorhersageheuristiken zu planen.
Die hierin beschriebenen Techniken können in jeder Art von Prozessor mit Leistungszustandseinstellungen verwendet werden, wie z. B. mit den Prozessoren, welche in Bezug auf die 1 und 5–6 beschrieben werden. Insbesondere stellt 1 ein Blockdiagramm eines Computersystems 100 gemäß einer Ausführungsform der Erfindung dar. Das System 100 kann einen oder mehrere Prozessoren 102-1 bis 102-N (allgemein hierin als „Prozessoren 102” oder „Prozessor 102” bezeichnet) aufweisen. Die Prozessoren 102 können über ein Verbindungsnetzwerk oder einen Bus 104 kommunizieren. Jeder Prozessor kann verschiedene Komponenten aufweisen, von denen einige nur in Bezug auf den Prozessor 102-1 zur Klarheit beschrieben werden. Demgemäß kann jeder der verbleibenden Prozessoren 102-2 bis 102-N die gleichen oder ähnliche Komponenten aufweisen, die mit Bezugnahme auf den Prozessor 102-1 beschrieben werden.
In einer Ausführungsform kann der Prozessor 102-1 einen oder mehrere Prozessorkerne 106-1 bis 106-N (hierin allgemein als „Kern 106” oder noch allgemeiner als „Kerne 106” bezeichnet), einen gemeinsam genutzten Cache 108 und/oder einen Router 110 aufweisen. Die Prozessorkerne 106 können auf einem einzeln integrierten Schaltkreis (IC) eines Chips implementiert sein. Ferner kann der Chip einen oder mehrere gemeinsam benutzte und/oder private Caches (wie den Cache 108), Busse oder Zwischenverbindungen (wie einen Bus oder ein Verbindungsnetzwerk 112), Speichercontroller (wie jene, die in Bezug auf die 5 bis 6 diskutiert werden) oder andere Komponenten aufweisen. Außerdem können die Kerne 106 heterogen sein (z. B. mit verschiedenen Größen, Leistungseigenschaften, Stromverbrauchseigenschaften usw., wie hierin diskutiert wird).
In einer Ausführungsform kann der Router 110 benutzt werden, um zwischen verschiedenen Komponenten des Prozessor 102-1 und/oder des Systems 100 zu kommunizieren. Ferner kann der Prozessor 102-1 mehr als einen Router 110 aufweisen. Außerdem können die Mehrzahl von Routern (110) in Kommunikation zueinander stehen, um ein Daten-Routing zwischen verschiedenen Komponenten innerhalb oder außerhalb des Prozessors 102-1 zu ermöglichen.
Der gemeinsam benutzte Cache 108 kann Daten speichern (einschließlich z. B. Anweisungen) die von einem oder mehreren Komponenten des Prozessors 102-1 wie den Kernen 106, verwendet werden können. Beispielsweise kann ein gemeinsam genutzter Cache 106 lokal Cachedaten in einem Speicher 114 für schnellere Zugriffe durch Komponenten des Prozessors 102 speichern. In einer Ausführungsform kann der Cache 108 einen Cache mittleren Levels (wie einem Level 2 (L2), einem Level 3 (L3), einem Level 4 (L4) oder anderen Levels des Caches), ein Cache des letzten Levels (LLC) und/oder Kombinationen davon umfassen. Ferner können verschiedene Komponenten des Prozessors 102-1 mit dem gemeinsam genutzten Cache 108 direkt, über einen Bus (z. B. den Bus 102) und/oder einen Speichercontroller oder einem Hub kommunizieren. Wie in 1 gezeigt, kann in einigen Ausführungsformen einer oder mehrere der Kerne 106 einen Level 1 (L1) und/oder einen Level 2 (L2) Cache (116-1) umfassen (allgemein hierin als „L1/L2 Cache 116” bezeichnet). Der L1 und/oder L2 Cache 116 kann in verschiedenen Ausführungsformen privat oder gemeinsam genutzt sein.
In einer Ausführungsform, die nachfolgend mit Bezugnahme auf die 2 bis 4 weiter beschrieben wird, kann jeder der Kerne eine Logik 120 aufweisen, die dabei hilft, Anwendungen auf verschiedene Prozessorkerne in dem System zuzuordnen. Beispielsweise können Anwendungen zugeordnet werden (z. B. durch ein Betriebssystem (OS)) aufgrund von Informationen, die in einem oder mehreren Zähler(n) 122 (so wie ein oder mehrere Leistungszähler, der bzw. die die Leistung von einem oder mehreren anderen Kernen im System anzeigt/anzeigen) gespeichert sind. Die Anwendungen können auch zugeordnet werden (z. B. durch das OS) aufgrund von einem Prozess-Identifier (ID), der benutzt werden kann, um in einer Tabelle (wie einer Leistungs-History-Table (PHT) 124-1) zu indizieren. Die Tabelle kann in einen gemeinsam genutzten Speicher (z. B. dem Speicher 114 und/oder dem gemeinsam genutzten Cache 108) oder einer speziellen Speichereinrichtung in dem Prozessor 102 oder dem Kern 106 (z. B. PHT 124-1), wie ein privater Cache (z. B. L1/L2 Cache 116), gespeichert sein. Die Tabelle kann Informationen/Hinweise auf das Betriebssystem (OS) liefern, wenn Anwendungen geplant werden (scheduling), wie nachfolgend z. B. mit Bezug auf die 2 bis 4 diskutiert wird. In einigen Ausführungsformen kann das OS und die Anwendung in einem Speicher 114 (oder Speichern 512 in 5 und 610/612 in 6) gespeichert sein.
2 stellt ein Blockdiagramm von Abschnitten eines Prozessorkerns 106 und anderen Komponenten eines Computersystems gemäß einer Ausführungsform der Erfindung dar. In einer Ausführungsform stellen die Pfeile, die in 2 gezeigt sind, die Flussrichtung der Anweisungen durch den Kern 106 dar. In einem oder mehreren Prozessorkern(en) (wie dem Prozessorkern 106) kann ein einzelner integrierter Schaltkreis eines Chips (oder eines Halbleiterbauelements) implementiert sein, wie in Bezug auf 1 beschrieben. Ferner kann der Chip einen oder mehrere gemeinsam genutzte und/oder private Cache(s) (z. B. Cache 106 und 108 in 1), Zwischenverbindungen (z. B. Zwischenverbindungen 104 und/oder 112 in 1), eine Logik 120, einen oder mehrere Zähler 122, Speichercontroller und/oder andere Komponenten aufweisen.
Wie in 2 dargestellt, kann der Prozessorkern 106 eine Fetch-Einheit 202 aufweisen, um Anweisungen abzufangen (einschließlich von Anweisungen mit konditionalen Abzweigungen) zur Ausführung durch den Kern 106. Die Anweisungen können von jeder der Speichervorrichtungen abgerufen werden, wie dem Speicher 114 und/oder den Speichervorrichtungen, die in Bezug auf die 4 und 5 beschrieben wurden. Der Kern 106 kann außerdem eine Decodiereinheit 204 aufweisen, um die abgerufene Anweisung zu dekodieren. Beispielsweise kann die Decodiereinheit 204 die abgerufene Anweisung in mehrere uops (Mikrooperationen) dekodieren. Zusätzlich kann der Kern 106 eine Schedule-Einheit 206 aufweisen. Die Schedule-Einheit 206 kann verschiedene Vorgänge ausführen, welche mit speichernden dekodierten Anweisungen verknüpft sind (die beispielsweise von der Dekodier-Einheit 204 empfangen werden) bis die Anweisungen bereit zum Dispatchen sind, z. B. bis alle Quellwerte einer dekodierten Anweisung verfügbar sind. In einer Ausführungsform kann die Schedule-Einheit 206 dekodierte Anweisungen und/oder ausfertigen (oder dispatchen) zum Ausführen an einer Ausführungseinheit 208. Die Ausführungseinheit 208 kann die dispatchten Anweisungen ausführen, nachdem sie dekodiert (z. B. durch die Dekodier-Einheit 204) und dispatcht sind (z. B. durch die Schedule-Einheit 206). In einer Ausführungsform kann die Ausführungseinheit 208 mehr als eine Ausführungseinheit umfassen. Die Ausführungseinheit 208 kann außerdem verschiedene arithmetische Vorgänge ausführen, wie z. B. Addition, Subtraktion, Multiplikation und/oder Division, und kann eine oder mehrere arithmetischen Logikeinheiten (ALUS) aufweisen. In einer Ausführungsform kann ein Coprozessor (nicht gezeigt) verschiedene arithmetische Operationen in Verbindung mit der Ausführungseinheit 208 ausführen.
Ferner kann die Ausführungseinheit 208 Anweisungen außerhalb einer Anordnung ausführen (Out-Of-Order). Dabei kann der Prozessorkern 106 ein Out-Of-Order-Prozessorkern in einer Ausführungsform sein. Der Kern kann eine Retirement-Einheit 210 aufweisen. Die Retirement-Einheit 210 kann Anweisungen aussetzen, nachdem diese übergeben wurden. In einer Ausführungsform kann eine Aussetzung von ausgeführten Anweisungen zu einer Übertragung eines Prozessorzustands aus der Ausführung der Anweisungen und zu Freigabe von physikalische Register, die von den Anweisungen verwendet werden, usw. fürhen.
Der Kern 106 kann eine Buseinheit 214 aufweisen, um eine Kommunikation zwischen Komponenten des Prozessorkerns 106 und anderen Komponenten (wie z. B. Komponenten, die im Zusammenhang mit 1 diskutiert wurden) über einen oder mehrere Busse (z. B. Busse 104 und/oder 112) zu ermöglichen. Der Kern 106 kann außerdem einen oder mehrere Zähler 122 zum Speichern von Daten aufweisen, auf welche von verschiedenen Komponenten des Kerns 106 zugegriffen wird, einschließlich der Logik 120, wie im Zusammenhang mit den 1 und 3–4 diskutiert.
Weiterhin verfolgt die Logik 120 in einigen Ausführungsformen nicht nur die Leistung einer Anwendung, sondern sagt außerdem die Anwendungsausführung und/oder eine Stromverbrauchseigenschaft voraus, wenn diese zur Ausführung auf anderen Kernen im System bestimmt sind (z. B. aufgrund von Werten, die in den Zählern 122 gespeichert sind). Diese Information kann dem Betriebssystem OS bereitgestellt werden, welches ein Scheduling aufgrund von verschiedenen Schwellenwerten durchführen kann, wie Strom, Leistung, Energie, Kombinationen davon usw. Beispielsweise kann das OS und/oder die Logik 120 verschiedene Ausführungs- oder Stromverbrauchsleistungsdaten der Prozessorkerne, die in Betracht gezogen werden, vergleichen und eine Bestimmung im Hinblick darauf vornehmen, welcher Kern die bessere Ausführung oder Stromverbrauchsleistung (aufgrund von verschiedenen Schwellenwerten, die hier diskutiert werden) bietet.
Gemäß einer Ausführungsform wird ein signaturbezogener Ansatz verwendet. Beispielsweise kann jede Anwendung auf einem oder mehreren Kernen in dem System ausgeführt werden und die die Ausführungsleistungsstatistik kann in der PHT eine Leistungs-History-Tabelle (PHT) speichern. Leistungsstatistiken können CPI (Cycles Per Instruction), MPI (Misses Per Instruction) usw. umfassen. Beispielsweise kann, wie in dem Beispiel in Tabelle 1 gezeigt, jeder Tabelleneintrag drei oder mehr Felder aufweisen. Das erste zeigt die Prozess-ID an, dass zweite dient zum Speichern der CPI einer Anwendung während der Ausführung auf einem großen Kern und das letzte speichert die Leistung der Anwendung beim Ausführen auf einem kleinen Kern. Wann immer einen Kontextwechsel der Anmeldung zu dem anderen Kern stattfindet, kann die Logik 120 neue Informationen erhalten und die PHT 124 aktualisieren.

Process ID Großer Kern CPI Kleiner Kern CPI

1011 0,98 1,35

1012 0,73 1,44

2013 1,19 1,31

Tabelle 1 – Beispielhafte Performance History Tabelle (PHT)
Die Größe der PHT 124 kann recht klein sein. Wenn beispielsweise nur CPI benutzt wird, beträgt der belegte Speicher 12 Bytes pro Eintrag, um die History-Information zu speichern.
Die PHT 124 kann auch in dem Process Control Block (PCB) der Anwendung gespeichert werden und/oder in einem anderen Speicher geladen werden (z. B. PHT 124, Cache 106, Speicher 114, Cache 108 usw., wenn die Anwendung zum Ablaufen organisiert ist (scheduled).
Diese Methologie kann über einen Prozess erweitert werden und kann für verschiedene Hotspots innerhalb eines Prozesses verwendet werden.
Wenn die PHT einmal eingerichtet ist, liest die Logik 120 die Informationen aus PHT und stellt Hinweise dem OS zur optimalen Scheduling-Policy aufgrund von vordefinierten Metriken (z. B. Strom/Leistung usw.), wie in 3 gezeigt, jedes Mal zur Verfügung, wenn die Anwendung zur Ausführung geplant wird (scheduled).
Bezug nehmend auf 3 ist ein Flussdiagramm für einen signaturbasierten Ansatz einer Kernvorhersageheuristik gemäß einer Ausführungsform dargestellt. In einigen Ausführungsformen können verschiedene Komponenten, die mit Bezug auf die 1 bis 2 und 5 bis 6 diskutiert wurden, verwendet werden, um einen oder mehrere der Vorgänge, die in Bezug auf die 3 diskutiert wurden, auszuführen.
Bezug nehmend auf die 1 bis 3 wird beim Vorgang 302 auf einem Kontextwechsel die Anwendung geladen (z. B. von einem Prozessorsteuerblock oder anderen Orten wie hierin diskutiert). Beim Vorgang 304 liest die Logik 120 die Information aus der PHT. Beim Vorgang 306 wird aufgrund der PHT-Information bestimmt, ob der Prozess optimal ist (z. B. für Zwecke der Leistung oder des Stromverbrauchs) für einen großen oder kleinen Prozessorkern.
Diese Information wird dann zu dem OS beim Vorgang 308 gesendet (in einer Ausführungsform aufgrund von Stromverbrauch und/oder Leistungsüberlegungen, wie z. B. von der Logik 120 bestimmt). Beim Vorgang 310 sammelt die Logik 120 weitere History-Informationen (z. B. aufgrund der letzten Bestimmung bei der Operation 306) und aktualisiert die PHT-Informationen.
Bezug nehmend auf die 4 ist ein Flussdiagramm für einen leistungsbasierten Ansatz einer Kernmodellvorhersageheuristik gemäß einer Ausführungsform dargestellt. In einigen Ausführungsformen können verschiedene Komponenten, die im Zusammenhang mit den 1 bis 2 und 5 bis 6 diskutiert wurden, verwendet werden, um einen oder mehrere der Vorgänge, die in Bezug auf die 4 diskutiert wurden, auszuführen.
Bezug nehmend auf die 1 bis 2 und 4 wird beim Vorgang 402 auf einen Kontextwechsel die Anwendung geladen (z. B. aus einem Prozesssteuerblock oder einem anderen Ort wie hierin diskutiert). Bei einem Vorgang 404 liest die Logik 120 die Werte, die in den Leistungszählern (z. B. Zähler 122) gespeichert sind. Beim Vorgang 406 wird aufgrund der Leistungszählerinformation bestimmt, ob der Prozess optimal ist (z. B. für Leistungs- oder Stromverbrauchszwecke) für einen großen oder einen kleinen Prozessorkern. Diese Information wird dann an das OS beim Vorgang 408 gesendet (in einer Ausführungsform aufgrund von Stromverbrauchs- und/oder Leistungsüberlegungen, wie z. B. von der Logik 120 festgestellt). Bei einem Vorgang 410 sammelt die Logik 120 weitere History-Informationen (z. B. aufgrund von der letzten Bestimmung beim Vorgang 406) und aktualisiert den Leistungszähler (z. B. die Zähler 122).
In einem Ansatz, der auf einem Leistungszähler beruht, kann gemäß einer Ausführungsform ein dynamisches Modell verwendet werden, welches effektiv die Leistung einer Anwendung auf einen kleinen Kern vorhersagt, während diese auf einem großen Kern ausgeführt wird, und umgekehrt. Dieser Ansatz verwendet Leistungszähler (z. B. Zähler 122) und sagt die Leistung aufgrund der folgenden Beziehungen vorher: Cycles in Small core = ((Cycles in Big core – stall cycles an big core)·Issue widths of small core/Issue widths of big core·Multiplication factor) + (L1 Miss in bog core·L1 miss penalty of small core) + (L2 Miss in big core·L2 miss penalty of small core)
In einer Ausführungsform kann der Modulationsfaktor empirisch aufgrund von L2 Fehltreffern und der Anzahl von Lade-/Speicheranweisungen ermittelt werden. In anderen Ausführungsformen kann der große Kern die doppelte Anzahl von Lade-/Speicher-Einheiten im Vergleich zu einem kleinen Kern aufweisen. Ferner können in einigen Ausführungsformen signifikante L2-Fehler-Anwendungen von der Out-Of-Order-Eigenschaft eines großen Kerns nicht profitieren aufgrund einer fehlenden Speicherlevelparallelität, der in einigen Betriebsbelastungen zu beobachten ist. Cycles in Big core = ((Cycles in Small core – stall cycles an small core)·Issue width of big core/Issue width of Small core)/(1 – stall factor)
Der Stall-Faktor kann durch einmaliges Ablaufen der Anwendungen auf dem großen Kern und durch Sammeln der Stall-Takte und der Gesamttaktleistungsdaten ermittelt werden. Außerdem können einige Plattformen verschiedene Leistungszähler aufweisen, um Stalls aufgrund von langen Latenzvorgängen zu ermitteln, wie Cache-Fehler, Fließkomma-Stalls usw. Diese Stalls in Kombination mit anderen Zählern, wie Lade-/Speicher-Anweisungen ausgesetzt, L2-Fehlern usw., bei Verwendung in einer Logik 120 können helfen, die Leistung der Anwendung vorherzusagen, wenn diese zum Ablauf auf einem anderen Kern bestimmt ist. Selbst wenn kein spezieller Speicher-Stall-Zähler in den Plattformen vorhanden ist, können die Stalls unter Verwendung anderer Stall-Zähler in der Plattform abgeschätzt werden.
Hinsichtlich des Scheduling können einige Ausführungsformen verschiedene Anwendungen auf große und kleine Kerne abbilden aufgrund von Leistungsinformationen, die von der Logik 120 wie folgt bereitgestellt werden: (1) Für eine einzelne Anwendung, falls das Leistungsverhältnis von großen zu kleinen Kernen größer als ein programmierbarerer Wert ist, wird die Anwendung für den großen Kern eingeplant; andernfalls wird sie auf dem kleinen Kern eingeplant. Dieser programmierbare Wert kann sich in dem Kern befinden und kann unter Verwendung eines MSR's (Machine State Register) aufgrund verschiedener Strom-/Leistungs-Metriken geschrieben werden; (2) für mehrere Anwendungen mit N Anwendungen, die z. B. eingeplant werden müssen, werden die Anwendungen aufgrund ihres Leistungsverhältnisses von großem zu kleinem Kern geordnet. Die oberen N/2 Anwendungen (z. B. die Anwendungen mit maximalen Zuwächsen) werden auf den großen Kern eingeplant und die unteren N/2 Anwendungen werden auf dem kleinen Kern eingeplant.
In einigen Ausführungsformen können ein oder mehrere der folgenden Zähler verwendet werden (z. B. für die Zähler 122):

(1) Kerntaktzyklen: dieser Zähler zählt die Anzahl von Zyklen, in welchen der Kern aktiv Anweisungen ausgeführt hat;
(2) Anweisungen ausgesetzt: dieser Zähler zählt die Anzahl von Anweisungen, welche der Kern während einer gegebenen Zeitspanne ausgesetzt hat;
(3) L2-Fehler: dieser Zähler zählt die Anzahl von Speicherabbildungen, die den L2 verfehlt haben;
(4) Scheduler-Stalls: dieser Zähler zählt die Zahl von Zyklen, in welchen der kleine Kern keine Anweisungen einplanen könnte (diese Anzahl kann auch aufgrund des Produkts von L2-Fehlern und L2-Fehllatenzen in dem kleinen Kern bestimmt werden);
(5) Ressourcen-Stalls: dieser Zähler zählt die Anzahl von Zyklen, in welchen der große Kern sich im Stall befunden hat aufgrund von Nichtvefügbarkeit von Ressourcen, wie die Belegung von Stationen, langen Latenzfehlern usw.; und/oder
(6) Branch-Stalls: dieser Zähler zählt die Gesamtzahl von Zyklen, die aufgrund von Abzweigungsfehlvorhersagen verlorengegangen sind.

5 stellt ein Blockdiagramm eines Computersystems 500 gemäß einer Ausführungsform der Erfindung dar. Das Computersystem 500 kann einen oder mehrere zentrale Bearbeitungseinheiten (CPUs) 502 oder Prozessoren aufweisen, die über ein Verbindungsnetzwerk (oder Bus) 504 kommunizieren. Die Prozessoren 502 können Universalprozessoren, ein Netzwerkprozessor (der Daten verarbeitet, die über ein Computernetzwerk 503 kommuniziert werden), oder andere Arten von Prozessoren sein (einschließlich einem Prozessor mit verringertem Instruktionssatz (RISC) oder einem Prozessor mit komplexem Instruktionssatz (CISC)). Ferner können die Prozessoren 502 eine Bauform mit einem einzelnen oder mehreren Kernen aufweisen. Die Prozessoren 502 mit einer Bauform mit mehreren Kernen können verschiedene Arten von Prozessorkernen auf dem gleichen integrierten Schaltkreis (IC) eines Halbleiterbauteils integrieren. Außerdem können die Prozessoren 502 mit einer Bauform mit mehreren Kernen als symmetrische oder asymmetrische Multiprozessoren implementiert sein. In einer Ausführungsform kann einer oder mehrere der Prozessoren 502 gleich oder ähnlich zu dem Prozessor 102 der 1 sein. Beispielsweise kann einer oder mehrere der Prozessoren die Kerne 106 aufweisen, die in Bezug auf die 1 bis 4 beschrieben wurden. Außerdem können die Vorgänge, die in Bezug auf die 1 bis 4 diskutiert wurden, von einem oder mehreren Komponenten des Systems 500 ausgeführt werden.
Ein Chipsatz 506 kann außerdem mit dem Verbindungsnetzwerk 504 kommunizieren. Der Chipsatz 506 kann ein Speichersteuerhub (MCH) 508 aufweisen. Der MCH 508 kann einen Speichercontroller 510 aufweisen, der mit einem Speicher 512 kommuniziert (der gleich oder ähnlich zu dem Speicher 114 der 1 sein kann). Der Speicher 512 kann Daten speichern, einschließlich von Sequenzen von Anweisungen, die von der CPU 502 ausgeführt werden können oder jeder anderen Vorrichtung, die in dem Computersystem 500 enthalten ist. In einer Ausführungsform der Erfindung kann der Speicher 512 ein oder mehrere flüchtige Speichervorrichtungen aufweisen, wie Random Access Memory (RAM), Dynamic RAM (DRAM), synchrone DRAM (SDRAM), statischer RAM (SRAM) oder andere Arten von Speichervorrichtungen. Nichtflüchtige Speicher können auch benutzt werden, wie z. B. eine Festplatte. Zusätzliche Vorrichtungen können über das Verbindungsnetzwerk 504 kommunizieren, wie z. B. mehrere CPUs und/oder mehrere Systemspeicher.
Der MCH 508 kann eine Grafikschnittstelle 514 aufweisen, die mit einer Anzeigevorrichtung 516 kommuniziert. In einer Ausführungsform der Erfindung kann die Grafikschnittstelle 514 mit der Anzeigevorrichtung 516 über einen beschleunigten Grafikport (AGP) kommunizieren. In einer Ausführungsform der Erfindung kann die Anzeige 516 (wie ein Flachbildschirm) mit der Grafikschnittstelle 514 über beispielsweise einen Signalumwandler kommunizieren, welcher digitale Darstellungen von Bildern, die einer Speichervorrichtung gespeichert sind, wie einem Videospeicher oder Systemspeicher, in Anzeigesignale umwandeln, die von der Anzeige 516 interpretiert und angezeigt werden. Die Anzeigesignale, welche von der Anzeigevorrichtung erzeugt werden, können durch verschiedene Steuervorrichtungen geführt werden, bevor sie von der Anzeige 516 interpretiert und nachfolgend auf dieser angezeigt werden.
Eine Hub-Schnittstelle 518 kann ermöglichen, dass der MCH 508 und ein Input/Output-Steuerhub (ICH) 520 kommunizieren. Der ICH 520 kann eine Schnittstelle für eine oder mehrere I/O-Vorrichtungen bereitstellen, die mit dem Computersystem 500 kommunizieren. Der ICH 520 kann mit einem Bus 522 durch eine Peripheriebrücke (oder Controller) 524 kommunizieren, wie eine Peripheral Component Interconnect(PCI)-Brücke, einem Universal Serial Bus(USB)-Controller oder andere Arten von Peripheriebrücken oder Controller. Die Brücke 524 kann einen Datenweg zwischen der CPU 502 und den Peripherieeinrichtungen bereitstellen. Andere Arten von Topologien können verwendet werden. Außerdem können mehrere Busse mit der ICH 520 kommunizieren, z. B. über mehrere Brücken oder Controller. Ferner können andere Peripheriegeräte in Kombination mit dem ICH 520 Folgendes in verschiedenen Ausführungsformen der Erfindung aufweisen: Integrated Drive Electronics (IDE) oder Small Computer System Interface (SCSI), Festplatte(n), USB-Anschluss oder Anschlüsse, eine Tastatur, eine Maus, parallelen Anschluss oder Anschlüsse, seriellen Anschluss oder Anschlüsse, Diskettenlaufwerk oder Laufwerke, Digital Output Support (z. B. die Digital Video Interface (DVI)) oder andere Geräte.
Der Bus 522 kann mit einem Audiogerät 526, einem oder mehreren Diskettentreibern 528 und einem Netzwerkschnittstellengerät 530 (welches in Kombination mit dem Computernetzwerk 503 steht) kommunizieren. Andere Geräte können über den Bus 522 kommunizieren. Außerdem können verschiedene Komponenten (wie das Netzwerkschnittstellengerät 530) mit dem MCH 508 in einigen Ausführungsformen der Erfindung kommunizieren. Zusätzlich kann der Prozessor 502 und die MCH 508 kombiniert sein, um einen einzelnen Chip zu bilden. Ferner kann ein Grafikbeschleuniger 516 in dem MCH 508 in anderen Ausführungsformen der Erfindung enthalten sein.
Ferner kann das Computersystem 500 flüchtigen und/oder nichtflüchtigen Speicher aufweisen. Zum Beispiel kann nichtflüchtiger Speicher eines oder mehreres von Folgendem umfassen: Nur-Lese-Speicher (ROM), programmierbarer ROM (PROM), löschbarer PROM (EPROM), elektronischer EPROM (EEPROM), ein Festplattenlaufwerk (z. B. 528), ein Diskettenlaufwerk, ein Kompaktdisketten-ROM (CD-ROM), eine Digital Versatile Disc (DVD), Flashmemory, eine magnetooptische Diskette oder andere Arten von nichtflüchtigen maschinenlesbaren Medien, die in der Lage sind, elektronische Daten zu speichern (z. B. einschließlich Anweisungen).
6 stellt ein Computersystem 600 dar, das in einer Punkt-zu-Punkt(PtP)-Konfiguration eingerichtet ist, gemäß einer Ausführungsform der Erfindung. Insbesondere zeigt die 6 ein System, bei welchem Prozessoren, Speicher und Eingabe/Ausgabegeräte über eine Anzahl von Punkt-zu-Punkt-Schnittstellen untereinander verbunden sind. Die im Zusammenhang mit den 1 bis 5 diskutierten Vorgänge können von einer oder mehreren Komponenten des Systems 600 ausgeführt werden.
Wie in 6 dargestellt ist, kann das System 600 mehrere Prozessoren aufweisen, von denn zur Verdeutlichung nur zwei Prozessoren 602 und 604 gezeigt sind. Die Prozessoren 602 und 604 können jeweils ein lokales Speicher-Controller-Hub (MCH) 606 und 608 aufweisen, um die Kommunikation mit den Speichern 610 und 612 zu ermöglichen. Die Speicher 610 und/oder 612 können verschieden Daten speichern, wie jene, die im Zusammenhang mit dem Speicher 512 in der 5 diskutiert wurden.
In einer Ausführungsform können die Prozessoren 602 und 604 jeweils einer der Prozessoren 502 sein, die im Zusammenhang mit 5 diskutiert wurden. Die Prozessoren 602 und 604 können Daten über eine Punkt-zu-Punkt(PtP)-Schnittstelle 614 austauschen unter Verwendung von PtP-Schnittstellenschaltungen 616 bzw. 618. Außerdem können die Prozessoren 602 und 604 Daten mit einem Chipsatz 620 über individuelle PtP-Schnittstellen 622 und 624 unter Verwendung von Punkt-zu-Punkt-Schnittstellenschaltungen 626, 628, 630 und 632 austauschen. Der Chipsatz 620 kann ferner Daten mit einer Grafikschaltung 634 über eine Grafikschnittstelle 636 z. B. unter Verwendung einer PtP-Schnittstellenschaltung 637, austauschen.
Wenigstens eine Ausführungsform der Erfindung kann mit den Prozessoren 602 und 604 versehen sein. Beispielsweise können sich die Kern 106 der 1 bis 5 in den Prozessoren 602 und 604 befinden. Andere Ausführungsformen der Erfindung können jedoch in anderen Schaltungen, logischen Einheiten oder Geräten innerhalb des Systems 600 der 6 vorliegen. Ferner können andere Ausführungsformen der Erfindung über verschiedene Schaltungen, logische Einheiten und Geräte, die in 6 dargestellt sind, verteilt sein.
Der Chipsatz 620 kann mit einem Bus 640 unter Verwendung einer PtP-Schnittstellenschaltung 641 kommunizieren. Der Bus 640 kann mit einem oder mehreren Geräten, wie einer Busbrücke 642 und Eingabe/Ausgabe-Geräten 642 kommunizieren. Über einen Bus 644 kann die Busbrücke 642 mit anderen Geräten kommunizieren, wie einer Tastatur/Maus 645, Kommunikationsgeräten 646 (wie Modems, Netzwerkschnittstellengeräte oder andere Kombinationsvorrichtungen, die mit dem Computernetzwerk 503 kommunizieren können), Audio-Eingabe/Ausgabegerät 647 und/oder einem Datenspeichergerät 648. Das Datenspeichergerät 648 kann Code 649 speichern, der von den Prozessoren 602 und/oder 604 ausgeführt werden kann.
In verschiedenen Ausführungsformen der Erfindung können die hierin beschriebenen Vorgänge, z. B. in Bezug auf die 1 bis 6, als Hardware (z. B. Logikschaltung), Software, Firmware oder Kombinationen davon implementiert sein, die als ein Computerprogrammprodukt bereitgestellt werden, z. B. einschließlich (z. B. nichttransistorische) maschinenlesbare oder computerlesbare Medien mit darauf gespeicherten Anweisungen (z. B. Softwarevorgänge), die verwendet werden, um einen Computer zu programmieren, um einen hierin beschriebenen Vorgang auszuführen. Das maschinenlesbare Medium kann ein Speichergerät, wie jene, die im Zusammenhang mit den 1 bis 6 beschrieben wurden, umfassen.
Ferner können solche computerlesbaren Medien als Computerprogrammprodukt heruntergeladen werden, wobei das Programm von einem entfernten Computer (z. B. einem Server) zu einem anfragenden Computer (z. B. einem Client) mittels Datensignalen, die in einer Trägerwelle verkörpert sind, oder anderen Propagationsmedien über einen Kommunikationslink (z. B. einem Bus, einem Modem oder einer Netzwerkverbindung) übertragen werden.
Die Bezugnahme in der Beschreibung auf „eine einzelne Ausführungsform”, „eine Ausführungsform” oder „einige Ausführungsformen” bedeutet, dass ein bestimmtes Merkmal, eine Struktur oder eine Eigenschaft, die in Verbindung mit der oder den Ausführungsform(en) beschrieben wurde, in wenigstens einer Implementation enthalten sind. Das Auftreten des Ausdrucks „in einer Ausführungsform” an verschiedenen Stellen der Beschreibung kann sich, muss sich aber nicht, auf die gleiche Ausführungsform beziehen.
Außerdem können in der Beschreibung und den Ansprüchen die Ausdrücke „gekoppelt” und „verbunden” gemeinsam mit ihren Ableitungen verwendet werden. In einigen Ausführungsformen der Erfindung kann „verbunden” benutzt werden, um anzuzeigen, dass zwei oder mehr Elemente in einem direkten physikalischen oder elektrischen Kontakt zueinander stehen. „Gekoppelt” kann bedeuten, dass zwei oder mehr Elemente in einem direkten physikalischen oder elektrischen Kontakt stehen. Jedoch kann „gekoppelt” auch bedeuten, dass zwei oder mehr Elemente nicht in direktem Kontakt zueinander stehen, aber immer noch miteinander kooperieren oder interagieren.
Obgleich Ausführungsformen der Erfindung in einer Sprache beschrieben wurden, die spezifisch für strukturelle Merkmale und/oder methodologische Vorgänge ist, ist jedoch hier zu verstehen, dass beanspruchte Gegenstände nicht auf die speziellen beschriebenen Merkmale oder Vorgänge beschränkt sind. Die spezifischen Merkmale oder Vorgänge sind vielmehr als beispielhafte Formen zum Implementieren der beanspruchten Gegenstände offenbart.

Claims

Prozessor, der Folgendes umfasst: eine Speichereinheit zum Speichern von Informationen, die einer Leistung mehrerer Prozessorkerne des Prozessors entsprechen; und eine Logik zum Bestimmen eines ersten Prozessorkerns der mehreren Prozessorkerne, um eine Anwendung auszuführen, aufgrund von den gespeicherten Informationen, und um ein Scheduling von der Anwendung zur Ausführung auf dem ersten Prozessorkern zu veranlassen, wobei die Logik dazu eingerichtet ist, Daten an ein Betriebssystem zu übermitteln, um das Scheduling der Anwendung auf dem ersten Prozessorkern zu veranlassen.
Prozessor nach Anspruch 1, wobei die Logik dazu eingerichtet ist, Daten zu dem Betriebssystem zu übersenden, um das Scheduling der Anwendung auf dem ersten Prozessorkern zu veranlassen, in Antwort auf eine Ermittlung eines Kontextwechsels.
Prozessor nach Anspruch 1, wobei die gespeicherten Informationen, die der Leistung der mehreren Prozessorkerne des Prozessors entsprechen, eingerichtet sind, um Ausführungsleistungsdaten oder Stromverbrauchsleistungsdaten zu umfassen.
Prozessor nach Anspruch 1, wobei die Logik eingerichtet ist, um die gespeicherten Informationen aufgrund von gesammelten Informationen zu aktualisieren.
Prozessor nach Anspruch 1, wobei die Logik dazu eingerichtet ist, um Ausführungs- oder Stromverbrauchsleistung der Anwendung auf wenigstens einem der mehreren Prozessorkerne vorherzusagen.
Prozessor nach Anspruch 1, wobei die mehreren Prozessorkerne heterogen sind.
Prozessor nach Anspruch 1, wobei die Speichereinheit dazu eingerichtet ist, Folgendes zu umfassen: einen gemeinsam genutzten Speicher, eine privaten Cache, einen gemeinsam genutzten Cache oder einen reservierten Speicher.
Prozessor nach Anspruch 1, wobei die gespeicherten Informationen in einem Prozesssteuerblock der Anwendung gespeichert sind.
Prozessor nach Anspruch 1, wobei die Speichereinheit dazu eingerichtet ist, eine Leistungs-History-Tabelle (PHT) zu speichern.
Prozessor nach Anspruch 9, wobei jeder Eintrag in der PHT dazu eingerichtet ist, wenigstens einen Processidentifier und eine Mehrzahl von Zyklen pro Anweisung, die den mehreren Prozessorkernen entsprechen, zu speichern.
Prozessor nach Anspruch 1, wobei die Speichereinheit dazu eingerichtet ist, einen oder mehrere Leistungszähler zu speichern.
Prozessor nach Anspruch 11, wobei der eine oder die mehreren Leistungszähler Folgendes umfassen: Kerntaktzyklen, ausgesetzte Anweisungen, Level-2-Cache-Fehler, Scheduler-Stalls, Ressourcen-Stalls oder Abzweigungs-Stalls.
Verfahren, welches Folgendes umfasst: Speichern von Informationen, welche einer Leistung von mehreren heterogenen Prozessorkernen eines Prozessors entsprechen; Bestimmen eines ersten Prozessorkerns der mehreren Prozessorkerne, um eine Anwendung auszuführen, aufgrund der gespeicherten Informationen; und Scheduling der Anwendung zur Ausführung auf dem ersten Prozessorkern in Reaktion auf eine Übertragung von Daten, welche dem ersten Prozessorkern entsprechen, an ein Betriebssystem.
Verfahren nach Anspruch 13, wobei die Übertragung von Daten in Reaktion auf eine Bestimmung eines Kontextwechsels erfolgt.
Verfahren nach Anspruch 13, wobei die gespeicherten Informationen, welche der Leistung der mehreren Prozessorkerne des Prozessors entsprechen, dazu eingerichtet sind, Ausführungsleistungsdaten oder Stromverbrauchsleistungsdaten zu umfassen.
Verfahren nach Anspruch 13, welches weiterhin ein Aktualisieren der entsprechenden Informationen aufgrund von gesammelten Informationen umfasst.
Verfahren nach Anspruch 13, welches weiterhin ein Vorhersagen einer Ausführungsoder Stromverbrauchsleistung der Anwendung auf wenigstens einen der mehreren Prozessorkerne umfasst.
Verfahren nach Anspruch 13, wobei das Speichern von Informationen in einem Prozesssteuerblock der Anwendung erfolgt.
Verfahren nach Anspruch 13, wobei die gespeicherten Informationen gespeichert werden in: einer Leistungs-History-Tabelle (PHT), wobei jeder Eintrag in der PHT eingerichtet ist, um wenigstens einen Processidentifier und mehrere Zyklen pro Anweisung entsprechend den mehreren Prozessorkernen zu speichern; oder einem oder mehreren Leistungszählern, wobei der eine oder die mehreren Leistungszähler Folgendes umfassen: Kerntaktzyklen, ausgesetzte Anweisungen, Level-2-Cache-Fehler, Scheduler-Stalls, Ressourcen-Stalls oder Abzweigungs-Stalls.
Computersystem, welches Folgendes umfasst: einen Prozessor, der mehrere Prozessorkerne aufweist; und eine Speichereinheit zum Speichern von Informationen, welche einer Leistung der mehreren Kerne des Prozessors entsprechen, wobei wenigstens einer der mehreren Prozessorkerne dazu eingerichtet ist, eine Logik aufzuweisen, um einen ersten Prozessorkern der mehreren Prozessorkerne zum Ausführen einer Anwendung aufgrund der gespeicherten Informationen zu bestimmen und ein Scheduling der Anwendung zur Ausführung auf dem ersten Prozessorkern zu veranlassen, wobei die Logik dazu eingerichtet ist, Daten an ein Betriebssystem zu übertragen, um ein Scheduling der Anwendung auf dem ersten Prozessorkern zu veranlassen, in Reaktion auf eine Detektion eines Kontextwechsels.
System nach Anspruch 20, wobei die gespeicherten Informationen, welche der Leistung der mehreren Prozessorkerne des Prozessors entsprechen, eingerichtet ist, um Ausführungsleistungsdaten oder Stromverbrauchsleistungsdaten zu umfassen.
System nach Anspruch 20, wobei die Logik eingerichtet ist, um eine Ausführung oder Stromverbrauchsleistungen der Anwendung auf wenigstens einem der mehreren Prozessorkerne vorherzusagen.
System nach Anspruch 20, wobei die mehreren Prozessorkerne heterogen sind.
System nach Anspruch 20, wobei die Speichereinheit eingerichtet ist, um eine Leistungs-History-Tabelle (PHT) zu speichern, wobei jeder Eintrag in der PHT dazu eingerichtet ist, wenigstens einen Processidentifier und mehrere Zyklen pro Anweisung entsprechend der mehreren Prozessorkerne zu speichern.
System nach Anspruch 20, wobei die Speichereinheit dazu eingerichtet ist, eine oder mehrere Leistungszähler zu speichern, wobei der eine oder die mehreren Leistungszähler eingerichtet sind, um Folgendes aufzuweisen: Kerntaktzyklen, ausgesetzte Anweisungen, Level-2-Cache-Fehler, Scheduler-Stalls, Ressourcen-Stalls oder Abzweigungsstalls.
System nach Anspruch 20, welches ferner ein Audiogerät aufweist, welches mit dem Prozessorkern gekoppelt ist.
Computerlesbares Medium zum Speichern von Anweisungen, die, wenn sie von einem Prozessor ausgeführt werden, folgendes Verfahren hervorrufen: Speichern von Informationen, die einer Leistung von mehreren heterogenen Prozessorkernen eines Prozessors entsprechen; Bestimmen eines ersten Prozessorkerns der mehreren Prozessorkerne, um eine Anwendung auszuführen, aufgrund der gespeicherten Informationen; und Scheduling der Anwendung zur Ausführung auf dem ersten Prozessorkern in Reaktion auf eine Übertragung von Daten, welche dem ersten Prozessorkern entsprechen, an ein Betriebssystem.
Computerlesbares Medium nach Anspruch 27, wobei die Anweisungen den Prozessor veranlassen, die Übertragung von Daten in Reaktion auf eine Detektion eines Kontextwechsels zu veranlassen.
Computerlesbares Medium nach Anspruch 27, wobei die gespeicherten Informationen, welche der Leistung der mehreren Prozessorkerne des Prozessors entsprechen, dazu dienen, Ausführungsleistungsdaten und Stromverbrauchsleistungsdaten zu umfassen.
Computerlesbares Medium nach Anspruch 27, wobei die Instruktionen dazu eingerichtet sind, einen Prozessor zu veranlassen, eine Ausführungs- oder Stromverbrauchsleistung der Anwendung auf wenigstens einem der mehreren Prozessorkerne vorherzusagen.