DE112004001320B3

DE112004001320B3 - Verfahren, System und Vorrichtung zur Verbesserung der Leistung von Mehrkernprozessoren

Info

Publication number: DE112004001320B3
Application number: DE112004001320T
Authority: DE
Inventors: Daniel Bailey; Todd Dutton; Tryggve Fossum
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2003-07-15
Filing date: 2004-07-14
Publication date: 2011-09-15
Anticipated expiration: 2024-07-15
Also published as: GB2420435A; CN100555227C; TWI280507B; WO2005010737A2; US20060123264A1; GB0602753D0; KR20060031868A; US20060123263A1; US20070198872A1; JP2007535721A; US7788519B2; US20050050310A1; JP4413924B2; US7389440B2; CN101320289A; CN101320289B; CN1577280A; TW200515289A; US7392414B2; US20060117199A1

Abstract

Die Erfindung betrifft ein Verfahren zur Deaktivierung von Taktgebern für mindestens einen Prozessorkern von mehreren Prozessorkernen, umfassend: Berechnung eines Limits für rechnende Kerne, die zumindest teilweise auf einer Auslastung beruht; Ausführen einer Zahl n von verfügbaren Threads, wobei n eine ganze Zahl ist; Aktivieren einer Zahl m von Prozessorkernen, wobei m eine ganze Zahl und kleiner oder gleich n, der Zahl der verfügbaren Threads, ist.

Description

STAND DER TECHNIK
1. Gebiet der Erfindung
Die vorliegende Offenbarung betrifft das Gebiet der Energieverwaltung. Insbesondere betrifft die vorliegende Offenbarung ein neues Verfahren und eine neue Vorrichtung zur Verbesserung der Leistung von Mehrkernprozessoren trotz Energiebeschränkungen.
2. Beschreibung des Standes der Technik
Stromüberwachungsmethoden ermöglichen die Reduzierung des Energieverbrauchs, um leistungsarme Anwendungen für verschiedene Arten von Anlagen und Systemen und integrierten Vorrichtungen, wie zum Beispiel Server, Laptops, Prozessoren und Desktops, zu erreichen. Normalerweise werden Softwareverfahren für Systeme und integrierte Vorrichtungen eingesetzt, um mehrere Energiezustände zur Optimierung der Leistung zu unterstützen, die zumindest teilweise auf der Tätigkeit des Hauptprozessors (CPU) beruhen.
Gegenwärtige Verfahren zur Energieverwaltung verringern entweder die Spannung oder Frequenz oder beides zur Reduzierung des Energieverbrauchs. Dies führt jedoch zur verringerten Gesamtleistung. Einige Verfahren beinhalten auch analoge Ausführungen mit verschiedenen Anforderungen, die sich auf die Schleifenstabilität für dynamische Belastungen, Kalibrierung und Abgleichvorgänge beziehen.
Mit der Einführung von Prozessoren mit mehreren Kernen wird die Energieverwaltung wegen der steigenden Zahl von Kernen, die bei hohen Frequenzen und Spannungen arbeiten und die verschiedene Leistungsbegrenzungen, wie zum Beispiel thermische Grenzen, Maximalstrom und V_CC-Bereich, einhalten müssen, zu einem größeren Problem.
Die vorliegende Erfindung wird durch Beispiele erläutert.
In US 6357016 werden ein Verfahren und eine Vorrichtung für das Deaktivieren eines Clock-Signals innerhalb eines Multi-Thread-Prozessors beschrieben.
Es ist die Aufgabe der vorliegenden Erfindung ein Verfahren und einen Mehrkernprozessor bereitzustellen, der unter Beachtung von Energiebeschränkungen die Gesamtleistung verbessert.
Diese Aufgabe wird durch ein Verfahren nach Anspruch 1 und einen Mehrkernprozessor nach Anspruch 11 gelöst. Die Ansprüche 2 bis 10 und 12 bis 15 beziehen sich auf vorteilhafte Ausgestaltungen der Erfindung.
1 zeigt ein Flußdiagramm für ein Verfahren, das gemäß einer Ausführungsform verwendet wird.
2 zeigt ein Balkendiagramm, das gemäß einer Ausführungsform verwendet wird.
3 zeigt ein Balkendiagramm, das gemäß einer Ausführungsform verwendet wird.
4 zeigt eine Vorrichtung gemäß einer Ausführungsform.
Ausführliche Beschreibung
Die folgende Beschreibung liefert ein Verfahren und eine Vorrichtung für eine verbesserte Mehrprozessorleistung trotz Energiebeschränkungen.
Wie vorher beschrieben, gibt es ein Problem bei der Verbesserung der Prozessorleistung unter Einhaltung der Energiebeschränkungen. Die aktuellen Verfahren beinhalten die Absenkung der Spannung oder Frequenz auf Kosten der Gesamtleistung. Im Gegensatz dazu verbessert der beanspruchte Gegenstand der Erfindung die Gesamtleistung, während die Energiebeschränkungen beachtet werden. Zum Beispiel ermöglicht eine Konzeption für die ”Zuteilung der Zahl der rechnenden Prozessoren für ein Prozessorsystem” die Erhöhung der Frequenz als Folge der Deaktivierung von Taktgebern für Prozessoren, die im Leerlauf sind, während sie auf den Abschluß einer Speichertransaktion warten. Der beanspruchte Erfindungsgegenstand nutzt zum Beispiel die Leerlaufzeitperiode von Prozessorkernen durch Deaktivieren der Taktgeber für den Kern, was zu geringerer Energieabgabe führt. Daher kann im Ergebnis der verringerten Energieabgabe eine höhere Frequenz genutzt werden. In einer Ausführungsform wird Limit für die rechnenden Kerne für die Belastung berechnet. In derselben Ausführungsform ist die Zahl der rechnenden Kerne kleiner oder gleich der Zahl der verfügbaren und bereiten Threads. Ein Thread ist eine unabhängige Menge von Anweisungen für eine bestimmte Anwendung.
In einer Ausführungsform erleichtert der beanspruchte Erfindungsgegenstand die Auswahl eines Betriebspunktes der Spannung/Frequenz auf der Grundlage einer Vorhersage des Aktivitätsniveaus der Threads, die gemeinsam auf allen Kernen laufen. Zum Beispiel neigen TPC-C-Threads dazu, während 50–60% der Zeit aktiv und in 40–50% ihrer Zeit im Leerlauf zu sein, während sie auf den Abschluß von Speicherverweisungen warten. In solch einer Umgebung würde man, in einer Ausführungsform, ein Limit für die rechnenden Kerne auf 60% der Gesamtzahl der Kerne auf dem Chip festlegen. Wenn 8 Kerne vorhanden wären, würde man die Schranke der rechnenden Kerne in diesem Fall auf 5 festlegen. Dann würde man einen Spannungs-Frequenz-Betriebspunkt festlegen, der dem Zustand von jeweils fünf aktiven Kernen und drei inaktiven Kernen (energiearmer Zustand) entspricht; das ist eine beträchtlich höhere Betriebsfrequenz als man festlegen würde, wenn man alle acht Kerne gleichzeitig aktiv sein ließe. Die Kernzuteilungslogik begrenzt die Operationen des Chips, was garantiert, daß (in diesem Fall) zu keiner Zeit mehr als 5 Kerne aktiv sind. Es werden statistische Daten erhoben, die die Belegung der Warteschlangen und Zuteilungsschlangen (die weiter in Verbindung mit 1 diskutiert werden) betreffen. Diese statistischen Daten werden periodisch analysiert, um festzustellen, ob der Betriebspunkt (Limit für die rechnenden Kerne und ihr zugehöriges Spannungs-/Frequenz-Wertepaar) geändert werden muß. Wenn die Warteschlange tendenziell leer ist und die Zuteilungsschlange tendenziell voll ist, so ist das ein Anzeichen dafür, daß die Kerne nicht den Fortschritt erreichen, der möglich wäre, und daß zur Verbesserung der Leistung das Limit für rechnende Kerne angehoben und die Spannung/Frequenz reduziert werden sollte. Wenn umgekehrt die Zuteilungsschlange tendenziell leer ist und die Warteschlange tendenziell voll ist, kann dies ein Anzeichen dafür sein, daß man die Leistung durch Verringerung des Limits der rechnenden Kerne und durch Erhöhen des Spannungs-Frequenzpunktes steigern kann.
1 zeigt ein Flußdiagramm für ein Verfahren, das gemäß einer Ausführungsform genutzt wird. In einer Ausführungsform veranschaulicht ein Flußdiagramm ein Verfahren für ein Zustandsdiagramm.
In derselben Ausführungsform illustriert das Zustandsdiagramm eine vorher bestimmte Ablaufsteuereinheit für einen Prozessorkern in einem System. In derselben Ausführungsform erleichtert die Ablaufsteuereinheit die ”Zuteilung der Kerne”, um die Prozessorleistung als Folge der Deaktivierung der Taktgeber für Kerne, die auf den Abschluß einer Speichertransaktion warten, zu verbessern.
In einer Ausführungsform besitzt das Zustandsdiagramm vier definierte Zustände, wie zum Beispiel einen Kern-Nicht-Zugewiesen-Zustand 202, einen Ausführungszustand 204, einen Zuteilungs-FIFO-Warteschlangen-Zustand 206 und einen Wartezustand 208. Zu Anfang wird ein Kern-Nicht-Zugewiesen-Zustand folgendermaßen definiert: Kein Kern hat einen zugewiesenen Thread. Falls nachfolgend ein Kern einen ihm zugewiesenen Thread hat, geht der beanspruchte Erfindungsgegenstand in den Zuteilungs-FIFO-Warteschlangen-Zustand 206 über. In einer Ausführungsform wird FIFO als First-In-First-Out definiert.
Beim Übergang in den Zuteilungs-FIFO-Warteschlangen-Zustand wird ein Vergleich zwischen der Zahl der rechnenden Kerne und einem Limit für rechnende Kerne (ECL) vorgenommen. In einer Ausführungsform bestimmt eine Prozessor- oder Systemspezifikation das richtige Limit für rechnende Kerne, damit die Überlegungen zur thermischen Leistung eingehalten werden. In einer Ausführungsform wird die ECL durch eine Formel bestimmt, die später in der Patentanmeldung beschrieben wird. Wenn die Zahl der rechnenden Kerne kleiner als ECL ist, geht der betreffende Kern in den Ausführungszustand 204 über, wenn der Kern der nächste war, der in der FIFO-Warteschlange zu verarbeiten war. Anderenfalls bleibt der Kern in der Zuteilungs-FIFO-Warteschlange 206.
Beim Eintreten in den Ausführungszustand bleibt der Kern in diesem Zustand, es sei denn, daß ein Ereignis eintritt, wie zum Beispiel ein Speicherverweisungs- oder Überhitzungsereignis und/oder ein Fairness-Timeout. Zum Beispiel kann ein Fairness-Timeout dazu verwendet werden, einen möglichen Live-Lock-Zustand zu verhindern. In diesem Zusammenhang bezieht sich eine Speicherverweisung auf eine Lese- oder Schreiboperation auf eine bestimmte Speicheradresse, die nicht in einem Cache-Speicher, der mit dem Prozessor verbunden ist, liegt (”kein Treffer auf allen Ebenen des Cache-Speichers”). Daher wird der Zugang zum Hauptspeicher initiiert.
Wenn ein Ereignis eintritt, wie vorher beschrieben, geht der Kern in den Wartezustand 208 über. Beim Abschluß des Ereignisses geht der Kern in den Zuteilungs-FIFO-Warteschlangen-Zustand 206 über. Diese Folge von Zyklusoperationen zwischen den Zuständen 204, 206 und 208 läuft ab, bis der gegebene Thread abgeschlossen ist. Bei Abschluß des Threads geht der Kern in den Kern-Nicht-Zugewiesen-Zustand über.
Der beanspruchte Erfindungsgegenstand ist jedoch nicht auf die vier definierten Zustände im Zustandsdiagramm begrenzt. Der beanspruchte Erfindungsgegenstand berücksichtigt unterschiedliche Zahlen von Zuständen. 1 erläutert lediglich ein Beispiel für die Beschränkung der Zahl der rechnenden Kerne auf weniger als die verfügbare Zahl von Threads. Zum Beispiel erlaubt eine Ausführungsform mehrere Wartezustände. Alternativ können die Wartezustände durch einen weiteren Warteschlangenzustand ersetzt werden. Andere Ausführungsformen der Zustandsdiagramme erlauben ebenfalls mehrere Prioritätsniveaus für Kerne sowie das Vorliegen unterschiedlicher Warteschlangen, je nach der Art des Ereignisses, das das Verlassen des ausführenden Zustandes (Speicherwartezustand, thermischer Wartezustand, ACPI-Wartezustand usw.) hervorgerufen hat.
Normalerweise führt ein Kern eine Speicherauslese- oder -schreiboperation aus und führt nachfolgend eine Operation aus, die von dieser Operation abhängt (zum Beispiel verwendet er die Daten, die durch eine Speicherausleseoperation zurückgegeben wurden). Anschließend ”hält er an”, während er auf den Abschluß der Speicheroperation wartet. In einem solchen Fall sendet er ein Signal an die zentrale Kernzuteilungslogik, das angibt, daß er angehalten ist. Das ist das Zeichen dafür, daß er von der Kernzuteilungslogik deaktiviert werden kann. Die Kernzuteilungslogik antwortet auf dieses Signal durch Versetzen des betreffenden Kerns in einen ”Schlafzustand” – sie sendet ein ”Schlafsignal” an den Kern, das dazu führt, daß der Kern die Ausgabe von Anweisungen blockiert und dann (gemäß dem Cachespeicher) in einen energiearmen Zustand übergeht. Weiterhin setzt die Kernzuteilungslogik eine Kennung für diesen Kern in die Warteschlange. Wenn die Speicheroperation abgeschlossen wird, deaktiviert der Kern das ”Haltesignal”; die Kernzuteilungslogik reagiert darauf durch Verschieben der Kennung für diesen Kern aus der Warteschlange in die Zuteilungsschlange. Wenn die Zahl der aktuell rechnende (nicht ”schlafenden”) Kerne kleiner oder gleich dem Limit für rechnende Kerne ist, entfernt die Kernzuteilungslogik die älteste Kennung aus der Zuteilungsschlange und deaktiviert das ”Schlafsignal” für diesen Kern.
2 zeigt ein Balkendiagramm, das gemäß einer Ausführungsform genutzt wird. In einer Ausführungsform stellt das Balkendiagramm einen Prozentsatz der Zeit dar, die für die Arbeit eines 16-Kern-Multiprozessors verbraucht wird, wie durch eine Monte-Carlo-Simulation für eine Reihe von Belastungen berechnet. Die unabhängige Achse illustriert die ECL für 2, 4, 6, 8, 10, 12, 14 und 16. Es gibt auch einen Balken für jede ECL bei unterschiedlicher Belastung, wie durch einen Speicherverweisungsarbeitsgang (mit Bezug auf die Ausführungszeit) von 1%, 30%, 40% und 50% simuliert.
Die Analyse des 50%igen Speicherverweisungsarbeitsgangs hebt die Tatsache hervor, daß der Prozentsatz der Ausführungszeit einen Sättigungswert von 50% besitzt. Daher verbraucht die Verarbeitung von Speicherverweisungen die Hälfte der Ausführungszeit, wenn die ECL gleich der Zahl der verfügbaren Threads ist.
3 zeigt ein Balkendiagramm, das gemäß einer Ausführungsform genutzt wird. Zusätzlich zu 2 illustriert 3 die Gesamtleistung, berechnet als Produkt des Prozentsatzes der Ausführungszeit und der Frequenz. Die Gesamtleistung beinhaltet auch die Tatsache, daß die Frequenz umgekehrt proportional zur ECL ist. Wie vorher beschrieben, besteht diese Beziehung, weil die Verringerung der Zahl der arbeitenden Kerne zu einer Verringerung der Energieabgabe führt. Daher kann die Frequenz so erhöht werden, daß das thermische Limit für den Dauerzustand eingehalten wird.
3 stellt auch dar, daß der maximale Prozentsatz der Ausführungszeit 70% für den Speicherverweisungsarbeitsgang von 30% ist. Ebenso legt das Produkt aus Sättigungslimit und der Zahl der Threads den Beginn der Sättigung fest. Von besonderer Bedeutung ist der Beginn der Sättigung, weil dies der Bereich für verbesserte oder optimale Leistung ist.
In einer Ausführungsform wird eine Selbstoptimierungsformel zur Bestimmung der optimalen ECL verwendet. In der Formel stellt N die Zahl der Threads dar, die Kontext besitzen; %E stellt den Prozentsatz der Ausführungszeit dar, und %M stellt den Prozentsatz der Speicherverweisungszeit dar. Die Formel lautet: int(N × (%E/(%E+%M)))
4 zeigt eine Vorrichtung gemäß einer Ausführungsform. In einer Ausführungsform stellt die Vorrichtung ein Mehrkern-Prozessorsystem mit einer Vielzahl von Prozessoren 410 dar, die individuell mit einer unabhängigen Bank von Level3-(L3)-Cachespeicher verbunden sind. In derselben Ausführungsform bildet eine Vielzahl von vier Bussen zwei rotierende ”Ringe” – einen rechtsläufigen Anforderungs-/Antwort(REQ0/RSP0)-Ring (402 und 404) und einen linksläufigen Anforderungs-/Antwort-Ring (REQ1/RSP1) (406 und 408).
Der Kreis zwischen den mehreren ”P” und den mehreren ”C” stellt ein Paar von Zustandsablaufvorrichtungen für jeden Ring dar. Daher wird ein Satz von Ringleitungen zur Weitergabe von Informationen von jedem Prozessorkern bzw. jeder Cachebank an einen anderen Prozessorkern bzw. eine andere Cachebank genutzt. Die Systemschnittstellenlogik enthält die Speichersteuereinheiten für Speicher-DIMMs, die Routerlogik zur Handhabung der Verbindungsleitungen zu anderen Prozessorchips und/oder E/A-Subsystemen und verschiedenen anderen Systemsteuerlogikeinheiten (einschließlich der zentralen Kernzuteilungssteuereinheit).

Claims

Verfahren, umfassend: Berechnung eines Limits für rechnende Kern, wobei das Limit eine maximale Anzahl rechnender Kerne darstellt und die Berechnung zumindest teilweise auf einer Auslastung beruht; Aktivieren einer Zahl m von Prozessorkernen, wobei m eine ganze Zahl und kleiner oder gleich n, einer Zahl verfügbarer Threads, ist, wobei m kleiner oder gleich ist zu dem Limit für rechnende Kerne; und Ausführen der Zahl n von verfügbaren Threads.
Verfahren nach Anspruch 1, weiter umfassend: Deaktivieren von Taktgebern für mindestens einen Prozessorkern während eines Leerlaufzeitabschnitts, wenn während der Prozessorkern auf eine Speicheroperation wartet.
Verfahren nach Anspruch 2, wobei die Deaktivierung von Taktgebern für mindestens einen Prozessorkern zu verringertem Energieverbrauch führt.
Verfahren nach Anspruch 2, wobei die Deaktivierung von Taktgebern für mindestens einen Prozessorkern die Erhöhung der Betriebsfrequenz für diesen Prozessorkern ermöglicht.
Verfahren, umfassend: Vorhersagen eines Limits für rechnende Kerne von mehreren Threads, die auf allen der mehreren Prozessorkernen laufen; Festlegen eines Spannungs-Frequenz-Betriebspunktes, der einem Aktivieren einer Teilmenge der mehreren Prozessorkerne entspricht, wobei die Anzahl der aktivierten Prozessorkerne gleich oder kleiner ist als das Limit für rechnende Kerne.
Verfahren nach Anspruch 5, wobei das Limit für rechnende Kerne zumindest teilweise auf dem Festhalten an thermischen Energieüberlegungen beruht.
Verfahren nach Anspruch 6, wobei das Limit für rechnende Kerne zumindest teilweise auf einer Formel beruht, wobei N die Zahl der Threads darstellt, die Kontext besitzen; %E den Prozentsatz der Ausführungszeit darstellt, und %M den Prozentsatz der Speicherverweisungszeit darstellt und die Formel int(N × (%E/(%E + %M))) lautet.
Verfahren, umfassend: Setzen eines Kerns ohne einen zugewiesenen Thread in einen ersten Zustand; Zuweisen eines Threads an den Kern; Überführen des Kerns in einen zweiten Zustand nach Zuweisung eines Threads an den Kern; Vergleich einer Zahl aktivierter Kerne mit einem Limit für rechnende Kerne; Überführen des Kerns in einen dritten Zustand und Aktivierung des Kerns für ein Laufenlassen eines zugewiesenen Threads, wenn die Zahl der aktivierten Kerne kleiner als das Limit für rechnenden Kerne ist, und Überführen des Kerns in einen vierten Zustand und Deaktivierung des Kerns nach Abschluss des Threads.
Verfahren nach Anspruch 8, wobei die Schranke für rechnende Kerne zumindest teilweise auf einer Formel beruht, bei der N die Zahl der Threads mit Kontext ist; %E den Prozentsatz der Ausführungszeit darstellt, und %M den Prozentsatz der Speicherverweisungszeit darstellt, und die Formel int(N × (%E/(%E + %M))) lautet.
Verfahren nach Anspruch 8, wobei der Kern von einem dritten Zustand in den vierten Zustand übergeht, wenn der Kern leer läuft, während er auf den Abschluß einer Speicheroperation wartet.
Mehrkernprozessor, umfassend: mindestens zwei Kerne, die mit einem Cachespeicher und mit mindestens zwei rechtsläufigen Richtungsbussen zum Empfang von Anforderungen und Antworten verbunden ist, und einer Kernzuteilungslogik zur Handhabung der Zahl der aktivierten Kerne, so daß diese kleiner oder gleich einem Limit für ausführende Kerne ist.
Mehrkernprozessor nach Anspruch 11, wobei das Limit für rechnende Kerne zumindest teilweise auf einer Formel beruht, bei, der N die Zahl der Threads mit Kontext ist; %E den Prozentsatz der Ausführungszeit darstellt, und %M den Prozentsatz der Speicherverweisungszeit darstellt, und die Formel int(N × (%E/(%E + %M))) lautet.
Mehrkemprozessor nach Anspruch 11, das weiterhin eine Systemschnittstelle umfasst, die folgendes enthält: mehrere Speichersteuereinheiten für Speicher-DIMMs; eine Routerlogik zur Handhabung der Verbindungsleitungen zu anderen Prozessorchips oder E/A-Teilsystemen, und die Kernzuteilungslogik.
Mehrkernprozessor nach Anspruch 11, das weiterhin mindestens zwei linksläufige Richtungsbusse zum Empfang von Anforderungen und Antworten umfasst.
Mehrkernprozessor nach Anspruch 11, wobei der Cachespeicher ein Level 3 (L3)-Speicher mit mehreren unabhängigen Speicherbänken ist.