DE112005002672B4

DE112005002672B4 - Dynamische Neukonfiguration eines Cache-Speichers

Info

Publication number: DE112005002672B4
Application number: DE112005002672T
Authority: DE
Inventors: Michael L. Santa Clara Golden; Richard E. San Jose Klass
Original assignee: Advanced Micro Devices Inc
Current assignee: MediaTek Inc
Priority date: 2004-10-01
Filing date: 2005-09-21
Publication date: 2010-12-02
Anticipated expiration: 2025-09-22
Also published as: JP2008515095A; US7257678B2; CN101048763B; CN101048763A; KR101136141B1; KR20070054715A; GB2432695B; TW200627148A; US20060075192A1; WO2006039153A1; GB0705275D0; JP4456154B2; DE112005002672T5; GB2432695A; TWI403899B

Abstract

Verfahren zum dynamischen Konfigurieren eines Cache-Speichers in einem Verarbeitungsknoten (12, 22) mit mehreren Prozessorkernen (15A, 15B), wobei jeder Prozessorkern einen Cache-Speicher enthält, und wobei das Verfahren umfasst:
unabhängiges Überwachen einer entsprechenden aktuellen Auslastung jedes der Cache-Speicher;
Bestimmen, ob die entsprechende aktuelle Auslastung unterhalb eines vorbestimmten Auslastungswerts liegt; und
in Reaktion darauf, dass bestimmt wird, dass die aktuelle Auslastung unter dem vorbestimmten Auslastungswert liegt, selektives Deaktivieren eines oder mehrerer Bereiche des entsprechenden Cache-Speichers;
Bestimmen, ob die entsprechende aktuelle Auslastung oberhalb eines vorbestimmten Auslastungswerts liegt; und
in Reaktion darauf, dass bestimmt wird, dass die aktuelle Auslastung über dem vorbestimmten Auslastungswert liegt, Erlauben eines gemeinsamen Zugriffs auf einen oder mehrere Bereiche des entsprechenden Cache-Speichers eines anderen der Prozessorkerne (15A, 15B), die in Reaktion darauf, dass für diesen Cache-Speicher des anderen der Prozessorkerne (15A, 15B) bestimmt wird, dass die aktuelle Auslastung unter dem vorbestimmten Auslastungswert liegt, deaktiviert worden...

Description

Diese Erfindung betrifft die Neukonfiguration bzw. Rekonfiguration eines Cache-Speichers eines Verarbeitungsknotens mit mehreren Prozessorkernen.
Moderne Mikroprozessoren enthalten typischerweise einen Chip-internen Cache-Speicher bzw. einen schnellen Zwischenspeicher. In vielen Fällen enthalten Mikroprozessoren eine Chip-interne hierarchische Cache-Struktur, die eine Ebene Eins (L1), eine Ebene Zwei (L2) und in manchen Fällen eine Ebene Drei (L3) aus entsprechenden Zwischenspeichern bzw. Cache-Speichern aufweist. In typischen Cache-Hierarchien kann ein kleiner schneller L1-Cache-Speicher eingesetzt sein, der verwendet werden kann, um die am häufigsten verwendeten Cache-Zeilen zu speichern. Der L2-Speicher kann ein größerer und möglicherweise langsamerer Cache-Speicher sein, um Cache-Zeilen zu speichern, auf die zugegriffen wird, aber die nicht in den L1-Speicher passen. Der L3-Cache-Speicher kann verwendet werden, um Cache-Zeilen zu speichern, auf die zugegriffen wird, die aber nicht in den L2-Cache-Speicher passen. Mit einer Cache-Hierarchie, wie sie zuvor beschrieben ist, kann das Leistungsverhalten des Prozessors verbessert werden, indem die mit dem Speicherzugriff durch den Prozessor kernverknüpften Wartezeiten reduziert werden.
Jedoch kann in gewissen Fällen eine derartige Verbesserung des Leistungsverhaltens mit gewissen Einbußen einhergehen. Es ist gut bekannt, dass moderne Mikroprozessoren eine höhere Leistung benötigen und damit ein hohes thermisches Budget aufweisen. Cache-Speicher können aufgrund der statischen Leckströme Leistung verbrauchen, selbst wenn sie nicht verwendet werden. Je größer somit der Cache-Speicher ist, desto mehr Leistung wird verbraucht.
In dem Bestreben, die Effizienz eines Prozessors zu verbessern, wird zunehmend die Technik der Chip-Multiprozessoren (CMP) bedeutsam, die zudem wachsende Popularität gewinnen. Ein CMP besitzt zwei oder mehrere Prozessorkerne, die in dem gleichen integrierten Schaltungs-(IC)Bauelement eingerichtet sind. Die wachsende Popularität kann zumindest teilweise in der Tatsache begründet liegen, dass ein CMP eine effizientere Ausnutzung der Millionen an Transistoren ermöglicht, die in einer integrierten Schaltung enthalten sind, im Vergleich zu beispielsweise einem einzelnen Prozessor mit komplexerer Technik. Zum Beispiel kann durch das Aufteilen der Prozessaufgaben zwischen Prozessorkernen ein CMP einige Aufgaben mit geringerer Frequenz ausführen, als dies für gewisse Prozessoren mit Einzelkernen erforderlich ist. Geringere Frequenzen führen in einigen Fällen zu Einsparungen in der Leistung und zu einer Verringerung des thermischen Budgets.
Die US 5 761 715 A offenbart eine Informationsverarbeitungseinrichtung mit einem Cache-Speicher, in der eine Cache-Fehlerrate gemessen und ausgewertet wird, um den Energieverbrauch der Einrichtung zu steuern.
Die GB 2 388 217 A offenbart einen dynamisch anpassbaren Cache-Energieverbrauch eines unterteilten Cache-Speichersystems durch Steuerung der Spannungsversorgung gemäß der erforderlichen Zugriffszeit.
Die US 2003/0135768 A1 lehrt ein Verfahren zur Energieeinsparung beim Betrieb eines Mehrprozessorsystems auf der Grundlage von Cache-Niveau-Kombinationen.
CMP-Bauelemente, die mehrere Prozessorkerne enthalten, weisen jedem dieser Kerne zugeordnete Schaltungen auf. Beispielsweise kann ein CMP einen L1- und einen L2-Cache-Speicher für jeden Prozessorkern enthalten. Somit ist aus den zuvor beschriebenen Gründen im Vergleich zu Mikroprozessoren mit einem einzelnen Kern die Leistungsaufnahme und das thermische Budget eines CMP hoch.
Es besteht daher die Aufgabe, die Leistungsaufnahme eines Verarbeitungsknotens mit mehreren Prozessorkernen zu reduzieren ohne die Leistungsfähigkeit bzw. das Leistungsverhalten Prozessors zu verringern.
Zur Lösung dieser Aufgabe wird ein Verfahren zum dynamischen Konfigurieren eines Cache-Speichers in einem Verarbeitungsknoten mit mehreren Prozessorkernen, wobei jeder Prozessorkern einen Cache-Speicher enthält, bereitgestellt, wobei das Verfahren umfasst:
unabhängiges Überwachen einer entsprechenden aktuellen Auslastung jedes der Cache-Speicher;
Bestimmen, ob die entsprechende aktuelle Auslastung unterhalb eines vorbestimmten Auslastungswerts liegt; und
in Reaktion darauf, dass bestimmt wird, dass die aktuelle Auslastung unter dem vorbestimmten Auslastungswert liegt, selektives Deaktivieren eines oder mehrerer Bereiche des entsprechenden Cache-Speichers;
Bestimmen, ob die entsprechende aktuelle Auslastung oberhalb eines vorbestimmten Auslastungswerts liegt; und
in Reaktion darauf, dass bestimmt wird, dass die aktuelle Auslastung über dem vorbestimmten Auslastungswert liegt, Erlauben eines gemeinsamen Zugriffs auf einen oder mehrere Bereiche des entsprechenden Cache-Speichers eines anderen der Prozessorkerne, die in Reaktion darauf, dass für diesen Cache-Speicher des anderen der Prozessorkerne bestimmt wird, dass die aktuelle Auslastung unter dem vorbestimmten Auslastungswert liegt, deaktiviert worden sind.
1 ist eine Blockansicht einer Ausführungsform eines Computersystems mit einem Verarbeitungsknoten mit mehren Kernen und einem konfigurierbaren Cache-Speicher.
2 ist eine Blockansicht einer weiteren Ausführungsform eines Computersystems mit einem Verarbeitungsknoten mit mehreren Kernen und einem konfigurierbaren Cache-Speicher.
3 ist ein Flussdiagramm, das die Funktionsweise einer Ausführungsform eines Verarbeitungsknotens beschreibt.
1 zeigt eine Blockansicht einer Ausführungsform eines Computersystems 10. In der dargestellten Ausführungsform umfasst das Computersystem 10 einen Verarbeitungsknoten 12, der mit einem Speicher 14 und mit Peripheriegeräten 13A–13B verbunden ist. Der Knoten 12 umfasst Prozessorkerne 15A-15B, die mit einer Knotensteuerung 20 verbunden sind, die ferner mit einer Speichersteuerung 22 und mehreren HyperTransport^TM(HT)-Schnittstellenschaltungen 24A–24C verbunden ist. Die Prozessorkerne 15A–15B sind ferner mit einem gemeinsamen Cache-Speicher bzw. schnellem Zwischenspeicher 60 der Ebene Drei (L3) verbunden, der mit einer L3-Cache-Überwachungseinheit 85 und einer Konfigurationseinheit 50 verbunden ist. Die HT-Schaltung 24C ist mit dem Peripheriegerät 16A verbunden, das mit dem Peripheriegerät 16B in einer Prioritätskettenkonfiguration (in dieser Ausführungsform unter Anwendung von HT-Schnittstellen) verbunden ist. Die restlichen HT-Schaltungen 24A–24B sind mit anderen ähnlichen Verarbeitungsknoten (nicht gezeigt) über weitere HT-Schnittstellen (nicht gezeigt) verbunden. Die Speichersteuerung 22 ist mit dem Speicher 14 verbunden. In einer Ausführungsform ist der Knoten 12 ein einzelner integrierter Schaltungs-Chip mit der Schaltung, die in 1 gezeigt ist. Das heißt, der Knoten 12 kann ein Chip-Multiprozessor (CMP) sein. Es kann ein beliebiges Niveau an Integration oder es können diskrete Komponenten verwendet werden. Zu beachten ist, dass der Verarbeitungsknoten 12 diverse andere Schaltungen enthalten kann, die der Einfachheit halber hier weggelassen sind.
In einer Ausführungsform umfasst die Knotensteuerung 20 diverse Verbindungsschaltungen (nicht gezeigt), um die Prozessorkerne 15A und 15B miteinander, mit anderen Knoten und mit dem Speicher zu verbinden. Die Knotensteuerung 20 umfasst ferner Sicherungen (nicht gezeigt), die selektiv während des Herstellungsprozesses unterbrochen werden können, um mehrere Werte darzustellen. In einigen Ausführungsformen können diverse Knoteneigenschaften durch die Sicherungen ausgewählt werden. Zu den Eigenschaften gehören die maximale und die minimale Arbeitsfrequenz für den Knoten und die maximale und minimale Versorgungsspannung für den Knoten. Des Weiteren können die Sicherungen Prozessorkern-spezifische Eigenschaften auswählen.
Die Knotensteuerung 20 kann im Allgemeinen so gestaltet sein, dass Kommunikationsaktivitäten zwischen den Prozessorkernen 15A–15B, der Speichersteuerung 22 und den HT-Schaltungen 24A–24C in Abhängigkeit von der Kommunikationsart, der Adresse der Kom munikation etc., weitergeleitet werden. In einer Ausführungsform umfasst die Knotensteuerung 20 eine Systemanforderungswarteschlange (SRQ), in die empfangene Kommunikationsaktivitäten von der Knotensteuerung 20 geschrieben werden. Die Knotensteuerung 20 kann Kommunikationsereignisse aus der SRQ für die Weiterleitung zum Ziel oder zu Zielen aus den Prozessorkernen 15A–15B, den HT-Schaltungen 24A–24C und der Speichersteuerung 22 disponieren. Die Funktionsweise des Knotens 12 und seiner Komponenten wird nachfolgend detaillierter erläutert.
Im Allgemeinen können die Prozessorkerne 15A–15B die Schnittstelle(n) zu der Knotensteuerung 20 verwenden, um mit anderen Komponenten des Computersystems 10 zu kommunizieren (beispielsweise mit dem Peripheriegerät 16A–16B, anderen Prozessorkernen (nicht gezeigt), der Speichersteuerung 22, etc.). Die Schnittstelle kann in einer beliebigen gewünschten Art gestaltet sein. Es kann eine mit dem Cache-Speicher kohärente Kommunikation für die Schnittstelle in einigen Ausführungsformen definiert sein. In einer Ausführungsform erfolgt die Kommunikation auf den Schnittstellen zwischen der Knotensteuerung 20 und den Prozessorkernen 15A–15B in Form von Paketen, ähnlich zu jenen, wie sie in den HT-Schnittstellen verwendet werden. In anderen Ausführungsformen kann eine beliebige gewünschte Kommunikationsart verwendet werden (beispielsweise Transaktionen auf einer Busschnittstelle, Pakete mit anderer Form, etc.). In anderen Ausführungsformen benutzen die Prozessorkerne 15A–15B eine gemeinsame Schnittstelle zur Verbindung mit der Knotensteuerung 20 (beispielsweise eine gemeinsam genutzte Busschnittstelle). Im Allgemeinen können die Kommunikationsaktivitäten von den Prozessorkernen 15A–15B Anforderungen enthalten, etwa Leseoperationen (um eine Speicherstelle oder ein Register außerhalb des Prozessorkerns auszulesen) und Schreiboperationen (um eine Speicherstelle oder ein externes Register zu beschreiben), Antworten auf Sondierungsanfragen (für Cache kohärente Ausführungsformen), Interrupt-Bestätigungen, und Systemverwaltungsnachrichten, etc.
Der Speicher 14 kann beliebige geeignete Speichereinrichtungen enthalten. Beispielsweise kann ein Speicher 14 einen oder mehrere RAMBUS-DRAMs (RDRAMSs), synchrone DRAMs (SDRAMs), SDRAMs mit doppelter Datenrate (DDR), statische RAMs, etc. aufweisen. Die Speichersteuerung 22 kann eine Steuerschaltung zur Verbindung mit den Speichern 14 umfassen. Zusätzlich kann die Speichersteuerung 22 Anforderungswarteschlangen zum Aneinanderreihen von Speicheranforderungen, etc. enthalten.
Die HT-Schaltungen 24A–24C können mehrere Puffer und Steuerschaltungen zum Empfangen von Paketen von einer HT-Verbindung und zum Senden von Paketen über eine HT-Verbindung aufweisen. Die HT-Schnittstelle umfasst unidirektionale Verbindungen für das Senden von Paketen. Jede HT-Schaltung 24A–24C kann mit zwei derartigen Verbindungen gekoppelt sein (eine zum Senden und eine zum Empfangen). Eine gegebene HT-Schnittstelle kann in einer mit dem Cache-Speicher kohärenten Weise betrieben werden (beispielsweise zwischen den Verarbeitungsknoten) oder kann in einer nicht-kohärenten Weise betrieben werden (beispielsweise zu/von den Peripheriegeräten 16A–16B). In der dargestellten Ausführungsform sind die HT-Schaltungen 24A–24B nicht in Verwendung, und die HT-Schaltung 24C ist über nicht-kohärente Verbindungen mit den Peripheriegeräten 16A–16B verbunden.
Die Peripheriegeräte 16A–16B können eine beliebige Art von peripheren Geräten bzw. Einrichtungen sein. Zum Beispiel können die Peripheriegeräte 16A–16B Einrichtungen zum Kommunizieren mit einem weiteren Computersystem enthalten, mit dem die Einrichtungen verbunden sind (z. B. Netzwerkschnittstellenkarten, Schaltungen ähnlich zu einer Netzwerkschnittstellenkarte, die auf eine Hauptplatine eines Computersystems integriert ist, oder Modems). Ferner können die Peripheriegeräte 16A–16B Videobeschleuniger, Audiokarten, Festplattenlaufwerke und Diskettenlaufwerke oder Laufwerkssteuerungen, SCSI-(Kleincomputersystem-Schnittstellen)Adapter und Telefonkarten, Klangkarten und eine Vielzahl von Datennahmekarten, etwa GPIB- oder Feldbus-Schnittstellenkarten enthalten. Zu beachten ist, dass der Begriff ”Peripheriegerät” auch Eingabe/Ausgabe-(I/O)Geräte bzw. Einrichtungen umfassen soll.
Im Allgemeinen kann ein Prozessorkern 15A–15B Schaltungen aufweisen, die ausgebildet sind, Befehle auszuführen, die in einer gegebenen Befehlssatzarchitektur definiert sind. Das heißt, die Prozessorkernschaltung ist ausgebildet, Befehle, die in der Befehlssatzarchitektur definiert sind, abzuholen, zu dekodieren, auszuführen und deren Ergebnisse zu speichern. Beispielsweise kann in einer Ausführungsform die x86-Architektur in den Prozessorkernen 15A–15B eingerichtet sein. Die Prozessorkerne 15A–15B können beliebige Konfigurationen aufweisen, zu denen Super-Pipeline-Verarbeitungen, superskalare Konfigurationen oder Kombinationen davon gehören. Zu anderen Konfigurationen gehören skalare Strukturen, Pipeline-Strukturen, Nicht-Pipeline-Strukturen, etc. In diversen Ausführungsformen kann eine spekulative Ausführung außerhalb der Reihenfolge oder entsprechend der Reihenfolge eingerichtet sein. Die Prozessorkerne können die Mikrokodierung für einen oder mehrere Befehle oder andere Funktionen in Verbindung mit beliebigen Konfiguratio nen der oben genannten Ausbildungen enthalten. In den diversen Ausführungsformen können eine Vielzahl anderer Gestaltungsmerkmale, etwa Cache-Speicher, Translations-Nebenordnungspuffer (TLB), etc. eingerichtet sein.
Es ist zu beachten, dass, obwohl die vorliegende Ausführungsform die HT-Schnittstelle für die Kommunikation zwischen den Knoten und zwischen einem Knoten und den Peripheriegeräten anwendet, in anderen Ausführungsformen eine beliebige gewünschte Schnittstelle oder Schnittstellen für die entsprechende Kommunikation verwendet werden können. Beispielsweise können andere Paket-basierte Schnittstellen angewendet werden, es können Busschnittstellen eingesetzt werden, und es können diverse standardmäßige periphere Schnittstellen (beispielsweise eine periphere Komponentenverbindungs-(PCI), PCI-Expressschnittstelle, etc.) und dergleichen verwendet werden.
In der dargestellten Ausführungsform umfasst der Prozessorkern 15A einen L2-Cache-Speicher 17A. In ähnlicher Weise enthält der Prozessorkern 15B einen L2-Cache-Speicher 17B. Die entsprechenden L2-Cache-Speicher sind repräsentativ für einen beliebigen L2-Cache-Speicher, wie er in einem Mikroprozessor anzutreffen ist. Jedoch sind in einer Ausführungsform die L2-Cache-Speicher 17A–17B unter Anwendung einer Anzahl von unabhängig steuerbaren Speicherblöcken eingerichtet, wie dies durch die gestrichelten Linien angezeigt ist. In einer Ausführungsform umfasst jeder der Blöcke eine unabhängig steuerbare Leistungsversorgung. Somit kann die jedem der Speicherblöcke zugeführte Versorgungsleistung (VDD) unabhängig abgeschaltet werden oder in einigen Fällen kann die den Blöcken von den individuellen Leistungsversorgungen zugeführte Spannung unabhängig herabgesetzt werden.
Wie die zuvor beschriebenen L2-Cache-Speicher kann in der dargestellten Ausführungsform der L3-Cache-Speicher 60 auch unter Anwendung einer Anzahl aus unabhängig steuerbaren Speicherblöcken eingerichtet werden, wie dies durch die gestrichelte Linie dargestellt ist, wobei jeder der Blöcke eine unabhängig steuerbare Leistungszufuhr enthält. Die jedem der Speicherblöcke zugeführte Versorgungsleistung (VDD) kann unabhängig deaktiviert werden oder in einigen Fällen kann die Spannung VDD, die den Blöcken durch die einzelnen Leistungszufuhren zugeführt wird, unabhängig abgesenkt werden.
In der dargestellten Ausführungsform sind ähnlich zu dem L3-Cache-Speicher jeweils die entsprechenden L2-Cache-Speicher 17A–17B mit einer L2-Cache-Überwachungseinheit 18A–18B und einer Konfigurationseinheit 19A–19B verbunden. In einer Ausführungsform ist jede Cache-Überwachungseinheit (beispielsweise 18A, 19A, 85) ausgebildet, die Auslastung des entsprechenden damit verbundenen Cache-Speichers zu überwachen. Beispielsweise kann die L2-Cache-Überwachungseinheit 18A die Auslastung bzw. Nutzung des L2-Cache-Speichers 17A überwachen. In der dargestellten Ausführungsform überwacht jede Cache-Überwachungseinheit Schaltungen (beispielsweise 40A, 40B, 86), die die aktuelle Cache-Auslastung bestimmen und ermitteln, ob die aktuelle Auslastung innerhalb einer gegebenen Auslastungsgrenze liegt. Genauer gesagt, kann die Cache-Überwachungseinheit 18A beispielsweise bestimmen, ob die aktuelle Auslastung des L2-Cache-Speichers 17A unterhalb eines vorbestimmten Schwellwerts liegt. Wenn dies der Fall ist benachrichtigt die Cache-Überwachungseinheit 18A die Konfigurationseinheit 19A.
In einer Ausführungsform umfasst die Konfigurationseinheit 19A einen oder mehrere Speicher, die als 42A bezeichnet sind, etwa programmierbare Register, die Werte speichern können, die den diversen bevorzugten Konfigurationen und Zuständen des L2-Cache-Speichers 17A entsprechen. Abhängig von den in den Speichereinrichtungen 42A gespeichert Werten kann die Konfigurationseinheit 19A programmiert sein, um selektiv einen oder mehrere der unabhängig steuerbaren Speicherblöcke des L2-Cache-Speichers 17A in Reaktion auf die Benachrichtigung aus der L2-Cache-Überwachungseinheit 18A zu aktivieren oder zu deaktivieren. Des Weiteren können die in den Speichern 42A gespeicherten Werte festlegen, ob die Leistungszufuhr für einen gegebenen Block ausgeschaltet wird oder die Spannung abgesenkt wird. In gewissen Fällen, etwa wenn ein Prozessorkern eine Kontextumschaltung ausführt, kann beispielsweise der L2-Cache-Speicher nicht für den neuen Ablaufpfad oder Kontext verwendet werden. Es kann jedoch im Hinblick auf die in dem L2-Cache-Speicher 17A gespeicherten Daten wünschenswert sein, dass diese verfügbar sind, wenn wieder auf diesen Kontext bzw. Ablaufpfad zurückgeschaltet wird. In derartigen Fällen kann das einfache Absenken der Spannung für einen oder mehrere Blöcke es ermöglichen, die darin gespeicherten Daten zu bewahren, wobei jedoch ein weiterer Zugriff verhindert ist oder deaktiviert ist, bis die Blöcke wieder aktiviert sind und die Spannung auf den normalen Wert zurückgeführt ist.
Die Konfigurationseinheit 50 kann ferner ausgebildet sein, dass sie es möglich macht, dass der Prozessorkern 15A den L2-Cache-Speicher 17B des Prozessorkerns 15B mitbenutzt und umgekehrt, abhängig von den darin gespeicherten Konfigurationswerten. Zum Beispiel kann in Reaktion darauf, dass die Cache-Überwachungseinheit 40A bestimmt, dass die aktuelle Auslastung des L2-Cache-Speichers 17A über einem oberen Schwellwert liegt, die Konfigurationseinheit 19A Zugriff auf den L2-Cache-Speicher 17B anfordern. In derartigen Fällen kann die Konfigurationseinheit 42B den gemeinsamen Zugriff zulassen, wenn der L2-Cache-Speicher 17B Blöcke aufweist, die deaktiviert und damit gemeinsam nutzbar sind.
In einer Ausführungsform können die Speichereinrichtungen 42A, 42B und 51 der Konfigurationseinheiten 19A, 19B und 50 voreingestellte Präferenzwerte enthalten. Alternativ können die Präferenzwerte in die Speichereinrichtungen eingegeben werden. Diese Präferenzwerte können verwendet werden, um zu bestimmen, welche Aktion in Reaktion auf das Empfangen einer Benachrichtigung von der entsprechenden Cache-Überwachungseinheit auszuführen ist. Wie beispielsweise zuvor beschrieben ist, können die Konfigurationseinheiten diese Werte benutzen, um zu bestimmen, ob die Bereiche des L2-Cache-Speichers in dem entsprechenden Prozessorkern und der L3-Cache-Speicher durch Ausschalten der Leistungsversorgung oder durch Absenken der Spannung zu deaktivieren sind. Ferner können in einer Ausführungsform die Konfigurationseinheiten die Werte verwenden, um zu bestimmen, welche, wenn überhaupt, Bereiche der L2- oder L3-Cache-Speicher beim Hochfahren deaktiviert werden sollten.
In einer Ausführungsform können die Speichereinrichtungen 42A, 42B und 51 unter Anwendung von Software programmiert werden. Zum Beispiel können spezielle Befehle verwendet werden, um auf die Speicher 42A, 42B und 51 zuzugreifen. In einer weiteren Ausführungsform können die Speicher 42A, 42B und 51 in einer permanenteren Weise unter Anwendung von verdrahteten Sicherungen programmiert werden, wie dies zuvor beschrieben ist. In einer derartigen Ausführungsform werden die Werte aus durchtrennten Sicherungen ausgelesen und in den Speichern abgelegt. In einer Ausführungsform können die verdrahteten Sicherungen durch die externe Programmierung überschrieben werden. In einer derartigen Ausführungsform können Speicher 42A, 42B und 51 mittels Konfigurationsanschlüssen 44A, 44B und 54 über einen externen Anschluss, etwa einen gemeinsamen Testaktionsgruppen-(JTAG)Anschluss, beispielsweise programmiert werden. Das Überschreiben der verdrahteten Sicherungen auf diese Weise wird manchmal als eine Programmierung mittels Software-Sicherungen bezeichnet.
In einer Ausführungsform können die Cache-Überwachungseinheiten 18A, 18B und 85 die aktuelle Auslastung unter Anwendung von Parametern bestimmen, etwa wie viele Einträge ein entsprechender Cache-Speicher verwendet und wie häufig auf den entsprechenden Cache-Speicher zugegriffen wird. In einer Ausführungsform wird die Anzahl der Einträge in einem gerade verwendeten gegebenen Cache-Speicher ohne Verwendung von Sondierungsanfragen unter Anwendung eines Zählers bestimmt (der nicht explizit als Teil von 40A, 40B und 86 gezeigt ist), um Schreiboperationen in dem Cache-Speicher zu zählen und indem überwacht wird, ob ein Schreibbefehl ein Opfer bzw. Ziel erzeugt oder nicht. Wenn ein Ziel nicht erzeugt wird, dann muss der Schreibbefehl zu einer Zuweisung eines neuen Eintrags geführt haben. Ansonsten bleibt die Anzahl der Einträge gleich. Wenn daher ein Ziel erzeugt wird, wird der Schreibbefehl nicht gezählt. Des Weiteren kann in einer Ausführungsform die Häufigkeit, mit der auf einen Cache-Speicher zugegriffen wird, beispielsweise unter Anwendung eines Sättigungszählers (der nicht explizit als Teil der Schaltung 40A gezeigt ist) bestimmt werden. In einer Ausführungsform wird der Sättigungszähler jedes Mal erhöht, wenn auf den Cache-Speicher zugegriffen wird. Der Zähler kann bei einem gewissen Taktintervall verringert werden, aber nicht auf Null gesetzt werden. Wenn der Zählerwert über einem vorbestimmten Wert bleibt, kann angenommen werden, dass die Zugriffshäufigkeit für den Cache-Speicher hoch ist, wodurch eine hohe Auslastung angezeigt wird. Aus diesen zwei Parametern kann ein unterer vorbestimmter Auslastungswert und ein oberer vorbestimmter Auslastungswert berechnet werden. Zu beachten ist, dass in anderen Ausführungsformen andere Mechanismen eingesetzt werden können, um die Cache-Speicherauslastung nach Bedarf zu bestimmen.
Zu beachten ist, dass, obwohl das in 1 gezeigte Computersystem 10 einen einzelnen Verarbeitungsknoten 12 aufweist, in anderen Ausführungsformen eine andere Anzahl an Verarbeitungsknoten eingerichtet sein kann. In ähnlicher Weise kann ein Verarbeitungsknoten, etwa der Knoten 12, eine beliebige Anzahl an Prozessorkernen in diversen anderen Ausführungsformen aufweisen. In weiteren Ausführungsformen des Computersystems 10 können eine unterschiedliche Anzahl an HT-Schnittstellen pro Knoten 12 und unterschiedliche Anzahlen an Peripheriegeräten 16, die mit dem Knoten verbunden sind, und dergleichen, enthalten sein.
2 ist eine Blockansicht einer weiteren Ausführungsform eines Computersystems 20. Komponenten, die in 1 gezeigt sind, sind der Klarheit und der Einfachheit halber mit gleichen Bezugszahlen belegt. Ähnlich zu dem Computersystem 10 aus 1 umfasst das Computersystem 20 aus 2 einen Verarbeitungsknoten 22, der mit einem Speicher 14 und Peripheriegeräten 13A–13B verbunden ist. Der Verarbeitungsknoten 22 enthält ähnliche Funktionen wie der Knoten 12 aus 1. Folglich werden nur die unterschiedlichen Funktionen beschrieben, während die Funktionen, die gleich sind zu dem Knoten 12, der Kürze halber weggelassen werden. Zu beachten ist, dass der Verarbeitungsknoten 22 aus
2 diverse andere Schaltungen enthalten kann, die der Einfachheit halber nicht gezeigt sind.
In der in 2 dargestellten Ausführungsform enthält ähnlich wie der Verarbeitungsknoten 12 auch der Verarbeitungsknoten 22 Prozessorkerne 15A–15B, die mit einer Knotensteuerung 20 verbunden sind, die wiederum mit einer Speichersteuerung 22 und mehreren HyperTransport^TM(HT)-Schnittstellenschaltungen 24A–24C verbunden ist. Des Weiteren sind die Prozessorkerne 15A–15B auch mit einem gemeinsamen Cache-Speicher der Ebene Drei (L3) 60 verbunden. Jedoch ist der L3-Cache-Speicher 60 mit einer Cache-Überwachungseinheit 95 und einer Konfigurationseinheit 65 verbunden. In einer Ausführungsform ist der Knoten 22 ein einzelner integrierter Schaltungs-Chip, der die in 2 gezeigte Schaltung enthält. Das heißt, der Knoten 22 ist ein Chip-Multiprozessor (CMP).
In der dargestellten Ausführungsform ist im Gegensatz zu der Ausführungsform aus 1 jeder der L2-Cache-Speicher 17A–17B auch mit der Cache-Überwachungseinheit 95 und der Konfigurationseinheit 65 verbunden. In einer Ausführungsform ist die Cache-Überwachungseinheit 95 ausgebildet, die Auslastung aller Cache-Speicher, die mit ihr verbunden sind (beispielsweise L2-Cache-Speicher 17A–17B und L3-Cache-Speicher 60) zu überwachen, wobei eine Funktion eingesetzt wird, wie dies zuvor in Bezug mit der 1 beschrieben ist.
In einer Ausführungsform enthält, ähnlich wie dies zuvor beschrieben ist, die Konfigurationseinheit 65 einen oder mehrere Speicher, die als 61 bezeichnet sind, etwa programmierbare Register, die Werte enthalten, die den diversen bevorzugten Konfigurationen und Zuständen der L2-Cache-Speicher 17A–17B und des L3-Cache-Speichers 60 entsprechen. Abgesehen von den in den Speichern 61 abgelegten Werten kann die Konfigurationseinheit 65 programmiert sein, um einen oder mehrere der unabhängig steuerbaren Speicherblöcke der L2-Cache-Speicher 17A–17B und des L3-Cache-Speichers 60 in Reaktion auf die Benachrichtigung von der Cache-Überwachungseinheit 95 zu aktivieren oder zu deaktivieren. In ähnlicher Weise können die in den Speichern 61 abgelegten Werte bestimmen, ob die Leistungszufuhr für einen gegebenen Block abgeschaltet oder dessen Spannung abgesendet werden soll. Zu beachten ist, dass der Speicher 61 in ähnlicher Weise wie die Speicher 42A, 42B und 51, die zuvor beschrieben sind, programmiert werden kann.
Des Weiteren kann die Konfigurationseinheit 60 so ausgebildet sein, dass es dem Prozessorkern 15A ermöglicht wird, den L2-Cache-Speicher 17B des Prozessorkerns 15B, abhängig von den darin gespeicherten Konfigurationswerten, zu benutzen und umgekehrt.
Beispielsweise kann in Reaktion darauf, dass die Cache-Überwachungseinheit 95 bestimmt, dass die aktuelle Auslastung des L2-Cache-Speichers 17A über einem oberen Schwellwert liegt, die Konfigurationseinheit 65 Zugriff auf den L2-Cache-Speicher 17B durch den Prozessorkern 15A ermöglichen. In derartigen Fällen kann die Konfigurationseinheit 65 den gemeinsamen Zugriff erlauben, wenn der L2-Cache-Speicher 17B Blöcke besitzt die deaktiviert und damit gemeinsam nutzbar sind.
3 zeigt ein Flussdiagramm, in welchem die Funktionsweise einer Ausführungsform des Verarbeitungsknotens 12 beschrieben ist. Es sei nun gemeinsam auf 1 und 3 verwiesen; in einer Ausführungsform werden, wenn der Knoten 12 zunächst eingeschaltet wird oder aus dem Reset-Zustand anläuft, die in der Konfigurationseinheit 42A gespeicherten Konfigurationswerte ausgelesen und verwendet, um den L2-Cache-Speicher 17A zu konfigurieren. In ähnlicher Weise können die in der Konfigurationseinheit 42B gespeicherten Konfigurationswerte ausgelesen und verwendet werden, um den L2-Cache-Speicher 17B zu konfigurieren, und die in der Konfigurationseinheit 50 gespeicherten Konfigurationswerte können ausgelesen und verwendet werden, um den L3-Cache-Speicher 60 zu konfigurieren. Bei einem Betrieb des Knotens 12 sind die Cache-Überwachungseinheiten 18A, 18B und 85 ausgebildet, die aktuelle Auslastung jedes jeweiligen Cache-Speichers zu überwachen (Block 300). Wie beispielsweise zuvor beschrieben ist, können die Cache-Überwachungseinheiten 18A, 18b und 85 die Cache-Zugriffshäufigkeit und die Verwendung von Cache-Einträgen verfolgen, um die aktuelle Auslastung ihrer entsprechenden Cache-Speicher zu bestimmen.
Im Block 305 bestimmt auf der Grundlage der aktuellen Auslastung die Cache-Überwachungseinheit 85, ob die entsprechende aktuelle Auslastung innerhalb vorbestimmter Grenzen liegt. In einer Ausführungsform vergleicht die Cache-Überwachungseinheit 85 die aktuelle Auslastung des L3-Cache-Speichers 60 mit einem oberen Schwellwert und einem unteren Schwellwert.
Wenn die aktuelle Auslastung innerhalb der vorbestimmten Schwellwerte liegt, setzt die Cache-Überwachungseinheit 85 die Überwachung der Auslastung des L3-Cache-Speichers 60 so fort, wie dies zuvor in Block 300 beschrieben ist. Wenn jedoch die aktuelle Auslastung nicht innerhalb der vorbestimmten Schwellwerte liegt und unterhalb des unteren Schwellwerts liegt (Block 305), gibt die Überwachungseinheit 85 eine Nachricht an die Konfigurationseinheit 50 aus (Block 310). Die Konfigurationseinheit 50 kann selektiv einen oder mehrere Blöcke des L3-Cache-Speichers 60 deaktivieren (Block 315). In einer Ausfüh rungsform deaktiviert die Konfigurationseinheit 50 Blöcke entsprechend den bevorzugten Konfigurationen, die in den Speichern 51 abgelegt sind, und in Reaktion auf die Nachricht. Wie beispielsweise zuvor beschrieben ist, kann die Leistung für die ausgewählten Blöcke abgeschaltet werden oder es kann eine geringere Spannung angelegt werden. In einer Ausführungsform können die zuerst ausgewählten Blöcke jene Blöcke sein, die am weitesten von den Prozessorkernen 15A–15B entfernt sind, da diese Blöcke die längsten Verzögerungswege repräsentieren. Sobald die ausgewählten Blöcke deaktiviert sind, setzt die Cache-Überwachungseinheit 85 die Überwachung der Auslastung fort, wie dies zuvor in Block 300 beschrieben ist.
Es sei nun wieder auf den Block 305 verwiesen; wenn die aktuelle Auslastung nicht innerhalb der vorbestimmten Schwellwerte liegt und über dem oberen Schwellwert ist, gibt die Cache-Überwachungseinheit 85 eine Nachricht an die Konfigurationseinheit 50 aus (Block 320). Die Konfigurationseinheit 50 kann selektiv einen oder mehrere deaktivierte Blöcke des L3-Cache-Speichers 60 aktivieren (Block 315), wenn deaktivierte Blöcke vorhanden sind. In einer Ausführungsform aktiviert die Konfigurationseinheit 50 Blöcke entsprechend bevorzugten Konfigurationen, die in den Speichern 51 abgelegt sind. Sobald die ausgewählten Blöcke erneut aktiviert sind, setzt die Cache-Überwachungseinheit 85 die Überwachung der Auslastung fort, wie dies zuvor in Block 300 beschrieben ist.
Im Block 330 bestimmen die Cache-Überwachungseinheiten 18A und 18B auf der Grundlage der aktuellen Auslastung, ob die entsprechende aktuelle Auslastung innerhalb der vorbestimmten Grenzen liegt. Insbesondere können in einer Ausführungsform die Cache-Überwachungseinheiten 18A–18B die aktuelle Auslastung der L2-Cache-Speicher 17A–17B mit einem oberen Schwellwert und einem untere Schwellwert vergleichen.
Wenn die aktuelle Auslastung innerhalb der vorbestimmten Schwellwerte liegt, setzen die Cache-Überwachungseinheiten 18A–18B, die Überwachung der Auslastung der L2-Cache-Speicher 17A–17B fort, wie dies in Block 300 zuvor beschrieben ist. Wenn jedoch die aktuelle Auslastung eines Cache-Speichers nicht innerhalb der vorbestimmten Schwellwerte liegt und unter dem unteren Schwellwert liegt (Block 330), liefert die entsprechende Cache-Überwachungseinheit 18A–18B eine entsprechende Nachricht an die Konfigurationseinheit 19A–19B (Block 335). Die Konfigurationseinheiten 19A–19B deaktivieren selektiv einen oder mehrere Blöcke der entsprechenden L2-Cache-Speicher 17A–17B (Block 340). In einer Ausführungsform deaktivieren die Konfigurationseinheiten 19A–19B Blöcke entsprechend den bevorzugten Konfigurationen, die in den Speichern 42A–42B abgelegt sind, und in Re aktion auf die gelieferte Nachricht. Wie beispielsweise zuvor beschrieben ist, kann die Leistung für die ausgewählten Blöcke abgeschaltet oder es kann eine reduzierte Spannung zugeführt werden. Ferner können in einer Ausführungsform die zuerst ausgewählten Blöcke jene Blöcke sein, die am weitesten von der CPU-Logik der Prozessorkerne 15A–15B entfernt sind, da diese Blöcke die längsten Verzögerungsstrecken repräsentieren. Sobald die ausgewählten Blöcke deaktiviert sind, setzen die Cache-Überwachungseinheiten 18A–18B die Überwachung der Auslastung in der in Block 300 beschriebenen Weise fort.
Es sei wieder auf den Block 330 verwiesen; wenn die aktuelle Auslastung nicht innerhalb der vorbestimmten Schwellwerte ist und über dem oberen Schwellwert liegt, liefern die Cache-Überwachungseinheiten 18A–18B eine Nachricht für die Konfigurationseinheiten 19A–19B (Block 345). Wenn einer der L2-Blöcke in dem betroffenen L2-Cache-Speicher deaktiviert ist (Block 350), kann die Konfigurationseinheit 19A–19B selektiv einen oder mehrere Blöcke der L2-Cache-Speicher 17A–17B aktivieren (Block 355). In einer Ausführungsform deaktivieren die Konfigurationseinheiten 19A–19B Blöcke entsprechend den bevorzugten Konfigurationen, die in den Speichern 42A–42B abgelegt sind, und in Reaktion auf die gelieferte Nachricht. Wie beispielsweise zuvor beschrieben ist, kann die Leistung für die ausgewählten Blöcke abgeschaltet werden oder es kann diesen eine geringere Versorgungsspannung zugeführt werden. Ferner sind in einer Ausführungsform die zuerst ausgewählten Blöcke jene Blöcke, die am weitesten von den Prozessorkörnern 15A–15B entfernt sind, da diese Blöcke die längsten Verzögerungsstrecken repräsentieren. Sobald die ausgewählten Blöcke deaktiviert sind, setzen die Cache-Überwachungseinheiten 18A–18B die Überwachung der Auslastung fort, wie dies zuvor in Block 300 beschrieben ist.
Wenn jedoch keine deaktivierten Blöcke in dem betroffenen L2-Cache-Speicher vorhanden sind (Block 350), fordert die Konfigurationseinheit des betroffenen L2-Cache-Speichers (d. h. des L2-Cache-Speichers, der stark ausgelastet ist) von der Konfigurationseinheit des anderen Prozessorkerns eine Zugriffserlaubnis an, um den L2-Cache-Speicher des anderen Kerns zu benutzen. Wenn z. B. die Cache-Überwachungseinheit 18B erkennt, dass die aktuelle Auslastung des L2-Cache-Speichers 17B über dem oberen Schwellwert liegt, kann die Konfigurationseinheit 19B Zugriff von der Konfigurationseinheit 19A für den L2-Cache-Speicher 17A anfordern. In Reaktion auf die Anforderung bestimmt die Konfigurationseinheit 19A, ob der L2-Cache-Speicher 17A deaktivierte Blöcke für eine gemeinsame Benutzung aufweist (Block 360). Wenn dies der Fall ist, gewährt die Konfigurationseinheit 19A Zugriff für den Prozessorkern 15B, um die deaktivierten Blöcke des L2-Cache-Speichers 17A gemeinsam zu nutzen (Block 365). Die deaktivierten Blöcke können dann reaktiviert werden. Der Ablauf geht dann weiter, wie dies zuvor in Block 300 beschrieben ist.

Claims

Verfahren zum dynamischen Konfigurieren eines Cache-Speichers in einem Verarbeitungsknoten (12, 22) mit mehreren Prozessorkernen (15A, 15B), wobei jeder Prozessorkern einen Cache-Speicher enthält, und wobei das Verfahren umfasst: unabhängiges Überwachen einer entsprechenden aktuellen Auslastung jedes der Cache-Speicher; Bestimmen, ob die entsprechende aktuelle Auslastung unterhalb eines vorbestimmten Auslastungswerts liegt; und in Reaktion darauf, dass bestimmt wird, dass die aktuelle Auslastung unter dem vorbestimmten Auslastungswert liegt, selektives Deaktivieren eines oder mehrerer Bereiche des entsprechenden Cache-Speichers; Bestimmen, ob die entsprechende aktuelle Auslastung oberhalb eines vorbestimmten Auslastungswerts liegt; und in Reaktion darauf, dass bestimmt wird, dass die aktuelle Auslastung über dem vorbestimmten Auslastungswert liegt, Erlauben eines gemeinsamen Zugriffs auf einen oder mehrere Bereiche des entsprechenden Cache-Speichers eines anderen der Prozessorkerne (15A, 15B), die in Reaktion darauf, dass für diesen Cache-Speicher des anderen der Prozessorkerne (15A, 15B) bestimmt wird, dass die aktuelle Auslastung unter dem vorbestimmten Auslastungswert liegt, deaktiviert worden sind.
Verfahren nach Anspruch 1, das ferner das Speichern des vorbestimmten Auslastungswerts in einem konfigurierbaren Speicher (442) umfasst.