EP1163587A1

EP1163587A1 - Einrichtung zur erhöhung der leistungsfähigkeit von prozessorsystemen

Info

Publication number: EP1163587A1
Application number: EP00908968A
Authority: EP
Inventors: Annie Stoess; Johann Schachtner; Wolfgang Ziemann
Original assignee: Fujitsu Technology Solutions GmbH
Current assignee: Fujitsu Technology Solutions GmbH
Priority date: 1999-02-26
Filing date: 2000-02-01
Publication date: 2001-12-19
Also published as: TW502163B; WO2000052582A1

Abstract

Zur Erhöhung der Leistungsfähigkeit von Prozessorsystemen bestehend aus einer grossen Zahl von Einzelprozessoren, das zur Aufrechterhaltung der Cachekohärenz innerhalb des Prozessorsystems sich des MESI-Zustandsmodells bedient, wird vorgeschlagen, das an sich auf vier Zustände begrenzte MESI-Zustandsmodell mit weiteren Zuständen zu erweitern. Die Zustandssituationen innerhalb des Prozessorsystems können auf diese Weise differenzierter behandelt und unnötige Buszugriffe vermieden werden. Die freiwerdende Bearbeitungskapazität kann zur Leistungssteigerung des Systems genutzt werden.

Description

Beschreibung

Einrichtung zur Erhöhung der Leistungsfähigkeit von Prozessorsystemen

Die Erfindung betrifft eine Einrichtung zur Erhöhung der Leistungsfähigkeit von Prozessorsystemen gemäß dem Oberbegriff des Anspruchs 1.

Große Server bestehen aus einem Prozessorsystem mit einer großen Anzahl von Einzelprozessoren. Die Anzahl der Einzelprozessoren betragt beispielsweise 16, 32, 64, 128 u.s.w.. solche Server sind als UNIX- oder als NT-Systeme bekannt. Die Einzelprozessoren haben heute meistens einen Cachespeicher bereits im Chip. Es wird daher auch von einem sogenannten On- Chip First Level Cachespeicher beziehungsweise von einem First Level Cachespeicher gesprochen. Den Einzelprozessoren können daneben außerhalb des Chips noch weitere Cachespeicher zugeordnet sein. Bei einem ersten weiteren solchen Cachespei- eher wird dann von einem sogenannten Off-Chip Second Level Cachespeicher beziehungsweise von einem Second Level Cachespeicher gesprochen. Neben den First und Second Level Cachespeichern können zusatzliche Chachespeicher vorgesehen sein, die dann beispielsweise als Third Level Cachespeicher bezeichnet werden.

Die zusatzlichen Cachespeicher sind insbesondere verwendet, um jeweils einzeln oder gruppenweise Einzelprozessoren zu einem Cluster zusammenfassen. Heutige Standardprozessoren er- lauben nur den Ausbau von jeweils bis zu vier Einzelprozessoren. Werden mehrere solche zusätzlichen Cachespeicher mit zum Beispiel jeweils vier Einzelprozessoren vorgesehen, können die oben erwähnten großen Prozessorsysteme aufgebaut werden. Die einzelnen zusätzlichen Cachespeicher müssen dabei cachekoharent miteinander verkoppelt sein. Die Verkopplung konnte Hierarchieabstufungen beinhalten, m denen nicht nur jeweils vier Einzelprozessoren, sondern jeweils auch mehrere zusatzliche Cachespeicher miteinander verkoppelt werden. Als Ergebnis wird ein Prozessorsystem mit einer großen Anzahl vor Einzelprozessoren erhalten, das eine große Leistungsfähigkeit hat.

Wie oben angesprochen, muss sich ein Prozessorsystem cachekoharent verhalten. Hierzu ist es möglich, die Bustransaktionen zu beobachten und zu interpretieren. Aus der Analyse der Bustransaktionen kann geschlossen werden, in welchen Zu- Standssituationen sich die Cachedatenblocke der von der Bustransaktion betroffenen Cachespeicher befinden. Ist bekannt, m welchen Zustandssituationen sich die Cachedatenblocke befinden, kann dafür gesorgt werden, dass innerhalb des Prozessorsystems Cachekoharenz hergestellt bzw. aufrechterhalten wird.

Die Beschreibung der Zustande der Cachedatenblocke kann mittels eines Cache-Protokolls erfolgen. Ein bekanntes Cache- Protokoll folgt dem sogenannten MESI-Standard. Gemäß dem MESI-Standard wird den einzelnen Cachedatenblocken einer von vier vordefinierten MESI-Zustanden zugeordnet. Die vier vor- defimerten MESI-Zustande sind: MODIFIED (M) , EXCLUSIVE (E) , SHARED (S) und INVALID (I) . Diese Zustande sind mit zwei MESI-Bits kodiert darstellbar.

MODIFIED bedeutet, dass der zugehörige Cachespeicherblock exklusiv im Cachespeicher enthalten ist, aber neu geschrieben worden ist. Er ist aktuell nicht im übrigen Prozessorsystem bekannt. EXCLUSIVE bedeutet, dass der zugehörige Cachespei- cherblock nicht verändert ist. Er stimmt mit dem Inhalt des

System-Hauptspeichers uberein. SHARED bedeutet, dass sich der zugehörige Cachespeicherblock noch m einem weiteren Cachespeicher befindet und noch gültig ist. INVALID bedeutet, dass der zugehörige Cachespeicherblock ungültig oder nicht im TAG- RAM des Speichers vorhanden ist. Der Zustand eines Cachespeicherblocks kann durch einen jeweilig zugeordneten Einzelprozessor über einen Lese- und Schreibvorgang abgeändert werden. Der Zustand kann auch durch ein systeminternes Abfragen, auch als Snooping bekannt, abge- ändert werden. Er kann ebenso von externen Logikeinheiten, z.B. einem anderen Einzelprozessor oder einem Second Level Cachespeicher, d.h. durch ein externes Snooping, abgeändert werden. In jedem Fall befindet sich zu jedem Zeitpunkt ein jeweiliger Cachespeicherblock nur in einem der vier genannten MESI-Zustände.

Eine genauere Funktionsbeschreibung des MESI-Protokolls ist beispielsweise im Internet unter der Internetadresse: http: //www.altavista. com/egi- bin/query?pg*=q&kl=de&q=MESI&search=Search, Punkt 1, "Pentium: Neuerungen in der x86 Architektur", zuletzt geändert am 28.3.1997 bzw. in der dazugehörigen Schrift im Internet mit der Internetadresse: http : //plweb.htu. tuwien. ac. at/pentium, Punkt 2.7.1 M.E.S.I. -Protokoll offenbart.

Eine Möglichkeit, die Cachekohärenz in einem Prozessorsystem mit zusätzlichen Cachespeichern zu gewährleisten ist, sicherzustellen, dass die zusätzlichen Cachespeicher eine Obermenge aller Cachedatenblöcke der mit ihnen direkt in Verbin- düng stehenden anderen Cachespeicher haben. Dazu ist es erforderlich, dass bei allen Verdrängungsvorgängen eine Update- Anforderung zum Beispiel an einen angeschlossenen Einzelprozessor bzw. dessen Cachespeicher gerichtet und ein vom Verdrängungsvorgang betroffener Cachespeicherblock zurückgefor- dert wird. Für derartige Update-Anforderungen bzw. deren Abarbeitung ist eine Systemleistung erforderlich, die einem Anwender nicht als Nutzleistung zur Verfügung steht. Die Leistungsfähigkeit des Gesamtsystems ist daher eingeschränkt.

Aufgabe der vorliegenden Erfindung ist es daher, technische Maßnahmen anzugeben, durch die die Leistungsfähigkeit insbesondere eines großen Prozessorsystems erhöht wird. Diese Aufgabe wird erfindungsgemäß durch eine Einrichtung im Prozessorsystem gelöst, die die Merkmale des Anspruchs 1 auf^¬ weist.

Danach haben die zusätzlichen Cachespeicher nicht nur eine einfache Cachespeicherblock-Verwaltung über die Zustände M, E, S und I realisiert, sondern es ist eine kombinierte Zu- standsverwaltung zwischen jeweiligen zusätzlichen Cachespei- ehern bzw. den Cachespeichern der Einzelprozessoren realisiert. Diese kombinierte Zustandsverwaltung zeigt sich in der Erweiterung der MESI-Zustände des Cache-Protokolls der zusätzlichen Cachespeicher. Der Vorteil ist, dass eine erhöhte Anzahl von Update-Anforderungen (Requests) in Richtung andere Stellen im Prozessorsystem eingespart werden können, da auf Grund der erweiterten MESI-Zustände vorab entschieden werden kann, dass betreffende angeforderte Cachedatenblöcke nicht an den anderen Stellen im Prozessorsystem sein können. Der Leistungsaufwand, der für diese Update-Anforderungen bisher be- nötigt wurde, steht daher jetzt dem Prozessorsystem als Nutzleistung zur Verfügung. Die Leistungsfähigkeit des Prozessorsystems ist somit erhöht.

Zu einer Erhöhung der Leistungsfähigkeit des Prozessorsystems trägt außerdem der Umstand bei, dass auf Grund der erweiterten MESI-Zustände nochmals einige Fälle unterschieden werden können, in denen zwar Handlungen nötig sind, die aber insgesamt schneller erfüllt werden können. Beispielsweise gibt es Fälle, in denen zwar auf Grund einer vorausgehenden Update-Anforderung von einem Teil des Prozessorsystems an einen zusätzlichen Cachespeicher eine vom zusätzlichen Cachespeicher durchgeführte nachfolgende Update-Anforderung an niedrigere Cachehierarchien notwendig ist. Beispielsweise um zu erreichen, dass ein betreffender Cachespeicherblock den MESI-Zustand I zugewiesen bekommt. In den besagten Fällen kann aber auf Grund des vorliegenden erweiterten MESI-Zu- stands bekannt sein, dass vom betreffenden Cachespeicherblock nicht vorher noch modifizierte Daten zu übertragen sind. In diesen Fallen beispielsweise kann der zusätzliche Cachespei^¬ cher dem die vorausgegangene Update-Anforderung initiierenden Teil des Prozessorsystems sofort mitteilen, dass die besagte MESI-Zuweisung erfolgt ist, obwohl diese Zuweisung vom zu^¬ sätzlichen Cachespeicher tatsächlich erst in einer anschließenden Maßnahme veranlasst wird. Das Prozessorsystem braucht daher nicht bis zur Bestätigung des tatsächlichen Endes der Update-Anforderung warten, sondern kann sofort mit nächsten Aufgaben beginnen.

Vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand von Unteranspruchen.

Danach ist ein Prozessorsystem bezüglich seiner Cachespeicherstruktur hierarchisch gegliedert, um durch Abfangen von Update-Anforderungen bereits an möglichst hohen Hierarchieebenen ein Maximum an eingesparten Update-Anforderungen m Richtung darunter liegender Hierarchieebenen zu erhalten.

Durch Auswahl geeigneter MESI-Zustande kann die Anzahl benö^¬ tigter MESI-Zustande möglichst gering gehalten werden. Bei einer möglichst geringen Anzahl von MESI-Zustanden ist eine möglichst geringe Anzahl von Kodierungsstellen bei der digi- talen Kodierung der MESI-Zustande notig. Der Hardwareaufwand ist dadurch reduziert.

Nachfolgend wird die Erfindung anhand einer Zeichnung naher erläutert. Darin zeigen

Figur 1 eine Prinzipschaltung eines großen Prozessorsystems gemäß dem Stand der Technik, Figur 2 ein Zustandsubergangsdiagramm von MESI-Zustanden gemäß dem Stand der Technik, Figur 3 ein Zustandsubergangsdiagramm von erweiterten MESI- Zustanden gemäß der Erfindung, und Figur 4 eine Tabelle mit Situationen, in denen bei einer

Anwendung von erweiterten MESI-Zustanden gemäß der Figur 3 gegenüber einer Anwendung von MESI-Zustan^¬ den gemäß der Figur 2 Systemleistung eingespart und als Nutzleistung von einem Prozessorsystem gemäß der Figur 1 genutzt werden kann.

Die Figuren 1 bis 4 sollen helfen, den erfmdungsgemaßen Sachverhalt darzustellen. Sie erheben keinen Anspruch auf Vollständigkeit. Insofern bezieht sich die nachfolgende Beschreibung auf eine mögliche Ausfuhrungsform des Standes der Technik und der Erfindung.

Figur 1 zeigt zwei Gruppen mit jeweiligen Einzelprozessoren EP, die über jeweilige erste Busse BSl mit jeweils einem zusatzlichen Cachespeicher CS verbunden sind. Die jeweiligen zusatzlichen Cachespeicher CS sind über einen gemeinsamen zweiten Bus BS2 mit einer Hauptspeicherkomponente MEM verbunden. Der zweite Bus BS2 kann auch als Cache- oder System-Bus bezeichnet werden. An den zweiten Bus BS2 können neben den zusatzlichen Cachespeichern können alle Arten von I/O- bzw. Verbindungssystemen zu weiterfuhrenden Systemkomponenten angeschlossen sein. Im vorliegenden Ausfuhrungsbeispiel sind zumindest zeichnerisch keine weiteren Systeme angeschlossen. So wie der zweite Bus BS2 als Cache- oder System-Bus bezeichnet werden kann, kann der erste Bus BSl als Prozessor-Bus bezeichnet werden.

Das m der Figur 1 gezeigte Prozessorsystem ist hierarchisch aufgebaut. Aus der Sicht der zusatzlichen Cachespeicher CS sind m Richtung erste Busse BSl niedrigere und m Richtung zweiter Bus BS2 höhere Hierarchiestufen angeordnet.

Die Verbindungen zwischen den Einzelprozessoren EP und dem jeweils zugehörigen ersten Bus BSl, zwischen den ersten Bussen BSl und den jeweiligen zusätzlichen Cachespeichern CS, zwischen den zusätzlichen Cachespeichern CS und dem zweiten Bus BS2, sowie zwischen dem zweiten Bus BS2 und der Haupt^¬ speicherkomponente MEM sind jeweils bidirektional ausgebil^¬ det, so dass zwischen allen Komponenten in allen Richtungen Daten und Codes und sonstige benötigte Informationen über- tragbar sind.

Die Einzelprozessoren EP haben intern und extern jeweils einen Cachespeicher, die in der Figur 1 nicht näher dargestellt sind. Die Cachehierarchie, die durch die beiden Cachespeicher eines Einzelprozessors EP zusammen gebildet wird, wird nachfolgend als Second Level Cachespeicher (SLC) bezeichnet. Soweit vom SLC gesprochen wird, ist darunter auch der zugehörige Einzelprozessor EP zu verstehen, der die beiden Cachespei- cher steuert. Umgekehrt sind, soweit ein Einzelprozessor EP angesprochen ist, die beiden intern und extern zu dem Einzelprozessor EP gehörenden Cachespeicher angesprochen.

Die Kurzbezeichnung SLC ist in den Figuren 2 bis 4 verwendet. Demgegenüber sind die zusätzlichen Cachespeicher CS als Third Level Cachespeicher (TLC) bezeichnet. Die Kurzbezeichnung TLC ist ebenfalls in den Figuren 2 bis 4 verwendet. Die Kurzbezeichnung TLC wird nachfolgend wahlweise an Stelle des Begriffs "zusätzliche Cachespeicher CS" verwendet.

Anforderungen (Requests) zwischen den zusätzlichen Cachespeichern CS und den Einzelprozessoren EP sind als interne Anforderungen aufzufassen, während Anforderungen zwischen den zusätzlichen Cachespeichern CS und der Hauptspeicherkomponente MEM bzw. der am Cachespeicherbus BS2 ansonsten angekoppel- ten Komponenten, zum Beispiel I/O-Komponenten, als externe Anforderungen aufzufassen sind.

Befehle, die Anforderungen und deren Abarbeitung im Prozessorsystem initiieren und bei der Aufrechterhaltung der Cache- kohärenz eine Rolle spielen, können zum Beispiel sein:

PREFETCH, READSHARED (RDS), READEXCLUSIVE (RDE), READMODIFIED (RDM) und WRITE (WR) . Diese Befehle verursachen Übergänge von Zustanden, die betroffenen Cachedatenblocke auf Grund eines nach dem MESI-Pπnzip arbeitenden Cache-Protokolls zur Aufrechterhaltung der Cachekoharenz zugeordnet sind. Mögliche Zustandsubergangsdiagramme sind den Figuren 2 und 3 zu ent- nehmen.

Das m der Figur 2 gezeigte Zustandsubergangsdiagramm basiert darauf, dass das oben angesprochene Cache-Protokoll mit vier MESI-Zustanden arbeitet. Das in der Figur 3 gezeigte Zu- standsubergangsdiagramm basiert darauf, dass das oben angesprochene Cache-Protokoll mit erweiterten MESI-Zustanden arbeitet. Im vorliegenden Fall arbeitet das Cache-Protokoll mit 8 MESI-Zustanden. Die Zustandsubergangsdiagramme der Figuren 2 und 3 sind aus der Sicht eines Speicherblocks eines zusatz- liehen Cachespeichers CS zu sehen. Die Cachespeicher der Einzelprozessoren EP haben entsprechende Zustandsubergangsdiagramme .

Die nachfolgende Beschreibung bezieht sich auf die Figur 2

Ausgehend von einem Zustand I eines betreffenden Cachespeicherblocks eines zusatzlichen Cachespeichers CS, der anzeigt, dass der Eintrag des betreffenden Cachespeicherblocks ungültig ist, fuhrt ein an den zusatzlichen Cachespeicher CS ge- richteter interner RDS-Befehl bezüglich diesen Cachespeicherblocks letztlich zu einem Zustandsubergang vom Zustand I zum Zustand S. Vorher wird aber der Eintrag, da der im zusatzlichen Cachespeicher CS vorliegende Eintrag ungültig ist, durch den zusätzlichen Cachespeicher CS aktualisiert. Dazu sind Nachfragen bei den anderen Cachespeichern notig, um festzustellen, wo ein aktueller Eintrag zu finden ist. Dieser Vorgang wird nachfolgend auch als TLC-Command bezeichnet. Nach Abschluss des TLC-Commands steht der Eintrag als ein gemeinsam genutzter, gültiger Eintrag im zusätzlichen Cachespeicher CS . Entsprechendes gilt, wenn bei gleicher Ausgangslage anstelle des RDS-Befehls, unter der Voraussetzung, dass eine solche Möglichkeit überhaupt gegeben ist, eine Prefetch- Anforderung durchgeführt wird.

In den Kästen unterhalb des Zustandsübergangsdiagramms ist im linken Kasten eine Aufstellung der möglichen vier Zustände gezeigt. Daneben sind für den SLC die in den jeweiligen Fällen möglichen Zustände gezeigt. Es sind auch die für den TLC möglichen Zustände gezeigt. Da die Betrachtung von einem TLC ausgeht, stimmen dieses Zustände mit den in der ersten Spalte des Kastens angegebenen Zustände überein. Wenn nachfolgend der Einfachheit halber auch nicht stets explizit angegeben, betreffen bei der Angabe von MESI-Zuständen jeweilige Cachespeicherblöcke in einem betreffenden Cachespeicher.

Der ersten Zeile des angesprochenen Kastens ist zu entnehmen, dass bei einem Zustand I im TLC im SLC ebenfalls der Zustand I vorherrscht. Dies ist deshalb so, weil im vorliegenden Ausführungsbeispiel der TLC eine Obermenge zwar nicht unbedingt der tatsächlichen Einträge aber der Informationen über die Zustände der Einträge der angeschlossenen SLC hat. Dies hat zur Folge, dass im SLC stets nur gleiche bzw. nied- rigwertigere Zustände auftreten. Umgekehrt gilt, dass der Zu^¬ stand im TLC stets gleich oder höherwertiger ist, als der Zu^¬ stand der SLC.

Eine Ausnahme bildet der Zustand Exclusive, da dieser Zustand im wesentlich nur dann sinnvoll ist, wenn zumindest beabsichtigt ist, den betreffenden Eintrag zu modifizieren. Da der TLC bei einer Exclusive-Anforderung nicht weiß, ob der ange- forderte Eintrag tatsächlich modifiziert wird, hat er trotzdem davon auszugehen, dass der Eintrag modifiziert wird. Bei einer Exclusive-Anforderung kann daher der tatsächliche Zustand in einem SLC auch M sein. Dieser Umstand spielt keine Rolle, weil eine Modify-Anforderung letztlich eine Exclusive- Anforderung ist, lediglich mit der Bestimmtheit, dass der Eintrag modifiziert wird. Ist ein Eintrag im TLC bereits als S markiert und ergeht an den TLC ein RDS-Befehl bezüglich dieses Eintrags, ändert sich der MESI-Zustand des Eintrags nicht. Auf der anderen Seite kann aber der Eintrag m einem SLC, nachdem er vom TLC geholt worden ist, wieder verworfen werden. Eine Abstufung des MESI- Zustandes bezüglich dieses Eintrags im SLC durch den zugehörigen Einzelprozessor EP ist daher möglich. Dies spielt für den TLC keine Rolle, da der Eintrag selbst nicht verändert wurde und somit insgesamt noch Gültigkeit hat. Eine Verande- rung wurde der TLC bemerken, weil dazu vorher der Eintrag durch den betreffenden Einzelprozessor in einen E- bzw. M- Zustand gebracht worden sein muss. Mit dem RDS- oder Pre- fetch-Befehl ist keine Berechtigung einer Modifizierung verbunden. Hinter dem Zustand S eines Eintrags im TLC kann daher bezuglich dieses Eintrags im SLC, das heißt allgemein m niedrigeren Cachehierarchien tatsächlich einer der MESI- Zustande I oder S für einen betreffenden Eintrag stehen. Dieser Sachverhalt ist m dem oben angesprochenen unteren linken Kasten m der zweiten Zeile angegeben.

Dieses Prinzip gilt auch für die nachfolgenden Betrachtungen, weshalb dort nicht mehr stets m dieser Ausführlichkeit eingegangen wird.

Die Befehle RDE oder RDM fordern vom TLC einen Eintrag Exclu- sive an. Unabhängig davon, ob für den Eintrag vorher im TLC der Zustand I oder S vorgemerkt ist, wird nachfolgend der Eintrag im TLC als Zustand E markiert. Gemäß dem oben Gesagten kann im SLC für diesen Eintrag letztlich tatsachlich ei- ner der Zustande I, S, E oder M zugeordnet sein. Dieser Sachverhalt ist m dem unteren linken Kasten m der dritten Zeile angegeben.

Jeder der Befehle RDE oder RDM bewirkt ein TLC-Command, das heißt ein Bus-Request, da der TLC vor der Übergabe des Eintrags dafür sorgen muss, dass ausgehend von dem betreffenden TLC in den niedrigeren Cachehierarchien des Prozessorsystems dieser Eintrag mit dem Zustand I markiert wird.

Hat ein SLC einen Eintrag des TLC mit dem Befehl RDE oder RDM angefordert und dann modifiziert, hat er dafür zu sorgen, dass der modifizierte Eintrag wieder mit dem WR-Befehl m den TLC zurückgeschrieben wird. Der TLC markiert daraufhin den modifizierten Eintrag mit dem Zustand M.

Nach dem modifizieren des angeforderten Eintrags kann der anfordernde SLC den Eintrag modifiziert behalten und als solchen kennzeichnen. Er kann den Eintrag auch zurückschreiben und m Folge des Zuruckschreibens den Zustand des Eintrags herabstufen und ihn nur noch zum Beispiel im Zustand E fuh- ren. Sollte der Eintrag im SLC angefordert oder verdrangt werden, kann der Eintrag m entsprechender Weise entweder den Zustand S oder den Zustand I vom SLC zugewiesen bekommen. Dies ist möglich, weil der Zustand M vor den Zustanden E, S oder I m dieser Reihenfolge am höchstwertigen ist. Der vor- stehende Sachverhalt ist m dem m der Figur 2 unten links angegebenen Kasten m der vierten Zeile angegeben.

Ergeht an den TLC ein RDS-, RDE- oder WR-Befehl bezüglich des betreffenden Cachespeicherblocks mit dem Zustand M, wird der Zustand zu diesem Eintrag im TLC nicht verändert. Ergeht an den TLC ein RDM-Befehl, kann m einer vorteilhaften Ausfuhrungsform der Erfindung der Zustand zum betreffenden Eintrag an Stelle des Vermerks M der Vermerk E gefuhrt werden. Dies hat den Vorteil, dass m manchen Fallen der Cachespeicher- block nicht m unnötiger Weise gelesen wird. Wird ein

Cachespeicherblock von einem m einer niedrigeren Cachehierarchie angeordneten Einzelprozessor EP mit RDM angefordert, weiß der TLC, dass der Cachespeicherblock tatsächlich verändert wird. Diese Information ist Teil der RDM-Anforderung. Wurde der Cachespeicherblock nicht mit Sicherheit verändert werden, wurde er mit dem RDE-Befehl angefordert werden. Mit anderen Worten, wird ein Cachespeicherblock mit einem RDM-Be- fehl angefordert, hat letztlich der anfordernde Einzelprozessor bzw. der zugehörige SLC die neuesten Daten Exclusive. Wird dieser Sachverhalt gleich als solcher Vermerkt, werden die Daten bei einem Zugriff auf diese Daten nicht erst im TLC gesucht, sondern sofort mit einem entsprechenden Zeitgewinn m einem angeschlossenen SLC.

In der Figur 2 ist unten rechts ein zweiter Kasten gezeichnet, m dem die oben angesprochenen Befehle nochmals aufge- fuhrt sind. Neben den Befehlen stehen wesentliche Aktionen, die bei diesen Befehlen bezüglich des TLC bzw. SLC ausgehend von möglichen unterschiedlichen Ausgangszustanden eines betreffenden Cachespeicherblocks durchgeführt werden. Gleicher Kasten mit gleicher Bedeutung ist auch unter dem Zustands- ubergangsdiagramm der Figur 3 gezeichnet.

In der Figur 3 ist ein gegenüber dem Zustandsdiagramm der Figur 2 erweitertes Zustandsubergangsdiagramm zu sehen. Das Zustandsubergangsdiagramm gemäß der Figur 3 hat die erweiterten Zustande SI, ES, MI und MS. Die Zustande II, SS, EM und MM gehen m der angegebenen Reihenfolge von den Zustanden I, S, E und M des Zustandsubergangsdiagramms der Figur 2 aus.

Der erste Buchstabe einer Zustandsbezeichnung bezieht sich auf den Zustand im TLC, wahrend sich der zweite Buchstabe auf den Zustand im SLC bzw. m einer niedrigeren Cachehierarchie- stufe bezieht.

Im Ausfuhrungsbeispiel ist als Eintrag für die Zustandsbe- Schreibung eines Cachespeicherblocks an Stelle des Eintrags EE der Eintrag EM gewählt, weil zum Beispiel ausgehend von den Zustanden SI bzw. SS bei Ankommen eines RDE-Befehls seitens eines Einzelprozessors EP an den TLC der TLC damit rechnen muss, dass wenn ein Einzelprozessor EP einen Cachespei- cherblock Exclusive anfordert, er ihn möglicherweise auch modifiziert. Da der TLC die Obermenge über die Zustandssitua- tion im System zu behalten hat, trägt er sich die neue Situation als EM ein.

Im Falle, dass der betreffende Cachespeicherblock gleich mit einem RDM-Befehl von einem Einzelprozessor EP angefordert wird, ist die Situation soweit klar, dass der angeforderte Cachespeicherblock modifiziert wird. Der Eintrag EM bezüglich des angeforderten Cachespeicherblocks ist daher folgerichtig.

Insgesamt wird mit dieser Methode eine Optimierung des Zu- standsübergangsdiagramms erzielt, weil eine Zustandssituation nicht dargestellt werden muss, für deren datentechnische Codierung möglicherweise eine zusätzliche Bitstelle bereitgestellt werden muss. Acht Zustände lassen sich mit drei Bitstellen kodieren. Bei neun und mehr Zuständen sind mehr als drei Bitstellen nötig.

Bei einer Exclusive-Anforderung (RDE-Befehl) eines Cachespeicherblocks durch einen Einzelprozessor EP ist es, wie oben angesprochen nicht zwingend, dass der Cachespeicherblock modifiziert wird. Der anfordernde Einzelprozessor EP hat den betreffenden Cachespeicherblock Exclusive und kann letztlich alle möglichen Varianten der Behandlung durchführen. Er kann ihn beispielsweise an andere Stellen weitergeben oder ihn verdrängen. Im ersten Fall hätte der TLC für den betreffenden Cachespeicherblock den Zustand ES reservieren müssen, im zweiten Fall als EI. Alle diese Fälle deckt der TLC mit der Zustandsbeschreibung EM ab, weil diese die Sicherheit gibt, dass bezüglich des betreffenden Cachespeicherblocks auf jeden Fall dann erhalten wird, wenn er sich an den betreffenden

Einzelprozessor EP wendet. Die vorgenannten Fälle sind in dem linken unteren Kasten der Figur 3 in Zeile fünf vermerkt.

Die Zeile 5 des linken unteren Kastens der Figur 3 entspricht der Zeile 3 im linken unteren Kasten der Figur 2. Außerdem entsprechen in der angegebenen Reihenfolge die Zeilen 1, 3 und 8 des unteren linken Kastens der Figur 3 den Zeilen 1, 2 und 4 des linken unteren Kastens der Figur 2. Den Entsprechungen sind jeweils die oben erwähnten Prinzipien zu Grunde gelegt .

Da die Prinzipien, die dem Zustandsubergangsdiagramm der Fi^¬ gur 2 zu Grunde liegen, auch dem Zustandsubergangsdiagramm der Figur 3 zu Grunde liegen, beschrankt sich die Beschreibung des Zustandsubergangsdiagramms der Figur 3 im wesentlichen auf die Beschreibung der Unterschiede. Die einzelnen Zu- standsubergange und die Einnahme von Zustanden bei Vorliegen entsprechender Befehle können der Figur 3 entnommen werden.

Gemäß des Zustandsubergangsdiagramms der Figur 3 gibt es bezüglich eines TLC zwei Shared-, zwei Exclusive- und drei Mo- dified-Zustande . Bei Prefetch-Anforderungen ist beispielsweise klar, dass ein in den TLC geholter Eintrag nur im betreffenden TLC vorhanden ist. Für diese Situation trifft die Zustandsbeschreibung SI zu. Wird dieser Sonderfall, außer dem es noch andere geben kann, extra markiert, kann bei Anforde- rungen nach diesem Eintrag auf eine Anfrage auf anderen Ebenen verzichtet werden. Dadurch wird auf Seiten der ersten Busse BSl Kapazität frei, die für andere Bearbeitungen durch die Einzelprozessoren EP zur Leistungssteigerung des Prozessorsystems genutzt werden können.

Die Zustandssituation SI ist im linken unteren Kasten der Figur 3 m Zeile 2 notiert.

Bei den Exclusive-Zustanden gibt es bezüglich der TLC den zu- satzlichen Zustand ES. Dieser Zustand wird beispielsweise erhalten, wenn ein im TLC Exclusive vorliegender Eintrag von einem SLC Shared gelesen wird. In diesem Fall behalt der TLC den Zustand E bei und vermerkt den Cachespeicherblock bei sich für den SLC als Zustand S. Der TLC weiß dann, dass der Zustand im SLC tatsachlich nur S oder I sein kann. Der Zustand kann nicht M oder E sein, weil eine solche Berechtigungsanfrage nicht ergangen ist. Der Eintrag kann also auf keinen Fall verändert sein. Der Vorteil durch dieses Wissen wird im Zusammenhang mit der Figur 4 naher erläutert.

Die möglichen Zustande für die SLC-Ebene sind im linken un- teren Kasten der Figur 3 in Zeile 4 angegeben.

Neben der Zustandsbeschreibung MM sind die erweiterten Zu- standssituationen MI und MS in der Figur 3 angegeben.

Hatte sich ein SLC einen Eintrag des TLC Exclusive geholt, modifiziert und dann mit dem WR-Befehl m den TLC zurückgeschrieben, dann nimmt der TLC für diesen Cachespeicherblock den Zustand MI ein. Der SLC hat den Eintrag verdrangt und ist dort nicht mehr gültig. In die gleiche Situation gelangt der TLC, wenn er einen modifizierten Eintrag hatte, also für diesen Eintrag im Zustand MM war, und auf den Eintrag nochmals mit einem WR-Befehl geschrieben wird. Auch dann nimmt der TLC den Zustand MI ein. In diesem Zustand weiß der TLC, dass der betreffende Eintrag nicht mehr beispielsweise bei einem SLC sein kann.

Diese Situation ist im linken unteren Kasten der Figur 3 m der Zeile 6 notiert.

Schließlich gibt es noch den erweiterten Zustand MS, der unabhängig davon auftritt, ob für einen SLC der Zustand I oder M eingetragen ist. Der Zustand MS tritt auf, wenn von einem SLC Shared gelesen wird. Wie oben schon mehrfach angesprochen, kann aber ein SLC nach einer entsprechenden Aktion ei- nen logisch gesehen herabgesetzten Zustand verursachen, so dass letztlich hinter der Zustandsbeschreibung MS für einen betreffenden SLC einer der Zustande I oder S stehen kann.

Dieser Sachverhalt ist im linken unteren Kasten der Figur 3 m Zeile 7 notiert. Der Vorteil der erweiterten Cachezustände liegt darin, dass der TLC eine tiefergehende Kenntnis über die Zustandssitua- tion innerhalb des Prozessorsystems hat, die es ihm ermög^¬ licht, beispielsweise die an die Einzelprozessoren EP ge- richteten Anforderungen gezielter weiterzuleiten bzw. abzu^¬ fangen. Letzteres kann erfolgen, weil die Anforderungen vom TLC selbst abgehandelt werden können. Die Auslastung der Pro^¬ zessorseite wird dadurch verringert. Die Einzelprozessoren EP können verstärkt Aufgaben zur Steigerung der Wirkleistung des Prozessorsystems warnehmen.

In Figur 4 sind einige Fälle dargestellt, in welchen Einsparungen bezüglich von Anforderungen an die Prozessorseite mög^¬ lich sind.

Als Beispiel sind zwei externe Befehle herangezogen worden. Unter einem externen Befehl ist, wie früher schon erwähnt, ein Befehl zu verstehen, der von der Systembusseite an den TLC gerichtet wird. Der eine externe Befehl ist ein RDS- und der andere ein RDE-Befehl.

In der Figur 4 ist in einem unteren Teil der Figur der Fall der erweiterten MESI-Zustände in einem oberen Teil der Figur der Fall der bisherigen vier MESI-Zustände gegenübergestellt.

Im Fall, dass ein Cachespeicherblock im TLC den Zustand I bzw. II hat, ist das Ergebnis in beiden Fällen das gleiche. In beiden Fällen sind keine Maßnahmen durchzuführen. In beiden Fällen liegt ein sogenannter MISS-Fall vor, das heißt, es können keine Daten geliefert werden.

Ist der Zustand des vom RDS- bzw. RDE-Befehl betroffenen Eintrags im TLC als S markiert, dann sind bei einem RDS-Befehl sowohl beim vierer als auch beim erweiterten Zustandsmodell keine Maßnahmen nötig, weil der Eintrag im TLC bereits S ist. Bezüglich des erweiterten Zustandsmodells macht es keinen Un- terschied, ob tatsächlich der Zustand SI oder SS vorgelegen hat.

Beim RDE-Befehl ist beim vierer Zustandsmodell sowohl bezüg- lieh des TLC als auch des SLC dafür zu sorgen, dass der dem betreffenden Cachespeicherblock zugewiesene Zustand von S nach I abgeändert wird. Der betreffende Cachespeicherblock ist dann Exclusive für an die Seite der Einzelprozessoren EP notwendig. Dies belastet den Prozessorbus, der deshalb für andere Aufgaben zeitweise nicht zur Verfügung steht.

Beim erweiterten Zustandsmodell ist bezüglich des RDE-Befehls nicht immer eine Anforderung an die Prozessorseite nötig. War zum Beispiel der vermerkte Zustand bezüglich des an- geforderten Eintrags beim TLC SI, ist es nicht mehr nötig, vom TLC aus dafür zu sorgen, dass ein betreffender SLC seinen Zustandsvermerk zum betreffenden Cachespeicherblock in den Zustand I abändert. Der TLC weiß bereits, dass der betreffende Cachespeicherblock auf Seiten der Einzelprozessoren als I eingestuft ist. In diesem Fall wird also die Prozessorseite nicht mehr extra belastet. Letztlich steht dadurch mehr Prozessorleistung für andere Aufgaben zur Verfügung.

Ist der Zustand des vom RDS- bzw. RDE-Befehl betroffenen Ein- trags im TLC E, ist es beim vierer Zustandsmodell und RDS-Befehl, bevor dafür gesorgt wird, dass ein betreffender Cachespeicherblock im TLC und in den niedrigeren Cachehierarchien den Zustand S zugewiesen bekommt, erforderlich, nachzusehen, ob nicht irgendwo im Prozessorsystem zwischenzeit- lieh neuere Daten zum betreffenden Cachespeicherblock vorliegen, da, wie oben schon erwähnt, ein als Exclusive angeforderter Cachespeicherblock später bei entsprechenden weiteren Aktionen durch die anfordernde Einheit in einen der Zustände M, E, S oder I gebracht werden konnte. Die Prozessor- seite wird daher in diesem Fall nicht produktiv belastet. Entsprechendes gilt beim RDE-Befehl mit dem Unterschied, dass die SLC-Emheiten dazu gebracht werden müssen, den betreffen^¬ den Cachespeicherblock mit dem Zustand I zu kennzeichnen. Auch hier wird die Prozessorseite unproduktiv belastet.

Mit dem erweiterten Zustandsmodell kann die Leistung des Prozessorsystems gesteigert werden, indem eine unproduktive Leistung eingespart wird. Hat beim erweiterten Zustandsmodell ein Cachespeicherblock den Zustand ES zugewiesen und erfolgt bezüglich dieses Cachespeicherblocks ein externer RDS-Befehl, können weitere Veranlassungen seitens des TLC in Richtung niedrigere Cachehierarchien entfallen. Über die SLC ist bereits bekannt, dass der betreffende Cachespeicherblock dort schon im Zustand S gefuhrt ist. Durch die Tatsache, dass der betreffende Cachespeicherblock m den niedrigeren Cachehierarchien im Zustand S gefuhrt ist, ist bekannt, dass m den niedrigeren Cachehierarchien keine Modifizierung bezüglich des betreffenden Cachespeicherblocks passiert ist. Es können also von Seiten der niedrigeren Cachehierarchien her keine aktuelleren Daten geholt werden. Es braucht somit weder nachgeprüft werden, ob aktuellere Daten vorliegen, noch muss dafür gesorgt werden, dass eine Änderung der Zustandskennzeichnung erfolgt.

Ausgehend von der Zustandskennzeichnung ES beim TLC und einem vorliegenden externen RDE-Befehl ist, da, wie oben beschrieben, bekannt ist, dass keine neueren Daten vorliegen können, lediglich dafür zu sorgen, dass der Cachespeicherblock m den niedrigeren Cachehierarchien mit I gekennzeichnet wird. Dafür ist nur eine einfache Anforderung an die Seite der niedrigeren Cachehierarchien erforderlich. Insgesamt ist die unproduktive Leistung des Prozessorsystems geringer, als wenn, wie im vierer Zustandsmodell, noch zusatzlich vorher nachgeprüft werden muss, ob möglicherweise noch neuere Daten vorliegen.

Besonders deutlich wird das Einsparungspotential m dem Fall, m dem im TLC Cachespeicherblocke im Zustand M gefuhrt sind. Bezüglich des vierer Zustandsmodells, bei dem keine tiefergehende Unterteilung des Modified-Zustands getroffen ist, gilt sowohl für den RDS- als auch für den RDE-Befehl, dass stets alle Maßnahmen getroffen werden müssen, um entweder zu prü- fen, ob nicht noch neuere Daten existieren, bevor dann veran- lasst wird, dass der betreffende Cachespeicherblock mit dem Zustand S bzw. I gekennzeichnet wird.

Das erweiterte Zustandsmodell läßt eine Differenzierung des Modified-Zustands zu. Im vorliegenden Ausführungsbeispiel ist der Modified-Zustand in die Zustände MI, MS und MM unterteilt. Im Falle, dass ein externer RDS-Befehl an den TLC gerichtet wird, kann in den Fällen MI und MS in Analogie zum früher Gesagten jegliche Anforderung an die Seite niedrigere Cachehierarchien entfallen. Bei Vorliegen eines RDE-Befehls kann braucht zumindest nicht nachgeprüft werden, ob neuere Daten existieren. Es genügen einfache Anforderungen in Richtung niedrigere Cachehierarchien, durch die dafür gesorgt wird, dass in den niedrigeren Cachehierarchien die Zustands- kennzeichnung zum betreffenden Cachespeicherblock in I abgeändert wird.

In der Figur 4 sind die Positionen, bei denen Maßnahmen gar nicht oder nur eingeschränkt notwendig sind, mit einem Ausru- fezeichen gekennzeichnet. In Bezug auf diese Positionen können unproduktive Belastungen des Prozessorsystems eingespart werden.

Claims

Patentansprüche

1. Einrichtung zur Erhöhung der Leistungsfähigkeit von Pro^¬ zessorsystemen bestehend aus einer großen Zahl von Einzelpro- zessoren und mehreren Cachespeichern, die zur Aufrechterhaltung von Cachekohärenz untereinander für die Verarbeitung eines nach einem MESI-Standard arbeitenden Cache-Protokolls ausgelegt sind, dadurch gekennzeichnet, dass das nach dem MESI-Standard arbeitende Cache-Protokoll in der Weise konfiguriert ist, dass bei der Anzeige von MESI-Zu- ständen wenigstens zum Teil eine Mehrfachanzeige gegeben ist in der Weise, dass wenigstens jeweils sowohl der MESI-Zustand eines betreffenden Cachespeichers (CS) als auch der MESI-Zustand eines daran angeschalteten Einzelprozessors (EP) be- ziehungsweise eines daran angeschalteten anderen Cache-Speichers (CS) angezeigt ist.

2. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, dass das Prozessorsystem Einzelprozessoren (EP) hat, die wenigstens zum Teil zugehörige erste bzw. erste und zweite Cachespeicher haben, und dass das Prozessorsystem zusätzliche Cachespeicher (CS) hat, die wenigstens in einer ersten Hierarchiestufe angeordnet sind und an die einzeln oder gruppenweise, rein oder gemischt Einzelprozessoren (EP) bzw. weitere zusätzliche Cachespeicher (CS) angeschaltet sind.

3. Einrichtung nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass durch die Mehrfachanzeige MESI-Zu- Standskombinationen wie II, SI, SS, EM, ES, MI, MS oder MM angezeigt sind.