DE69432314T2

DE69432314T2 - Cachespeicher mit aufgeteiltem pegel

Info

Publication number: DE69432314T2
Application number: DE69432314T
Authority: DE
Inventors: John Brennan; Yan-Tek Peter HSU; A. William HUFFMAN; Paul Rodman; T. Joseph SCANLON; Kit Man TANG; J. Steve CIAVAGLIA
Original assignee: MIPS Technologies Inc; MIPS Tech LLC
Current assignee: MIPS Tech LLC
Priority date: 1993-12-15
Filing date: 1994-12-12
Publication date: 2004-02-12
Anticipated expiration: 2014-12-13
Also published as: EP0734553A1; WO1995016961A1; US5510934A; DE69432314D1; JPH09506729A; EP0734553B1; EP0734553A4

Description

Gebiet der Erfindung
Die Erfindung bezieht sich generell auf Speichersysteme für Hochgeschwindigkeits-Datenprozessoren, insbesondere auf eine Speicherhierarchie, einschließlich Hochgeschwindigkeits-Daten-Cache-Speicher.
Stand der Technik
Derzeit kommen Super-Rechner mit einer Rechenleistung von Milliarden von Gleitkomma-Operationen pro Sekunde (Ligaflops; flop = floating point operation) auf der Basis von Mikroprozessor-Bauweisen auf den Markt.
Obwohl Superrechner im allgemeinen durch ihre beeindruckende Gleitkomma-Rechengeschwindigkeit charakterisiert werden, unterscheiden sie sich auch in der Speichergröße und Bandbreite von anderen Rechnern. Jede Gleitkomma-Operation erfordert ein bis drei Speicher-Zugriffe pro Operation. Mithin benötigt ein Mikroprozessor mit einer Rechenleistung von einigen hundert Megaflops eine Speicherhierarchie mit einer Ausgabe-Bandbreite von Gigabytes pro Sekunde.
Derzeit stehen Speicher für eine Fließband-Verarbeitung zur Verfügung, die eine hinreichend hohe Bandbreite haben. Bekanntlich beeinträchtigt jedoch die Zugriffszeit dieser Speicher unmittelbar die Ausführungsgeschwindigkeit von Ganzzahl-Programmen, zum Beispiel Betriebssystemen und Compilern, sowie den Festwertmultiplikator teil von Gleitkomma-Programmen. Diese Programme bevorzugen den direkten Zugriff auf ganzzahlige und Adressen-Daten in einem Speicher mit kurzer Zugriffszeit, zum Beispiel einem kleinen internen Cache-Speicher.
Die gegensätzlichen Anforderungen an Ganzzahl- und Gleitkomma-Operationen bedeuten daher höhere Anforderungen an die Ausbildung von Superrechnern auf der Basis von Mikroprozessoren.
In der US-A-5214765 ist ein Fließband-Rechnersystem beschrieben, das einen Drei-Pegel-Cache-Speicher aufweist, der insbesondere die Verarbeitungsgeschwindigkeit von Gleitkomma-Zahlen steigern soll.
In der US-A-4928225 ist ein Mehrprozessorsystem dargestellt. Dieses System enthält einen Cache-Speicher für jeden Prozessor, und deren Kohärenz wird in Bezug auf den globalen Speicher in der Weise sichergestellt, daß alle Prozessoren die korrekten Daten verarbeiten.
Die US-A-5155816 offenbart einen Mikroprozessor mit "Fließband"-Aufbau (pipeline-architecture) und einem internen (chipintegrierten) Cache-Speicher. Der Cache-Speicher ist für den Fall, daß während eines Datenabrufzyklus ein Cache-Speicher adressiert wird, direkt mit dem "Fließband" (pipeline) verbunden.
In der US-A-5051885 ist eine Vorrichtung zur gleichlaufenden Ausgabe von Befehlen für den gleichzeitigen Empfangen durch Gleitkomma- und Ganzzahl-Prozessoren beschrieben. Die Befehle werde durch einen Cache-Speicher aufgenommen und gespeichert.
ZUSAMMENFASSUNG DER ERFINDUNG
Die Erfindung ist ein Cache-Speicher mit aufgeteiltem Pegel, der einen kleinen örtlichen Cache-Speicher kurzer Zugriffszeit zum Speichern von Ganzzahl- und Adressendaten und einen großen, globalen Cache-Speicher mit längerer Zugriffszeit zum Speichern von Gleitkomma-Daten oder Daten aufweist, die von einem Matrix-Prozessor (Vektorrechner) benötigt werden. Der örtliche Lache-Speicher ist eine Untereinheit des globalen Lache-Speichers (d. h. die in dem örtlichen Cache-Speicher gespeicherten Daten sind eine Untereinheit der in dem globalen Lache-Speicher gespeicherten Daten) und ist der primäre Lache-Speicher für die Ganzzahl-Einheit. Der globale Lache-Speicher speichert Datenreihen für die Benutzung durch eine Gleitkomma-Einheit oder einen Matrixprozessor und ist der primäre Cache-Speicher für die Gleitkomma-Einheit oder den Matrixprozessor und der sekundäre Lache-Speicher für die Ganzzahl-Einheit.
Gemäß einem ersten Aspekt der Erfindung ist ein Cache-Speichersystem mit aufgeteiltem Pegel gemäß Anspruch 1 ausgebildet.
Gemäß einem zweiten Aspekt besteht die Erfindung in einem Verfahren zum Speichern von Daten in einem Cache-Speichersystem, wie es in Anspruch 6 angegeben ist.
Andere Merkmale und Vorteile ergeben sich aus den beiliegenden Zeichnungen und der nachstehenden ausführlichen Beschreibung.
KURZE BESCHREIBUNG DER FIGUREN
1 ist ein vereinfachtes Blockschaltbild des Cache-Speichersystems und stellt die Verbindungen zwischen dem örtlichen Cache-Speicher, dem globalen Cache-Speicher, der Gleitkomma-Einheit, der Ganzzahl-Einheit und dem äußeren Hauptspeicher dar.
2 ist ein ausführlicheres Blockschaltbild des in 1 dargestellten Systems.
3 ist ein vereinfachtes Blockschaltbild des Fließband-Aufbaus des externen globalen Cache-Speichers.
4 ist ein ausführlicheres Blockschaltbild des in 3 dargestellten Fließband-Aufbaus.
5 ist ein Diagramm des Formats einer physikalischen Adresse.
6 ist ein ausführliches Blockschaltbild eines kundenspezifischen Kennzeichen-RAM.
7 ist ein Logik-Diagramm des internen örtlichen Cache-Speichers und
8 ein Blockschaltbild der Speicherdatenpfade.
AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
1 ist ein Blockschaltbild eines bevorzugten Ausführungsbeispiels der Erfindung, das einen kleinen, internen Nicht-Fließband-Cache-Speicher mit geringer Zugriffszeit zur Ausgabe von Ganzzahl- und Adreßdaten an eine Ganzzahl-Einheit eines großen, äußeren Fließband-Cache-Speichers zur Abgabe von Gleitkomma-Daten an eine Gleitkomma-Einheit aufweist.
Nach 1 enthält eine Ganzzahl-Einheit (GE) 10 auf demselben Chip einen örtlichen Cache-Speicher mit einem ersten Pegel (nachstehend "örtlicher Cache" genannt) 12. Ein Adressenausgang der GE 10 ist durch einen Adressenbus 16 mit einem externen globalen Cache-Speicher 14 mit zweitem Pegel (nachstehend "globaler Cache" genannt) verbunden. Ein Dateneingangs-Port des örtlichen Cache 12 ist mit einem Datenausgangs-Port des globalen Cache 14 durch einen Füllbus 18 verbunden.
Ein Befehlsport der GE 10 ist mit einem Befehlsport einer Gleitkomma-Einheit (GKE) 20 durch einen TBUS 22 verbunden. Der Dateneingangs-Port der GKE 20 ist mit dem Datenausgangs-Port des globalen Cache 14 durch einen Lade-Bus 24 verbunden. Der Datenausgangs-Port der GKE 20 ist mit dem Dateneingangs-Port des globalen Cache 14 durch einen Speicher-Bus 26 verbunden.
Der Dateneingangs-Port des globalen Cache 14 ist ferner mit dem Dateneingangs-/Datenausgangsport des externen Hauptspeichers 27 verbunden. Der Datenausgangs-Port der GKE 20 ist mit dem Dateneingangs-/Datenausgangsport des externen Hauptspeichers 27 verbunden.
Der globale Cache 14 enthält einen globalen Cache-Fiennzeichenspeicher 28 und einen globalen Cache-Datenspeicher 30. Der Adressenbus 16 enthält einen Offset-Bus 160 zur Übertragung niedrigstelliger Adressenbits, einen Index-Bus 16I zur Übertragung höherstelliger Adressenbits und einen Kennzeichen-Bus 16T für die Kennzeichen-Feldbits. Der Index-Bus 16I und der Kennzeichen-Bus 16T sind mit dem globalen Cache-Kennzeichenspeicher 28 verbunden. Der Index-Bus 16I und der Offset-Bus 160 sind mit den Adresseneingängen des globalen Cache-Datenspeichers 30 verbunden. Das Satzwählsignal des globalen Cache-Kennzeichenspeichers 28 wird einem Satzadresseneingang des globalen Cache-Datenspeichers 30 über einen Wähl-Bus 34 zugeführt.
Eine Steuereinheit erzeugt Takt- und Steuersignale zum Steuern von Datenübertragungen. Diese Steuereinheit, die in an sich bekannter Weise ausgebildet ist, bildet keinen Teil der Erfindung und ist in den Zeichnungen nicht dargestellt.
2 stellt ein ausführlicheres Blockschaltbild des in 1 dargestellten Ausführungsbeispiels dar. Nach 2 sind die GE 10 und GKE 20 als einzelne Chips mit dem örtlichen Cache 12 auf der GE ausgebildet. Bei dem bevorzugten Ausführungsbeispiel ist die GE 10 ein RISC-Prozessor, der alle Datenverarbeitungsbefehle mit Daten ausführt, die in einer Register-Datei 36 gespeichert sind. Verarbeitete Daten, die in der Register-Datei 36 gespeichert sind, werden aus der Register-Datei (d. h. über den Datenausgangs-Port) in den örtlichen Cache 12 (d. h. über den Dateneingangs-Port) während Speicheroperationen übertragen. In ähnlicher Weise werden in dem örtlichen Cache 12 gespeicherte Daten aus dem örtlichen Speicher (d. h. über den Datenausgangs-Port) in die Register-Datei 36 (d. h. über den Dateneingangs-Port) während Ladeoperationen übertragen.
Ein Adressengenerator (AGEN) 38 in der GE erzeugt virtuelle Adressen, die zur Adressierung des örtlichen Lache 12 dienen. Diese virtuellen Adressen werden einem Adressen-Umsetzer (auch Adressen-Übersetzer oder "-Zuordner" genannt) zugeführt, der die physikalischen Adressen erzeugt, die zum Zugreifen auf Daten in dem externen Hauptspeicher benutzt werden. Der Adressen-Umsetzer ist bei dem bevorzugten Ausführungsbeispiel ein assoziativer Umsetz-Speicher 40.
In der Speicherhierarchie des bevorzugten Ausführungsbeispiels wird ein virtueller Speicher, der alle Daten speichert, auf die der Datenprozessor zugreifen kann, durch virtuelle Adressen adressiert, die durch den AGEN 38 erzeugt werden. Die im externen Hauptspeicher 27 gespeicherten Daten bilden eine Untergruppe der im virtuellen Speicher gespeicherten Daten und werden durch physikalische Adressen adressiert, die durch den assoziativen Pufferspeicher 40 erzeugt werden. Die im globalen Cache 14 gespeicherten Daten bilden eine Untereinheit oder einen Unter-Satz der im externen Hauptspeicher 27 gespeicherten Daten und werden durch die Index- und Offset-Felder der physikalischen Adresse, die durch den assoziativen Pufferspeicher 40 ausgegeben wird, und ein Satz-Wählsignal adressiert, das durch den globalen Cache-Kennzeichenspeicher 28 ausgegeben wird. Die in dem örtlichen Cache 12 gespeicherten Daten bilden einen Unter-Satz der im globalen Cache 14 gespeicherten Daten. Auf den Daten-Chache 12 wird durch die Index- und Offset-Felder der virtuellen Adresse zugegriffen, die durch den AGEN 38 erzeugt werden, und sind physikalisch gekennzeichnet.
Wie nachstehend ausführlicher beschrieben wird, ist der globale Cache-Kennzeichenspeicher 28 aus Kennzeichen-Direktzugriffspeicherchips (Kennzeichen-RAM-Chips) und der globale Cache-Datenspeicher 30 aus Artikel-SSRAMs (SSRAM = synchroner statischer RAM) aufgebaut, die als 4-wege-satzadressierter Cache-Speicher organisiert sind. Der Satzwählsignalausgang des globalen Cache-Kennzeichenspeichers 28 wählt einen von vier assoziativen Sätzen. Außerdem ist der globale Cache-Datenspeicher 30 als verschachtelter Speicher mit geradzahligen und ungeradzahligen Bänken (Gruppen) organisiert, auf die gleichzeitig zugriffen werden kann, um die Bandbreite zu erhöhen.
Das globale Cache-Fließband hat fünf (mit G, H, I, J und K beschriftete) Stufen, die in 3 als vereinfachtes Blockschaltbild und in 4 ausführlicher dargestellt sind. Die Verarbeitung in jeder Stufe wird in einem Maschinenzyklus beendet.
Nach den 3 und 4 werden während der Stufe G vom GE-Chip Adressen zu den Kennzeichen-RAM-Chips übertragen. Die Kennzeichen werden nachgeschlagen, und die Information "Treffer" beziehungsweise "kein Treffer" wird während der Stufe H in ein Satzwählsignal codiert. Jeder 4-wege-satzadressierte Kennzeichen-RAM codiert eine Satz-Information mit zwei Bits. Die codierte Information aus den Kennzeichen-RAMs 42 wird während der Stufe I in die globalen Cache-Datenspeicher-SSRAMs 44 eingegeben.
Während der Stufe J wird auf jeden globalen Cache-Datenspeicher-SSRAM 44 intern zugegriffen. In den SSRAMs sind Eingabe- und Ausgaberegister auf dem Chip integriert, so daß ein RAM-Zugriff nach dem Fließbandverfahren in drei Zyklen aufgeteilt ist, d. h. einen Adresseneinstellzyklus, einen RAM-Zugriffzyklus und einen Datenausgabezyklus. Schließlich werden während der Stufe K die Daten, auf die zugegriffen wurde, aus den SSRAM-Chips 44 in die GE und die GKE zurückgesandt.
Während der Stufen I und K wird den "Chipkreuzungen" ein vollständiger Zyklus zugeordnet, weil Transistor-Transistor-Logik-Treiber (TTL-Treiber) mit hinreichender Ladekapazität bei der Zielfrequenz von 75 MHz einen nahezu vollständigen Zyklus benötigen.
Die während der Stufe H des globalen Fließband-Cache benutzten Kennzeichen-RAMs 42 werden nachstehend anhand der 5 und 6 beschrieben. Das generelle Format einer physikalischen Adresse ist in 5 dargestellt. Jede Adresse enthält ein Kennzeichen-Feld, ein Index-Feld und ein OFFSET-Feld. Bekanntlich werden die Indexund Offset-Felder zur physikalischen Adressierung von Daten in dem Cache-Speicher benutzt. Das Index-Feld greift auf einen bestimmten Satz zu, wobei jeder Satz 4-Cache-Zeilen aufweist. Wenn auf die Zeile, die die Daten enthält, auf die zugegriffen wird, in dem Cache-Speicher vorhanden ist, dann handelt es sich um eine dieser vier Zeilen, auf die zugriffen wird. Das der Zeile, auf die zugegriffen wird, zugeordnete Kennzeichen wird mit dem Kennzeichen verglichen, das jeder dieser 4-Cache-Zeilen zugeordnet ist, um festzustellen, ob der Cache die interessierenden Daten enthält. Wenn eine Übereinstimmung auftritt, dann zeigt das OFFSET-Feld an, welches Wort in der identifizierten Zeile den Daten entspricht, auf die zugegriffen wird.
Wie schon erwähnt wurde, ist das bevorzugte Ausführungsbeispiel ein 4-wege-satzadressierter Speicher. Eine Zeile in dem externen Hauptspeicher mit einem vorgegebenen Index-Feld kann in einem Satz aus vier Zeilen in dem Cache-Speicher, auf den durch den vorgegebenen Index zugegriffen wird, abgebildet werden. Bei dem bevorzugten Ausführungsbeispiel werden die beiden höherstelligen Bits der Cache-Speicher-Adresse als Satzwählsignaldaten und die übrigen Adressenbits für das Index-Feld benutzt. Für jeden indizierten Satz in dem globalen Cache-Datenspeicher 30 sind vier Kennzeichen-Felder in dem globalen Cache-Kennzeichenspeicher 28 an einem Platz gespeichert, auf den ein Index-Feld zugreift.
Nach 6 ist ein Index-Register 50 über einen Index-Bus 56 mit dem ADDR-Eingang eines Kennzeichen-RAM 52 und eines Speichermarken-RAM 54 verbunden. Ein Kennzeichen-Register 58 ist mit einem ersten Eingang von jeweils vier Komparatoren 60A – 60D über einen Kennzeichen-Bus 62 verbunden. Ein zweiter Eingang jedes Komparators 60A – 60D ist jeweils mit einem Kennzeichen-Ausgang des Kennzeichen-RAM 52 über einen Kennzeichen-Bus 64 verbunden. Die Ausgangssignale der Komparatoren 60A – 60D werden den Eingängen eines Codierers 66 und eines NOR-Gliedes 68 zugeführt. Das Ausgangssignal des Codierers 66 wird in ein Satz-Wähl-Register 70 geleitet, und das Ausgangssignal des NOR-Gliedes 68 in ein Übereinstimmungs-Register 72. In einem RWSA-Register 74 wird ein Cache-Lese- und Schreibsignal gespeichert und einer Speichermarken-Schreiblogik 76 über einen RWSA-Bus 78 zugeführt. Die Ausgangssignale des Codierers und der NOR-Glieder 66 und 68 werden ebenfalls der Speichermarken-Schreiblogik 76 zugeführt.
Wenn eine bestimmte physikalische Adresse durch die GE 10 erzeugt worden ist, wird ihr Kennzeichen-Feld in dem Kennzeichen-Register 58 und ihr Index-Feld in dem Index-Register 50 gespeichert. Der Speicherplatz in dem Kennzeichen-RAM 52, auf den das Index-Feld zugreift, speichert das Kennzeichen-Feld, das den Cache-Daten zugeordnet ist, die in jeder der vier Zeilen in dem Assoziativsatz gespeichert sind, auf den durch das Index-Feld zugegriffen werden kann. Der Kennzeichen-RAM 52 ist so organisiert, daß das Kennzeichen-Feld der in der ersten Zeile des Assoziativsatzes gespeicherten Daten dem zweiten Eingang des ersten Komparators 60A, die zweite Zeile des Assoziativsatzes dem zweiten Komparator 60B usw. zugeführt wird.
Wenn die dem zweiten Eingang irgendeines Komparators 60A – 60D zugeführten Kennzeichen-Daten mit dem Kennzeichen-Feld übereinstimmen, das in dem Kennzeichen-Register 58 gespeichert ist, dann stellt das Ausgangssignal des Komparators eine logische "1" dar. Andernfalls ist das Komparator-Ausgangssignal eine logische "0".
Das NOR-Glied 68 erhält die Ausgangssignale des Komparators und erzeugt eine "0", wenn irgendeines seiner Eingangssignale eine logische "1" darstellt. Mithin zeigt ein "0"-Ausgangssignal des NOR-Glieds einen Treffer an, d. h. daß der durch die gesamte physikalische Adresse vorgeschriebene Datenblock in dem globalen Cache 14 gespeichert ist.
Wenn der Cache getroffen ist, gibt der Codierer 66 ein 2-Bit-Satzwählsignal aus, das vorschreibt, welche Zeile in dem Satz die durch die gesamte physikalische Adresse vorgeschriebenen Daten enthält. Der Kennzeichen-RAM 52, die Komparatoren 60A – 60D und der Codierer 66 bilden daher einen Wählsignalgenerator zum Erzeugen eines Satzwählsignals. Das Satzwählsignal funktioniert ebenso wie die zwei höherstelligen Bits, die den SSRAM-Chips zugeführt werden, die den globalen Cache-Datenspeicher 30 bilden. Mithin erfolgt, wie vorstehend beschrieben wurde, die Erzeugung von Treffer- bzw. Kein-Treffer-Daten und der den Satz vorschreibenden Information während der Stufe H des globalen Fließband-Cache-Speichers, wozu ein einziger Maschinenzyklus erforderlich ist.
In an sich bekannter Weise werden, wenn die durch die gesamte physikalische Adresse vorgeschriebenen Daten nicht in dem Cache gespeichert sind, die Daten aus dem Hauptspeicher 27 in den Cache geschrieben, wo sie die zuvor in dem Cache gespeicherten Daten ersetzen. Wenn die ersetzten Daten in dem Cache nicht modifiziert wurden, nachdem sie aus dem externen Hauptspeicher 27 in den Cache übertragen wurden, dann sind die Daten im Lache und die Daten im äußeren Hauptspeicher 27 gleich (d. h. die Daten sind kohärent). Daher können die Daten problemlos ersetzt werden, weil dieselben Daten im externen Hauptspeicher 27 gespeichert und gewünschtenfalls aufgerufen werden können. Wenn die ersetzten Daten in dem Lache jedoch durch eine Schreiboperation geändert wurden, dann sind sie nicht mehr mit den im äußeren Hauptspeicher 27 gespeicherten Daten kohärent.
Mithin werden vor dem Ersetzen der Daten im Cache die Cache-Daten in einer Rückschreiboperation gespeichert, so daß die richtigen Daten im äußeren Hauptspeicher 27 gespeichert und für den Prozessor zugänglich sind. Wenn daher in dem Cache gespeicherte Daten durch eine Schreiboperation geändert worden sind, wird eine Speichermarke (ein "dirty bit"), die den Daten zugeordnet ist, gelöscht, um anzuzeigen, daß die Daten "schmutzig" (d. h. nicht mehr mit den im äußeren Hauptspeicher gespeicherten Daten kohärent) sind.
Immer wenn das RWSA-Signal nach 6 anzeigt, daß Daten in den Cache eingeschrieben werden sollen, und das Übereinstimmungs-Signal einen Cache-Treffer anzeigt, wird eine in einem Speichermarken-RAM-Speicherplatz gespeicherte Speichermarke, auf die durch das Index-Feld zugegriffen wird, gelöscht. Die Speichermarken-Verarbeitung benötigt daher einen einzigen Maschinenzyklus und erfolgt in der Stufe J des globalen Fließband-Cache-Speichers.
Das in 6 dargestellte System dient zur Anzeige einer mangelnden Kohärenz zwischen den im globalen Cache 14 und den im externen Hauptspeicher 27 gespeicherten Daten. Wegen der speziellen Organisation des Cache-Speichers mit aufgeteiltem Pegel ist auch ein System zum Anzeigen einer mangelnden Kohärenz zwischen dem örtlichen Cache 12 und dem globalen Cache 14 erforderlich.
Wie schon erwähnt wurde, benutzt die GE 10 den örtlichen Cache 12 als primären Cache und den globalen Cache 14 als sekundären Cache. Die GKE 20 benutzt den globalen Cache 14 als primären Cache und den örtlichen Cache 12 überhaupt nicht. Wenn die gleichen Daten in beiden Cache-Speichern 12 und 14 gespeichert sind, gibt es zwei Inkohärenz-Ursachen. Die erste Ursache ist eine Änderung nur der Daten im örtlichen Cache durch ein Einschreiben der GE in den örtlichen Cache 12 und die zweite Ursache eine Änderung der im globalen Cache gespeicherten Daten durch ein Einschreiben der GKE in den örtlichen Cache 14.
Die erste Inkohärenz-Ursache wird durch eine Durchschreiboperation gelöst: Die in den örtlichen Cache 12 eingeschriebenen Daten werden auch in den globalen Lache 14"durchgeschrieben". Die Durchschreiboperation ist wegen der sehr hohen Schreibbandbreite des globalen Lache 14 möglich. Es ist kein externer Puffer erforderlich, weil der globale Lache 14 das Durchschreiben mit voller Bandbreite ermöglicht.
Die zweite Inkohärenz-Ursache tritt nur bei einem Lache-Speichersystem mit aufgeteiltem Pegel auf und ergibt eine Inkohärenz zwischen Ganzzahl- und Gleitkomma-Daten. Das Problem ist, daß GE-Ladungen und -Speicherungen zwar auf den örtlichen Lache 12 und den globalen Lache 14 zugreifen, GKE-Ladungen und -Speicherungen jedoch nur auf den globalen Lache 14 zugreifen. Wenn daher beispielsweise in einen bestimmten Speicherplatz zuerst durch eine GE-Speicherung eingeschrieben und dann durch eine GKE-Speicherung erneut eingeschrieben wird, würde ein nachfolgendes GE-Laden "verdorbene" (veraltete) Daten aus dem örtlichen Lache 14 ergeben, sofern nichts dagegen unternommen wird.
Obwohl eine unmittelbare Lösung darin bestehen könnte, daß eine Lache-Zeile in dem örtlichen Lache 12 immer dann ungültig gemacht würde, wenn eine GKE-Speicherung auftritt, ist das Problem noch komplizierter, weil jede Lache-Zeile mehrere Wörter Speichert und eine bestimmte Lache-Zeile eine Mischung aus Gleitkomma-Daten und ganzzahligen Daten enthalten kann. Wenn ein Programm zuerst auf ganzzahlige Zeichendaten zugreift, so daß die betreffende Cache-Zeile die in den örtlichen Speicher 12 geladen wird, dann würde eine nachfolgende Gleitkomma-Speicherung die gesamte Zeile ungültig machen. In diesem Falle wären jedoch die ganzzahligen Daten in der betreffenden Cache-Zeile des örtlichen Speichers 12 zwar weiterhin gültig, da die Zeile jedoch ungültig gemacht wurde, würde ein weiterer Zugriff auf die ganzzahligen Daten in der betreffenden Zeile einen weiteren Cache-Fehltreffer ergeben, so daß die betreffende Cache-Zeile erneut in den örtlichen Cache geladen werden müßte. Bei graphischen Anwendungen ist dieses Verhalten besonders wahrscheinlich, weil gemischte Ganzzahl- und Gleitkomma-Strukturen üblich sind. Da die Cache-Leistung in hohem Maße von der Frequenz abhängt, mit der neue Daten in den Cache geladen werden müssen, ergäbe das Ungültigmachen der gesamten Zeile des örtlichen Cache eine geringe Leistung.
Die bei dem bevorzugten Ausführungsbeispieh angewandte Lösung besteht darin, ein Gültigkeitsbit an jedem Wort in jeder Cache-Zeile des örtlichen Cache 12 anzubringen, so daß den Gültigkeitsbits eine feinere Körnigkeit erteilt wird. Bei einer GKE-Speicheroperation wird die Adresse sowohl dem örtlichen Cache 12 als auch dem globalen Cache 14 zugeführt. Wenn sich die adressierten Daten in dem örtlichen Cache befinden, wird das an dem adressierten Wort angebrachte Gültigkeitsbit gelöscht, um einen Kohärenzmangel zwischen dem modifizierten Wort in dem örtlichen Cache 12 und dem globalen Cache 14 anzuzeigen. Das an dem jeweiligen Wort, auf das bei einer GE-Speicherung zugegriffen wird, angebrachte Gültigkeitsbit wird so eingestellt, daß es eine Kohärenz zwischen den Cache-Speichern 12 und 14 infolge der erwähnten Durchschreiboperation anzeigt.
Diese Lösung ermöglicht es der GE, frei auf Daten aus dem örtlichen Cache zuzugreifen, ohne Gefahr zu laufen, das auf verdorbene Daten zugegriffen wird, weil irgendwelche Gleitkomma-Daten, die durch eine GKE-Einschreibung modifiziert wurden, ein daran angebrachtes gelöschtes Gültigkeitsbit aufweisen würden. Leistungsverluste aufgrund unnötiger Cache-Ladeoperationen werden daher minimiert.
Das Löschen des Gültigkeitsbits im örtlichen Cache 12 bei einer Gleitkomma-Speicheroperation wird nachstehend anhand von 7 beschrieben. Bei dem bevorzugten Ausführungsbeispiel hat der örtliche Cache 12 zwei Ports, um entweder ein zweimaliges oder einmaliges Laden und eine Speicheroperation pro Zyklus zu unterstützen. Der örtliche Cache 12 ist ein 16-KB-Chache mit direkter Abbildung, wobei jede Zeile 32 in acht Wörtern organisierte Bytes speichert. Der örtliche Cache 12 wird in sieben Maschinenzyklen erneut aus dem globalen Cache 14 gefüllt. Der örtliche Cache 12 wird virtuell adressiert und physikalisch Gekennzeichnet und ist eine Untereinheit des örtlichen Cache 14.
Nach 7 wird die durch den Adressengenerator 38 der GE 10 (siehe 2) ausgegebene virtuelle Adresse in einem Adressen-Zwischenspeicherregister 90 gespeichert. Der örtliche Cache 12 ist in einen VRAM 12V und einen Datenspeicher 12D unterteilt dargestellt. Jede Cache-Zeile 92 in dem Datenspeicher 12D enthält acht Wortpositionen, die jeweils vier Datenbytes aufweisen. Das Index-Feld der virtuellen Adresse greift auf ein Kennzeichen-Feld und ein Masken-Feld aus einem Speicherplatz in dem VRAM 12V und der Cache-Zeile in dem Datenspeicher 12D zu. Das OFF-Feld der virtuellen Adresse schreibt eine bestimmte Wortposition in der Cache-Zeile 92 vor. Das Kennzeichen-Feld und das Masken-Feld, die aus dem VRAM 12v ausgelesen wurden, werden in einem zweiten Zwischenspeicher-Register 94 gespeichert. Das Kennzeichen-Feld, auf das in dem VRAM 12V zugegriffen wird, entspricht den höherstelligen Bits der physikalischen Adresse der in der Cache-Zeile 92 gespeicherten Daten. Das Masken-Feld, auf das zugegriffen wird, enthält acht Gültigkeitsbits, die jeweils an einem entsprechenden Wort in der Cache-Zeile 92 angebracht sind. Das in dem zweiten Zwischenspeicherregister 94 gespeicherte Kennzeichen-Feld wird dem ersten Eingang eines Komparators 96 und das Kennzeichen-Feld der virtuellen Adresse dem zweiten Eingang des Komparators 96 zugeführt. Eine Maskenbit-Löschlogik 98 ist mit dem zweiten Zwischenspeicher-Register 94 verbunden, in dem die Maske, das OFF-Feld der virtuellen Adresse und das Ausgangssignal des Komparators 96 gespeichert sind.
Während einer Gleitkomma-Speicheroperation, bei der an einem Platz gespeichert wird, der durch die in dem ersten Zwischenspeicher-Register 90 gespeicherte Virtuelle Adresse vorgeschrieben wird, wird während eines ersten Maschinenzyklus durch den VRAM 12V auf das Kennzeichen-Feld und das Masken-Feld zugegriffen. Wenn das Kennzeichen-Feld, auf das zugegriffen wird, mit dem Kennzeichen-Feld der virtuellen Adresse übereinstimmt, gibt das Ausgangssignal des Komparators die Maskenbit-Löschlogik frei, um das in dem zweiten Zwischenspeicher-Register 94 gespeicherte Gültigkeitsbit zu löschen, das dem Wort in der Cache-Zeile 92 entspricht, die durch das OFF-Feld der virtuellen Andresse vorgeschrieben wird. Die Übereinstimmung zeigt an, daß die Gleitkomma-Daten in dem globalen Cache 14 geändert (modifiziert) werden und das durch die virtuelle Adresse vorgeschriebene Daten-Wort nicht mehr kohärent ist. Durch das Löschen des Gültigkeitsbits in dem Masken-Feld wird daher dieses Wort im örtlichen Chache 12 ungültig gemacht. Im nächsten Taktzyklus wird das modifizierte Masken-Feld, das das gelöschte Gültigkeitsbit enthält, wieder an demjenigen Speicherplatz in dem VRAM 12V gespeichert, der durch das Index-Feld der virtuellen Adresse vorgeschrieben wird.
Nachstehend wird anhand von 8 die Durchschreiboperation für ganzzahlige Daten beschrieben, die in dem örtlichen Cache 12 gespeichert sind. Bei dem bevorzugten Ausführungsbeispiel werden Gleitkomma-Befehle, Adressen und Daten in einer Warteschlange eingereiht, um die Zugriffszeit des örtlichen Cache 14 und der GKE 20 auszugleichen. Mithin gibt es keinen unmittelbaren Datenpfad von der GE 10 zum globalen Cache 14. Für eine GE-Speicheroperation überträgt der örtliche Cache 12 mithin die in einer Gleitkomma-Befehlswarteschlange 100 gespeicherten Daten, und die Daten werden an die GKE 20 über den TBUS 22 übertragen und als Durchschreibdaten codiert. Außerdem wird die physikalische Adresse der Durchschreibdaten in eine Speicheradressenwarteschlange 102 übertragen. Die GKE 20 erkennt die Durchschreibdaten an und leitet sie in eine Speicherdaten-Warteschlange 104. Die Taktgabe der Warteschlage ist so gewählt, daß die Adresse der Durchschreibdaten und die Durchschreibdaten während desselben Maschinenzyklus dem globalen Cache-Datenspeicher 30 zugeführt werden.

Claims

Cache-Speichersystem mit aufgeteiltem Pegel, das in einem Daten-Prozessor verwendbar ist, der eine Ganzzahl-Einheit (10) und eine Gleitkomma-Einheit (20) mit einem Dateneingangs-Port und einem Datenausgangs-Port aufweist, wobei das Cache-Speichersystem mit aufgeteiltem Pegel aufweist: einen ersten örtlichen Cache-Speicher (12), der den primären Cache-Speicher für die Ganzzahl-Einheit (10) bildet und einen mit der Ganzzahl-Einheit (10) verbundenen Datenausgangs-Port, einen Dateneingangs-Port und einen Adresseneingangs-Port zum Speichern von Ganzzahl- und Adressendaten, die von der Ganzzahl-Einheit (10) verarbeitet werden sollen, aufweist; einen zweiten globalen Cache-Speicher (14), der den primären Cache-Speicher für die Gleitkornma-Einheit (20) und den sekundären Cache-Speicher für die Ganzzahl-Einheit (10) bildet und einen Dateneingangs-Port, einen Datenausgangs-Port sowie einen mit der Ganzzahl-Einheit (10) verbundenen Adresseneingangs-Port zum Speichern der Ganzzahl- und der Adressendaten, die von der Ganzzahl-Einheit (10) verarbeitet werden sollen, und zum Speichern der Gleitkomma-Daten aufweist, wobei jede Speicheradresse des ersten, örtlichen Cache-Speichers (12) eine entsprechende Speicher-Adresse in dem zweiten, globalen Cache-Speicher (14) aufweist, wobei der örtliche Cache-Speicher (12) eine Untereinheit des globalen Cache-Speichers (14) bildet; erste Datenübertragungsmittel (18, 24), die angeschlossen sind an dem Datenausgangs-Port des zweiten, globalen Cache-Speichers (14) und dem Dateneingangs-Port des ersten, globalen Cache-Speichers (12) und dem Dateneingangs-Port der Gleitkomma-Einheit (20) zum Übertragen von Daten aus dem zweiten, globalen Cache-Speicher (14) in den ersten, örtlichen Cache-Speicher (12), wenn die in dem zweiten, globalen Cache-Speicher (14) gespeicherten Ganzzahl- und die Adressendaten von der Ganzzahl-Einheit (12) verarbeitet werden sollen, und zwischen dem zweiten, globalen Cache-Speicher (14) und der Gleitkomma-Einheit (20), wenn Gleitkomma-Daten von der Gleitkomma-Einheit (20) verarbeitet werden sollen; und zweite Datenübertragungsmittel (26), die mit dem Datenausgangs-Port der Gleitkomma-Einheit (20) und dem Dateneingangs-Port des zweiten, globalen Cache-Speichers (14) zur Übertragung von Daten aus der Gleitkomma-Einheit (20)in den zweiten, globalen Cache-Speicher (14) während einer Gleitkomma-Speicheroperation verbunden sind; dadurch gekennzeichnet daß der erste, örtliche Cache-Speicher (12) so ausgebildet ist, daß er eine Durchschreib-Operation in den zweiten, globalen Cache-Speicher (14) ausführt, bei der eine Kopie der Daten, die von der Ganzzahl-Einheit (10) unter einer Speicher-Adresse des ersten, örtlichen Cache-Speichers (12) auf ei nem dritten Übertragungsmittel (22) gespeichert wird, das mit Befehlsports der Ganzzahl-Einheit (10) und der Gleitkomma-Einheit (20) verbunden ist, und die Gleitkomma-Einheit (20) so ausgebildet ist, daß sie das Speichern dieser Daten unter der entsprechenden Speicher-Adresse des zweiten, globalen Cache-Speicher (14) bewirkt, und daß jede Speicheradresse des ersten örtlichen Lache-Speichers (12) ein ihr zugeordnetes Gültigkeitsbit aufweist, das gelöscht wird, wenn die Gleitkomma-Einheit (20) Daten unter der entsprechenden Speicher-Adresse des zweiten, globalen Lache-Speichers (14) während einer Gleitkomma-Speicheroperation speichert, und gesetzt wird, wenn die Ganzzahl-Einheit unter der zugeordneten Speicheradresse des ersten, örtlichen Lache-Speichers (12) während einer Ganzzahl-Speicheroperation speichert.
Lache-Speichersystem nach Anspruch 1, bei dem der erste, örtliche Lache-Speicher (12) und die Ganzzahl-Einheit (10) auf dem gleichen einzigen Chip hergestellt sind und der zweite, globale Cache-Speicher (14) von dem einzigen Chip abgetrennt ist.
Lache-Speichersystem nach Anspruch 1 oder Anspruch 2, bei dem der Datenprozessor ferner aufweist: einen virtuellen Speicher, auf den durch eine virtuelle Adresse zugegriffen wird und der alle Daten für die Benutzung durch den Daten-Prozessor enthält, und einen äußeren Hauptspeicher (27), auf den durch eine physikalische Adresse zugegriffen wird und der eine Untergruppe der in dem virtuellen Speicher gespeicherten Daten enthält, und wobei die Ganzzahl-Einheit (10) einen Adressengenerator (38) zum Erzeugen der virtuellen Adressen und einen Umsetzer (40) zum Umsetzen virtueller Adressen in physikalische Adressen aufweist.
Cache-Speichersystem nach Anspruch 3, bei dem jede virtuelle Adresse und jede physikalische Adresse ein INDEX- und ein OFFSET-Feld enthält und eine erste Kopie einer speziellen Cache-Zeile in dem ersten, örtlichen Cache-Speicher (12) und eine zweite Kopie der speziellen Cache-Zeile in dem zweiten, globalen Cache-Speicher (14) gespeichert ist, wobei die spezielle Cache-Zeile eine Vielzahl von Wörtern enthält und der erste, örtliche Cache-Speicher (12) aufweist: einen ersten Datenspeicher zum Speichern der ersten Kopie der speziellen Cache-Zeile in einem Speicherplatz, auf den durch das INDEX-Feld der virtuellen Adresse zugegriffen wird; und der zweite, globale Cache-Speicher (14) ferner aufweist: einen zweiten Datenspeicher zum Speichern der zweiten Kopie der speziellen Cache-Zeile in einem Speicherplatz, auf den durch das INDEX-Feld der physikalischen Adresse zugegriffen wird.
Cache-Speichersystem nach Anspruch 3 oder Anspruch 4, bei dem die physikalische Adresse ein KENNZEI-CHEN-Feld und ein INDEX-Feld aufweist und der zweite, globale Cache-Speicher (14) einen Datenspeicher (30) und einen Wählsignalgenerator aufweist, wobei: der Datenspeicher (30) ein N-Weg-Satz-Assoziativ-Speicher ist, wobei N eine ganze Zahl ist, die gleich einer Potenz von zwei ist, wobei ein vorgegebener Satz durch ein Satzwählsignal (34) und eine vorgegebene Cache-Zeile in einem Satz durch das INDEX-Feld der physikalischen Adresse gewählt wird, und wobei der Wählsignalgenerator aufweist: ein Kennzeichen-Speicher (52) zur Bildung von N KENNZEICHEN-Feldern, auf die durch das INDEX-Feld zugegriffen wird, wobei jedes KENNZEICHEN-Feld Daten entspricht, die in einem der Sätze des Datenspeichers (30) enthalten sind; N Komparatoren (60A-60D), wobei jeder Komparator (60A-60D) einen ersten Eingang aufweist, der so angeschlossen ist, daß er das KENNZEICHEN-Feld der physikalischen Adresse aufnimmt, und einen zweiten Eingang aufweist, der so angeschlossen ist, daß er jeweils eines der KENNZEICHEN-Felder aufnimmt, die durch den KENNZEICHEN-Speicher (52) geliefert werden, wobei jeder Komparator (60A-60D) ein Ausgangssignal aufweist, das gesetzt wird, wenn die KENNZEICHEN-Felder an den Komparator-Eingängen übereinstimmen, und zurückgesetzt wird, wenn die KENNZEICHEN-Felder an den Komparator-Eingängen nicht übereinstimmen; und Codiermittel (66), die so angeschlossen sind, daß sie die Ausgangssignale der Komparatoren (60A-60D) aufnehmen, um ein Wählsignal zu erzeugen, das die Position eines Komparators kodiert, der ein Ausgangssignal aufweist, das anzeigt, daß die KENNZEICHEN-Felder an seinen Eingängen übereinstimmen.
Verfahren zum Speichern von Daten in einem Cache-Speichersystem mit aufgeteiltem Pegel, das aufweist: a) einen ersten, örtlichen Cache-Speicher (12), der den primären Cache für eine Ganzzahl-Einheit (10) bildet und mit der Ganzzahl-Einheit (10) verbunden ist und einen Dateneingangs-Port und einen Adresseneingangs-Port zum Speichern von Ganzzahlund Adressendaten aufweist, die durch die Ganzzahl-Einheit (10) verarbeitet werden sollen; b) einen zweiten, globalen Cache-Speicher (14), der den primären Cache für eine Gleitkomma-Einheit und den sekundären Cache für die Ganzzahl-Einheit (10) bildet und einen Dateneingangs-Port, einen Datenausgangs-Port und einen Adresseneingangs-Port aufweist, der mit der Ganzzahl-Einheit (10) verbunden ist, um die Ganzzahl- und Adressendaten zu speichern, die durch die Ganzzahl-Einheit (10) verarbeitet werden sollen, und um die Gleitkomma-Daten zu speichern, wobei jede Speicheradresse des ersten, örtlichen Cache-Speichers (12) eine entsprechende Speicher-Adresse in dem zweiten, globalen Cache-Speicher (14) aufweist und der örtliche Cache-Speicher (12) eine Untereinheit des globalen Cache-Speichers (14) ist; c) erste Datenübertragungsmittel (18, 24), die mit dem Datenausgangs-Port des zweiten, globalen Cache-Speichers (14) und dem Dateneingangs-Port des ersten, globalen Cache-Speichers (12) und dem Dateneingangs-Port der Gleitkomma-Einheit (20) verbunden sind, um Daten aus dem zweiten, globalen Lache-Speicher (14) in den ersten, örtlichen Cache-Speicher (12) zu übertragen, wenn Ganzzahl- und Adressendaten, die in dem zweiten, globalen Cache-Speicher (14) gespeichert sind, zur Verarbeitung durch die Ganzzahl-Einheit (10) erforderlich sind, und zwischen dem örtlichen Lache-Speicher (14) und der Gleitkomma-Einheit (20) zu übertragen, wenn Gleitkomma-Daten zur Verarbeitung durch die Gleitkomma-Einheit (20) erforderlich sind; und d) zweite Datenübertragungsmittel (26), die mit dem Dateneingangs-Port der Gleitkomma-Einheit (20) und dem Dateneingangs-Port des zweiten, globalen Cache-Speichers (14) verbunden sind, um Daten aus der Gleitkomma-Einheit (20) in den zweiten, globalen Cache-Speicher (14) während einer Gleitkomma-Speicheroperation zu übertragen; dadurch gekennzeichnet, daß Daten, die unter einer Speicheradresse des ersten, örtlichen Cache-Speichers (12) durch die Ganzzahl-Einheit (10) gespeichert werden, auf einem dritten Übertragungsmittel (22) angeordnet werden, das mit Befehlsports der Ganzzahl-Einheit (10) und der Gleitkomma-Einheit (20) verbunden ist, und die Gleitkomma-Einheit (20) bewirkt, daß diese Daten unter der entsprechenden Speicheradresse des zweiten, örtlichen Cache-Speichers (14) gespeichert werden, und daß ein Gültigkeitsbit, das einer Speicheradresse des ersten, örtlichen Cache-Speichers (12) zugeordnet ist, gelöscht wird, wenn während einer Gleitkomma-Speicheroperation Daten unter der entsprechenden Speicheradresse des zweiten, örtlichen Cache-Speichers (14) gespeichert werden, und das Gültigkeitsbit gesetzt wird, wenn die Ganzzahl-Einheit (10) während einer Ganzzahl-Speicheroperation unter der zugeordneten Speicher-Adresse des ersten, örtlichen Cache-Speichers (12) speichert.