DE3716229C2

DE3716229C2 - Mikroprozessorchip mit einem Stapelrahmen-Cache

Info

Publication number: DE3716229C2
Application number: DE3716229A
Authority: DE
Inventors: Glenford J Meyers; Konrad Lai; Michael T Imel; Glenn Hinton; Robert Riches
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 1986-05-16
Filing date: 1987-05-14
Publication date: 1996-08-14
Anticipated expiration: 2007-05-15
Also published as: HK57590A; JP2612168B2; CN1009592B; GB2190521A; SG34990G; US4811208A; GB2190521B; FR2598835B1; GB8628175D0; KR870011524A; DE3716229A1; CN87100507A; FR2598835A1; JPS62286128A

Description

Die Erfindung bezieht sich auf einen Datenprozessor nach dem Oberbegriff des Anspruchs 1.

Bei der Abarbeitung von Prozessen verwenden Mikroprozessoren interne Register, die spezielle, den Prozessen zugeordnete Daten speichern. Bei einem Wechsel des Prozesses (Aufruf von Prozeduren und Rückkehr) werden Registerinhalte in einen Stapel im RAM gesichert. US-PS 4,435,780 beschreibt ein Mikroprozessorsystem, bei dem für verschiedene Prozesse separate Stapelbereiche verwendet werden.

Rasche Fortschritte in der VLSI-Technologie und in den Konstruktionstechniken haben dazu geführt, daß sich Mikrocomputer nach Leistung und Kompliziertheit einem Super- Minicomputer nähern. Wenn Prozessoren schneller werden, nimmt der Verkehr zwischen dem Prozessor und einem Chip- externen Hauptspeicher zu, was zu einem Leistungsengpaß führt. Bei früheren Systemen wurde dieser Engpaß dadurch entschärft, daß man einen lokalen On-Chip-Speicher (genannt ein Cache bzw. Notizblockspeicher) zur Speicherung häufig verwendeter Speicherdaten benutzte. Wenn sich vom Prozessor benötigte Daten im Cache befinden, so wird ein externer Speicherzugriff überflüssig, da die Daten direkt aus dem Cache abgerufen werden können. Weitere Verringerungen im Speicherverkehr könnten erreicht werden, wenn man das Cache- Design zur Aufnahme von Befehlsabrufen erweitern würde. Wenn beispielsweise Informationen, die sich auf Aufruf- und Rückkehrbefehle (CALL und RETURN) beziehen, lokal auf dem Chip verfügbar wären, so könnten Aufruf- und Rückkehrbefehle ohne Bezug auf den externen Speicher ausgeführt werden. Der sich ergebende verringerte Speicherbusverkehr würde auch die Wahrscheinlichkeit dafür verringern, daß ein Lade- und Speicherbefehl auf die Verfügbarkeit des Speicherbus zu warten hätte.

Der Einrichtung liegt daher die Aufgabe zugrunde, eine Einrichtung zur Minimierung der Hauptspeicherzugriffe zur Verfügung zu stellen, die während des Ausführens von Aufruf/ Rückkehr-Befehlen auftreten.

Diese Aufgabe wird erfindungsgemäß durch einen Daten prozessor mit den Merkmalen des Anspruchs 1 gelöst.

Die Erfindung sieht eine Vielzahl von globalen Registern auf dem Datenprozessorchip vor. Eines der globalen Register ist ein Rahmenzeigerregister, das den aktuellen Rahmenzeiger enthält. Die restlichen der globalen Register stehen für einen laufenden Prozeß als Arbeitsspeicher zur Verfügung. Ein Stapelrahmen-Cache-Mechanismus ist vorgesehen, der aus einem Registersatz-Pool mit mehreren Registersätzen besteht, wobei jeder Registersatz aus einer Anzahl von lokalen Registern besteht. Wenn ein Aufrufbefehl decodiert wird, wird ein Registersatz aus dem Registersatz-Pool der auf gerufenen Prozedur zugeordnet und das Rahmenzeigerregister initialisiert. Wenn ein Rückkehrbefehl decodiert wird, wird der Registersatz für eine Zuordnung zu einer von einem nachfolgenden Aufrufbefehl aufgerufenen anderen Prozedur freigegeben. Wenn der Registersatz-Pool erschöpft ist, werden die Inhalte eines einer vorhergehenden Prozedur zugeordneten Registersatzes im Hauptspeicher gespeichert, und dieser Registersatz wird der laufenden Prozedur zugeordnet. Die lokalen Register eines einer Prozedur zugeordneten Registersatzes enthalten Programmverbindungsinformationen einschließlich eines Zeigers zum vorhergehenden Rahmen und eines Befehlszeigers, wodurch es möglich wird, daß die meisten Aufruf- und Rückkehrbefehle ohne die Notwendigkeit von Referenzen zu einem externen Speicher ausgeführt werden können.

Die Erfindung hat den Vorteil, daß sie die beim Über schreiten von Subroutinengrenzen durchzuführenden Sicherungen und Umspeicherungen von Registern beträchtlich reduziert.

Die Erfindung hat außerdem den Vorteil, daß wegen der Abbildung der lokalen Registersätze in die Stapelrahmen die Verkettungsinformationen, welche normalerweise in Stapelrahmen erscheinen (z. B. Zeiger auf vorhergehenden Rahmen, gesicherter Befehlszeiger), in den lokalen Registern enthalten sind. Dies bedeutet, daß sich die meisten Aufruf- und Rückkehrbefehle ohne Referenzen auf einen externen Speicher ausführen lassen.

Vorteilhafte Weiterbildungen der Erfindung sind in den Unteransprüchen gekennzeichnet.

Im folgenden wird die Erfindung anhand eines in der Zeichnung dargestellten Ausführungsbeispiels näher erläutert. In der Zeichnung zeigt:

Fig. 1 ein Funktionsblockdiagramm, das die Haupt komponenten des Mikroprozessors darstellt, in welchem die Erfindung verwirklicht ist;

Fig. 2 ein Blockdiagramm einer Ausführungsumgebung bei der Ausführung eines Befehls mit dem in Fig. 1 gezeigten System;

Fig. 3 ein Schaubild der Stapelrahmenstruktur innerhalb des aktuellen Linearadreßraums der in Fig. 2 gezeigten Ausführungsumgebung;

Fig. 4 ein Diagramm der Aufrufstapelstruktur innerhalb des aktuellen Linearadreßraums der Ausführungsumgebung gemäß Fig. 2; und

Fig. 5 das Abbilden (mapping) der Registergruppen des Mikroprozessors in den Stapel des Programms im Speicher.

Im folgenden wird auf Fig. 1 Bezug genommen. Der Mikro prozessor ist in sieben Haupteinheiten logisch unterteilt: Die Be fehlsabrufeinheit 10, den Befehldecodierer 12, den Mikro befehlssequenzer bzw. -sortierer 14, einen Übersetzungs-Nach schlage-Puffer 18, eine Gleitkommaeinheit 22, den Lokalbus- Sequenzer 20 und die Ausführungseinheit für ganze Zahlen (Integer Execution Unit IEU) 24. Verbindungswege zwischen allen diesen Einheiten werden gebildet durch einen 32-Bit-Datenbus, einen 29-Bit-Mikrobefehlsbus 26 und ein Mikrobefehls-Gültig- Signal 28. Der Mikrobefehlsbus steuert und synchronisiert die Aktivität der autonomen Einheiten. Jede der Einheiten wird weiter unten kurz beschrieben.

Der Befehlsdecodierer (ID) decodiert und steuert die Befehls ausführung (Macrocode). Der ID decodiert Befehle, führt Operanden adressierung und -abruf aus, verarbeitet Verzweigungsbefehle (d. h. Befehlszeigermanipulation) und gibt entweder Ausfüh rungsmikrobefehle (für einfache Befehle) aus oder startet Mikroprogrammabläufe (für komplexe Befehle).

Die Befehlsabrufeinheit (IFU) ruft Befehle aus dem Speicher zur Verwendung durch den ID ab und speichert solche Befehle zwischen. Die IFU hält außerdem sechs Befehlszeiger (instruction pointers) aufrecht, welche Befehle durch die Pipeline verfolgen. Die IFU speichert die zuletzt benutzten Befehlsblöcke zwischen und hält den Befehlsdecodierer mit einem Befehlsstrom versorgt. Sie enthält auch die Befehlszeiger (instruction pointers) und die Operandenreduktionslogik, die vom ID gesteuert wird.

Der Mikrobefehlssequenzer (MIS) ordnet Mikrocodeströme zur Handhabung einer Chipinitialisierung, von Makrobefehlen, die zum direkten Verarbeiten zu komplex sind, und Ausnahme- und Unterbrechungsbedingungen.

Der MIS enthält einen 3K×42-Bit-Mikrocode ROM und eine ordnende Logik für Mikrocodeströme. Die Funktionen, welche der MIS ausführt, umfassen: Holen bzw. Abrufen des nächsten Mikro befehls, Mikroprogrammabzweigung, die Verarbeitung von Ausnahme bedingungen, die Aufrechterhaltung einer Auswertetafel über die Registerdatei und in Verbindung mit dem ID die Bestimmung von Makrobefehlsgrenzen und die Verfolgung von Ereignissen.

Die Ganzzahl-Ausführungseinheit (IEU) führt die meisten der von dem ID und MIS ausgegebenen Mikrobefehle aus. Sie enthält die für den Programmierer sichtbaren Register, die Arbeitsregister (scratch registers), die vom Mikrocode verwendet werden, die ALU, Trommelverschieber und die zur Ausführung ihrer Befehle benötigte Logik. Die IEU enthält einhundertzwölf 32- Bit-Register, eine 32-Bit-ALU und einen 32-Bit-Trommelverschieber. Sie bildet einen ALU-Beipaßweg, der die Ausführung von ALU-Operationen mit der Frequenz von Eins pro Zyklus ge stattet. Sie enthält außerdem eine Einzelport-Registerdatei, die in einem Zyklus zweimal zugreifbar ist, so daß das Ergebnis aus der vorhergehenden Operation in demselben Zyklus gespeichert werden kann, wenn ein neuer Operand für die aktuelle Operation abgerufen wird.

Die Gleitkommaeinheit (FPU) enthält die zur Durchführung der Gleitkommaoperationen (floating point operations) und zum ganzzahligen Multiplizieren und Dividieren benötigte Logik. Die FPU enthält vier Gleitkommaregister, einige Zwischenregister und ein 68-Bit-Schieberregister, das bis zu 16 Bits in jeder Richtung verschieben kann, einen 69-Bit-Mantissenaddierer, einen Signifikantes-Bit-Finder, einen Mantissen-ROM, zwei interne 68-Bit-Datenwege und einen getrennten Exponenten- Datenweg, der einen eigenen 16-Bit-Addierer und Register enthält. Sie führt ganzzahlige Multiplikations- und Divisions- und alle Gleitkommaoperationen einschließlich der cordischen Algorithmen für die transzendenten Befehle aus.

Der Übersetzungs-Nachschlage-Puffer (TLB, Translation Lookaside Buffer) führt die zum Implementieren virtueller Speichermechanismen benötigte Adreßübersetzung aus. Der TLB führt die Adreßübersetzung und den Speicherschutz unter Verwendung einer Assoziativtabelle von Speicherdeskriptoren und Seitentabellen einträgen aus. Er enthält einen 48-Eintrag-Adressen-Cache, einen 6-Bit-Adreßaddierer und Speicherschutz-Prüfhardware. Jeder Eintrag im Adreßcache enthält 27 CAM-Bits und 38 RAM-Bits. Der TLB unterstützt einige Adreßübersetzungsmechanismen, um dem Benutzer die Möglichkeit zu geben, die Art des Speicherschutzes aus verschiedenen konventionellen Mechanismen (Seitenwechsel oder Segmentierung) auszuwählen.

Der Lokalbus-Sequenzer ordnet externe Buszugriffe in einer Pipeline an. Der Lokalbus-Sequenzer enthält die Schnittstellen hardware zum externen lokalen Bus, verwaltet das Busprotokoll und beobachtet externe Ereignisse (z. B. Unterbrechungen, Initiali sierung bzw. Anlauf). Er enthält einen abgehenden 33 Bit breiten Adreß- und Daten-FIFO, einen eingehenden 33-Bit-Daten-FIFO und einen Sequenzer. Der abgehende FIFO ermöglicht es, bis zu drei Anforderungen im Lokalbus-Sequenzer in eine Warteschlange einzureihen, so daß der Rest des Prozessors mit der Ausführung fortfahren kann, unabhängig von der Speicherzugriffswartezeit. Die Eingabe-FIFO-Puffer lesen Daten, die aus einem externen Speicher zurückkehren, bis ein freier Zyklus zum Übertragen der Daten zu ihrem Bestimmungsort verfügbar ist.

Eine Mehrzahl von globalen Registern 21 ist vorgesehen. Eines der globalen Register ist ein Rahmenzeigerregister, das den aktuellen Rahmenzeiger enthält, und der Rest der globalen Register steht für einen aktuellen Prozeß als Universalregister zur Verfügung. Ein Register-(Stapelrahmen-)Cache 23 enthält einen Registersatz-Pool aus einer Vielzahl von Registersätzen, von denen jede aus einer Anzahl von lokalen Registern besteht. Wenn ein Aufrufbefehl (CALL) decodiert wird, wird ein Regi stersatz aus dem Registersatz-Pool der aufgerufenen Prozedur zugeordnet, und das Rahmenzeigerregister wird initialisiert. Wenn ein Rückkehrbefehl (RETURN) decodiert wird, wird der Regi stersatz für die Zuordnung zu einer anderen, von einem nach folgenden Aufrufbefehl aufgerufenen Prozedur freigegeben. Wenn der Registersatz-Pool erschöpft ist, werden die Inhalte eines einer vorhergehenden Prozedur zugeordneten Registersatzes im Hauptspeicher sichergestellt und dieser Registersatz der laufenden Prozedur zugeordnet. Die lokalen Register eines einer Prozedur zugeordneten Register satzes enthalten Verknüpfungsinformationen einschließlich eines Zeigers auf den vorhergehenden Rahmen und eines Befehls zeigers, so daß sie die Ausführung der meisten Aufruf- und Rückkehrbefehle ohne Bedarf an Bezugnahmen auf einen externen Speicher ermöglichen.

Befehlssatz

Ein Prozeß sieht einen flachen linearen Adreßraum, adressiert mit 32-Bit-Ordinalen, aus dem er Daten, Befehle und Stapelraum zuweist. Ein Rufbefehl erzeugt einen neuen Stapelrahmen (Aktivierungsatz) auf einem sequentiell zugeordneten Stapel.

Der Befehlssatz des Mikroprozessors ist ähnlich aufgebaut wie diejenigen von RISC (reduzierter Befehlssatz-Computer-)Maschinen. Alle Befehle haben eine Länge von 32 Bits und müssen an Wortgrenzen ausgerichtet sein, und nur Lade-, Speichere- und Verzweige-Befehle greifen auf den Speicher zu (alle anderen greifen auf Register zu).

Im folgenden wird auf Fig. 2 Bezug genommen, welche die Um gebung bei der Ausführung zeigt. Die Ausführungsumgebung besteht aus einem 2_**32 Byte Linearadreßraum 30 und sechsunddreißig Registern. Von den sechsunddreißig Registern sind sechzehn 32-Bit- Globalregister 32, sechzehn sind 32-Bit-Lokalregister 34 und die restlichen vier sind 80-Bit-Gleitkommaregister 36. Die Lokalregister sind einem als Stapelrahmencache bekannten Mechanismus zugeordnet. Wenn eine Prozedur aufgerufen wird, werden die Lokalregister eines neuen Satzes aus einem Registerpool auf dem Chip zugeordnet, und von einer Prozedurrückkehr werden sie frei gemacht. Das beschriebene Ausführungs beispiel der Erfindung sieht vier Sätze 64 von lokalen Registern auf dem Chip vor, jedoch ist diese Zahl für den Programmierer unsichtbar.

Das Registermodell besteht aus 16 globalen Registern und 4 Gleitkommaregistern, die über die Prozedurgrenzen erhalten werden, und Mehrfachsätzen von 16 lokalen (oder Rahmen-)Registern, die in jeden Stapelrahmen assoziativ abgebildet (mapped) werden.

Zu jedem Zeitpunkt kann ein Befehl sechsunddreißig dieser Register wie folgt adressieren:

Registertyp
Registername
Globales Register\|G0 . . . G15
Gleitkommaregister	FP0 . . . FP13
(Gleitkommaoperand) @	Lokales Register	L0 . . . L15

Zu jedem Zeitpunkt kann man zweiunddreißig 32-Bit-Register und vier 80-Bit-Gleitkommaregister adressieren (die 32 Register können auch zum Halten von Gleitkommawerten verwendet werden). Von den 32 Registern sind 16 globale Register und 16 lokale Register. Der Unterschied liegt darin, daß die 16 globalen Register unbeeinträchtigt sind, wenn Prozedurgrenzen überquert werden (d. h. sie verhalten sich ähnlich "normalen" Registern in anderen Prozessoren); lokale Register werden von Aufruf- und Rückkehrbefehlen beeinflußt.

Wenn ein Rufbefehl ausgeführt wird, ordnet der Prozessor der aufgerufenen Prozedur einen neuen Satz von 16 lokalen Registern aus einem On-Chip-Pool von vier Registersätzen zu. Wenn der Vier-Satz-Pool des Prozessors erschöpft ist, ordnet der Prozessor automatisch einen Registersatz neu zu, indem ein einer früheren Prozedur zugeordneter Satz genommen und dessen Inhalt im Speicher sichergestellt wird. Der Inhalt des Registersatzes der früheren Prozedur wird in den ersten 16 Worten des Stapel rahmens dieser Prozedur im Speicher sichergestellt. Aus diesem Grunde wird der Mechanismus als Stapelrahmencache bezeichnet. Der Rückkehrbefehl setzt den aktuellen lokalen Registersatz frei (zur Verwendung durch einen nachfolgenden Ruf oder Aufruf).

Es gibt sechzehn globale Register 32, die einem Prozeß zu geordnet sind. Sie werden im Prozeßsteuerblock sichergestellt, wenn der Prozeß nicht ausgeführt wird. Globale Register werden nicht in den Prozeßsteuerblock assoziativ abgebildet.

Von den sechzehn 32-Bit-Registern enthält G15 den aktuellen Rahmenzeiger (FP - frame pointer) und G0 . . . G14 sind Vielzweckregister. Der FP enthält die lineare Adresse (Zeiger) in die aktuelle Ausführungs umgebung für den aktuellen (obersten) Stapelrahmen. Da Stapelrahmen auf 64-Byte-Grenzen ausgerichtet sind, werden die sechs Bits niedriger Ordnung von FP ignoriert und stets als Null interpretiert. Dieses Register wird auf Ruf initialisiert und auf Rückantwort (returns) erneuert.

Eine Referenz auf ein Register als ein Operand, der größer als 32 Bits ist, verwendet die Register mit aufeinanderfolgend höheren Registernummern.

Gleitkommaregister

Es gibt vier Gleitkommaregister (34), die einem Prozeß zu geordnet sind. Sie werden in dem Prozeßsteuerblock sichergestellt, wenn der Prozeß nicht ausgeführt wird. Gleitkommaregister sind nicht assoziativ in den Prozeßsteuerblock abgebildet.

Gleitkommazahlen werden im erweiterten Realformat in den Gleitkommaregistern gespeichert. Auf Gleitkommaregister wird nur als auf Operanden von Gleitkommabefehlen zugegriffen (jedoch können solche Befehle auch die lokalen und globalen 32-Bit-Register benutzen).

Arithmetische Steuerung

Die arithmetischen Steuerungen 36 dienen zur Steuerung der arithmetischen und Fehlereigenschaften (faulting properties) der numerischen Befehle sowie zur Speicherung der Bedingungscodes. Wenn ein Prozeß suspendiert wird, werden die arithmetischen Steuerinformationen im Prozeßsteuerblock sichergestellt.

Befehlszeiger

Der Befehlszeiger 38 ist eine lineare Adresse (Zeiger) in den aktuellen linearen Adreßraum auf das erste Byte des aktuellen Befehls. Da Befehle an Wort-(4-Byte-)Grenzen beginnen müssen, werden die beiden niedrigen Bits des IP ignoriert und als Null unterstellt.

Lokale (oder Rahmen-)Register

Im folgenden wird auf Fig. 3 Bezug genommen. Register L0 . . . L15, die lokalen Register, bezeichnen nicht Register der konventionellen Art; sie bezeichnen die ersten sechzehn Worte des aktuellen bzw. laufenden Rahmens. Daher wird Register L0 in Linearadresse FP+0 bis FP+3, Register Li in Linearadresse FP+4i bis FP+4i+3 abgebildet usw.

Ein Cache aus mehreren Stapelrahmen wird vorgesehen. Es gibt mehrere Bänke von Hochgeschwindigkeitsregistern, eine Bank pro Prozeduraktivierung. Das Programm braucht Register nicht explizit sicherzustellen und wiederzugewinnen.

Stapelrahmen

Der Stapelrahmen, gezeigt in Fig. 3, ist ein zusammenhängender Abschnitt des aktuellen linearen Adreßraums, der Daten in stapelähnlicher Weise enthält. Es gibt einen Stapelrahmen pro aktivierter Prozedur, der lokale Variable, Parameter und Ver kettungsinformationen enthält. Eine Aufrufoperation eignet sich einen neuen Stapelrahmen an. Eine Rückkehroperation gibt ihn frei. Wenn ein neuer Rahmen angenommen wird, wird er auf einer 64-Byte-Grenze ausgerichtet.

Die Felder im Stapelrahmen gemäß Fig. 3 sind wie folgt definiert:

Auffüllungsgebiet. Dieses Gebiet 42 wird zum Ausrichten des FP auf die nächste 64-Byte-Grenze benutzt. Die Größe dieses Gebiets ändert sich von 0 bis 63 Bytes. Wenn eine Aufrufoperation durchgeführt wird, wird ein Auffüllungsgebiet hinzugefügt, um den SP des Rufers auf die nächste 64-Byte-Grenze zur Bildung des FP für diesen Rahmen aufzurunden. Wenn der SP des Rufers bereits ausgerichtet ist, fehlt das Auffüllgebiet.

Rahmenstatus (L0). Der Rahmenstatus 42 zeichnet die dem Rahmen nach einem Aufruf zugeordnete Information auf, damit sie bei einer Rückkehr aus dem Rahmen benutzt werden. Die Felder eines Rahmenstatus sind wie folgt definiert:

Überwachungsfreigabe T (Bit 0). In einem Organisationspro grammaufruf registriert dieses Bit das Überwachungsaktivierungsbit zum Zeitpunkt des Aufrufs. Bei der Rückkehr wird dieses Bit zum Wiedergewinnen des Überwachungsaktivierungsbits des Aufrufers in dem Prozeß verwendet, wenn der Ausführungsmodus des Rückkehrrahmens Organisationsprogramm ist.

Rückkehrstatus, RRR (Bits 1-3). Dieses 3-Bit-Feld registriert den bei der Erzeugung dieses Rahmens verwendeten Aufrufmechanismus und dient zur Auswahl des Rückkehrmechanismus, der bei der Rückkehr benutzt wird. Die Codierungen dieses Feldes sind wie folgt:

000 Lokal
001 Organisationsprogramm bzw. Überwachung
010 Unterbrechung
011 Nicht-Subsystem-Fehler
100 Subsystem
101 Reserviert
110 Ruhe/Gestoppte Unterbrechung
111 Reserviert

Rückkehrvorüberwachung R (Bit 4). Wenn das Rückkehrvorüber wachungsbit bei einer Rückkehr aus einem Rahmen 1 ist, erscheint ein Rückkehrvorüberwachungsereignis (bei Aktivierung), bevor eine Aktionsassoziation mit der Rückkehroperation durchgeführt wird. Dieses Bit wird bei einem Aufruf auf Null initialisiert.

Vorhergehender Rahmenzeiger PFP (Bit 6-31). Eine Linear adresse 42 zum ersten Byte des vorherigen Rahmens. Da Rahmen auf 64-Byte-Grenzen ausgerichtet sind, werden nur die am höchsten bewerteten 26-Bits des FP sichergestellt. Wenn der Rückkehrstatus einen Subsystemtransfer anzeigt, enthält dieses Feld die am höchsten bewerteten 26 Bits der Linearadresse des obersten (letzten) Rahmens im Aufrufstapel vor dem Aufruf. Anderenfalls ist der oberste Rahmen der Aufrufrahmen.

Während eines Aufrufs werden die unteren fünf Bits des Rahmen status wie folgt initialisiert:

T ist der Wert des oben definierten Überwachungsbits. "-" zeigt ein reserviertes Bit an, während "x" ein unbeachtliches Bit angibt.

Bei allen Rücksprüngen (returns) werden die Bits wie folgt interpretiert:

Stapelzeiger SP (L1). Eine lineare Adresse 44 zum ersten freien Byte des Stapels, d. h. die Adresse des letzten Bytes im Stapel+Eins. SP wird durch die Aufrufoperation initialisiert, auf FP plus 64 hinzuweisen.

Rückkehr (Rücksprung)-Befehlszeiger RIP (L2). Wenn eine Auf rufoperation an einem neuen Rahmen durchgeführt wird, wird der Rückkehr- bzw. Rücksprung-IP 46 hier sichergestellt. Wenn der Prozeß suspendiert ist, wird der Befehlszeiger des nächsten Befehls hier gespeichert. Er enthält eine 32-Bitlinearadresse, zu der die Steuerung nach Rückkehr zu diesem Rahmen zurückkehrt.

Ein Prozeßaufruf stellt den IP in einem Register des aktuellen Rahmens sicher. Da Implizitprozeduraufrufe auftreten können (aufgrund von Fehlern und Unterbrechungen), verwenden Programme dieses Register nicht für andere Zwecke.

Der Stapel wächst (Fig. 4) von niedrigen Adressen zu hohen Adressen.

Fig. 5 zeigt die Abbildung der Mikroprozessor-Registersätze in die Programmstapel im Speicher.

Die Seite oder ein einfaches Objekt, in die die ersten 64 Bytes eines Rahmens abgebildet werden, müssen von lokaler Lebensdauer sein. Die Lebensdauer (liefetime) der Seite oder eines einfachen Objekts wird während eines Aufrufs geprüft. Diese Beschränkung ist notwendig, um eine effiziente Manipulation von AD′s in den lokalen Registern sicherzustellen.

Lineare Adreßraumstruktur

Wie in Fig. 2 gezeigt ist, definiert jede Ausführungsumgebung einen 32-Bit-Linearadreßraum. Der Linearadreßraum ist in vier Zonen unterteilt. Die ersten drei Zonen einer Ausführungsumgebung sind für den aktuellen Prozeß spezifisch (d. h. definiert durch den Prozeß-Steuerblock). Die Zusammensetzung der Prozeß- spezifischen Zonen kann durch einen Subsystemaufruf/Rücksprung geändert werden. Die vierte Zone einer Ausführungsumgebung (execution environment) wird von allen Prozessen geteilt (d. h. definiert vom Prozessor-Steuerblock). Beschränkungen dergestalt, wo Befehle, Stapelrahmen oder Daten im Linear adreßraum angeordnet sind, gibt es nicht.

Lokaler Prozedurmechanismus

Eine Prozedur beginnt an einer beliebigen Wortadresse in einem Linearadreßraum. Prozeduraufrufe und Rücksprünge verwenden einen Stapel im Linearadreßraum.

Befehle

Aufruf
Aufruf-erweitert.

Die Befehle Aufruf und Aufruf-erweitert rufen die Prozedur an der angegebenen Adresse auf. Aufruf spezifiziert die Prozedur als IP plus einer 24-Bit-Verschiebung. Aufruf-erweitert spezi fiziert die Prozedur unter Verwendung einer generellen speicher wirksamen Adresse. Aufruf-erweitert enthält auch einen Operanden, der im neuen Rahmen AP wird.

Ein neuer Stapelrahmen wird während der Aufrufoperation zu geordnet und der Steuerfluß wird zu den spezifizierten Prozeduren übertragen. Die Ausführungsumgebung bleibt ungeändert.

Rückkehr bzw. Rücksprung

Der Rückkehrbefehl überträgt die Steuerung zurück zu der Adreß umgebung der aufrufenden Prozedur und gibt den Stapelrahmen der aufgerufenen Prozedur frei. Die Befehlsausführung wird an dem von dem RIP im Rahmen der aufrufenden Prozedur bezeichneten Befehl fortgesetzt.

Modifiziere-AC
Setze-Adresse-um

Modifiziere-AC wird zum Lesen oder Modifizieren der aktuellen arithmetischen Steuerungen verwendet. Da die Bereichs-AD′s nicht direkt zugreifbar sind, kann der Setze-Adresse-um-Befehl zum Umsetzen einer Linearadresse in eine virtuelle Adresse verwendet werden.

Prozeßmanagement

Ein Softwareprozeß oder eine Task wird von einem Prozeß- Steuerblock dargestellt. Zwei Mittel sind für die Steuerung der Prozeßvermittlung bzw. -schaltung (process switching) vorgesehen. Eines ist über zwei Befehle (Sichere-Prozeß und Wiederaufnahme-des-Prozesses), die es einem Betriebssystem ermöglicht, Prozesse explizit umzuschalten. Ein anderes ist eine Prozeßdispositions- und Abfertigungsfunktion auf Prioritätsbasis, die in den Prozessor eingebaut ist. Unter Verwendung des zuletzt genannten Mechanismus wählt der Prozessor automatisch Prozesse aus einer Warteschlage im Speicher aus.

Der Prozessor verfolgt die kumulative Ausführungszeit jedes Prozesses und liefert auch ein optimales Zeitscheibenmanagement. Bei letzterem erzeugt der Prozessor einen Fehler oder reiht den Prozeß in die Schlange von verfügbaren Prozessen ein und wählt einen anderen Prozeß aus, wenn ein Prozeß länger als eine vorgegebene Zeit läuft.

Wenn eine automatische Prozeßauswahl verwendet wird, ist ein Satz von Zwischenprozeß-Kommunikationsbefehlen vorgesehen, die den normalerweise in Software- Betriebssystem-Kernels vorgesehenen Dienstleistungen ähnlich sind. Sie unterstützen die Nachrichtenverbindung unter Prozessen.

Überwachung und ICE-Unterstützung

Software-Austestung und -Überwachung geschieht mittels eines Überwachungssteuerungsregisters, das Bestand jedes Prozesses ist. Die Überwachungssteuerungen ermöglichen die Ermittlung irgendeiner Kombination der folgenden Ereignisse:

Befehlsausführung (d. h. Einzelschritte)
Ausführung eines genommenen Verzweigungsbefehls
Ausführung eines Aufrufbefehls
Ausführung eines Rücksprungbefehls
Feststellung, daß der nächste Befehl ein Rücksprungbefehl ist
Ausführung eines Organisationsprogramm- oder Subsystemaufrufs
Unterbrechungspunkt (Hardware-Unterbrechungspunkt oder Ausführung eines Unterbrechungspunktbefehls)

Wenn ein Überwachungsereignis festgestellt wird, erzeugt der Prozessor einen Überwachungsfehler, um eine Steuerung an einen Software-Austester oder Monitor zu geben. Der Prozessor enthält zwei Befehlsunterbrechungspunktregister, in die ein Austester die Adressen von zwei Befehlen eingeben kann.

Externer Bus

Der Bus des Mikroprozessors ist ein 32-Bit-Multiplex-Bus mit Burst-Übertragungsfähigkeit. Der Burst-Übertragungsmechanismus (der die Übertragung mehrerer Worte in aufeinanderfolgenden Zyklen ermöglicht), läßt den Bus der Definition eines Multiplex-Bus gerecht werden. Bündelübertragungen können für 1, 2, 3 oder 4 Worte stattfinden. Während des Adreßzyklus gibt der Prozessor die Zahl von Worten in der Anforderung in den beiden Adreßbits niedriger Ordnung an. Wenn der Prozessor beispielsweise vier Worte zu lesen wünscht, ist die Busoperation so lange nicht beendet, bis vier READY′s aufgenommen sind. Bündelübertragungsoperationen werden häufig von dem Prozessor für Befehlscache-Auffüllungen, Stapelrahmen-Cache-Sicherstellungen und -Erneuerungen, Multiwortaufladungen und Speicherungen, Stringoperationen od. dgl. verwendet.

Der Mikroprozessor arbeitet stark zeitverschachtelt. Es gibt normalerweise fünf Befehle in verschiedenen Ausführungsstufen in der Pipeline zu jedem Augenblick. In einem vorgegebenen Zyklus wird der Befehlshinweis auf Befehl n+4 berechnet, Befehl n+3 wird aus dem Befehlshinweis gelesen, Befehl n+2 wird decodiert und an den Mikrobefehlsbus ausgegeben, Befehl n+1 wird ausgeführt, und das Ergebnis des Befehls n wird in die Registerdatei gespeichert.

Claims

1. In integrierter Schaltungstechnik auf einem Chip ge fertigter Datenprozessor mit einer Befehlsausführungseinheit (24),
wobei der Datenprozessor über einen Hauptspeicherbus mit einem externen Hauptspeicher koppelbar ist, wobei in dem Hauptspeicher Programmbefehle eines ersten Prozesses und Programmbefehle eines zweiten Prozesses gespeichert werden können, wobei die Befehle des ersten Prozesses wenigstens einen Aufruf-Befehl zum Aufrufen des zweiten Prozesses enthalten,
wobei der Datenprozessor wenigstens einen Registersatz aufweist, dessen Inhalte in einem Rahmen eines als Stapelspeicher organisierten Hauptspeicherbereichs gesichert werden können,
dadurch gekennzeichnet,
daß der Datenprozessor eine Mehrzahl globaler Register (21; G0-G15) aufweist, wobei eines (G15) der globalen Register ein Rahmenzeigerregister ist, das einen Rahmenzeiger enthält, welcher auf einen einem auf dem Prozessor ablaufenden aktuellen Prozeß entsprechenden aktuellen Rahmen zeigt, und wobei die restlichen globalen Register für den aktuellen Prozeß verfügbare allgemeine Register sind;
daß der Datenprozessor einen Stapelrahmen-Cache-Speicher (23) mit einem aus einer Mehrzahl von Registersätzen gebildeten Registersatz-Pool aufweist, wobei jeder Registersatz aus einer Anzahl lokaler Register (L0-L15) besteht;
daß Adreßübersetzungsmittel (18, 24) mit dem Stapelrahmen- Cache-Speicher (23) zum Abbilden der lokalen Register auf entsprechende Rahmen im Adreßraum des Hauptspeichers verbunden sind;
daß die lokalen Register (L0-L15) jedes Registersatzes Speicherplatz zum Speichern von Verknüpfungsinformationen aufweisen, wobei die Verknüpfungsinformationen einen Vorher gehender-Rahmen-Zeiger (PFP; 42; L0), welcher die Adresse des Hauptspeicherplatzes des letzten zuvor aktivierten Rahmens enthält, und einen Rückkehrbefehlszeiger (RIP; 46; L2) einschließen, welcher den Befehlszeiger des nächstfolgenden Befehls in dem Befehlsstrom des Prozesses enthält, der den Rahmen erschaffen hat, mit welchem der Registersatz korrespondiert;
daß ein interner Bus in dem Datenprozessor den Stapelrahmen- Cache-Speicher (23), die globalen Register (21) und die Befehlsausführungseinheit (24) miteinander verbindet, wobei die globalen Register (21) und die lokalen Register des Stapelrahmen-Cache-Speichers (23) über den internen Bus mittels in der Befehlsausführungseinheit (24) ausgeführter Mikrobefehle adressierbar sind;
daß ein Befehlsdecodierer (12) mit der Befehlsausführungs einheit (24) verbunden ist; und
daß eine Steuereinrichtung (14) mit dem Befehlsdecodierer (12) gekoppelt ist und bei einer Decodierung eines Aufruf-Befehls des ersten Prozesses durch den Befehlsdecodierer (12) derart aktiviert wird, daß sie dem zweiten Prozeß einen zweiten Registersatz der lokalen Register aus dem Registersatz-Pool in dem Stapelrahmen-Cache-Speicher (23) zuweist und daß sie einen aktuellen Rahmenzeiger, welcher auf den zweiten Registersatz zeigt, in das Rahmen zeigerregister (G15) einsetzt,
wobei die Steuereinrichtung (14) Mittel zum Übertragen der Inhalte eines früher zugewiesenen Registersatzes, der zuvor einen früher aktivierten Prozeß zugewiesen wurde, über den Hauptspeicherbus zum Hauptspeicher und Mittel zum Neuzuweisen des früher zugewiesenen Registersatzes zum aktuellen Prozeß durch Einsetzen des auf den früher zugewiesenen Registersatzes hinzeigenden Rahmenzeigers in das Rahmenzeiger register (G15) aufweist.

2. Datenprozessor nach Anspruch 1, dadurch gekennzeichnet, daß die Steuereinrichtung (14) eine Einrichtung aufweist, die beim Decodieren eines Rückkehrbefehls in dem Befehlsstrom des zweiten Prozesses derart aktiviert wird, daß sie die Inhalte des dem zweiten Prozeß zugewiesenen zweiten Registersatzes aus dem Registersatz-Pool über den Hauptspeicherbus zu dem Hauptspeicher überträgt und dem in dem zweiten Registersatz gespeicherten vorhergehenden Rahmenzeiger in das Rahmenzeigerregister (G15) einsetzt, wobei der in dem zweiten Registersatz gespeicherte vorhergehende Rahmenzeiger auf den ersten der Registersätze hinzeigt.

3. Datenprozessor nach Anspruch 1, dadurch gekennzeichnet, daß der vorhergehende Rahmenzeiger Bits enthält, die eine lineare Adresse des ersten Bytes des vorhergehenden Rahmens enthalten.