DE19983589B4

DE19983589B4 - Hochfrequenz-Pipeline-Entkopplungswarteschlangengestaltung

Info

Publication number: DE19983589B4
Application number: DE19983589T
Authority: DE
Inventors: Sriram Sunnyvale Bhamidipati; Kushagra V. Sunnyvale Vaid
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 1998-09-24
Filing date: 1999-09-20
Publication date: 2005-01-27
Anticipated expiration: 2019-09-21
Also published as: DE19983589T1; WO2000017744A1; US6112295A; GB2357874B; GB0106055D0; CN1320238A; AU6055199A; CN1158598C; GB2357874A

Abstract

Verfahren zum Beschleunigen der Verarbeitung einer Vielzahl von Befehlen in einem Prozessor, wobei das Verfahren die Schritte umfaßt:
a. Bereitstellen einer Mehrzahl von Pipelineeinheiten (502) zum Verarbeiten einer Vielzahl von Befehlen, wobei jede der Mehrzahl von Pipeline-Einheiten eine Mehrzahl von Pipelinestufen (300, 302, 304, 308) aufweist; und
b. Bereitstellen einer entkoppelnden Warteschlange (306) zum Entkoppeln wenigstens einer der Pipelinestufen (304) von einer anderen (308), wobei die entkoppelnde Warteschlange sowohl Lese- als auch Schreiboperationen aus der bzw. in die Warteschlange innerhalb eines einzigen Taktzyklus (900) des Prozessors unterstützt, indem die Warteschlange einander nicht überlappende Lese- bzw. Schreibsignale in dem Taktzyklus erzeugt, wobei die Leseoperation während des aktiven Lesesignals und die Schreiboperation während des aktiven Schreibsignals stattfindet.

Description

Diese Erfindung bezieht sich auf ein Verfahren zum Beschleunigen der Verarbeitung einer Vielzahl von Befehlen in einem Prozessor mit mehreren Pipelinestufen, von denen wenigstens zwei durch eine Warteschlange entkoppelt sind sowie auf einen Prozessor mit mehreren jeweils mehrere Pipelinestufen aufweisenden Pipelineeinheiten und wenigstens einer Warteschlange, die zwischen zwei Pipelinestufen angeordnet ist und diese entkoppelt.
Prozessorkonstrukteure haben stets versucht, die Zeitdauer zu verringern, die ein Prozessor benötigt, um ein Programm auszuführen. Eine Technik zur Erhöhung der Leistung eines Prozessors besteht darin, daß die beim Ausführen mehrerer Befehle involvierten Schritte sich einander überlappen. Diese Technik ist als Pipeline-Verschachtelung bekannt. Jeder Schritt in der Pipeline oder jede Pipelinestufe schließt einen Teil eines Befehls ab. Von den Pipelinestufen ist jeweils eine mit einer nächsten verbunden, so daß sie eine Pipeline bilden, wobei die Befehle an einem Ende eintreten, die Stufen entlang verarbeitet werden und am anderen Ende die Pipeline verlassen. Da die Pipeline-Verschachtelung eine Parallelität zwischen den Befehlen in einem sequentiellen Befehlsstrom ausnutzt, erbringt sie eine Verringerung der durchschnittlichen Ausführungszeit pro Befehl.

Da die Befehlsausführung in den verschiedenen Pipelinestufen bei verschiedenen Geschwindigkeiten voranschreitet, umfaßt eines der Verfahren das Einfügen von Warteschlangen in die Pipeline zum Entkoppeln dieser Pipelinestufen, um die optimale Leistung einer Pipeline zu sichern. Diese Lösung ist beispielweise aus dem US-Patent Nr. 5,325,495 bekannt. Wenn beispielsweise eine Warteschlange zwischen einer Abrufstufe und einer Decodierstufe einer Pipeline eingefügt wird, kann ein Prozessor die Befehle in der Abrufstufe lesen und sie in der eingefügten Warteschlange speichern. Statt auf die Ausgabe der Ab rufstufe zu warten, kann der Prozessor Befehle direkt aus der Warteschlange gewinnen und mit deren Decodierstufe fortfahren. Im Ergebnis wurden die Ausführung der Abrufstufe und der Decodierstufe entkoppelt. Mit anderen Worten, die beiden Stufen können ihre jeweiligen Aufgaben unabhängig voneinander ausführen.

Obwohl der beschriebene Entkopplungswarteschlangenmechanismus die Leistung einer Pipeline verbessert, können seine Beschränkungen die fortgesetzten Konstruktionsbemühungen, Prozessoren zu beschleunigen, noch behindern. In dem Maße, wie ein Prozessor seine Pipelinestufen weiter aufspaltet und seine Taktgeschwindigkeit erhöht, können die Dauer der Einrichtzeit (Setup Time) der Entkopplungswarteschlange und ihre Verzögerung zum Ausführen entweder einer Lese- oder einer Schreiboperation angesichts eines abnehmenden Taktzyklus untragbar lang werden. Wenn ein derartiger Overhead gleich dem Taktzyklus des Prozessors wird, ist keine weitere Pipeline-Verschachtelung bei der Verbesserung der Leistung eines Prozessors nützlich.

Aufgabe der Erfindung ist es, ein verbessertes Verfahren und einen verbesserten Prozessor zum Beschleunigen der Verarbeitung einer Vielzahl von Befehlen zu schaffen, wobei gleichzeitig Overheads hinsichtlich der Einrichtzeit und der Zeiten für Lese- und Schreiboperationen an der Warteschlange vermieden werden.

Diese Aufgabe wird erfindungsgemäß durch ein Verfahren mit den Merkmalen des Anspruchs 1, einen Prozessor mit den Merkmalen des Anspruchs 7 sowie ein Computersystem mit den Merkmalen des Anspruchs 14 gelöst.

Der Prozessor weist eine Mehrzahl von Pipeline-Einheiten auf, um eine Vielzahl von Befehlen zu verarbeiten. Jede der Pipeline-Einheiten weist mehrere Pipelinestufen auf. Ferner wird eine sich selbst taktende (self-timed) Warteschlange bereitgestellt, um wenigstens eine der erwähnten Pipelinestufen von einer anderen zu entkoppeln, wobei die sich selbst taktende Warteschlange sowohl Lese- als auch Schreiboperationen innerhalb eines einzigen Taktzyklus des Prozessors unterstützt.

Vorteilhafte und/oder bevorzugte Weiterbildungen der Erfindung sind in den Unteransprüchen gekennzeichnet.

Die vorliegende Erfindung wird beispielhaft und in nicht einschränkender Weise anhand der Figuren der begleitenden Zeichnungen veranschaulicht, in welchen gleiche Bezugszeichen auf ähnliche Elemente verweisen und in welchen:

1 eine herkömmliche Pipeline zur Verarbeitung von Befehlen veranschaulicht.

2 veranschaulicht die Sequenz zur Verarbeitung von Befehlen gemäß der Pipeline in 1.

3 veranschaulicht eine Blockdarstellung einer speziellen Anwendung der vorliegenden Erfindung.

4 veranschaulicht eine Blockdarstellung eines Ausführungsbeispiels der vorliegenden Erfindung.

5 veranschaulicht eine Mehrzweckcomputersystemarchitektur.

6 veranschaulicht ein Ablaufdiagramm für eine Steuerlogikeinheit eines Ausführungsbeispiels der vorliegenden Erfindung.

7 veranschaulicht ein Ablaufdiagramm für die Schreibzeiger- und Lesezeigermanipulation der Steuerlogikeinheit der vorliegenden Erfindung.

8a veranschaulicht ein Beispiel, bei dem der Schreibzeiger und der Lesezeiger auf denselben Eintrag in der Datenspeichereinheit der vorliegenden Erfindung zeigen.

8b veranschaulicht ein Beispiel in der Datenspeichereinheit der vorliegenden Erfindung, bei dem der Lesezeiger umgelaufen (wrapped around) ist und der WR-Modus aktiviert wird.

8c veranschaulicht ein Beispiel in der Datenspeichereinheit der vorliegenden Erfindung, bei dem der Schreibzeiger umgelaufen und der RW-Modus aktiviert ist.

9 veranschaulicht ein Zeitdiagramm des Erzeugens eines Schreibsignals und eines Lesesignals innerhalb eines Prozessortaktzyklus.

DETAILLIERTE BESCHREIBUNG

Es werden ein Verfahren und eine Einrichtung zum Beschleunigen der Verarbeitung einer Vielzahl von Befehlen in einem Prozessor beschrieben. In der folgenden Beschreibung werden zahlreiche spezielle Details angegeben, wie beispielsweise eine Steuerlogikeinheit, eine Datenspeichereinheit und Zeitgabeerzeugungseinheit, etc., um ein besseres Verständnis der vorliegenden Erfindung zu erreichen. Für einen Durchschnittsfachmann ist es jedoch klar, daß die Erfindung auch ohne diese speziellen Details ausgeführt werden kann. An anderen Stellen werden gut bekannte Elemente und Theorien, wie beispielsweise das Prozessordesign, Registersatz, Pipeline, Einrichtzeit, etc., nicht besonders detailliert erörtert, um ein unnötiges Verdecken der vorliegenden Erfindung zu vermeiden.

1 veranschaulicht eine herkömmliche Pipeline zum Verarbeiten von Befehlen. Die Verarbeitung solcher Befehle besteht aus vier Stufen: Befehlsabruf 100 (mit F bezeichnet), Befehlsdecodierung 102 (mit D bezeichnet), Operandenadressenberechnung 104 (mit A bezeichnet) und Ausführung/Operandenabruf/Operandenspeicherung 106 (mit X bezeichnet). Jede dieser Schritte wird zu einer Pipelinestufe und führt zu dem in 2 gezeigten Ausführungsmuster. Während jeder Befehl noch vier Taktzyklen benötigt, führt die Hardware während jedes Taktzyklus jeweils irgendeinen Teil von vier unterschiedlichen Befehlen aus. Obwohl die Pipeline-Verschachtelung nicht die Ausführungszeit eines einzelnen Befehls verringert, erhöht sie die Anzahl der Befehle, die pro Zeiteinheit abgeschlossen werden.

Nachdem kurz die herkömmlichen Pipeline-Prinzipien erörtert worden sind, veranschaulicht 3 eine Blockdarstel lung einer speziellen Anwendung der vorliegenden Erfindung. Für einen Durchschnittsfachmann ist es klar, wie die Blockdarstellung auf andere Pipelinestufen in einem Prozessor angewendet wird. Zusätzlich veranschaulicht 4 eine Blockdarstellung eines Ausführungsbeispiels der vorliegenden Erfindung. Die Blockdarstellung kann in verschiedenen Arten von Prozessoren innerhalb unterschiedlicher Mehrzweckcomputersysteme implementiert werden. Ein derartiges Computersystem ist in 5 veranschaulicht.

Diese Computersystemarchitektur umfaßt einen Prozessor 500 mit einer die vorliegende Erfindung enthaltenden Pipeline-Einheit 502 zum Verarbeiten von Audio-, Video- und Dateninformationen, der mit einem Buselement 504 zum Austauschen von Informationen gekoppelt ist, einen mit dem Buselement 504 gekoppelten Speicher 506 mit wahlfreiem Zugriff zum Speichern statischer Informationen und von Befehlen für den Prozessor 500, eine mit dem Buselement 504 gekoppelte Datenspeichereinrichtung 512, wie beispielsweise eine Magnetplatte und ein Plattenlaufwerk, zum Speichern eines Betriebssystems 516 und von Informationen und Befehlen, ein mit dem Buselement 504 gekoppeltes lesbares Medium 514, wie beispielsweise eine Diskette oder eine CD, zum Wiedergewinnen von Informationen und Befehlen für den Prozessor 500, eine mit dem Buselement 504 gekoppelte Anzeigeeinrichtung 508 zum Anzeigen von Informationen an den Computerbenutzer und eine mit dem Buselement 504 gekoppelte alphanumerische oder andere herkömmliche Eingabeeinrichtung 510 zum Übermitteln von Informationen und Befehlsauswahlen an den Prozessor 500.

Betriebsweise der vorliegenden Erfindung

Die vorliegende Erfindung ist ein Verfahren und eine Einrichtung zum Beschleunigen der Verarbeitung einer Vielzahl von Befehlen in einem Prozessor. Insbesondere entkoppelt die vorliegende Erfindung nicht nur eine Pipelinestufe in einer Pipeline-Einheit eines Prozessors von einer anderen, sie unterstützt darüber hinaus sowohl Lese- als auch Schreiboperationen aus demselben Datenspeicherort innerhalb eines einzigen Taktzyklus des Prozessors. Darüber hinaus erzeugt die vorliegende Erfindung ihr eigenes nichtüberlappendes Lese- und Schreibsignal, um die richtigen Lese- und Schreiboperationen auszulösen. Diese Lese- und Schreibsignale bleiben für eine Mindestdauer aktiv, um die gewünschten Operationen abzuschließen und um die Einrichtzeit-Anforderungen einer nachfolgenden Logikstufe zu erfüllen. Die Erfindung enthält darüber hinaus eine Logik zum Bestimmen der effektivsten Sequenz zum Ausführen der Lese- und Schreiboperationen.

Eine Anwendung der Erfindung ist ein Mehrzweckcomputersystem, das auf speziellen Komponenten arbeitet, wie sie in 3 veranschaulicht sind. Insbesondere werden ausgewählte Pipelinestufen in der Pipeline-Einheit 502 in Verbindung mit der vorliegenden Erfindung verwendet, um die Funktionalität der Entkopplungswarteschlange 306 zu demonstrieren. Nachdem das Betriebssystem 516 auf der Datenspeichereinrichtung 512 Befehle entweder von der Datenspeichereinrichtung 512 oder dem lesbaren Medium 514 lädt, richtet es außerdem die erforderliche Umgebung für die Ausführung der Befehle ein. Die Befehle für den Prozessor 500 werden typischerweise in einem Speicher 506 mit wahlfreiem Zugriff gespeichert.
Block 300 liest Befehle variabler Länge aus dem Speicher. Dann führt der Block 302 ein Rotieren und Ausrichten dieser gelesenen Informationen aufgrund der aus der Vor-Decodierung des Blocks 304 abgeleiteten Anzahl von Bytes durch. Die Blöcke 300, 302 und 304 können zusammen als Pipelinestufe F 100 betrachtet werden, wie sie in 1 gezeigt ist. Da die Entkopplungswarteschlange 306 Ausgaben aus dem Block 304 speichert, braucht die Befehlsdecodiereinheit 308 oder Pipelinestufe D 102 in 1 nicht auf den Abschluß der Pipelinestufe F 100 zu warten. Stattdessen kann die Befehlsdecodiereinheit 308 fortfahren, indem sie die gespeicherten Befehle aus der Entkopplungswarteschlange 306 verarbeitet. Mit anderen Worten, die Operationen der Pipelinestufe F 100 und der Pipelinestufe D 102 wurden durch Verwendung der Entkopplungswarteschlange 306 entkoppelt.
Es sei betont, daß, obwohl spezielle Pipelinestufen verwendet wurden, um die vorliegende Erfindung zu beschreiben, die Erfindung in anderen Pipelinestufen ohne Überschreitung ihres Umfangs enthalten sein kann. Beispielsweise kann die Entkopplungswarteschlange 306 zwischen die Pipelinestufe D 102 und die Pipelinestufe A 104 eingefügt werden. Darüber hinaus ist es für den Durchschnittsfachmann klar, daß die vorliegende Erfindung auf mehr als die vier in 1 veranschaulichten Pipelinestufen angewendet werden kann oder auf mehrere Pipelines innerhalb eines Prozessors sowie auf mehrere Prozessoren innerhalb des Beispielcomputersystems gemäß 5, ohne vom Umfang der vorliegenden Erfindung abzuweichen.
Der Mechanismus der Entkopplungswarteschlange 306 in 3 ist genauer in 4 dargelegt. Insbesondere enthält die Entkopplungswarteschlange 306 eine Steuerlogikeinheit 400, eine Zeitgabe- oder Takt-Erzeugungseinheit 402 und eine Datenspeichereinheit 404. Bei einem Ausführungsbeispiel der vorliegenden Erfindung ist die Datenspeichereinheit 404 ein Registersatz.
4 und 6 veranschaulichen ein Ausführungsbeispiel der Steuerlogikeinheit 400. In Übereinstimmung mit ihrer externen Eingabe 406 und ihren internen Zeigerberechnungen erzeugt die Steuerlogikeinheit 400 ein Steuersignal 410, um den gewünschten Lese- und Schreibmodus für die Entkopplungswarteschlange 306 anzuzeigen. Insbesondere beginnt die Steuerlogikeinheit 400, indem sie die Zeitgabeerzeugungseinheit 402 auf den Schreiboperation-zuerst-Leseoperation-später-Modus (als WR-Modus bezeichnet) im Schritt 600 einrichtet. Wenn die Steuerlogikeinheit 400 den Ort oder Speicherplatz in der Datenspeichereinheit 404 zum Einschreiben eingehender Daten 412 oder zum Lesen auslaufender Daten 414 berechnet, hält die Steuerlogikeinheit 400 unabhängige Schreib- und Lesezeiger aufrecht, um die berechneten Orte zu verfolgen.
Auf der Grundlage der Werte dieser beiden Zeiger oder des Werts ihrer externen Eingabe 406 bestimmt die Steuerlogikeinheit 400 im Schritt 602, ob die Datenspeichereinheit 404 ausreichend Kapazität aufweist, um das Aufnehmen eingehender Daten 412 fortzusetzen. Wenn der Schreibzeiger und der Lesezeiger eine volle Datenspeichereinheit 404 anzeigen oder wenn der externe Eingang 406 ein Steckenbleiben (stall) in der vorhergehenden Pipelinestufe anzeigt, gibt die Steuerlogikeinheit 400 im Schritt 604 ein Steuersignal 410 an die Zeitgabeerzeugungseinheit 402 aus, damit diese in den Leseoperation-zuerst-Schreiboperation-später-Modus (als RW-Modus bezeichnet) umschaltet. Anderenfalls wird der WR-Modus fortgesetzt.
Auf eine ähnliche Weise überprüft die Steuerlogikeinheit 400 auf der Grundlage der Schreibzeiger- und Lesezeigerwerte im Schritt 606, ob die Leseoperationen an auslaufenden Daten 414 die Datenspeichereinheit 404 entleert (depleted) haben. In Abhängigkeit vom Ausgang des Schritts 606 und vom aktuellen Zustand der Steuerlogikeinheit 400 wechselt entweder der RW-Modus zurück in den WR-Modus oder bleibt der Zustand, RW-Modus oder WR-Modus, unverändert.
In Verbindung mit den in den 8a, 8b und 8c gezeigten Beispielen und der in 4 gezeigten Blockdarstellung veranschaulicht 7 die erörterten Lesezeiger- und Schreibzeigeroperationen näher. Im Schritt 700 zeigen bei Verwendung einer Datenspeichereinheit 404 mit fünf Einträgen, wie sie in 8a gezeigt ist, der Lesezeiger 800 (als RP 800 bezeichnet) und der Schreibzeiger 802 (als WP 802 bezeichnet) anfänglich auf denselben ersten Eintrag, und die Steuerlogikeinheit 400 beginnt mit dem WR-Modus. Wenn eingehende Daten 412 in die Datenspeichereinheit 404 eintreten, wird WP 802 im Schritt 702 inkrementiert. In ähnlicher Weise wird dann, wenn auslaufende Daten 414 die Datenspeichereinheit 404 verlassen, RP 800 im Schritt 702 ebenfalls inkrementiert. wenn einer der Zeiger das Ende der Datenspeichereinheit 404 oder den Eintrag 5 erreicht, läuft der Zeiger um und beginnt beim Eintrag 1 von vorn.
8b demonstriert ein mögliches Szenarium, bei dem RP 800 umgelaufen ist und die Datenspeichereinheit 404 leer ist. Insbesondere dann, wenn WP 802 vom Eintrag 1 zum Eintrag 5 vorgerückt und wieder zum Eintrag 2 umgelaufen ist und wenn RP 800 ebenfalls auf ähnliche Weise vorgerückt wurde, wurden sämtliche eingehenden Daten 412, die bereits in die Datenspeichereinheit 404 eingeschrieben wurden, als auslaufende Daten 414 ausgelesen. Wenn im Schritt 704 RP 800 und WP 802 auf denselben Eintrag 2 verweisen und im Schritt 706 festgestellt worden ist, daß RP 800 umgelaufen ist, wird der WR-Modus im Schritt 710 fortgesetzt. Mit anderen Worten, Schreiboperationen müssen zunächst stattfinden, bevor irgendwelche weiteren Leseoperationen erfolgen können. Wenn die Schreiboperation ausgeführt wird, wird WP 802 zum Eintrag 2 vorgerückt, während RP 800 beim Eintrag 2 verbleibt.
Andererseits bietet 8c ein alternatives Szenarium, bei dem die Datenspeichereinheit 404 voll ist. Analog der vorhergehenden Diskussion wird dann, wenn RP 800 und WP 802 im Schritt 704 auf denselben Eintrag verweisen und von WP 802 im Schritt 708 festgestellt wird, daß er umgelaufen ist, der WR-Modus in den RW-Modus im Schritt 712 geändert. Genauer gesagt, müssen dann Leseoperationen vor irgendwelchen nachfolgenden Schreiboperationen auftreten, da die Datenspeichereinheit 404 keine weiteren eingehenden Daten akzeptieren kann. Wenn die Leseoperation ausgeführt wird, wird RP 800 auf den Eintrag 3 inkrementiert, während WP 802 beim Eintrag 2 verbleibt.
Obwohl Details in einem Ausführungsbeispiel der vorliegenden Erfindung verwendet wurden, um einen bestimmten Modusumschaltmechanismus und Operationen einer Steuerlogikeinheit 400 zu beschreiben, ist es für einen Durchschnitts fachmann klar, daß andere Verfahren verwendet werden können, um dieselben Ziele zu erreichen, ohne vom Umfang der Erfindung abzuweichen. Beispielsweise kann die Modusumschaltintelligenz Teil der Datenspeichereinheit 404 sein. Darüber hinaus könnte in Erwägung gezogen werden, daß die in den 6 und 7 veranschaulichten logischen Schritte in abweichenden Reihenfolgen angeordnet werden können und aber noch die gleichen Ergebnisse hervorbringen. Beispielsweise könnten der Schritt 606 und der Schritt 602 in 6 oder der Schritt 706 und der Schritt 708 in 7 mit geringfügigen Modifikationen ausgetauscht werden, ohne den Ausgang zu beeinflussen.
Nachdem die Interaktionen zwischen den verschiedenen Komponenten in der Entkopplungswarteschlange 306 beschrieben worden sind, veranschaulicht 4 in Verbindung mit 9 die Operationen der Zeitgabe- oder Takt-Erzeugungseinheit 402. In Übereinstimmung mit dem Steuersignal 410 aus der Steuerlogikeinheit 400 erzeugt die Zeitgabeerzeugungseinheit 402 ein entsprechendes Signal an die Datenspeichereinheit 404, um die Schreib- und Leseoperationen der Datenspeichereinheit 404 zu initiieren. Beispielsweise dann, wenn das Steuersignal 410 den WR-Modus anzeigt, löst die ansteigende Flanke des Prozessortakts 416 ein Schreibsignal 418 aus. Wenn andererseits das Steuersignal 410 den RW-Modus anzeigt, löst die ansteigende Flanke des Prozessortakts 416 ein Lesesignal 420 aus.
Innerhalb der Dauer 900 eines einzigen Prozessortaktzyklus wird dann, wenn das Steuersignal 410 einen WR-Modus anzeigt, ein nicht-überlappendes Schreibsignal 418 für eine Dauer 902, wie sie in 9 gezeigt ist, aktiv. Während dieser Zeit schließt die von dem Schreibsignal 418 ausgelöste Schreiboperation das Schreiben der eingehenden Daten 412 in die Datenspeichereinheit 404 ab. Nach dem Abschluß ihrer Schreiboperation gibt die Datenspeichereinheit 404 ein Abschlußsignal 422 an die Zeitgabeerzeugungseinheit 402 aus. An diesem Punkt fällt die Taktflanke des Schreibsignals 418 ab und löst ein nachfolgendes nicht-überlappendes Lesesignal 420 aus. Nach einer gewissen Verzögerung von einer Dauer 912 wird das Lesesignal 420 an die Datenspeichereinheit 404 gesendet, um seine zugehörige Leseoperation auszulösen. Ähnlich dem Schreibsignal 418 bleibt das Lesesignal 420 aktiv, bis die Leseoperation abgeschlossen ist. Zusätzlich bleibt es ebenfalls aktiv für eine Dauer 906, um irgendwelche Mindest-Einrichtzeit-Anforderungen einer nachfolgenden Logikstufe zu befriedigen. Im Ergebnis kann die nachfolgende Logikstufe sofort Gebrauch von der verbleibenden Zeit, der Dauer 908, machen, um irgendwelche erforderlichen Operationen auszuführen.
Ähnliche Prinzipien gelten, wenn das Steuersignal 410 einen RW-Modus anzeigt; an Stelle eines für eine Dauer 902 aktiv bleibenden nicht-überlappenden Schreibsignals 418 bleibt ein nicht-überlappendes Lesesignal 420 während dieser Zeit aktiv. Das nicht-überlappende Schreibsignal 418 wird von der fallenden Taktflanke des Lesesignals 420 ausgelöst und bleibt für eine Dauer 904 aktiv.
Wie demonstriert worden ist, unterstützt die vorliegende Erfindung sowohl eine Leseoperation als auch eine Schreiboperation innerhalb eines Prozessortaktzyklus. Da darüber hinaus die Operationen einander nicht überlappen, kann die Leseoperation aus einem Eintrag in der Datenspeichereinheit 404 lesen und die Schreiboperation kann in denselben Eintrag einschreiben. Verwenden wir 8a als Veranschaulichung, die Leseoperation kann zunächst Daten aus dem Eintrag 1 lesen, und die Schreiboperation kann dann in demselben Prozessortaktzyklus in den Eintrag 1 einschreiben.
Somit wurden ein Verfahren und eine Einrichtung zum Beschleunigen der Verarbeitung einer Vielzahl von Befehlen in einem Prozessor offenbart. Obwohl die vorliegende Erfindung insbesondere unter Bezugnahme auf die Figuren beschrieben worden ist, ist es für einen Durchschnittsfachmann klar, daß die vorliegende Erfindung in einer beliebigen Anzahl von Systemen mit Prozessoren, welche eine Pipelinefunktionalität bereitstellen, erscheinen kann. Es ist ferner vorgesehen, daß viele Änderungen und Modifikationen von einem Fachmann vorgenommen werden können, ohne vom Geist und Umfang der vorliegenden Erfindung abzuweichen.

Claims

Verfahren zum Beschleunigen der Verarbeitung einer Vielzahl von Befehlen in einem Prozessor, wobei das Verfahren die Schritte umfaßt: a. Bereitstellen einer Mehrzahl von Pipelineeinheiten (502) zum Verarbeiten einer Vielzahl von Befehlen, wobei jede der Mehrzahl von Pipeline-Einheiten eine Mehrzahl von Pipelinestufen (300, 302, 304, 308) aufweist; und b. Bereitstellen einer entkoppelnden Warteschlange (306) zum Entkoppeln wenigstens einer der Pipelinestufen (304) von einer anderen (308), wobei die entkoppelnde Warteschlange sowohl Lese- als auch Schreiboperationen aus der bzw. in die Warteschlange innerhalb eines einzigen Taktzyklus (900) des Prozessors unterstützt, indem die Warteschlange einander nicht überlappende Lese- bzw. Schreibsignale in dem Taktzyklus erzeugt, wobei die Leseoperation während des aktiven Lesesignals und die Schreiboperation während des aktiven Schreibsignals stattfindet.
Verfahren nach Anspruch 1, wobei die Warteschlange (306) eine Steuerlogikeinheit (400), eine Zeitgabeerzeugungseinheit (402) und eine Datenspeichereinheit(404) aufweist und wobei die Zeitgabeerzeugungseinheit (402) das nicht-überlappende Schreibsignal (418) zum Auslösen der Schreiboperation innerhalb des einzigen Taktzyklus erzeugt; das nicht-überlappende Lesesignal (420) zum Auslösen der Leseoperation innerhalb desselben einzigen Taktzyklus erzeugt; und sichert, daß das Schreib- und das Lesesignal für eine Mindestdauer (902; 904) aktiv bleiben, so daß sie die zugehörige Schreib- bzw. Leseoperation abschließen und die Ein richtzeitanforderungen einer nachfolgenden Logikstufe erfüllen.
Verfahren nach Anspruch 2, wobei die Reihenfolge der Durchführung der Schreiboperation und der Leseoperation in dem Taktzyklus austauschbar ist, so daß entweder die Leseoperation der Schreiboperation folgt oder die Schreiboperation der Leseoperation folgt.
Verfahren nach einem der Ansprüche 1 bis 3, wobei die Schreib- und Leseoperationen an demselben Eintrag der Warteschlange durchgeführt werden können.
Verfahren nach Anspruch 3, wobei die Steuerlogikeinheit die Reihenfolge der Schreib- und Leseoperationen bestimmt; und die Zeitgabeerzeugungseinheit instruiert, die Schreib- und Lesesignale (418, 420) entsprechend der Reihenfolge zu erzeugen.
Verfahren nach Anspruch 2, wobei die Zeitgabeerzeugungseinheit ein erstes Signal (902) erzeugt, welches entweder das Schreibsignal oder das Lesesignal ist, und ein zweites Signal (904), welches entweder das Schreibsignal oder das Lesesignal ist, wobei das erste Signal (902) von einer ansteigenden Flanke eines Taktsignals des Prozessors ausgelöst wird; und das zweite Signal (904) von einer abfallenden Flanke des ersten Signals ausgelöst wird.
Prozessor, aufweisend: eine Mehrzahl von Pipeline-Einheiten (502) zum Verarbeiten einer Vielzahl von Befehlen, wobei jede der Mehrzahl von Pipeline-Einheiten (502) eine Mehrzahl von Pipelinestufen (300, 302, 304, 308) aufweist; und eine entkoppelnde Warteschlange (306) zum Entkoppeln wenigstens einer der Pipelinestufen (304) von einer anderen (308), wobei die entkoppelnde Warteschlange sowohl Lese- als auch Schreiboperationen aus der bzw. in die Warteschlange innerhalb eines einzigen Taktzyklus (900) des Prozessors unterstützt, indem eine Zeitgabeerzeugungseinheit (402) der Warteschlange einander nicht überlappende Lese- bzw. Schreibsignale in dem Taktzyklus erzeugt und an eine Datenspeichereinheit (404) der Warteschlange ausgibt, wobei die Leseoperation während des aktiven Lesesignals und die Schreiboperation während des aktiven Schreibsignals stattfindet.
Prozessor nach Anspruch 7, wobei die Zeitgabeerzeugungseinheit (402) das nicht-überlappende Schreibsignal (418) zum Auslösen der Schreiboperation innerhalb des einzigen Taktzyklus erzeugt; das nicht-überlappende Lesesignal (420) zum Auslösen der Leseoperation innerhalb desselben einzigen Taktzyklus erzeugt; und sichert, daß das Schreib- und das Lesesignal (418, 420) für eine Mindestdauer (902, 904) aktiv bleiben, um die zugehörige Lese- und Schreiboperation abzuschließen und eine Einrichtzeitanforderung einer nachfolgenden Logikstufe (308) zu erfüllen.
Prozessor nach Anspruch 8, wobei die Reihenfolge der Durchführung der Schreib- und Leseoperationen in dem Taktzyklus austauschbar ist.
Prozessor nach Anspruch 7, wobei die Schreib- und Leseoperationen an demselben Eintrag der Datenspeichereinheit (404) durchgeführt werden können.
Prozessor nach Anspruch 9, wobei eine Steuerlogikeinheit (400) die Reihenfolge der Schreib- und Leseoperationen bestimmt; und mit der Zeitgabeerzeugungseinheit gekoppelt ist, um diese zu instruieren, die Schreib- und Lesesignale gemäß der Reihenfolge zu erzeugen.
Prozessor nach Anspruch 8, wobei die Zeitgabeerzeugungseinheit (402) ein erstes Signal, entweder das Schreibsignal oder das Lesesignal, und ein zweites Signal, entweder das Schreibsignal oder das Lesesignal, erzeugt, wobei das erste Signal (902) von einer ansteigenden Flanke eines Taktsignals des Prozessors ausgelöst wird; und das zweite Signal (904) von einer abfallenden Flanke des ersten Signals ausgelöst wird.
Prozessor nach Anspruch 7, wobei die Datenspeichereinheit ein Registersatz ist.
Computersystem, aufweisend: einen Prozessor nach einem der Ansprüche 7 bis 13; und ein Buselement, das eine Speichereinrichtung und den Prozessor koppelt, wobei die Speichereinrichtung ein Betriebssystem enthält.