DE10306051A1

DE10306051A1 - Kernparallele Ausführung mit unterschiedlichen Optimierungscharakteristika, um den dynamischen Ausführungsweg zu verringern

Info

Publication number: DE10306051A1
Application number: DE10306051A
Authority: DE
Inventors: Donald C Soltis Jr; Eric Delano
Original assignee: Hewlett Packard Co
Current assignee: Hewlett Packard Development Co LP
Priority date: 2002-03-04
Filing date: 2003-02-13
Publication date: 2003-09-25
Anticipated expiration: 2023-02-14
Also published as: US7028167B2; DE10306051B4; US20030167389A1

Abstract

Die Erfindung schafft einen Prozessor mit zwei oder mehreren parallelen Befehlwegen zum Verarbeiten von Befehlen. Die Befehlswege können mit einer Mehrzahl von Kernen auf einem gemeinsamen Chip implementiert sein. Befehle der Erfindung werden vorzugsweise innerhalb eines Bündels von zwei oder mehr Befehlen eines gemeinsamen Programmteilprozesses verarbeitet, und jeder der Befehlswege bildet vorzugsweise ein Cluster, um gebündelte Befehle zu verarbeiten. Jeder der Befehlswege weist ein Array von zeitverschachtelt arbeitenden Ausführungseinheiten auf. Anfänglich verarbeiten zwei oder mehr der parallelen Befehlswege denselben Programmteilprozeß (eines oder mehrere Bündel) durch dieselben Ausführungseinheiten, aber mit unterschiedlichen Optimierungscharakteristika, die für jeden Weg gesetzt sind. Die Bewertungslogik überwacht die Verarbeitung des Anfangs-Programmteilprozesses durch die Ausführungseinheiten und wählt die Heuristik aus, die definiert, welcher Pfad in Führung ist. Die anderen Befehlspfade werden dann neu zugeordnet oder mit den Optimierungscharakteristika des führenden Befehlsweges oder mit ähnlichen optimierten Charakteristika synchronisiert, um andere Bündel des Programmteilprozesses zu verarbeiten, vorzugsweise setzt der führende Weg das Verarbeiten des Anfangs-Teilprozesses fort, ohne gestört zu werden. Bei anderen Programmteilprozessen kann der Prozeß beim Verarbeiten gleicher Bündel durch mehrere Befehlswege wiederholt werden, um die bevorzugte Heuristik ...

Description

Die parallele Ausführung von Befehlen durch Ausführungseinheiten oder Pipelines ist in der Technik bekannt, um EPIC- Prozessoren vorteilhaft zu unterstützen. Bestimmte dieser Prozessoren verwenden redundante Verarbeitungskerne auf einem gemeinsamen Chip. Es ist in der Technik ferner bekannt, Ausführungseinheiten als ein "Cluster" zu gruppieren, um Befehle als ein "Bündel" zu verarbeiten. Ein derartiges Bündel weist drei Befehle auf; jedes Cluster wirkt, um ein Bündel oder mehr von Befehlen zu verarbeiten.
Bestimmte EPIC-Prozessoren verwenden eine Heuristik, um eine Antwort auf eine Programmabfrage vorzuschlagen. Beispielsweise kann die interner Logik und die Software eines Prozessors Programmcachefehlgriffe ("Cache Misses") während der Laufaktivität überwachen und dann eine Heuristik anlegen, um Vorabrufhinweise ("Prefetch Hints") korrekt zu setzten.
VLSI-Entwerfer und -Softwaretechniker betreiben beträchtlichen Aufwand zum Optimieren von Hardware- und Software- Entwürfen von EPIC-Prozessoren, und von deren Leit- Heuristik, um die Verarbeitung von Befehlen und/oder gebündelten Befehlen durch die Pipelines zu beschleunigen. Weitere Entwicklungen werden gesucht, um schnellere und stabilere Prozessoren zu liefern.
Die Erfindung schafft einen Vorteil in der Technik von Verarbeitungsarchitekturen durch Bereitstellen von Verfahren und Systemen zum Verarbeiten von Befehlen durch Ausführungseinheiten. Ein Merkmal der Erfindung ist es, einen Prozessor mit Dualkernen zum Optimieren der Verarbeitung von gebündelten Befehlen zu liefern. Verschiedene andere Merkmale der Erfindung gehen aus der nachfolgenden Beschreibung hervor.
Es ist die Aufgabe der vorliegenden Erfindung, ein Verfahren zum Optimieren der Verarbeitungsbefehle durch einen Prozessor, einen Prozessor zum Verarbeiten von Programmbefehlen und einen Prozessor mit zumindest zwei parallelen Befehlswegen mit verbesserten Charakteristika zu schaffen. Diese Aufgabe wird durch eine Verfahren gemäß Anspruch 1 und durch einen Prozessor gemäß Anspruch 11 oder 19 gelöst.
Die nachfolgenden Patente liefern einen nützlichen Hintergrund der Erfindung und sind hierin durch Bezugnahme aufgenommen: das U.S.-Patent Nr. 6,188, 633; das U.S.-Patent Nr. 6,105,123; das U.S.-Patent Nr. 5,857,104; das U.S.-Patent Nr. 5,809,275; das U.S.-Patent Nr. 5,778,219; das U.S.- Patent Nr. 5,761,490; das U.S.-Patent Nr. 5,721,865 und das U.S.-Patent Nr. 5,513,363.
Wie er hierin verwendet wird, ist ein Befehl ein "Erzeuger", wenn dieser Befehl Daten erzeugt, die in ein Register geschrieben werden sollen, und diese Daten für ein Umleiten oder eine Datenweiterleitung verfügbar sind. Ein Befehl ist ein "Verbraucher", wenn dieser Befehl die Umleitungsdaten verwendet.
Gemäß einem Aspekt liefert die Erfindung einen Prozessor mit zwei oder mehreren parallelen Befehlswegen zum Verarbeiten von Befehlen. Beispielweise können die Befehlswege mit einer Mehrzahl von Kernen auf einem gemeinsamen Chip implementiert sein. Befehle der Erfindung werden vorzugsweise innerhalb eines Bündels von zwei oder mehr Befehlen eines gemeinsamen Programmteilprozesses verarbeitet; und jeder der Befehlswege bildet vorzugsweise ein Cluster, um gebündelte Befehle zu verarbeiten. Jeder der Befehlswege weist ein Array von pipelineartigen Ausführungseinheiten auf. Anfänglich verarbeiten zwei oder mehr der parallelen Befehlswege denselben Programmteilprozeß (eines oder mehrere Bündel) durch die Ausführungseinheiten, jedoch mit unterschiedlichen Optimierungscharakteristika, die für jeden Weg gesetzt sind. Die Bewertungslogik überwacht die Verarbeitung des Anfangs-Programmteilprozesses durch die Ausführungseinheiten und wählt die Heuristik auf, die definiert, welcher Weg vorne ist. Die anderen Befehlswege werden dann neu zugewiesen, oder synchronisiert, mit den Optimierungscharakteristika des führenden Befehlsweges, oder mit ähnlichen optimierten Charakteristika, um andere Bündel des Programmteilprozesses zu verarbeiten; vorzugsweise setzt der führende Weg das Verarbeiten des Anfangs-Teilprozesses fort, ohne unterbrochen zu werden. Bei anderen Programmteilprozessen oder "Programmthreads" kann der Prozeß beim Verarbeiten ähnlicher Bündel durch mehrere Befehlswege wiederholt werden, um die bevorzugte Heuristik zu identifizieren; worauf die mehreren Befehlswege auf die optimierten Charakteristika synchronisiert werden, um das Verhalten zu verbessern.
Sobald optimierte Charakteristika zugeordnet sind, verarbeitet jeder Befehlsweg Programmteilprozesse zu entworfenen Zuständen mit verbessertem Verhalten. Der Prozessor verbessert das Verhalten gegenüber der Technik durch erneutes Zuweisen der Optimierungscharakteristika paralleler Ausführungseinheiten gemäß der bevorzugten Heuristik, die durch ein Vorab-Verarbeiten gleicher Bündel durch die Ausführungseinheiten identifiziert wird. Effektiv werden Optimierungscharakteristika mit schlechterem Verhalten aus den Ausführungseinheiten für einen gegebenen Teilprozeß entfernt.
Die Bewertungslogik eines Aspekts umfaßt eine dynamische Hardwarelogik, die vorzugsweise auf dem Chip eingelagert ist, wobei die parallelen Kerne die Befehlswege definieren.
Die Bewertungslogik kann ferner eine dynamische Software umfassen. Beispielsweise können die dynamische Hardwarelogik und die Software mindestens entweder die CPU-gebundene Heuristik oder die Speicher-gebundene Heuristik verwenden, um die Befehle durch die Pipelines zu verarbeiten. Eine Speicher-gebundene Heuristik kann z. B. mindestens entweder Laden- und Speichern-Routinen, ein Cache-Referenzieren und eine Latenzzeit für Verbraucheranforderungen umfassen. Beispielsweise können Laden- und Speichern-Operationen gemäß einer gesetzten Heuristik gehandhabt werden.
Eine Zweigvorhersage - die Fachleuten auf dem Gebiet bekannt ist - kann ebenfalls in einem Aspekt der Erfindung umfaßt sein, um das Prozessorverhalten zu verbessern. Durch Ausführen von zwei identischen Bündeln eines Programmteilprozesses durch parallele Verarbeitungscluster, aber mit eindeutigen Optimierungscharakteristika für jedes Cluster, kann eine Zweigvorhersageheuristik ein besseres oder schnelleres Ergebnis in einem der Cluster im Vergleich zu dem anderen erzeugen. Dementsprechend, durch erneutes Zuweisen beider Cluster zu den optimierten Zweigvorhersagecharakteristika, können andere Bündel für diesen Teilprozeß effizient durch die Cluster mit einem verbesserten Verhalten verarbeitet werden.
Das Vorab-Abrufen ist Fachleuten auf dem Gebiet ebenfalls bekannt und kann eine andere Heuristik zur Verwendung mit der Erfindung definieren, um das Prozessorverhalten zu verbessern. Zum Beispiel durch Ausführen von zwei identischen Bündeln eines Programmteilprozesses durch parallele Verarbeitungscluster, aber mit unterschiedlichen Optimierungscharakteristika innerhalb der Cluster, kann eine Vorab-Abrufheuristik ein besseres oder schnelleres Ergebnis in einem der Cluster im Vergleich zu dem anderen erzeugen. Dementsprechend, durch Neuzuweisen beider Cluster zu den optimierten Vorab-Abrufcharakteristika können andere Bündel für diesen Teilprozeß effizient durch die Cluster mit einem verbesserten Verhalten verarbeitet werden.
Die Erfindung schafft bestimmte Vorteile, insbesondere beim Verstärken des Verhaltens eines einzelnen Teilprozesses einer zentralen Verarbeitungseinheit (CPU = Central Processing Unit). Genauer gesagt können gemäß der Erfindung mehr Befehle pro Zyklus durch die CPU für ein gegebenes Programm verarbeitet werden, da repräsentative Befehle aus diesem Programm spekulativ verarbeitet werden, durch mehrere Befehlswege, um optimierte Verarbeitungscharakteristika zu definieren. Zukünftig entworfene Zustände für einen Programmteilprozeß werden dann vorzugsweise über alle Befehlswege mit den optimierten Charakteristika verarbeitet.
Bei einem Aspekt wählt eine Konfigurationsmodus eine Heuristik für einen Befehlsweg aus, z. B., um einen Vorab- Abrufalgorithmus zu definieren. Eine Mehrzahl von Befehlswegen verarbeiten dieselben Befehlsbündel gleichzeitig, aber jeweils mit unterschiedlichen Optimierungscharakteristika. Die Bewertungslogik überwacht das Verarbeiten der Bündel und wählt den schnellsten Befehlsweg aus; dieselbe zeichnet die optimierte Heuristik auf und die anderen Befehlswege werden mit den Optimierungscharakteristika des leitenden Befehlswegs oder ähnlich zu denselben neu synchronisiert, um eine dynamische Optimierung für die Programmteilprozesse zu liefern. Bei einem Aspekt versendet ein Hardwarekompilierer Programmteilprozesse durch die parallelen Befehlswege, bis die Bewertungslogik die optimierten Charakteristika für andere Wege bestimmt; an diesem Punkt versendet der Hardwarekompilierer Programmteilprozesse durch die Befehlswege und ohne Redundanz, um das Programm zu verarbeiten. Die Bewertungslogik nähert sich asymptotisch an die "idealen" Optimierungscharakteristika an, mit einer längeren Zeitperiode zum Analysieren der Verarbeitung von gleichen Befehlen durch verschiedene Heuristiken, die den mehreren Befehlswegen zugeordnet sind.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgende bezugnehmend auf die beiliegenden Zeichnungen näher erläutert. Es zeigen:
Fig. 1 schematisch eine Verarbeitungseinheit der Erfindung zum Verarbeiten von Befehlen durch mehrere Befehlswege;
Fig. 2 schematisch ein Flußdiagramm, das die Optimierung von parallelen Befehlswegen mit einer Heuristik darstellt, die durch eine Vorabverarbeitung von gleichen Befehlen gemäß der Erfindung definiert ist; und
Fig. 3 ein Diagramm eines verbesserten Verhaltens einer dynamischen Ausführungspfadlänge im Lauf der Zeit gemäß einer bevorzugten Optimierung von Ausführungseinheiten gemäß der Erfindung.
Fig. 1 zeigt eine Prozessorarchitektur 10 der Erfindung. Die Architektur 10 weist ein Array von Ausführungswegen 12 (1), 12 (2). . . 12 (N) auf, die Befehle verarbeiten, durch die Ausführungseinheiten 14 (1), . . . bzw. 14 (N). Die Ausführungseinheiten 14 umfassen ein Array von Pipelineausführungseinheiten 16, die Fachleuten auf dem Gebiet bekannt sind, um Befehle auf individuellen Stufen zu verarbeiten, wie z. B. der Abrufstufe F, der Registerlesestufe R, der Ausführungsstufe E, der Ausnahmeerfassungsstufe D und der Zurückschreibestufe W. Jeder Befehlsweg 12 kann als ein Programmierkern innerhalb eines EPIC-Prozessors implementiert sein, und auf einem gemeinsamen Chip; die Erfindung eines Ausführungsbeispiels bildet zwei parallele Cluster mit nur den Wegen 12 (1) und 12 (2) auf einem Chip.
Der Prozessor 10 empfängt Befehle von einem Hauptspeichersystem-Befehlsbus 20 und zwischenspeichert dieselben in den Befehlscaches 22 (1), 22 (2). . . 22 (N). Bei jedem Weg 12 führt die Abruflogik, die darstellend als Abrufheuristik 24gezeigt ist, ein Abrufen und ein Vorab-Abrufen von Befehlen aus deren Cache 22 gemäß einer oder mehreren Charakteristika durch, die die Heuristik für derartige Operationen definieren.
Bei dem bevorzugten Ausführungsbeispiel werden die Befehle innerhalb eines Befehlscaches 22 gebündelt und dann durch einen Befehlausgabeabschnitt 26 ausgegeben. Bei diesem Ausführungsbeispiel kann jeder Befehlsweg 12 als ein Cluster implementiert sein, um die gebündelten Befehle zu verarbeiten; diese Cluster können ferner als mehrere Programmierkerne auf einem gemeinsamen Chip gebildet sein.
Für jeden Weg 12 ist die Verarbeitung von Befehlen durch die Ausführungseinheiten 14 durch die Ausführungsheuristik 28 vorgegeben. Beispielsweise werden spekulative Operationen, wie z. B. Zweigvorhersagen und/oder andere Grenzheuristiken (z. B. Speicher- oder CPU-Grenzheuristik) gemäß der Ausführungsheuristik 28 gesetzt. Für jeden Weg 12 geht die Ausführung von Befehlen durch die Pipelines 16 daher gemäß einer oder mehreren Charakteristika voran, die die Heuristik 28 für derartige Operationen definieren.
Ein Datencache 30 kann für jeden Befehlsweg 12 umfaßt sein; der Cache 30 kann z. B. verwendet werden, um spekulative Transaktionen zu speichern. Die Cacheverwendung ist ferner vorzugsweise durch die Cacheheuristik 32 beschränkt. Beispielsweise kann die Steuerung von Cachefehlgriffen gemäß einer oder mehreren Charakteristika gesetzt sein, die die Heuristik 32 für derartige Operationen definieren.
Der Prozessor 10 umfaßt ferner eine Bewertungs- und Kompilierungs-Logik 50. Die Logik 50 ist mit jeder der Heuristiken 24, 28, 32 verbunden, wie gezeigt ist. In Betrieb überwacht der Bewertungsteil der Logik 50 die Befehlsverarbeitung innerhalb jedes Befehlsweges 12; und der Kompiliererteil der Logik 50 modifiziert die Charakteristika, die innerhalb der Heuristiken 24, 28 und 32 gesetzt sind, um das Prozessorverhalten gemäß den Lehren hierin zu verbessern. Fachleute auf dem Gebiet erkennen, daß die Logik 50 alternativ mit einer oder zwei der Heuristiken 24, 28, 32 verbunden sein kann, ohne von dem Umfang der Erfindung abzuweichen. Ferner können die EPIC-Prozessoren eine andere Heuristik und Logik umfassen, die gemäß den Lehren hierin überwacht und gestört werden kann, um das Prozessorverhalten zu verbessern.
Genauer gesagt stellt Fig. 2 dar, wie Befehle durch die Prozessorarchitektur 10 verarbeitet werden können. Ein Anfangspogrammteilprozeß beginnt bei Schritt 102. Befehle des Teilprozesses werden bei Schritt 104 als Bündel ausgegeben und dann gleichzeitig auf zwei oder mehreren Befehlswegen (jeder mit einer unterschiedlichen Heuristik) bei Schritt 106 verarbeitet. Die Bewertungslogik überwacht das Verarbeiten der Bündel durch die Befehlswege bei Schritt 108, bis dieselbe bestimmt bei Schritt 110, daß ein bestimmter Befehlsweg führend ist. Wenn ein führender Befehlsweg bestimmt wird, kann ein Zweig bei JA (1) auftreten und die anderen Befehlswege werden mit der Heuristik des führenden Befehlswegs bei Schritt 112 synchronisiert. Die Fortsetzung über Schritt 110 hinaus kann sich verzögern, aufgrund der Entwurfsauswahl, um asymptotisch eine immer bessere Optimierungsheuristik zu definieren. Nach Schritt 112 wird das Verarbeiten des Programmteilprozesses bei Schritt 114 fortgesetzt, ohne Redundanz, durch mehrere Befehlswege und vorzugsweise ohne eine Unterbrechung der Verarbeitung innerhalb des führenden Befehlswegs.
Wenn ein neuer Teilprozeß bei Schritt 116 auftritt, werden die Befehle optional abgerufen und wiederum wie bei Schritt 102, 104 ausgegeben, um wiederum eine optimierte Heuristik für die mehreren Befehlswege zu bestimmen. Das Verarbeiten kann anderweitig entlang des NEIN(1)-Zweiges fortgesetzt werden, um das Verarbeiten der Befehle in einem gemeinsamen Teilprozeß fortzusetzen.
Optional, anstelle der Verzweigung von Schritt 210 zu JA (1) kann ein Zweig zu JA (2) weiterleiten. Das heißt, anstelle des Synchronisierens der Heuristik anderer Befehlswege mit der Heuristik des führenden Befehlsweges wird der Prozeß bei Schritt 111 durch Modifizieren aller oder annähernd aller Heuristiken der mehreren Befehlswege fortgesetzt, um die Heuristik für alle Wege inkrementell fein einzustellen; eine derartige Modifikation kann z. B. das Modifizieren dieser Heuristik mit Charakteristika umfassen, ähnlich zu der führenden Wegheuristik. Ein Zweig zu Schritt 111 könnte ferner nach Schritt 112 auftreten, wie z. B. nach einer voreingestellten Zeitperiode und bevor ein anderer Teilprozeß erfaßt wird, wie durch den Zweig NEIN (2) von Schritt 116 zu Schritt 111 angezeigt wird.
Inkrementelle Weiterbewegungen gemäß Schritt 111 verkürzen die Länge des dynamischen Ausführungswegs inkrementell, wie in Fig. 3 gezeigt ist. In Fig. 3 ist die dynamische Ausführungsweglänge darstellend über die Zeit hinweg dargestellt. Bei Zeit 0 beginnt die Verarbeitung wie bei Schritt 108. Bei Zeit 150 wird die Heuristik anderer Befehlswege mit der Heuristik eines führenden Befehlsweges aktualisiert, wie bei Schritt 112. Eine fortgesetzte Modifikation der Heuristik bestimmter Wege zwischen der Zeit 150 und der Zeit 160 basierend auf der führenden Heuristik (wie z. B. in Verbindung mit Schritt 111, Fig. 2 erörtert wird) kann die dynamische Ausführungsweglänge ferner reduzieren, um eine neue führenden Heuristik zu definieren, wie gezeigt ist. Durch erneutes Modifizieren der Heuristik bei Zeit 160 zu dem führenden Befehlsweg und wie in Verbindung mit Schritt 112, Fig. 2 beschrieben ist, kann sich die Weglänge wiederum verringern, wie gezeigt ist. Auf diese Weise kann sich die Erfindung asymptotisch der idealen Verarbeitungsheuristik für einen gegebenen Programmteilprozeß nähern, um das Verhalten pro Teilprozeß zu verbessern.
Weiterhin bezugnehmend auf Fig. 1 kann die Prozessorarchitektur 10 daher Befehle verarbeiten wie in Fig. 2 und Fig.3 beschrieben wurde. Die Logik 50 überwacht das Fortschreiten gleicher Befehle entlang der Wege 12 und trifft geeignete Entscheidungen zum Schalten zu unterschiedlichen Heuristiken, um ein verbessertes Verhalten zu liefern. Effektiv ist das Verarbeiten von gleichen Befehlen spekulativ, da es ungewiß ist, ob ein entworfener Zustand aus einem Weg resultiert. Das Verarbeiten gleicher Befehlsbündel durch Wege 12 ist ähnlich einem Rennen; während des Rennens verarbeiten die verschiedenen Wege einen Bereich spekulativer Daten, und der führende Weg mit der besten Heuristik gewinnt das Rennen, und dessen Teilprozeß kann zu einem entworfenen Zustand werden. Wenn eine Entscheidung getroffen wird, daß ein Weg ein Führer ist, werden die anderen Befehlswege blockiert und verbesserten Heuristiken zugewiesen und das Verarbeiten anderer Teilprozesse kann beginnen. Das Verarbeiten gleicher Bündel durch Wege 12 kann auf zwei oder mehr Wegen auftreten; z. B. kann das Verarbeiten gleicher Bündel auf drei Wegen 12 auftreten, jeder mit einer unterschiedlichen Heuristik; die zwei nicht führenden Wege können unterschiedlichen Heuristiken zugeordnet werden, um das Verarbeiten anderer Bündel zu verbessern. Der führende Weg wird vorzugsweise nicht beeinträchtigt und setzt das Verarbeiten fort. Diese Wege können ferner mit demselben Teilprozeß neu gestartet werden, durch Sicherungsspeichern des Programmzählers und Neuzuweisen aller drei Heuristiken, um sich der idealen Heuristik für alle Befehlswege asymptotisch zu nähern.
Die Modifikation der Heuristiken 24, 28, 32 kann verschiedene Formen annehmen. Zum Beispiel kann die Logik 50 diese Heuristik randomisieren, um die optimalen Charakteristika für einen gegebenen Teilprozeß zu isolieren.

Claims

1. Verfahren zum Optimieren der Verarbeitung von Befehlen durch einen Prozessor (10), das folgende Schritte aufweist:

A) Verarbeiten (106) erster gleicher Befehle durch zwei oder mehrere Befehlswege (12) des Prozessors, wobei jeder der Wege eine unterschiedliche Heuristik (24, 28, 32) aufweist, die demselben zugeordnet ist;

B) Überwachen (108) eines Fortschritts der ersten gleichen Befehle durch die Befehlswege (12);

C) Bestimmen (110), welcher der Befehlswege (12) ein erster Führer beim Verarbeiten der ersten gleichen Befehle ist; und

D) Modifizieren (111, 112) der Heuristik (24, 28, 32) des einen oder der mehreren Befehlswege basierend auf der Heuristik des ersten Führers.

2. Verfahren gemäß Anspruch 1, das ferner eine Gruppierung der ersten gleichen Befehle als ein Bündel aus einem gemeinsamen Programmteilprozeß aufweist.

3. Verfahren gemäß Anspruch 1 oder 2, bei dem der Schritt des Modifizierens das Modifizieren der Heuristik (24, 28, 32) von jedem der Befehlswege aufweist.

4. Verfahren gemäß einem der Ansprüche 1 bis 3, bei dem der Schritt des Modifizierens das Modifizieren der Heuristik (24, 28, 32) der Befehlswege außer der Heuristik des Führers aufweist.

5. Verfahren gemäß einem der Ansprüche 1 bis 4, das ferner das Verarbeiten der ersten gleichen Befehle durch den Führer aufweist, ohne durch den Schritt des Modifizierens beeinträchtigt zu werden.

6. Verfahren gemäß einem der Ansprüche 1 bis 5, das ferner das Verarbeiten zusätzlicher Befehle aus einem Programmteilprozeß der ersten gleichen Befehle durch die mehreren Befehlswege (12) und ohne Redundanz aufweist.

7. Verfahren gemäß einem der Ansprüche 1 bis 6, das ferner folgende Schritte aufweist:
Verarbeiten zweiter gleicher Befehle durch zwei oder mehr Befehlwege (12) des Prozessors, wobei jeder der Wege (12) eine unterschiedliche Heuristik (24, 28, 32) aufweist, die demselben zugeordnet ist;
Überwachen eines Fortschritts der zweiten gleichen Befehle durch die Befehlswege;
Bestimmen (110), welcher der Befehlswege (12) ein zweiter Führer beim Verarbeiten der Befehle ist; und
Modifizieren der Heuristik von einem oder mehreren der Befehlswege basierend auf der Heuristik des zweiten Führers.

8. Verfahren gemäß einem der Ansprüche 1 bis 7, bei dem der Schritt des Modifizierens das Modifizieren von einer oder mehreren CPU-gebundenen Heuristiken und Speicher-gebundenen Heuristiken aufweist.

9. Verfahren gemäß einem der Ansprüche 1 bis 8, bei dem der Schritt des Modifizierens das Modifizieren der Heuristik basierend auf entweder der Zweigvorhersage oder der Vorab-Abrufheuristik aufweist.

10. Verfahren gemäß einem der Ansprüche 1 bis 9, das ferner das Wiederholen der Schritte (A)-(D) für eine modifizierte Heuristik innerhalb von mehreren Befehlswegen aufweist, um sich den optimierten Charakteristika für die Befehlswege asymptotisch zu nähern.

11. Prozessor (10) zum Verarbeiten von Programmbefehlen, der folgende Merkmale aufweist:
zumindest zwei parallele Befehlswege, wobei jeder der Wege ein Array von Pipelineausführungseinheiten und zugeordneten Heuristiken aufweist, die bewirken, wie die Befehle in denselben verarbeitet werden; und
eine Bewertungslogik zum Überwachen der Verarbeitung der Befehle innerhalb der Wege und zum Modifizieren der Heuristik von zumindest einem der Wege, um das Verhalten pro Teilprozeß des Prozessors zu verbessern.

12. System gemäß Anspruch 11, bei dem die Heuristik von jedem der Befehlswege eine oder mehrere aus Abfrageheuristik, Ausführungsheuristik und Cacheheuristik aufweist.

13. System gemäß Anspruch 11 oder 12, bei dem die zwei parallelen Befehlswege parallele Kernprozessoren auf einem gemeinsamen Chip aufweisen.

14. System gemäß einem der Ansprüche 11 bis 13, bei dem die parallelen Befehlswege aufgebaut und angeordnet sind, um anfänglich erste gleiche Befehle durch dieselben zu verarbeiten, wobei die Bewertungslogik die Verarbeitung der ersten gleichen Befehle überwacht, um eine optimierte Heuristik für die Befehlswege zu bestimmen.

15. System gemäß Anspruch 14, bei dem die parallelen Befehlswege aufgebaut und angeordnet sind, um anschließend unterschiedliche Befehle durch dieselben zu verarbeiten, um das Verarbeitungsverhalten pro Teilprozeß zu verbessern.

16. System gemäß Anspruch 14 oder 15, bei dem die parallelen Befehlswege aufgebaut und angeordnet sind, um anschließend zweite gleiche Befehle durch dieselben zu verarbeiten, wobei die Bewertungslogik das Verarbeiten der zweiten gleichen Befehle überwacht, um eine optimierte Heuristik für die Befehlswege zu bestimmen.

17. System gemäß einem der Ansprüche 11 bis 16, bei dem jeder der parallelen Befehlswege ein Cluster bildet, das aufgebaut und angeordnet ist, um die Befehle als Bündel zu verarbeiten.

18. System gemäß einem der Ansprüche 11 bis 17, bei dem die parallelen Befehlswege und die Bewertungslogik zusammenarbeiten, um eines oder mehrere Bündel mit gleichen Befehlen durch die Befehlswege zu verarbeiten, um die Heuristik der Befehlswege zu überwachen und dann zu modifizieren, um die Pro-Teilprozeß-Verarbeitung der Befehle zu verbessern.

19. Prozessor des Typs, der zumindest zwei parallele Befehlswege aufweist, wobei jeder der Wege ein Array aus Pipelineausführungseinheiten und einer zugeordneten Heuristik aufweist, die bewirken, wie die Befehle verarbeitet werden, mit folgenden Merkmalen:
einer Bewertungslogik zum Überwachen der Verarbeitung der Befehle innerhalb der Wege und zum Modifizieren der Heuristik von zumindest einem der Wege, um das Verhalten pro Teilprozeß des Prozessors zu verbessern.

20. Prozessor gemäß Anspruch 19, bei dem die parallelen Befehlswege aufgebaut und angeordnet sind, um anfänglich erste gleiche Befehle durch dieselben zu verarbeiten, wobei die Bewertungslogik die Verarbeitung der ersten gleichen Befehle überwacht, um eine optimierte Heuristik für die Befehlswege zu bestimmen.