DE112013001735T5

DE112013001735T5 - Optimieren des Verbindens von Anweisungen

Info

Publication number: DE112013001735T5
Application number: DE112013001735.0T
Authority: DE
Inventors: c/o IBM Corporation Gschwind Michael Karl; c/o IBM Corporation Salapura Valentina
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2012-03-28
Filing date: 2013-02-19
Publication date: 2015-02-26
Also published as: GB2514044A; GB201414520D0; US9513915B2; US20130262841A1; US20130262823A1; GB2514044B; WO2013144734A3; WO2013144734A2; CN105453031B; CN105453031A; US9513916B2

Abstract

Ein Computersystem zum Optimieren von Anweisungen enthält einen Prozessor, der eine Anweisungsausführungseinheit, die zum Ausführen von Anweisungen konfiguriert ist, eine Anweisungsoptimierungseinheit, die zum Optimieren von Anweisungen konfiguriert ist, und einen Speicher zum Speichern von Maschinenanweisungen beinhaltet, die durch die Anweisungsausführungseinheit ausgeführt werden sollen. Das Computersystem ist so konfiguriert, dass es ein Verfahren ausführt, das zum Ausführen eines Verfahrens konfiguriert ist, das Folgendes beinhaltet: Analysieren von Maschinenanweisungen aus einer durch die Anweisungsausführungseinheit auszuführenden Anweisungsfolge, wobei die Maschinenanweisungen eine Speicherladeanweisung und eine Datenverarbeitungsanweisung zum Ausführen einer Datenverarbeitungsfunktion auf der Grundlage der Speicherladeanweisung beinhalten, Feststellen, dass die Maschinenanweisungen zum Optimieren geeignet sind, Verbinden der Maschinenanweisungen zu einer einzigen optimierten internen Anweisung und Ausführen der einzigen optimierten internen Anweisung zum Ausführen einer Speicherladefunktion und einer Datenverarbeitungsfunktion, die der Speicherladeanweisung und der Datenverarbeitungsanweisung entsprechen.

Description

HINTERGRUND
Die vorliegende Erfindung betrifft Optimieren von Anweisungen und insbesondere Optimieren von Anweisungen durch Verbinden einer Ladeanweisung und einer Datenverarbeitungsanweisung, die auf die Daten zugreift, die durch die Ladeanweisung geladen wurden.
Prozessoren führen Folgen von Anweisungen aus, um Daten zu verarbeiten, zu speichern und Operationen zu steuern. Die Prozessoren können die Anweisungen durch Abrufen von Maschinenanweisungen von einem Datenspeicher, durch Erzeugen interner Anweisungen auf der Grundlage der Maschinenanweisungen und durch Ausführen der internen Anweisungen ausführen, um Operationen zum Steuern eines Systems auszuführen, das den Prozessor enthält.
KURZDARSTELLUNG
Gemäß einer Ausführungsform der vorliegenden Offenbarung enthält ein Computersystem zum Optimieren von Anweisungen einen Prozessor, der eine Anweisungsausführungseinheit, die zum Ausführen von Anweisungen konfiguriert ist, und eine Anweisungsoptimierungseinheit, die zum Optimieren von zwei oder mehr Anweisungen konfiguriert ist, und einen Speicher zum Speichern von zwei oder mehr Maschinenanweisungen enthält, die durch die Anweisungsausführungseinheit ausgeführt werden sollen. Das Computersystem ist so konfiguriert, dass es ein Verfahren ausführt, das Folgendes beinhaltet: Analysieren der zwei oder mehr Maschinenanweisungen aus einer Folge durch die Anweisungsausführungseinheit auszuführender Anweisungen, wobei die zwei oder mehr Maschinenanweisungen eine Speicherladeanweisung und eine Datenverarbeitungsanweisung zum Ausführen einer Datenverarbeitungsfunktion auf der Grundlage der Speicherladeanweisung enthalten, Feststellen, dass die zwei oder mehr Maschinenanweisungen zum Optimieren geeignet sind, Verbinden der ersten und der zweiten Maschinenanweisung zu einer einzigen optimierten internen Anweisung und Ausführen der einzigen optimierten internen Anweisung, um eine Speicherladefunktion und eine Datenverarbeitungsfunktion auszuführen, die der Speicherladeanweisung und der Datenverarbeitungsanweisung entsprechen.
Gemäß einer weiteren Ausführungsform der vorliegenden Offenbarung beinhaltet die Erfindung ein Computerprogrammprodukt zum Umsetzen des Optimierens von Anweisungen. Das Computerprogrammprodukt enthält ein materielles Speichermedium, das durch eine Verarbeitungseinheit lesbar ist und in dem Anweisungen zum Ausführen durch die Verarbeitungseinheit gespeichert sind, um ein Verfahren auszuführen. Das Verfahren kann Folgendes beinhalten: Feststellen, dass mindestens zwei Maschinenanweisungen einer Anweisungsfolge zum Optimieren geeignet sind, wobei die mindestens zwei Maschinenanweisungen eine Speicherladeoperation und eine Datenverarbeitungsanweisung aufweisen, um Daten auf der Grundlage der Speicherladeanweisung zu verarbeiten, Verbinden der mindestens zwei Maschinenanweisungen durch einen Prozessor zu einer einzigen optimierten internen Anweisung auf der Grundlage des Feststellens, dass die mindestens zwei Maschinenanweisungen zum Optimieren geeignet sind, und Ausführen der einzigen optimierten internen Anweisung zum Ausführen einer Speicherladefunktion und einer Datenverarbeitungsfunktion, die der Speicherladeanweisung und der Datenverarbeitungsanweisung entsprechen.
Gemäß noch einer weiteren Ausführungsform der vorliegenden Offenbarung kann ein computergestütztes Verfahren Folgendes beinhalten: Feststellen, dass zwei oder mehr Anweisungen einer Anweisungsfolge zum Optimieren geeignet sind, wobei die zwei oder mehr Anweisungen eine Speicherladeanweisung und eine Datenverarbeitungsanweisung zum Verarbeiten von Daten auf der Grundlage der Speicherladeanweisung aufweisen, Verbinden der zwei oder mehr Anweisungen zu einer einzigen optimierten internen Anweisung durch einen Prozessor und Ausführen der einzigen optimierten internen Anweisung, um eine Speicherladefunktion und eine Datenverarbeitungsfunktion auszuführen, die der Speicherladeanweisung und der Datenverarbeitungsanweisung entsprechen.
Zusätzliche Merkmale und Vorteile werden durch die Techniken der vorgelegten Erfindung realisiert. Andere Ausführungsformen und Merkmale der Erfindung werden hierin ausführlich beschrieben und als Teil der beanspruchten Erfindung angesehen. Zum besseren Verständnis der Erfindung mit den Vorteilen und den Merkmalen wird auf die Beschreibung und auf die Zeichnungen verwiesen.
KURZBESCHREIBUNG DER VERSCHIEDENEN ZEICHNUNGSANSICHTEN
Der Gegenstand der Erfindung wird in den Ansprüchen am Ende der Beschreibung ausführlich dargelegt und ausdrücklich beansprucht. Das oben Gesagte und weitere Merkmale und Vorteile der Erfindung werden aus der folgenden detaillierten Beschreibung in Verbindung mit den beiliegenden Zeichnungen klar, wobei:
1 ein Blockschaubild eines Systems zum Optimieren von internen Anweisungen gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt;
2 eine Konfiguration eines Systems zum Optimieren von internen Anweisungen gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt;
3 einen Ablaufplan zum Optimieren von internen Anweisungen gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt;
4 einen Ablaufplan zum Ermitteln zeigt, ob Anweisungen zum Optimieren gemäß einer Ausführungsform geeignet sind;
5 grafisch das Optimieren und Ausführen von internen Anweisungen gemäß einer Ausführungsform der Offenbarung zeigt; und
6 ein Computerprogrammprodukt gemäß einer Ausführungsform zeigt.
DETAILLIERTE BESCHREIBUNG
1 zeigt ein System 1 zum Optimieren von Anweisungen, das eine Anweisungsspeichereinheit 10, eine Ausgabewarteschlange, eine Anweisungsoptimierungseinheit 12, eine Anweisungsausführungseinheit 13, eine Operandenspeichereinheit 14 und Register 15 beinhaltet. Das System 1 ist nicht auf die obigen Elemente oder Komponenten beschränkt, jedoch werden diese Komponenten zur Beschreibung dargelegt. Es können gemäß Systemen innerhalb des Schutzumfangs der vorliegenden Offenbarung weitere Komponenten hinzugefügt und eine oder mehrere der obigen Komponenten weggelassen werden.
In der Anweisungsspeichereinheit 10 sind Anweisungen gespeichert, die durch die Anweisungsausführungseinheit 13 ausgeführt werden sollen. Die Anweisungen können gemäß einer beliebigen Architektur in der Anweisungsspeichereinheit 10 gespeichert sein, unter anderem in Abhängigkeit davon, wann die Anweisungen programmiert wurden, nach dem Zufallsprinzip, wann die Anweisungen durch das System 1 aufgerufen wurden oder auf sie zugegriffen wurde, oder gemäß anderen konstruktiven Parametern, Anforderungen oder Architekturen. Gemäß einer Ausführungsform sind in der Anweisungsspeichereinheit 10 Maschinenanweisungen und gemäß einer anderen Ausführungsform Anweisungen gespeichert, die auf der Grundlage der Maschinenanweisungen erzeugt werden.
Die Ausgabewarteschlange 11 enthält eine vorgegebene Anzahl von Bereichen (slots) zum Speichern von Anweisungen, die durch die Anweisungsausführungseinheit 13 nacheinander ausgeführt werden sollen. Die Anweisungen in der Ausgabewarteschlange 11 rücken in der Warteschlange weiter, wenn eine Anweisung am Kopfende der Warteschlange ausgeführt wird. Das Weiterrücken kann durch einen Zeiger, der auf die nächste Anweisung zeigt, indem die Anweisungen elektrisch aus der Warteschlange gelesen und dann in einer neuen Reihenfolge wieder in die Warteschlange zurück gelesen werden, oder durch einen beliebigen anderen Prozess realisiert werden. Gemäß einer Ausführungsform sind in der Ausgabewarteschlange 11 Maschinenanweisungen und gemäß einer anderen Ausführungsform interne Anweisungen gespeichert, die auf der Grundlage der Maschinenanweisungen erzeugt werden.
Gemäß einigen Ausführungsformen der vorliegenden Offenbarung werden mehrere Anweisungen in der Ausgabewarteschlange 11 beispielsweise durch die Anweisungsausführungseinheit 13 analysiert, um zu ermitteln, ob eine Vielzahl von Anweisungen in der Ausgabewarteschlange 11 parallel ausgeführt werden können, um eine Geschwindigkeit zu erhöhen, mit der das System 1 Sätze von Anweisungen ausführt. Das Analysieren jeder einzelnen der Anweisungen in den Bereichen der Ausgabewarteschlange 11 nimmt eine vorgegebene Zeitspanne in Anspruch, sodass eine Latenzzeit des Systems 1 verlängert wird, wenn die Tiefe der Ausgabewarteschlange 11 erhöht wird, um eine Anzahl von Anweisungen in der Ausgabewarteschlange 11 zu vergrößern.
Gemäß Ausführungsformen der vorliegenden Offenbarung analysiert die Anweisungsoptimierungseinheit 12 eine Vielzahl von Anweisungen in einer Anweisungsfolge, um zu ermitteln, ob die Anweisungen zum Optimieren geeignet sind. Die Anweisungsfolge kann in der Anweisungsspeichereinheit 10 oder in der Ausgabewarteschlange 11 gespeichert sein, und dort kann auf sie zugegriffen werden. Gemäß einer Ausführungsform werden die in der Anweisungsspeichereinheit 10 oder der Ausgabewarteschlange 11 gespeicherten Maschinenanweisungen analysiert, um zu ermitteln, ob sie zum Optimieren geeignet sind. Wenn festgestellt wird, dass sie zum Optimieren geeignet sind, können die Anweisungen optimiert werden, um eine optimierte interne Anweisung zu erzeugen, und die optimierte interne Anweisung kann in der Ausgabewarteschlange 11 gespeichert werden. Gemäß einer anderen Ausführungsform können die in der Ausgabewarteschlange 11 gespeicherten internen Anweisungen analysiert werden, um die Eignung zum Optimieren zu ermitteln. Wenn festgestellt wird, dass die internen Anweisungen zum Optimieren geeignet sind, können die internen Anweisungen optimiert werden, um eine optimierte interne Anweisung zu erzeugen, und die optimierte interne Anweisung kann in der Ausgabewarteschlange 11 gespeichert werden.
Das Optimieren kann zum Beispiel erfolgen, während eine Anweisung decodiert wird. Wenn festgestellt wird, dass die Anweisungen zum Optimieren geeignet sind, verbindet die Anweisungsoptimierungseinheit 12 die Anweisungen zu einer einzigen optimierten internen Anweisung, die die separaten internen Anweisungen beinhaltet. Die einzige optimierte interne Anweisung kann nur in einem Bereich der Ausgabewarteschlange 11 gespeichert werden. Wenn ein Register umbenannt wird, kann die einzige optimierte interne Anweisung ein einziges Umbenennungs-Zielregister verwenden, um das Ergebnis des Verbindens der ersten und zweiten internen Anweisung widerzuspiegeln und dadurch die Inanspruchnahme der knappen Ressourcen des Umbenennungsregisters zu verringern.
Während des Ausführens der internen Anweisungen greift die Anweisungsausführungseinheit 13 auf eine Anweisung am Kopfende der Ausgabewarteschlange 11 zu und führt die Anweisung aus, indem sie auf einen oder mehrere Operanden aus einer Operandenspeichereinheit 14 oder Registern 15 zugreift und ein Ergebnis in der Operandenspeichereinheit 14 und/oder in den Registern 15 speichert. Wenn es sich bei der durch die Anweisungsausführungseinheit 13 ausgeführten Anweisung um eine optimierte interne Anweisung handelt, kann die Anweisungsausführungseinheit 13 die optimierte interne Anweisung zweimal ausführen – einmal, um die erste Anweisung in der optimierten internen Anweisung auszuführen, und noch einmal, um die zweite Anweisung in der optimierten internen Anweisung auszuführen.
Gemäß Ausführungsformen der vorliegenden Offenbarung können die zwei oder mehr internen Anweisungen, die zum Optimieren analysiert werden, Folgendes beinhalten: mindestens eine E/A-Anweisung, um Daten in einen Speicherplatz im Speicher einzugeben und/oder aus einem Speicherplatz im Speicher auszugeben, und mindestens eine Datenverarbeitungsanweisung wie beispielsweise eine Anweisung zum Verschieben von Daten von einem zu einem anderen Speicherplatz, um eine arithmetische Funktion oder eine beliebige andere Datenverarbeitungsfunktion auszuführen. Gemäß Ausführungsformen der vorliegenden Offenbarung können die Daten, die Gegenstand der E/A-Anweisung sind, auch Gegenstand der Datenverarbeitungsanweisung sein. Zum Beispiel kann es sich bei einer ersten internen Anweisung um eine Ladeoperation zum Laden eines Operanden in ein Register handeln, und bei der Datenverarbeitungsanweisung kann es sich um eine arithmetische Anweisung oder eine beliebige andere Anweisung zum Verändern oder Bearbeiten des Operanden handeln. In der vorliegenden Beschreibung und den Ansprüchen ist eine Datenverarbeitungsanweisung als Funktion definiert, die einen Operanden verändert oder bearbeitet, auf der Grundlage des Operanden einen Vergleich durchführt oder den Operanden in anderer Weise verwendet, um ein Ergebnis zu erzielen, das von dem Operanden verschieden sein kann. Gemäß Definition kommt für die Datenverarbeitung eine Ladeanweisung nicht infrage, da diese lediglich einen Operanden auf einen definierten Speicherplatz verbringt.
Gemäß einer Ausführungsform der vorliegenden Offenbarung sind die zwei oder mehr internen Anweisungen mit einer RISC-(reduced instruction set computer, Computer mit reduziertem Befehlssatz) Architektur kompatibel. Bei einer RISC-Architektur dauern interne Anweisungen nicht länger als ein Speicherzyklus, und eine Funktion ist im Allgemeinen in zwei interne Anweisungen aufgeteilt: eine E/A-Anweisung und eine Datenverarbeitungsanweisung. Zum Beispiel benötigt eine Additionsfunktion eine Ladeanweisung zum Laden einen Operanden in ein Register und eine Additionsanweisung zum Addieren eines Wertes zu dem Operanden und zum Speichern des Ergebnisses in einem Register. Gemäß Ausführungsformen der vorliegenden Offenbarung werden durch die Anweisungsoptimierungseinheit 12 zwei interne Anweisungen analysiert, die gemeinsam eine einzige RISC-Funktion bilden, beispielsweise eine arithmetische Funktion oder eine Funktion zum Verschieben von Daten von einem zu einem anderen Speicherplatz, und die beiden RISC-kompatiblen internen Anweisungen werden optimiert, um eine optimierte interne Anweisung zu bilden, die als eine Anweisung in der Ausgabewarteschlange 10 gespeichert werden kann.
2 veranschaulicht eine physische Konfiguration eines Systems 2 zum Optimieren von Anweisungen gemäß einer Ausführungsform der vorliegenden Offenbarung. Das System 2 enthält einen Speicher 21 und einen Prozessor 26. In dem Speicher 21 sind Operanden in einem Operandenspeicher 22, Anweisungen in einem Anweisungsspeicher 23, Daten in Registern 24 und interne Anweisungen in der Ausgabewarteschlange 25 gespeichert. Gemäß Ausführungsformen der vorliegenden Offenbarung können zu dem Speicher 21 ein Speicher-Chip wie beispielsweise ein Direktzugriffsspeicher-(random access memory, RAM)Chip, eine Vielzahl von Speicher-Chips, verschiedene Speichertypen wie beispielsweise flüchtige Speicher, nichtflüchtige Speicher, Flash-Speicher, Cachespeicher oder ein beliebiger anderer Typ von Datenspeicher zählen. Der Operandenspeicher 22, der Anweisungsspeicher 23, die Register 24 und die Ausgabewarteschlange 25 können sich in ein und demselben Speichertyp, in ein und demselben Speicher-Chip oder in ein und derselben integrierten Schaltung befinden. Alternativ können sich der Operandenspeicher 22, der Anweisungsspeicher 23, die Register 24 und/oder die Ausgabewarteschlange 25 in einem anderen Speichertyp, in einem anderen Speicher-Chip oder in einer anderen integrierten Schaltung befinden als der Operandenspeicher 22, der Anweisungsspeicher 23, die Register 24 und/oder die Ausgabewarteschlange 25. Zum Beispiel kann der Anweisungsspeicher 23 zwar einen RAM oder einen Nur-Lese-Speicher (ROM) aufweisen, die Ausgabewarteschlange 25 hingegen kann einen Cachespeicher aufweisen.
Der Prozessor 26 enthält eine Anweisungsausführungseinheit 27 und eine Anweisungsoptimierungseinheit 28. Gemäß Ausführungsformen der vorliegenden Offenbarung können die Anweisungsausführungseinheit 27 und die Anweisungsoptimierungseinheit 28 eine fest verdrahtete Schaltlogik in dem Prozessor 26, Software zum Steuern der Arbeitsschritte des Prozessors 26, auf die Verarbeitungselemente des Prozessors 26 zugreifen, eine oder mehrere arithmetische Logikeinheiten, weitere Logik, Cachespeicher oder beliebige andere Schaltlogiken beinhalten, um den Prozessor zum Optimieren und Ausführen von internen Anweisungen zu veranlassen.
3 veranschaulicht ein Verfahren zum Optimieren von Anweisungen gemäß einer Ausführungsform der vorliegenden Offenbarung. Das Verfahren kann in einem System 2, das eine in 2 veranschaulichte Konfiguration aufweist, oder in einem beliebigen anderen zum Ausführen des Verfahrens konfigurierten System ausgeführt werden. Obwohl in 3 die Blöcke 31 bis 36 dargestellt sind, ist klar, dass Ausführungsformen der vorliegenden Offenbarung Verfahren umfassen, in denen ein oder mehrere der Blöcke 31 bis 36 weggelassen oder geändert oder in denen zusätzliche Blöcke hinzugefügt sind.
In Block 31 wird eine Vielzahl von Anweisungen zum Optimieren analysiert. Zu den analysierten Anweisungen können Maschinenanweisungen oder interne Anweisungen gehören, die auf der Grundlage von Maschinenanweisungen erzeugt wurden. Gemäß Ausführungsformen der vorliegenden Offenbarung beinhaltet die Vielzahl von Anweisungen eine Ladeanweisung und eine Datenverarbeitungsanweisung zum Verarbeiten eines Operanden, der Gegenstand der Ladeanweisung ist.
4 veranschaulicht eine Ausführungsform zum Ermitteln, ob Anweisungen zum Optimieren geeignet sind. Obwohl in 4 die Blöcke 41 bis 44 veranschaulicht sind, ist klar, dass Ausführungsformen der vorliegenden Offenbarung Verfahren umfassen, in denen ein oder mehrere der Blöcke 41 bis 44 weggelassen oder geändert oder in denen zusätzliche Blöcke hinzugefügt sind. In Block 41 wird ein Zielregister oder ein Ziel einer ersten Anweisung ermittelt. Gemäß Ausführungsformen der vorliegenden Offenbarung kann es sich bei der ersten Anweisung um eine Ladeanweisung zum Laden eines Operanden in das Zielregister oder Ziel handeln. In Block 42 werden eine Position (location) eines Operanden und ein Zielregister oder ein Ziel einer zweiten Anweisung ermittelt. Gemäß Ausführungsformen der vorliegenden Offenbarung kann die zweite Anweisung in einer Anweisungsfolge auf die erste Anweisung folgen. Außerdem kann es sich bei der zweiten Anweisung um eine Anweisung handeln, die unmittelbar nach der ersten Anweisung ausgeführt werden soll.
In Block 43 wird ermittelt, ob das Zielregister oder das Ziel der ersten und zweiten Anweisung identisch sind und ob das Zielregister oder das Ziel und die Position eines Operanden der zweiten Anweisung identisch sind. Wenn dies der Fall ist, wird in Block 44 festgelegt, dass die Anweisungen zum Optimieren geeignet sind. Wenn die erste und zweite Anweisung auf der Grundlage der Analyse von Block 43 nicht zum Optimieren geeignet sind, wird der Prozessor beendet. Gemäß einer Ausführungsform der vorliegenden Offenbarung wird in Block 43 ermittelt, ob es sich bei der zweiten Anweisung um eine Datenverarbeitungsanweisung handelt, die zum Verarbeiten auf einen Operanden in dem Zielregister oder Ziel der ersten Anweisung zugreift.
Obwohl gemäß der Ausführungsform von 4 ein Ermitteln beschrieben wird, ob Anweisungen auf der Grundlage eines Zielregisters der Operationen zum Optimieren geeignet sind, kann anhand anderer Kriterien ermittelt werden, ob Anweisungen zum Optimieren geeignet sind. Insbesondere können Anweisungen immer dann zum Optimieren geeignet sein, wenn eine exakte Ausführung der zweiten Anweisungen vom Ergebnis der ersten Anweisung abhängt. Wenn zum Beispiel eine zweite Operation in einem Register Daten verwendet, die eine erste Operation hineingeschrieben hat, und in dieses Register schreibt, kann es in der zweiten Operation zu einem fehlerhaften Ergebnis kommen, wenn die zweite Operation vor der ersten Operation ausgeführt wird. Da die zweite Operation von der Ausführung der ersten Operation abhängt, können die Operationen zum Optimieren geeignet sein.
Gemäß einer Ausführungsform sind die erste und die zweite Anweisung in der Ausgabewarteschlange einander benachbart, sodass eine Anweisung unmittelbar nach der anderen ausgeführt wird, wenn die Ausführung in der Reihenfolge von der ersten zur letzten Anweisung in der Warteschlange erfolgt. Gemäß einer Ausführungsform wird nur die Quelle des Operanden der zweiten Anweisung mit dem Zielregister oder dem Ziel der ersten Anweisung verglichen. Gemäß einer anderen Ausführungsform wird nur das Zielregister oder das Ziel der zweiten Anweisung mit dem Zielregister oder dem Ziel der ersten Anweisung verglichen.
Gemäß einer Ausführungsform können die Positionen der Operanden und die Zielregister oder Ziele der Anweisungen in der Ausgabewarteschlange analysiert werden, und es kann ermittelt werden, ob die erste und die zweite Anweisung zum Optimieren geeignet sind, wenn keine Anweisung zwischen der ersten Anweisung und der zweiten Anweisung in der Ausgabewarteschlange Daten auf die Position eines Operanden schreibt, auf den die zweite Anweisung zugreift, und wenn keine Anweisung zwischen der ersten Anweisung und der zweiten Anweisung in der Ausgabewarteschlange Daten von dem Zielregister oder dem Ziel der ersten Anweisung liest.
Gemäß einer Ausführungsform kann ermittelt werden, ob die Anweisungen Typen entsprechen, die zum Kombinieren miteinander geeignet sind. Zum Beispiel können gemäß einer Ausführungsform mit mehreren Ausgabewarteschlangen Anweisungen nur miteinander kombiniert werden, wenn sie von ein und derselben Ausgabewarteschlange ausgegeben werden. Gemäß einer Ausführungsform können somit Vektoranweisungen und Gleitkommaanweisungen miteinander kombiniert werden, ebenso können Ganzzahlanweisungen kombiniert werden, während Ganzzahl- und Vektoranweisungen nicht miteinander kombiniert werden können. Desgleichen kann eine Ausgabelogik andere Kombinationen von Anweisungen einschränken.
Wenn in der Operation 32 in 3 festgestellt wird, dass die analysierten Anweisungen zum Optimieren geeignet sind, werden die Anweisungen in der Operation 33 miteinander verbunden, um eine optimierte interne Anweisung zu bilden, die die Anweisungsdaten jeder der analysierten Anweisungen enthält. Die optimierte interne Anweisung kann gemäß vorgegebenen Programmierparametern so angeordnet werden, dass eine Anweisungsausführungseinheit erkennt, dass der erste Teil der optimierten internen Anweisung als erste Anweisung und der zweite Teil der optimierten internen Anweisung als zweite Anweisung ausgeführt werden sollen.
Gemäß einer Ausführungsform handelt es sich bei den analysierten Anweisungen um Maschinenanweisungen, und das Verbinden der Anweisungen beinhaltet Ausführen eines Registerumbenennungsprozesses und Erzeugen von internen Anweisungen, die den Maschinenanweisungen entsprechen, um die optimierte interne Anweisung zu erzeugen. Gemäß einer anderen Ausführungsform kann es sich bei den analysierten Anweisungen um interne Anweisungen handeln, sodass diese zum Verbinden der Anweisungen vor dem Erzeugen der optimierten internen Anweisung nicht in interne Anweisungen konvertiert zu werden brauchen.
In Schritt 34 wird die optimierte interne Anweisung als interne Anweisung gespeichert. Wenn zum Beispiel eine Ausgabewarteschlange 11 eine Vielzahl von Bereichen aufweist und jeder Bereich zum Speichern einer internen Anweisung konfiguriert ist, kann die optimierte interne Anweisung nur in einem Bereich in der Ausgabewarteschlange 11 gespeichert werden. Wenn ein Prozessor interne Anweisungen in der Ausgabewarteschlange analysiert, um zu ermitteln, ob mehrere interne Anweisungen ausgeführt werden sollen, entspricht demgemäß die optimierte interne Anweisung nur einer durch den Prozessor analysierten Anweisung.
Gemäß einigen Ausführungsformen wird eine Breite der Ausgabewarteschlange erhöht, um optimierte interne Anweisungen mit einer Größe aufzunehmen, die die jeweilige Größe der ersten und zweiten internen Anweisung übersteigt. Gemäß einigen Ausführungsformen wird eine Tiefe der Ausgabewarteschlange oder eine Anzahl von Bereichen in der Ausgabewarteschlange gegenüber einer Ausgabewarteschlange mit einer Breite verringert, die nicht einer optimierten internen Anweisung, sondern nur einer einzigen Anweisung entspricht, um einen Gesamtdatenumfang der Ausgabewarteschlange beizubehalten. Gemäß einer solchen Ausführungsform kann eine Zeit verkürzt werden, die der Prozessor zum Analysieren aller Bereiche in der Ausgabewarteschlange benötigt, da die Ausgabewarteschlange weniger Bereiche enthält. Da jedoch eine optimierte interne Anweisung einer oder mehreren internen Anweisungen entspricht, ist der Prozessor in der Lage, trotz der verringerten Anzahl von Bereichen eine gleiche Anzahl von internen Anweisungen zu analysieren.
Gemäß einer anderen Ausführungsform wird als Tiefe der Ausgabewarteschlange dieselbe Tiefe wie die der Ausgabewarteschlange mit einer Breite beibehalten, die nur einer einzigen Anweisung entspricht, sodass ein Prozessor, der die internen Anweisungen in den Bereichen der Ausgabewarteschlange analysiert, in der Lage ist, eine größere Gesamtzahl von internen Anweisungen in derselben Anzahl von Bereichen zu analysieren, da ein oder mehrere der Bereiche optimierte interne Anweisungen aufweisen.
Gemäß einer Ausführungsform erfolgt das Einfügen der optimierten internen Anweisung in die Ausgabewarteschlange in Verbindung mit der Registerumbenennung mit den Operanden des angegebenen logischen Registers in den internen Anweisungen der optimierten internen Anweisung. Gemäß einer Ausführungsform wird ein Prozess der Registerumbenennung durchgeführt, indem nur ein einziges Zielumbenennungsregister zugeordnet wird, um das Ergebnis der ersten internen Anweisung und der zweiten internen Anweisung der optimierten internen Anweisung zu speichern, wobei es sich bei dem Zielregister der ersten internen Anweisung um dasselbe Zielregister wie das der zweiten internen Anweisung handelt oder wobei das Zielregister der ersten internen Anweisung mit dem Quellenregister eines Operanden der zweiten internen Anweisung identisch ist.
Wenn die zweite interne Anweisung nach dem Kombinieren zu einer optimierten internen Anweisung das Ergebnis der ersten internen Anweisung der optimierten internen Anweisung liest, wird das gemeinsame Zielregister gemäß mindestens einer Ausführungsform nicht als Quellenregister benannt und stellt stillschweigend einen weiteren Operanden dar, der in der optimierten internen Anweisung nicht separat als Quellenoperand gespeichert, sondern als Quellenoperand für die zweite interne Anweisung bereitgestellt wird, wenn diese ausgeführt wird oder wenn die optimierte interne Anweisung ausgeführt wird.
In Schritt 35 wird eine erste interne Anweisung der optimierten internen Anweisung ausgeführt. Ein Prozessor kann die optimierte interne Anweisung lesen und eine erste und eine zweite interne Anweisung erkennen, die in der optimierten internen Anweisung enthalten ist. Die erste und die zweite interne Anweisung können so angeordnet sein, dass ihre Ausführungsreihenfolge durch den Prozessor akzeptiert wird. Gemäß einer Ausführungsform kann beispielsweise ein Code, der einer ersten internen Anweisung entspricht, in höherwertigen Bits als ein Code enthalten sein, der der zweiten internen Anweisung entspricht.
In Schritt 36 wird die zweite interne Anweisung der optimierten internen Anweisung ausgeführt, nachdem die erste Anweisung ausgeführt worden ist. Gemäß Ausführungsformen der vorliegenden Offenbarung werden die erste und die zweite interne Anweisung in derselben Reihenfolge ausgeführt, wie die internen Anweisungen in einer Anweisungsfolge vor dem Verbinden zu der optimierten internen Anweisung angeordnet waren. Wenn zum Beispiel die erste interne Anweisung in der Reihenfolge vor der zweiten internen Anweisung steht, woraus folgt, dass die erste interne Anweisung zuerst auszuführen ist, wenn die internen Anweisungen der Reihe nach ausgeführt werden, wird die erste interne Anweisung in der optimierten internen Anweisung zuerst ausgeführt.
Gemäß einer Ausführungsform werden die erste und die zweite Maschinenanweisung optimiert, um die optimierte interne Anweisung zu erzeugen, und die erste und die zweite interne Anweisung werden in den Schritten 35 und 36 ausgeführt, indem aus der optimierten internen Anweisung eine erste und eine zweite interne Anweisung erzeugt werden, die der ersten und der zweiten Maschinenanweisung entsprechen, und die erste und die zweite interne Anweisung separat ausgeführt werden, beispielsweise in separaten Arbeitszyklen. Gemäß einer anderen Ausführungsform werden die erste und die zweite interne Anweisung optimiert, um die optimierte interne Anweisung zu bilden, die als einzige Anweisung gespeichert werden soll, und die optimierte interne Anweisung wird ausgeführt, indem die erste und die zweite Anweisung erzeugt und die erste und die zweite interne Anweisung separat ausgeführt werden, beispielsweise in separaten Arbeitszyklen.
Gemäß noch einer anderen Ausführungsform werden die erste und die zweite interne Anweisung in den Schritten 35 und 36 ausgeführt, indem die optimierte interne Anweisung zweimal ausgeführt wird, wobei die optimierte interne Anweisung einen Teil der ersten internen Anweisung, der der ersten internen Anweisung entspricht, und einen Teil der zweiten internen Anweisung aufweist, der der zweiten internen Anweisung entspricht. Gemäß dieser Ausführungsform wird der Teil der ersten internen Anweisung ausgeführt, wenn die optimierte interne Anweisung zum ersten Mal ausgeführt wird, und der Teil der zweiten internen Anweisung wird ausgeführt, wenn die optimierte interne Anweisung zum zweiten Mal ausgeführt wird.
Gemäß noch einer weiteren Ausführungsform werden die erste und die zweite interne Anweisung in den Schritten 35 und 36 ausgeführt, indem nicht zwei separate interne Anweisungen erzeugt werden, sondern die optimierte interne Anweisung einmal ausgeführt wird. Gemäß dieser Ausführungsform enthält die optimierte interne Anweisung einen Teil der ersten internen Anweisung, der der ersten internen Anweisung entspricht, und einen Teil der zweiten internen Anweisung, der der zweiten internen Anweisung entspricht, und der Teil der zweiten internen Anweisung wird unmittelbar nach dem Teil der ersten internen Anweisung ausgeführt, ohne separate interne Anweisungen zu erzeugen.
Ausführungsformen der vorliegenden Offenbarung umfassen eine Architektur von Anweisungssätzen, darunter eine RISC-Architektur (reduced instruction set computing, Rechnen mit reduziertem Anweisungssatz), in der Funktionen eines Systems, beispielsweise arithmetische Funktionen, zur Verarbeitung in mehrere interne Anweisungen aufgeteilt werden. Zum Beispiel kann bei Ausführungsformen mit Bezug auf eine RISC-Architektur jede Anweisung auf einen Speicherzyklus begrenzt werden, sodass eine Funktion wie beispielsweise eine arithmetische Funktion in mehrere interne Anweisungen wie beispielsweise eine Registerladeanweisung und eine Datenverarbeitungsanweisung aufgeteilt werden kann, wobei Datenverarbeitung als Bearbeiten von Daten definiert ist, die auf einen Speicherbereich wie beispielsweise ein Register geladen worden sind. Gemäß Ausführungsformen der vorliegenden Offenbarung kann der Prozessor zwar die Tiefe einer Ausgabewarteschlange durch Optimieren interner RISC-Anweisungen verringern, jedoch kann der Prozessor weiterhin die separaten RISC-kompatiblen internen Anweisungen in der optimierten internen Anweisung akzeptieren, wenn er die optimierte interne Anweisung ausführt.
Die 5 veranschaulicht ein Beispiel für das Verbinden von Anweisungen zum Bilden einer optimierten internen Anweisung und zum Ausführen der optimierten internen Anweisung oder separater interner Anweisungen gemäß Ausführungsformen der vorliegenden Offenbarung. In 5 werden die erste und die zweite Maschinenanweisung 51 und 52 analysiert, um zu ermitteln, ob diese optimiert werden können. Die erste Maschinenanweisung 51 ist so konfiguriert, dass sie einen Prozessor veranlasst, auf der Grundlage einer Adresse im Register r3 und einer Konstanten 120 einen Wert in das Register r1 zu laden. Die zweite Maschinenanweisung 52 ist so konfiguriert, dass sie einen Prozessor veranlasst, auf der Grundlage der Summe der Inhalte der Register r1 und r5 einen Wert in das Register r1 zu laden. Mit anderen Worten, die zweite Maschinenanweisung 52 ist so konfiguriert, dass sie die Inhalte des Registers r1 verarbeitet, indem sie auf die Inhalte des Registers r1 eine Additionsfunktion anwendet.
Wenn festgestellt wird, dass die erste und die zweite Maschinenanweisung 51 und 52 zum Optimieren geeignet sind, werden die erste und die zweite Maschinenanweisung 51 und 52 miteinander verbunden, um die optimierte interne Anweisung 53 zu bilden. Obwohl weitere Prozesse wie beispielsweise ein Register-Umbenennungsprozess aus der Darstellung in 5 weggelassen wurden, ist klar, dass in das Optimieren und Ausführen der Maschinenanweisungen 51 und 52 zusätzliche Prozess einbezogen werden oder diesen eigen sein können. Die optimierte interne Anweisung 53 enthält Teile von internen Anweisungen, die sowohl der ersten als auch der ersten Maschinenanweisung 51 bzw. 52 entsprechen.
5 zeigt die optimierte interne Anweisung 53, nachdem eine Registerumbenennung erfolgt ist, indem logische Registerkennungen r1, r3 und r5 durch physische Umbenennungsregister p101, p103 bzw. p105 ersetzt wurden.
Insbesondere beinhaltet die optimierte interne Anweisung 53 interne Anweisungen, um in den physischen Speicherbereich 101, der dem Register r1 entspricht, einen Wert zu laden, der einer Adresse im physischen Speicherbereich p103 entspricht, der wiederum dem Register r3 entspricht, zuzüglich der Konstanten 120. Die optimierte interne Anweisung 53 beinhaltet ferner interne Anweisungen zum Addieren der Inhalte des physischen Speicherbereichs p105, der dem Register r5 entspricht, zu den Inhalten des physischen Speicherbereichs p101, der dem Register r1 entspricht, und zum Speichern der Inhalte in dem physischen Speicherbereich p101.
Bei Ausführungsformen, bei denen die erste und die zweite Maschinenanweisung 51 und 52 nur dann zum Optimieren geeignet sind, wenn die zweite Maschinenanweisung 52 auf die Daten von demselben Register wie das Zielregister der ersten Maschinenanweisung 51 zugreift und dieselben ersetzt, kann die optimierte interne Anweisung 53 zum Beispiel die Operandendaten p101 (die weggelassenen Daten sind durch Klammern angezeigt) am Ende des Teils der zweiten Anweisung der optimierten internen Anweisung 53 weglassen und dadurch einen Umfang der optimierten internen Anweisung 53 verringern.
Zwar ist in 5 eine Ausführungsform einer optimierten internen Anweisung 53 veranschaulicht, es ist jedoch klar, dass Ausführungsformen der vorliegenden Offenbarung optimierte interne Anweisungen umfassen, die andere Inhalte und Anordnungen aufweisen. Gemäß einer Ausführungsform kann zum Beispiel ein separater Datenbereich für das Zielregister oder das Ziel der zweiten Operation der optimierten internen Anweisung bereitgestellt werden. Gemäß einer anderen Ausführungsform kann ein separater Datenbereich für jeden Operanden der zweiten Operation der optimierten internen Anweisung unabhängig davon bereitgestellt werden, ob es sich bei dem Operanden um denselben wie für das Zielregister oder das Ziel des Teils der ersten Anweisung handelt.
Gemäß einer Ausführungsform der vorliegenden Offenbarung wird die optimierte interne Anweisung 53 ausgeführt, indem zwei separate interne Anweisungen 54 und 55 ausgeführt werden. Eine erste interne Anweisung 54 kann der ersten Maschinenanweisung 51 entsprechen, und eine zweite interne Anweisung 55 kann der zweiten Maschinenanweisung 52 entsprechen. Die erste und die zweite interne Anweisung 54 und 55 werden in derselben Reihenfolge ausgeführt, wie die erste und die zweite Maschinenanweisung 51 und 52 auf der Grundlage der ursprünglichen Positionen der ersten und der zweiten Maschinenanweisung 51 und 52 in einer Anweisungsfolge ausgeführt würden, die durch den Pfeil E angezeigt ist.
Gemäß einer Ausführungsform beinhaltet das Ausführen der ersten und der zweiten internen Anweisung 54 und 55 Aufteilen der optimierten internen Anweisung 53 in separate interne Anweisungen 54 und 55 und Ausführen jeder der separaten internen Anweisungen 54 und 55 in separaten Arbeitszyklen. Gemäß einer anderen Ausführungsform beinhaltet das Ausführen der ersten und der zweiten internen Anweisung 54 und 55 zweimaliges Ausführen der optimierten internen Anweisung 53, indem beim ersten Optimieren der optimierten internen Anweisung 53 der erste Teil der optimierten internen Anweisung 53 ausgeführt wird, der der ersten internen Anweisung 54 entspricht, und beim zweiten Ausführen der optimierten internen Anweisung 53 ein zweiter Teil der optimierten internen Anweisung 53 ausgeführt wird, der der zweiten internen Anweisung 55 entspricht.
Gemäß einer Ausführungsform werden ein Quellenbereich und/oder ein Zielbereich eines Operanden aus dem zweiten Teil der optimierten internen Anweisung 53 weggelassen, der der zweiten internen Anweisung 55 entspricht, und ein Prozessor wie beispielsweise die Anweisungsausführungseinheit 27 von 2 liefert den Zielbereich des ersten Teils der optimierten internen Anweisung 53, der der ersten internen Anweisung 54 entspricht, als weggelassenen Quellenbereich und/oder Zielbereich des Operanden der zweiten internen Anweisung 55.
Gemäß Ausführungsformen der vorliegenden Offenbarung, bei denen die erste und die zweite Maschinenanweisung 51 und 52 eine Ladeanweisung und eine Datenverarbeitungsanweisung enthalten, die einen geladenen Operanden der Ladeanweisung verwendet, kann ein Prozessor akzeptieren, dass der erste Teil 54 der optimierten internen Anweisung 53 der Ladeanweisung und der zweite Teil 55 der optimierten internen Anweisung 53 der Datenverarbeitungsanweisung entspricht. Der Prozessor kann die optimierte interne Anweisung 53 in die erste interne Anweisung 54 und die zweite interne Anweisung 55 aufteilen, um die erste und die zweite interne Anweisung 54 und 55 separat auszuführen. Alternativ kann der Prozessor bei jeder Ausführung der optimierten internen Anweisung 53 die optimierte interne Anweisung 53 zweimal ausführen, indem er nur einen der Teile der optimierten internen Anweisung 53 ausführt, der jeweils einer der internen Anweisungen 54 bzw. 55 entspricht.
Gemäß einer Ausführungsform werden nicht die separaten internen Anweisungen 54 und 55 in separaten Arbeitszyklen, sondern die optimierte interne Anweisung 53 ausgeführt. Mit anderen Worten, gemäß einer Ausführungsform werden keine separaten internen Anweisungen 54 und 55 auf der Grundlage der optimierten internen Anweisung 53 erzeugt. Vielmehr kann die optimierte interne Anweisung 53 den ersten Teil der internen Anweisung und den zweiten Teil der internen Anweisung der optimierten internen Anweisung 53 während ein und desselben Arbeitszyklus nacheinander ausführen.
Gemäß der obigen Beschreibung können Ausführungsformen in Form von computergestützten Prozessen und Vorrichtungen zum Ausführen dieser Prozesse umgesetzt werden. Eine Ausführungsform kann ein Computerprogrammprodukt 600 gemäß 6 auf einem computerlesbaren/durch Computer nutzbaren Medium 602 mit einer Computerprogrammcode-Logik 604 beinhalten, die in einem materiellen Medium als Herstellungsprodukt gespeicherte Anweisungen enthält. Als beispielhafte Herstellungsprodukte für ein computerlesbares/durch Computer nutzbares Medium 602 kommen Disketten, CD-ROMs, Festplatten, USB-Flash-Speicher oder beliebige andere computerlesbare Speichermedien infrage, wobei aus dem Computer eine Vorrichtung zum Umsetzen der Erfindung wird, wenn die Computerprogrammcode-Logik 604 in einen Computer geladen und durch diesen ausgeführt wird. Ausführungsformen beinhalten eine Computerprogrammcode-Logik 604, die in einem Speichermedium gespeichert sein, in einen Computer geladen und/oder durch diesen ausgeführt werden oder über ein bestimmtes Übertragungsmedium übertragen werden kann, beispielsweise über eine elektrische Leitung oder Kabel, durch Lichtwellenleiter oder über elektromagnetische Strahlung, wobei aus dem Computer eine Vorrichtung zum Umsetzen der Erfindung wird, wenn die Computerprogrammcode-Logik 604 in den Computer geladen und durch diesen ausgeführt wird. Wenn die Segmente der Computerprogrammcode-Logik 604 auf einem Universal-Mikroprozessor installiert sind, konfigurieren diese den Mikroprozessor so, dass er spezielle Logikschaltungen erzeugt.
Technische Effekte und Vorteile von Ausführungsformen der vorliegenden Offenbarung führen zum Verringern einer Anzahl von Anweisungen, die durch einen Prozessor für Prozesse wie beispielsweise Parallelverarbeitung analysiert werden, zum Verringern einer Anzahl von in einem Speicher gespeicherten internen Anweisungen, beispielsweise in einer Ausgabewarteschlange, und zum Verringern einer Anzahl durch einen Prozessor auszuführender Schritte zum Ausführen interner Anweisungen. Zum Beispiel analysiert der Prozessor gemäß einer Ausführungsform, in der der Prozessor zum Durchführen einer Parallelverarbeitung konfiguriert ist, Anweisungen in einer Anweisungsfolge, die in einer Anweisungswarteschlange oder einer Ausgabewarteschlange gespeichert sind, und kann gemäß den oben beschriebenen Ausführungsformen optimierte interne Anweisungen bilden, damit der Prozessor weniger interne Anweisungen zur Parallelverarbeitung zu analysieren braucht und die Latenzzeit in einem System verkürzt wird, in dem sich der Prozessor befindet. Andere technische Effekte und Vorteile können sich aus Systemen, Verfahren und Computerprogrammprodukten gemäß Ausführungsformen der vorliegenden Offenbarung ergeben, und der Schutzumfang der Erfindung ist nicht auf einen der obigen Effekte oder Vorteile beschränkt.
Die hierin verwendeten Begriffe dienen nur zum Beschreiben bestimmter Ausführungsformen und nicht zur Einschränkung der Erfindung. Die hierin verwendeten Einzahlformen „ein”, „eine” und „der, die, das” sollen gleichermaßen auch die Mehrzahlformen einschließen, sofern aus dem Zusammenhang nicht eindeutig anderes hervorgeht. Ferner ist klar, dass die Begriffe „weist auf” und/oder „aufweisend” bei Verwendung in dieser Beschreibung das Vorhandensein angegebener Merkmale, Ganzzahlen, Schritte, Operationen, Elemente und/oder Komponenten angeben, jedoch nicht das Vorhandensein oder das Hinzukommen einer oder mehrerer anderer Merkmale, Ganzzahlen, Schritte, Operationen, Elemente, Komponenten und/oder deren Gruppen ausschließen.
Die Beschreibung der vorliegenden Erfindung ist zur Veranschaulichung und Beschreibung vorgelegt worden, erhebt jedoch nicht den Anspruch auf Vollständigkeit oder auf Beschränkung auf die Erfindung in der offenbarten Form. Dem Fachmann sind viele Änderungen und Varianten offensichtlich, ohne vom Schutzumfang und vom Wesensgehalt der Erfindung abzuweichen. Die obigen Ausführungsformen wurden ausgewählt und beschrieben, um die Grundgedanken der Erfindung und deren praktische Anwendung bestmöglich zu erläutern und anderen Fachleuten das Verständnis der Erfindung für verschiedene Ausführungsformen mit verschiedenen Änderungen zu erleichtern, die für die jeweils vorgesehene Verwendung geeignet sind.
Dem Fachmann ist einsichtig, dass Aspekte der vorliegenden Erfindung als System, Verfahren oder Computerprogrammprodukt umgesetzt werden können. Demgemäß können Aspekte der vorliegenden Erfindung die Form einer kompletten Hardwareausführungsform, einer kompletten Softwareausführungsform (darunter Firmware, residente Software, Mikrocode usw.) oder einer Ausführungsform annehmen, die Software- und Hardwareaspekte in sich vereint, die hierin sämtlich allgemein als „Schaltung”, „Modul” oder „System” bezeichnet werden können. Darüber hinaus können Aspekte der vorliegenden Erfindung die Form eines Computerprogrammprodukts annehmen, das in einem oder mehreren computerlesbaren Medien mit einem darauf gespeicherten computerlesbaren Programmcode verkörpert ist.
Es kann eine beliebige Komponente eines oder mehrerer computerlesbarer Medien verwendet werden. Bei dem computerlesbaren Medium kann es sich um ein computerlesbares Signalmedium oder ein computerlesbares Speichermedium handeln. Bei einem computerlesbaren Speichermedium kann es sich zum Beispiel, ohne darauf beschränkt zu sein, um ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem, eine entsprechende Vorrichtung oder Einheit oder eine beliebige geeignete Kombination derselben handeln. Als speziellere Beispiele (eine nicht erschöpfende Aufzählung) für das computerlesbare Speichermedium kommen infrage: eine elektrische Verbindung mit einer oder mehreren Leitungen, eine austauschbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM oder Flash-Speicher), ein Lichtwellenleiter, ein austauschbarer Compact Disc-Nur-Lese-Speicher (CD-ROM), eine optische Speichereinheit, eine magnetische Speichereinheit oder eine beliebige geeignete Kombination derselben. In Verbindung mit diesem Dokument kann es sich bei einem computerlesbaren Speichermedium um ein beliebiges materielles Medium handeln, das ein Programm zur Verwendung durch oder in Verbindung mit einem System, einer Vorrichtung oder Einheit zum Ausführen von Anweisungen zu enthalten oder zu speichern.
Ein computerlesbares Signalmedium kann ein sich ausbreitendes Datensignal mit einem darin verkörperten computerlesbaren Programmcode beinhalten, zum Beispiel im Basisband oder als Teil einer Trägerwelle. Ein solches sich ausbreitendes Signal kann eine beliebige aus einer Vielfalt an Formen annehmen, darunter, ohne darauf beschränkt zu sein, elektromagnetisch, optisch oder eine beliebige geeignete Kombination derselben. Bei einem computerlesbaren Signalmedium kann es sich um ein beliebiges computerlesbares Medium handeln, das kein computerlesbares Speichermedium ist und das ein Programm zur Verwendung durch oder in Verbindung mit einem System, einer Vorrichtung oder Einheit zum Ausführen von Anweisungen übertragen, weiterverbreiten oder transportieren kann.
Ein auf einem computerlesbaren Medium gespeicherter Programmcode kann unter Verwendung eines beliebigen geeigneten Mediums übertragen werden, darunter, ohne darauf beschränkt zu sein, drahtlos, leitungsgebunden, Lichtwellenleiter, HF usw. oder eine beliebige geeignete Kombination derselben.
Ein Computerprogrammcode zum Ausführen von Operationen für Aspekte der vorliegenden Erfindung kann in einer beliebigen Komponente einer oder mehrerer Programmiersprachen geschrieben sein, darunter eine objektorientierte Programmiersprache wie beispielsweise Java, Smalltalk, C++ oder dergleichen und herkömmliche prozedurale Programmiersprachen wie beispielsweise die Programmiersprache „C” oder ähnliche Programmiersprachen. Der Programmcode kann komplett auf dem Computer eines Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Softwarepaket, teilweise auf dem Computer des Benutzers und teilweise auf einem fernen Computer oder komplett auf dem fernen Computer oder Server ausgeführt werden. Im letzteren Szenario kann der ferner Computer mit dem Computer des Benutzers durch einen beliebigen Typ von Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetzwerk (WAN), oder die Verbindung kann zu einem externen Computer (zum Beispiel durch das Internet unter Verwendung eines Internetdienstanbieters) hergestellt werden.
Aspekte der vorliegenden Erfindung werden oben unter Bezugnahme auf Ablaufpläne und/oder schematische Schaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es ist klar, dass jeder Block der Ablaufpläne und/oder Blockschaubilder und Kombinationen von Blöcken in den Ablaufplänen und/oder Blockschaubildern durch Computerprogrammanweisungen umgesetzt werden können. Diese Computerprogrammanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung zugeführt werden, um eine Maschine derart zu erzeugen, dass die durch den Prozessor des Computers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zum Umsetzen der in dem Block oder den Blöcken der Ablaufpläne und/oder Blockschaubilder angegebenen Funktionen/Aktionen erzeugen.
Diese internen Computerprogrammanweisungen können auch in einem computerlesbaren Medium gespeichert sein, das einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder andere Einheiten veranlassen kann, in einer bestimmten Weise so zu funktionieren, dass die in dem computerlesbaren Medium gespeicherten Anweisungen ein Herstellungsprodukt erzeugen, das Anweisungen beinhaltet, die die in dem Block oder den Blöcken der Ablaufpläne und/oder Blockschaubilder angegebenen Funktionen/Aktionen umsetzen.
Die Computerprogrammanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder andere Einheiten geladen werden, um eine Folge auf dem Computer, einer anderen programmierbaren Vorrichtung oder anderen Einheiten auszuführender Arbeitsschritte zu veranlassen, um einen computergestützten Prozess derart zu erzeugen, dass die auf dem Computer oder einer anderen programmierbaren Vorrichtung ausgeführten Anweisungen Prozesse zum Umsetzen der in dem Block oder den Blöcken der Ablaufpläne und/oder Blockschaubilder angegebenen Funktionen/Aktionen bereitstellen.
Die oben beschriebenen Ausführungsformen können in Form computergestützter Prozesse und Vorrichtungen zum praktischen Umsetzen dieser Prozesse realisiert werden. Gemäß Ausführungsformen ist die Erfindung in einem Computerprogrammcode verkörpert, der durch ein oder mehrerer Netzwerkelemente ausgeführt wird. Ausführungsformen beinhalten ein Computerprogrammprodukt auf einem durch Computer nutzbaren Medium, wobei eine Logik des Computerprogrammcodes Anweisungen enthält, die in einem materiellen Medium als Herstellungsprodukt verkörpert sind. Als beispielhafte Herstellungsprodukte für das durch Computer nutzbare Medium kommen Disketten, CD-ROMs, Festplatten, USB-Flash-Speicher oder jedes andere computerlesbare Speichermedium infrage, wobei aus dem Computer eine Vorrichtung zum Umsetzen der Erfindung wird, wenn die Logik des Computerprogrammcodes in den Computer geladen und durch diesen ausgeführt wird. Ausführungsformen beinhalten eine Logik des Computerprogrammcodes, die zum Beispiel in einem Speichermedium gespeichert ist, in einen Computer geladen und/oder durch diesen ausgeführt oder über ein bestimmtes Übertragungsmedium wie beispielsweise über elektrische Leitungen oder Kabel, Lichtwellenleiter oder elektromagnetische Strahlung übertragen wird, wobei aus dem Computer eine Vorrichtung zum Umsetzen der Erfindung wird, wenn der Computerprogrammcode in den Computer geladen und durch diesen ausgeführt wird. Wenn die Logiksegmente des Computerprogrammcodes auf einem Universal-Mikroprozessor implementiert sind, wird der Mikroprozessor so konfiguriert, dass spezielle Logikschaltungen erzeugt werden.
Der Ablaufplan und die Blockschaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und die Arbeitsweise möglicher Implementierungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. Demgemäß kann jeder Block in dem Ablaufplan oder den Blockschaubildern ein Modul, ein Segment oder einen Codeabschnitt darstellen, der eine oder mehrere ausführbare Anweisungen zum Umsetzen der angegebenen logischen Funktionen aufweist. Zu beachten ist, dass bei bestimmten alternativen Ausführungsformen die in dem Block angegebenen Funktionen in einer von den Figuren abweichenden Reihenfolge vorkommen können. Zum Beispiel können zwei nacheinander gezeigte Blöcke je nach vorgesehener Funktionalität in Wirklichkeit im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können mitunter in der umgekehrten Reihenfolge ausgeführt werden. Ferner wird darauf hingewiesen, dass jeder Block in den Blockschaubildern und/oder Ablaufplänen und Kombinationen von Blöcken in den Blockschaubildern und/oder Ablaufplänen durch spezielle Hardwaresysteme, die die angegebenen Funktionen oder Aktionen ausführen, oder durch Kombination von spezieller Hardware und Computeranweisungen umgesetzt werden.

Claims

Computersystem zum Optimieren von Anweisungen, wobei das Computersystem aufweist: einen Prozessor, der eine Anweisungsausführungseinheit, die zum Ausführen von Anweisungen konfiguriert ist, und eine Anweisungsoptimierungseinheit enthält, die zum Optimieren von zwei oder mehr Anweisungen konfiguriert ist; und einen Speicher zum Speichern von zwei oder mehr Maschinenanweisungen, die durch die Anweisungsausführungseinheit ausgeführt werden sollen, wobei das Computersystem zum Ausführen eines Verfahrens konfiguriert ist, das aufweist: Analysieren der zwei oder mehr durch die Anweisungsausführungseinheit auszuführenden Maschinenanweisungen aus einer Anweisungsfolge, wobei die zwei oder mehr Maschinenanweisungen eine Speicherladeanweisung und eine Datenverarbeitungsanweisung enthalten, um auf der Grundlage der Speicherladeanweisung eine Datenverarbeitungsfunktion auszuführen, Feststellen, dass die zwei oder mehr Maschinenanweisungen zum Optimieren geeignet sind, Verbinden der zwei oder mehr Maschinenanweisungen zu einer einzigen optimierten internen Anweisung und Ausführen der einzigen optimierten internen Anweisung, um eine Speicherladefunktion und eine Datenverarbeitungsfunktion auszuführen, die der Speicherladeanweisung und der Datenverarbeitungsanweisung entsprechen.
Computersystem nach Anspruch 1, wobei das Feststellen, dass die zwei oder mehr Maschinenanweisungen zum Optimieren geeignet sind, ein Feststellen aufweist, dass ein Ziel der Speicherladeanweisung mit einem Quellenbereich eines Operanden der Datenverarbeitungsanweisung identisch ist.
Computersystem nach Anspruch 1, wobei der Prozessor so konfiguriert ist, dass er eine Registerumbenennung durch Zuordnen eines einzigen Zielregisters durchführt, um ein Ergebnis sowohl der ersten als auch zweiter der zwei oder mehr Maschinenanweisungen darzustellen.
Computersystem nach Anspruch 1, wobei der Prozessor so konfiguriert ist, dass er die einzige optimierte interne Anweisung so erzeugt, dass in dieser nur eine Darstellung eines Zielregisters der zwei oder mehr Maschinenanweisungen gespeichert ist.
Computersystem nach Anspruch 4, wobei die einzige optimierte interne Anweisung nur eine gespeicherte Umbenennungsregisterkennung enthält, um sowohl ein Zielregister der Speicherladeanweisung als auch ein Quellenregister der Datenverarbeitungsanweisung zu kennzeichnen, und Ausführen der einzigen optimierten internen Anweisung, das aufweist: Auswählen des Zielregisters der Speicherladeanweisung als Quellenregister der Datenverarbeitungsanweisung.
Computersystem nach Anspruch 1, wobei das Computersystem so konfiguriert ist, dass es nicht die zwei oder mehr internen Anweisungen, die den zwei oder mehr Maschinenanweisungen entsprechen, sondern die einzige optimierte interne Anweisung ausführt.
Computersystem nach Anspruch 1, wobei das Verfahren ferner aufweist: Ausführen der optimierten internen Anweisung in zwei oder mehr separaten Arbeitszyklen, um die Speicherladefunktion und die Datenverarbeitungsfunktion auszuführen.
Computersystem nach Anspruch 1, wobei der Speicher eine Ausgabewarteschlange enthält, die eine Vielzahl von Bereichen aufweist, die jeweils zum Speichern einer separaten internen Anweisung aus einer Vielzahl von internen Anweisungen in einer Reihenfolge konfiguriert sind, in der die Vielzahl von internen Anweisungen durch die Anweisungsausführungseinheit ausgeführt werden sollen, und das Verfahren ferner aufweist: Speichern der optimierten internen Anweisung in einem Speicherbereich der Ausgabewarteschlange.
Computersystem nach Anspruch 1, wobei die Ausführungseinheit so konfiguriert ist, dass sie die optimierte interne Anweisung durch Erzeugen von zwei oder mehr separaten internen Anweisungen ausführt, die den zwei oder mehr Maschinenanweisungen entsprechen, und jede der zwei oder mehr separaten internen Anweisungen in separaten Arbeitszyklen ausführt.
Computerprogrammprodukt zum Implementieren von Anweisungsoptimierungen, wobei das Computerprogrammprodukt aufweist: ein materielles Speichermedium, das durch eine Verarbeitungseinheit lesbar ist und in dem Anweisungen zum Ausführen durch die Verarbeitungsschaltung zum Ausführen eines Verfahrens gespeichert sind, wobei das Verfahren aufweist: Feststellen, dass mindestens zwei Maschinenanweisungen einer Anweisungsfolge zum Optimieren geeignet sind, wobei die mindestens zwei Maschinenanweisungen eine Speicherladeanweisung und eine Datenverarbeitungsanweisung zum Verarbeiten von Daten auf der Grundlage der Speicherladeanweisung enthalten; Verbinden der mindestens zwei Maschinenanweisungen durch einen Prozessor zu einer einzigen optimierten internen Anweisung auf der Grundlage des Feststellens, dass die mindestens zwei Maschinenanweisungen zum Optimieren geeignet sind; und Ausführen der einzigen optimierten internen Anweisung zum Ausführen einer Speicherladefunktion und einer Datenverarbeitungsfunktion, die der Speicherladeanweisung und der Datenverarbeitungsanweisung entsprechen.
Computerprogrammprodukt nach Anspruch 10, wobei das Ausführen der einzigen optimierten internen Anweisung ein Ausführen der einzigen optimierten internen Anweisung beinhaltet, anstatt mindestens zwei interne Anweisungen auszuführen, die den mindestens zwei Maschinenanweisungen entsprechen.
Computerprogrammprodukt nach Anspruch 10, wobei das Verfahren ferner ein Speichern der einzigen optimierten internen Anweisung als einzige Anweisung in dem materiellen Speichermedium aufweist, und wobei das Ausführen der einzigen optimierten internen Anweisung ein Erzeugen von mindestens zwei internen Anweisungen, die den mindestens zwei Maschinenanweisungen entsprechen, und ein Ausführen der mindestens zwei internen Anweisungen in separaten Operationen beinhaltet.
Computerprogrammprodukt nach Anspruch 10, wobei das Verfahren ferner ein Speichern der einzigen optimierten internen Anweisung als einzige Anweisung in dem materiellen Speichermedium aufweist, und wobei die Anweisungsausführungseinheit so konfiguriert ist, dass sie die einzige optimierte interne Anweisung ein erstes Mal ausführt, um eine Operation auszuführen, die der ersten Maschinenanweisung entspricht, und dass sie die einzige optimierte interne Anweisung ein zweites Mal ausführt, um eine Operation auszuführen, die der zweiten Maschinenanweisung entspricht.
Computerprogrammprodukt nach Anspruch 10, wobei die Anweisungsoptimierungseinheit so konfiguriert ist, dass sie ermittelt, ob die erste und die zweite Maschinenanweisung zum Optimieren geeignet sind, indem sie feststellt, dass ein Ziel der Ladeanweisung einem Ziel und einem Operandenbereich der Datenverarbeitungsanweisung identisch ist.
Computergestütztes Verfahren, das aufweist: Feststellen, dass zwei oder mehr Anweisungen einer Anweisungsfolge zum Optimieren geeignet sind, wobei die zwei oder mehr Anweisungen eine Speicherladeanweisung und eine Datenverarbeitungsanweisung zum Verarbeiten von Daten auf der Grundlage der Speicherladeoperation enthalten; Verbinden der zwei oder mehr Anweisungen durch einen Prozessor zu einer einzigen optimierten internen Anweisung; und Ausführen der einzigen optimierten internen Anweisung zum Ausführen einer Speicherladefunktion und einer Datenverarbeitungsfunktion, die der Speicherladeanweisung und der Datenverarbeitungsanweisung entsprechen.
Computergestütztes Verfahren nach Anspruch 15, wobei das Ausführen der einzigen optimierten internen Anweisung ein Ausführen der einzigen optimierten internen Anweisung anstelle von zwei oder mehr separaten internen Anweisungen beinhaltet, die den zwei oder mehr Anweisungen der Anweisungsfolge entsprechen.
Computergestütztes Verfahren nach Anspruch 15, das ferner ein Speichern der einzigen optimierten internen Anweisung in einem einzigen Speicherbereich einer Warteschlange aufweist, wobei das Ausführen der einzigen optimierten internen Anweisung ein Abrufen der einzigen optimierten internen Anweisung von der Warteschlange und ein Erzeugen von zwei oder mehr separaten internen Anweisungen aus der einzigen optimierten internen Anweisung beinhaltet, die der Speicherladeanweisung und der Datenverarbeitungsanweisung entsprechen.
Computergestütztes Verfahren nach Anspruch 15, wobei das Feststellen, dass die zwei oder mehr Anweisungen zum Optimieren geeignet sind, ein Feststellen beinhaltet, dass ein Ziel der Speicherladeanweisung einem Operandenbereich der Datenverarbeitungsanweisung identisch ist.
Computergestütztes Verfahren nach Anspruch 15, wobei das Verbinden der zwei oder mehr Anweisungen zu der einzigen optimierten internen Anweisung ein Bilden der einzigen optimierten internen Anweisung derart beinhaltet, dass diese einen Teil der ersten Anweisung, der einer ersten der zwei oder mehr Anweisungen entspricht, und einen Teil der zweiten Anweisung aufweist, der der zweiten der zwei oder mehr Anweisungen entspricht, und das Verbinden der zwei oder mehr internen Anweisungen zu einer einzigen optimierten internen Anweisung ein Weglassen von Daten aus dem Teil der zweiten Anweisung beinhaltet, die einem Operandenbereich und/oder einem Ziel der zweiten der zwei oder mehr Anweisungen entsprechen, das einem Ziel der ersten der zwei oder mehr internen Anweisungen identisch ist.
Computergestütztes Verfahren nach Anspruch 15, wobei das Ausführen der einzigen optimierten internen Anweisung ein zweimaliges Ausführen der einzigen optimierten Anweisung beinhaltet, indem bei dem ersten Ausführen der einzigen optimierten internen Anweisung die Speicherladeanweisung und bei dem zweiten Ausführen der einzigen optimierten internen Anweisung die Datenverarbeitungsanweisung ausgeführt wird.