DE102022125248A1

DE102022125248A1 - Prozessor und Computer mit mindestens einem Prozessor mit vorzeitiger Programmvariantenauswahl bei noch unbekannten Vergleichsergebnissen

Info

Publication number: DE102022125248A1
Application number: DE102022125248.5A
Authority: DE
Inventors: gleich Anmelder Erfinder
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2024-04-04
Anticipated expiration: 2042-10-01
Also published as: DE102022125248B4

Abstract

Die Erfindung betrifft eine neuartige Universalrechner-Architektur, welche eine erhebliche Beschleunigung des Ablaufs von Hochsprachen-Programmcode mit vielen Fallunterscheidungen ermöglicht. Durch das vorzeitige Anlegen von bekannten Ergebnissen an einen ternären TCAM-Speicher zusammen mit der Kennzeichnung noch unbekannter Ergebnisse als X-undefiniert kann eine Vielzahl von konventionellen Sprungbefehlen gemeinsam ausgeführt werden, ohne dass tatsächlich jeder Vergleich berechnet werden muss. Eine Kombination mit klassischen Befehlssätzen ist möglich.

Description

Der Erfindung liegt die Aufgabe zugrunde, die Ablaufgeschwindigkeit von in Hochsprachen wie C, C++, C#, Java oder FORTRAN oder Pascal geschriebenen Programmen auf einem Universalrechner deutlich zu erhöhen.
Bisherige Rechnerarchitekturen verwenden hierzu beispielsweise Ansätze wie eine parallele Verarbeitung von Befehlen in mehreren Ausführungseinheiten oder eine Pipeline zur Aufteilung komplexer Befehle in mehrere Teilschritte ähnlich einer Fließband-Produktion, wodurch die einzelnen Recheneinheiten inhärent beschleunigt und gut ausgelastet werden.
Einen guten Überblick über den Stand der Technik gibt John Paul Shen, Mikko H. Lipasti; Modem Processor Design: Fundamentals of Superscalar Processors; Long Grove: Waveland Press 2013.
Bei der Pipeline-Architektur ist jedoch nachteilig, dass bei bedingten Verzweigungen die Fließband-Produktion dann unterbrochen werden kann, wenn die Bedingung der Verzweigung falsch vorhergesagt wird. Die Entwicklung einer guten Verzweigungsvorhersage (Branch Prediction) hat sich in vielen Erfindungen niedergeschlagen, so in EP1008036B1 oder EP0661625B1 .
Weiterhin bekannt sind Verfahren zur optimierten Belegung von Registern, um den Datenfluss innerhalb der Zentraleinheit zu optimieren, beispielhaft sei hier EP0798636B1 angeführt.
All diese Verfahren haben jedoch den Nachteil, dass sie spekulativ und somit sub-optimal arbeiten. Bestenfalls kann ein optimierender Compiler das Programm so in einen Maschinencode übersetzen, dass es in der vermuteten oder durch Profiling ermittelten häufigsten Ablaufvariante eine möglichst optimale Auslastung der Ausführungseinheiten und sonstigen Ressourcen der Zentraleinheit erreicht. Hingegen werden weitergehende Optimierungsmöglichkeiten, die sich einem menschlichen Betrachter aus der in einer Hochsprache formulierten Programmlogik in einer Vielzahl der Fälle ergeben würden, nicht berücksichtigt. Insbesondere muss ein Programm im Maschinencode auch dann immer alle Sonderfälle der Programmlogik berücksichtigen, selbst wenn diese nur äußerst selten auftreten.
Als eine erste Lösung dieser Problematik wurde gemäß DE102005036605B4 vom selben Erfinder die Anbindung eines inhaltsadressierbaren Speichers an den Prozessor vorgeschlagen, gemäß Unteranspruch auch eines ternären - TCAM - Speichers. Die grundlegende Idee der Erfindung besteht darin, zu gleichartigen Hochsprachen- oder Assembler-Sequenzen unterschiedliche Maschinencodes zu generieren, die jeweils für eine bestimmte Programm- oder ParameterKonstellation optimiert sind. Nachteilig ist jedoch dabei, dass erst die Konstellation vom Prozessor vollständig ermittelt werden muss, wohingegen in neuen superskalaren Prozessordesigns auch partielle Ergebnisse vorliegen können.
Der Erfindung liegt daher die Aufgabe zugrunde, das aus der algorithmischen Formulierung der Programmlogik in einer Hochsprache vorliegende Optimierungspotential zur Erhöhung der Ablaufgeschwindigkeit eines Computerprogramms durch eine geeignete Gestaltung der Hardware des Prozessors speziell bei superskalaren Architekturen besser auszunutzen.
Das Problem wird erfindungsgemäß durch den in Patentanspruch 1. beschriebenen Prozessor gelöst, dessen Funktion im folgenden anhand eines Ausführungsbeispiels gemäß Bild 1 erläutert wird:

Gegeben sei beispielhaft der Vergleich des modifizierten Elements an der Spitze eines Heap z.B. in einem Heapsort-Algorithmus.

Eine gewöhnliche Rechnerarchitektur würde nacheinander im Rahmen einer Schleife das erste Heap-Element mit dem zweiten und dritten vergleichen, bedarfsweise ein Heap-Element mittels Tausch hochziehen und auf der nächsten Ebene fortfahren.
Die vorliegende Rechnerarchitektur setzt hingegen alle Vergleiche im Programmcode sogar über mehrere Heap-Ebenen gemeinsam auf (PC) und löst final einen Switch aus. Bedingt durch den Prefetch der superskalaren Architektur, durch einen Cache oder durch entsprechende „early“ Codes in den Vergleichsbefehlen liegt die Information über einen demnächst auszuführenden Sprung dem Prozessor frühzeitig vor.
Erfindungsgemäß wird jetzt bei jedem neuen Vergleichsergebnis dieses im Suchmuster-Register (CR) eingetragen, die Position ergibt sich im Beispiel aus einer Codierung im Befehl gemäß Unteranspruch, wohingegen noch offene Vergleiche mit einem X-undefiniert dort codiert werden. Mit jedem neuen Vergleichsergebnis wird jetzt eine Abfrage des inhaltsadressierbaren TCAM-Speichers (TC) durchgeführt und gemäß Unteranspruch die Verzweigung - Befehl SWITCH - vorzeitig ausgelöst, wenn ein passender Eintrag im TCAM vorliegt.
Der sodann ausgewählte optimierte Programmcode zur Fortsetzung nach dem Sprung nach dem Befehl SWITCH mit der Adresse aus dem Tag-RAM (TR) kann dann für diesen Fall erhebliche Optimierungen aufweisen, z.B. eine optimierte Verschiebung des Elements an der Spitze des Heap über mehrere Ebenen.
Damit wird überraschenderweise auch das Pipeline-Stall Problem superskalarer Architekturen in diesem Fall gelöst, indem eben nicht mit hälftiger Wahrscheinlichkeit bei echten - nicht gut vorhersagbaren - Entscheidungs-Sprungbefehlen jedes Mal ein Stall der Pipeline stattfindet, sondern alle Sprungebenen zu einer Entscheidung zusammengefasst werden und trotzdem offensichtliche Fälle, z.B. das Element an der Spitze des Heaps ist größer als beide darunter, vorzeitig gehandhabt werden können.
Somit entsteht eben kein Geschwindigkeitsnachteil durch die Vergleiche ab V(2) in der Zeichnung, bereits mit den beiden ersten Vergleichen wird in dem Fall der Sprung ausgeführt.
In einer besonders vorteilhaften Version der Erfindung gemäß Unteranspruch wird weiterhin jede derartige Sequenz mit einem Funktions- oder Sequenzcode (Funcid.) im TCAM von anderen separiert. Dieser kann gemäß Unteranspruch ebenso wie die Bitzuordnungen der Vergleichsbefehle auch aus deren Befehlsadresse abgeleitet werden, z.B. mittels eines möglichst kollisionsarmen Hardware-Hash.
Weiterhin kann gemäß Unteranspruch die Zuordnung eines TCAM-Registerbits zum Vergleichsbefehl und die Auswahl der Operanden auch über eine abgelegte Rechenvorschrift erfolgen, z.B. beim Heap zur Auswahl der Operanden (k), (2k) und (2k+1).
Der Vergleichsbefehl braucht auch nicht unbedingt direkt zwei Operanden vergleichen, vielmehr kann die Auswertung einer vorherigen Rechenoperation auf Carry, Zero usw. erfolgen, im Sinne eines simulierten Sprungbefehls. Zusammen mit der automatischen Übersetzung eines zweiten Befehlssatzes bietet sich gemäß Unteranspruch auch eine hervorragende Möglichkeit, bestehende Programme schneller auszuführen, indem typische Situationen im Rahmen einer dynamischen Übersetzung einen eigenen Programmcode erhalten. Da ohnehin z.B. IA32 oder AMD64 Code in modernen Prozessoren dynamisch in einen Mikrooperations-Cache in pipelinefähigen RISC-Code übersetzt wird, kann an dieser Stelle die erfindungsgemäße Optimierung vorgenommen werden.
Hierbei kann sich auch eine bewusste Randomisierung der Ausführungsreihenfolge anbieten, um dann z.B. mittels statistischer Zähler besonders häufig vorkommende Konstellationen bevorzugt erfassen zu können.
Sollte noch nicht für einen bestimmten Fall optimierter Code im Rahmen der dynamischen Übersetzung erstellt sein, so kann über einen Rückfalleintrag -„default“ - gemäß Unteranspruch zum Zeitpunkt des SWITCH eine Standardprozedur ausgelöst werden, dazu kann z.B. ein TCAM-Bit als Erledigt-Bit (DONE) für alle Vergleiche genutzt werden.
Zur Erstellung des Maschinencodes bietet sich neben der dynamischen Übersetzung ein optimierter Compiler an, wobei in der Hochsprache besonders zu beschleunigende Sequenzen mit einem speziellen Befehl - „#pragma“ - gekennzeichnet werden können. Die eigentliche Optimierung erfolgt durch das Programm- und Datenflussdiagramm des Compilers ähnlich der Loop Invariant Erkennung: Es werden bestimmte Vergleichsergebnisse für die fragliche Variante als fest angenommen und dann entstehender unbenutzter Programmcode verworfen.
Inhaltsadressierbare TCAM Speicher sind in verschiedenen Varianten problemlos in Prozessoren integrierbar oder als separater Die in einer Chiplet-Konstruktion ankoppelbar, in Verbindung des erfindungsgemäßen Prozessors mit einem geeigneten Compiler kann mit Hilfe der Erfindung eine erhebliche Steigerung der Rechenleistung derartiger Prozessoren erzielt werden.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

EP 1008036 B1 [0004]
EP 0661625 B1 [0004]
EP 0798636 B1 [0005]
DE 102005036605 B4 [0007]

Claims

Prozessor, mit mindestens einem unmittelbar enthaltenen oder extern angekoppeltem inhaltsadressierbaren ternärem Speicher (TC), der mindestens die Zustände 0, 1 und X-undefiniert in einem Ternärbit unterstützt und abgelegte Muster wie Suchmuster mit solchen Ternärbits erlaubt und zu einem Suchmuster (CR), sofern mindestens ein dazu passender Eintrag gefunden wurde, zusätzliche Informationen oder einen Index liefert - im Folgenden wird dieser Speicher als TCAM bezeichnet -, und mit einem Befehlssatz mit mindestens einem Befehl zur Berechnung oder Auswertung eines Vergleichs von Operanden, welcher mindestens ein binäres Ergebnis liefert, wobei ein Vergleichsergebnis, das beim Ausführen des Befehls entsteht, mindestens einem Ternärbit des Suchmusters des TCAM zugeordnet wird, weiterhin mehrere Vergleichsergebnisse mittels des Befehlssatzes oder der Befehlsadresse unterschiedlichen Ternärbits des Suchmusters des TCAM zugeordnet werden können, dadurch gekennzeichnet, dass solche Vergleichsergebnisse, die im Programmablauf (PC) bisher noch nicht errechnet wurden, dem TCAM als X-undefiniert im Suchmuster registriert übergeben werden und mit solchen unvollständigen Ergebnissen am Eingang des TCAM trotz deren Unvollständigkeit eine vorzeitige Abfrage des TCAM durchgeführt wird und beim Vorliegen eines hierfür gültigen Eintrags im TCAM oder einer zu diesem Eintrag hinterlegten Sprungadresse oder weiterer hinterlegter Informationen vorzeitig eine Programmverzweigung ausgeführt wird, wohingegen, wenn kein gültiger Eintrag gefunden wird, weitere Vergleichsergebnisse errechnet werden und hernach der TCAM erneut abgefragt wird.
Prozessor nach Anspruch 1, dadurch gekennzeichnet, dass beim vorzeitigen Ermitteln eines Eintrags im TCAM aus unvollständigen Suchmustern die Berechnung weiterer Vergleichsergebnisse vorzeitig abgebrochen wird, auch, soweit diese bereits in einer superskalaren oder anderweitig parallelen Architektur reserviert wurden, und ein besonders für diese Konstellation optimierter Programmcode aufgerufen wird.
Prozessor nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Vergleichsergebnisse unabhängig von der durch die Befehlsreihung vorgegebenen Reihenfolge errechnet werden, was einer superskalaren oder anderweitig parallelen Architektur entspricht, wobei die Reihenfolge auch bewusst randomisiert werden kann.
Prozessor nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass der Befehlssatz in einzelnen Befehlen Felder enthält, welche direkt oder über mindestens ein indirektes Register eine Zuordnung eines Vergleichsergebnisses zu einem TCAM-Ternärbit tätigen.
Prozessor nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass die Operanden der Vergleichsoperationen und die Zuordnung der Vergleichsergebnisse zu einem TCAM-Ternärbit durch eine per Befehlssatz hinterlegte Rechenvorschrift geschieht, diese Zuordnung kann auch superskalar oder anderweitig parallel berechnet werden.
Prozessor nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass in dem Suchmuster weiterhin eine Information codiert wird, welche eine Programmsequenz oder ein Programm oder eine Betriebssystemtask eindeutig identifiziert, und somit eine Mehrfachnutzung des TCAM ermöglicht wird.
Prozessor nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass im TCAM mindestens ein Rückfalleintrag für bislang unbekannte Kombinationen von Ergebnissen vorliegt.
Prozessor nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass ein weiterer zweiter Befehlssatz mit P-Code, IA32-Code, AMD64-Code, ARM-Code oder anderen kompatiblen Befehlscodes vorliegt, welcher dynamisch in den von dem Prozessor ausgeführten ersten Befehlscode übersetzt wird und dabei aufgetretene Fälle neuer Kombinationen von Vergleichsergebnissen mindestens einen neuen TCAM-Eintrag im Rahmen der dynamischen Übersetzung bewirken, wobei die Zuordnung eines klassischen Vergleichs- oder Sprungbefehls zu einem TCAM-Ternärbit aus der Adresse des entsprechenden Befehls mittels eines Hash oder einer Funktion abgeleitet werden kann, wobei die Optimierung des Programmcodes in einer verbesserten Sprungvorhersage bestehen kann.
Prozessor nach Anspruch 7 und 8, dadurch gekennzeichnet, dass die dynamische Übersetzung im Hintergrund stattfindet und bis zum Vorliegen eines Übersetzungsergebnisses eine verallgemeinerte Maschinencode-Variante des Rückfalleintrags verwendet wird, die alle möglichen Vergleichsergebnisse handhaben kann.
Computer mit mindestens einem Prozessor nach Anspruch 1, dadurch gekennzeichnet, dass die zur Programmierung verwendete Programmiersprache mindestens ein zusätzliches Sprachelement beinhaltet, welches für eine Optimierung und Suche im inhaltsadressierbaren Speicher vorgesehene Variablen oder Programmsequenzen kennzeichnet und für diese eine automatische Erstellung der TCAM-Suchmuster und darauf optimierten Befehlssequenzen mittels Programm- oder Datenflussanalyse im Compiler erfolgt.