DE112016001836T5

DE112016001836T5 - Energieeffiziente Prozessorkernarchitektur für Bildprozessoren

Info

Publication number: DE112016001836T5
Application number: DE112016001836.3T
Authority: DE
Inventors: Albert Meixner; Jason Rupert Redgrave; Ofer Shacham; Daniel Frederic Finchelstein; Qiuling Zhu
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-04-23
Filing date: 2016-04-08
Publication date: 2018-03-29
Also published as: US11138013B2; KR101971657B1; CN107408041A; US20190220282A1; US20210004232A1; US10754654B2; WO2016171928A1; US10275253B2; KR20170125932A; JP2018206413A; CN107408041B; JP6412663B2; US9772852B2; JP2020035471A; EP3286722A1; US20160313999A1; JP6967570B2; JP6612403B2; US20170249153A1; JP2018513473A

Abstract

Eine Vorrichtung wird beschrieben. Die Vorrichtung umfasst einen Programmcontroller zum Abrufen und Ausgeben von Befehlen. Die Vorrichtung umfasst eine Ausführungsbahn mit mindestens einer Ausführungseinheit zum Ausführen der Befehle. Die Ausführungsbahn ist Teil einer Ausführungsbahnmatrix, die mit einer zweidimensionalen Schieberegistermatrix-Struktur gekoppelt ist, wobei sich die Ausführungsbahnen der Ausführungsbahnmatrix auf jeweiligen Matrixpositionen befinden und mit dedizierten Registern an denselben jeweiligen Matrixpositionen in der zweidimensionalen Schieberegistermatrix gekoppelt sind.

Description

Gebiet der Erfindung
Das Gebiet der Erfindung bezieht sich allgemein auf die Bildverarbeitung und insbesondere eine energieeffiziente Prozessorkernarchitektur für einen Bildprozessor.
Allgemeiner Stand der Technik
Die Bildverarbeitung umfasst in der Regel die Verarbeitung von Bildpunktwerten, die in einer Matrix angeordnet sind. Hierbei erfasst eine räumlich gegliederte zweidimensionale Matrix die zweidimensionale Beschaffenheit der Bilder (zusätzliche Dimensionen können unter anderem Zeit (z. B. eine Sequenz von zweidimensionalen Bildern) und Datentyp (z. B. Farben) einschließen). In einem typischen Szenario werden die in einer Matrix angeordneten Bildpunktwerte von einer Kamera bereitgestellt, die ein Standbild oder eine Folge von Frames erzeugt hat, um Bewegungsbilder zu erfassen. Herkömmliche Bildprozessoren fallen in der Regel unter eines von zwei Extremen.
Ein erstes Extrem führt Bildverarbeitungsschritte als Softwareprogramme aus, die auf einem Universalprozessor oder einem universell verwendbaren Prozessor (z. B. einem Universalprozessor mit Vektorbefehlserweiterungen) ausgeführt werden. Obwohl das erste Extrem in der Regel eine vielseitig einsetzbare Anwendungssoftware-Entwicklungsplattform bereitstellt, resultiert dessen Verwendung feinerer Datenstrukturen kombiniert mit den zugehörigen Verwaltungsdaten (z. B. Befehlsabruf und -dekodierung, Handhabung von chipinternen und chipexternen Daten, spekulative Ausführung) letztendlich in einem Verbrauch größerer Energiemengen pro Dateneinheit während der Ausführung des Programmcodes.
Ein zweites, entgegengesetztes Extrem wendet stationäre, fest verdrahtete Schaltkreise auf viel größere Datenblöcke an. Die Verwendung von größeren (im Gegensatz zu feineren) Datenblöcken, die direkt auf benutzerdefinierte Schaltkreise angewendet werden, verringert den Energieverbrauch pro Dateneinheit erheblich. Jedoch führt die Verwendung von benutzerdefinierten stationären Funktionsschaltkreisen im Allgemeinen zu einer begrenzten Menge von Arbeitsschritten, die der Prozessor ausführen kann. Dementsprechend fehlt im zweiten Extrem die vielseitige Programmierumgebung (die mit dem ersten Extrem assoziiert ist).
Eine Technologieplattform, die sowohl vielseitige Anwendungssoftware- Entwicklungsmöglichkeiten als auch eine verbesserte Energieeffizienz pro Dateneinheit bietet, bleibt eine wünschenswerte und dennoch fehlende Lösung.
Kurzdarstellung
Eine Vorrichtung wird beschrieben. Die Vorrichtung umfasst einen Programmcontroller zum Abrufen und Ausgeben von Befehlen. Die Vorrichtung umfasst eine Ausführungsbahn mit mindestens einer Ausführungseinheit zum Ausführen der Befehle. Die Ausführungsbahn ist Teil einer Ausführungsbahnmatrix, die mit einer zweidimensionalen Schieberegistermatrixstruktur gekoppelt ist, wobei sich die Ausführungsbahnen der Ausführungsbahnmatrix an jeweiligen Matrixpositionen befinden und mit dedizierten Registern an denselben jeweiligen Matrixpositionen in der zweidimensionalen Schieberegistermatrix gekoppelt sind.
Figurenverzeichnis
Die folgende Beschreibung und begleitenden Zeichnungen dienen dazu, Ausführungsformen der Erfindung zu veranschaulichen. In den Zeichnungen:
1 zeigt eine Ausführungsform einer Bildprozessor-Hardwarearchitektur;
2a, 2b, 2c, 2d und 2e zeigen das Parsen von Bilddaten in eine Zeilengruppe, das Parsen einer Zeilengruppe in ein Blatt und die an einem Blatt mit sich überlappenden Schablonen durchgeführte Operation;
3a zeigt eine Ausführungsform eines Schablonenprozessors;
3b zeigt eine Ausführungsform eines Befehlswortes des Schablonenprozessors;
4 zeigt eine Ausführungsform einer Datenberechnungseinheit innerhalb eines Schablonenprozessors;
5a, 5b, 5c, 5d, 5e, 5f, 5g, 5h, 5i, 5j und 5k zeigen ein Beispiel für die Verwendung einer zweidimensionalen Verschiebungsmatrix und einer Ausführungsbahnmatrix, um ein Paar angrenzender Ausgangsbildpunktwerte mit sich überlappenden Schablonen zu bestimmen;
6a zeigt eine Ausführungsform einer Einheitszelle für eine integrierte Ausführungsbahnmatrix und eine zweidimensionale Verschiebungsmatrix;
6b zeigt eine Ausführungsform einer Ausführungsbahn-ALU;
7a stellt ein erstes zweidimensionales Registermatrixstruktur- Verbindungsschema dar;
7b zeigt ein zweites zweidimensionales Registermatrixstruktur- Verbindungsschema;
8a zeigt eine erste Zeile oder Spalte einer zweidimensionalen Registermatrixstruktur;
8b zeigt eine zweite Zeile oder Spalte einer zweidimensionalen Registermatrixstruktur;
8c zeigt die mit einer Speichereinheit verbundene Zeile von 8b;
8d zeigt eine weitere Toroid-Ausführungsform;
8e zeigt eine Stromsparschaltung;
9 bezieht sich auf die Operation bei höheren Bitbreiten, die die Register innerhalb der Registerdatei aufweisen;
10 bezieht sich auf die Steuerung von Speicheroperationen innerhalb der Ausführungsbahnmatrix;
11 zeigt eine Ausführungsform eines Computersystems.
Ausführliche Beschreibung
a. Bildprozessor-Hardware-Architektur und -Betrieb
1 zeigt eine Ausführungsform einer Architektur 100 für einen in Hardware implementierten Bildprozessor. Der Bildprozessor kann z. B. von einem Compiler angesteuert werden, der den Programmcode, der für einen virtuellen Prozessor geschrieben wurde, in einer simulierten Umgebung in Programmcode umwandelt, der von dem Hardwareprozessor tatsächlich ausgeführt wird. Wie in 1 dargestellt, beinhaltet die Architektur 100 eine Vielzahl von Zeilenpuffereinheiten 101_1 bis 101_M, die mit einer Vielzahl von Schablonenprozessoreinheiten 102_1 bis 102_N und entsprechenden Blattgeneratoreinheiten 103_1 bis 103_N über ein Netzwerk 104 (z. B. ein Netzwerk auf Chip (NOC), unter anderem auch ein Chip-Switch-Netzwerk, ein On-Chip-Ring-Netzwerk oder einer anderen Art von Netzwerk) verbunden ist. In einer Ausführungsform kann jede Zeilenpuffereinheit mit jedem Blattgenerator und einem entsprechenden Schablonenprozessor über das Netzwerk 104 verbunden sein.
In einer Ausführungsform wird der Programmcode kompiliert und auf einen entsprechenden Schablonenprozessor 102 geladen, um die zuvor von einem Softwareentwickler definierten Bildverarbeitungsvorgänge auszuführen (der Programmcode kann je nach Konzipierung und Implementierung auch auf den zugehörigen Blattgenerator des Schablonenprozessors 103 geladen werden). In zumindest einigen Fällen kann eine Bildverarbeitungspipeline realisiert werden, indem ein erstes Kernprogramm für eine erste Pipelinephase in einen ersten Schablonenprozessor 102_1 geladen, ein zweites Kernprogramm für eine zweite Pipelinephase in einen zweiten Schablonenprozessor 102_2, geladen wird usw., wobei das erste Kernsystem die Funktionen der ersten Pipelinephase durchführt, das zweite Kernsystem die Funktionen der zweiten Pipelinephase durchführt usw., und zusätzliche Steuerablaufverfahren installiert werden, um Ausgabebilddaten von einer Pipelinephase zur nächsten Pipelinephase zu leiten.
In anderen Konfigurationen kann der Bildprozessor als ein Parallelrechner realisiert sein, der zwei oder mehr Schablonenprozessoren 102_1, 102_2 aufweist, die auf demselben Kernprogrammcode betrieben werden. Zum Beispiel kann ein hochgradig dichter und hoher Datenratenstrom von Bilddaten verarbeitet werden, indem Frames über mehrere Schablonenprozessoren verteilt werden, von denen jeder dieselbe Funktion ausführt.
Bei noch anderen Konfigurationen kann im Wesentlichen jeder DAG von Kernen auf den Hardwareprozessor geladen werden, indem jeweilige Schablonenprozessoren mit deren eigenen jeweiligen Kernen von Programmcode konfiguriert und geeignete Ausführungssteuerungs-Hooks in Hardware konfiguriert werden, um Ausgabebilder von einem Kern an den Eingang eines nächsten Kerns im DAG-Design zu leiten.
Bei einem allgemeinen Ablauf werden die Frames der Bilddaten von einer Makro-E/A-Einheit 105 empfangen und zu einer oder mehreren der Zeilenpuffereinheiten 101 auf einer Frame-per-Frame-Basis weitergeleitet. Eine bestimmte Zeilenpuffereinheit parst ihren Frame aus Bilddaten in einen kleineren Bereich von Bilddaten, der als „Zeilengruppe“ bezeichnet wird, und führt dann die Zeilengruppe durch das Netzwerk 104 zu einem bestimmten Blattgenerator. Eine vollständige oder „volle“ singuläre Zeilengruppe kann sich beispielsweise aus den Daten mehrerer zusammenhängender vollständiger Zeilen oder Spalten eines Frames zusammensetzen (der Einfachheit halber bezieht sich die vorliegende Beschreibung hauptsächlich auf zusammenhängende Zeilen). Der Blattgenerator parst ferner die Zeilengruppe von Bilddaten in einen kleineren Bereich von Bilddaten, der als „Blatt“ bezeichnet wird, und präsentiert das Blatt seinem entsprechenden Schablonenprozessor.
Im Falle einer Bildverarbeitungspipeline oder eines DAG-Ablaufs mit einem einzigen Eingang werden im Allgemeinen Eingabeframes an die gleiche Zeilenpuffereinheit 101_1 geleitet, die die Bilddaten in Zeilengruppen parst und die Zeilengruppen zu dem Blattgenerator 103_1 leitet, dessen entsprechender Schablonenprozessor 102_1 den Code des ersten Kernsystems in der Pipeline/dem DAG ausführt. Nach Beendigung der Operationen durch den Schablonenprozessor 102_1 an den von diesem verarbeiteten Zeilengruppen sendet der Blattgenerator 103_1 Ausgabezeilengruppen an eine „nachgelagerten“ Zeilenpuffereinheit 101_2 (in manchen Anwendungsfällen kann die Ausgabezeilengruppe zurück an die gleiche Zeilenpuffereinheit 101_1 gesendet werden, die zuvor die Eingabezeilengruppen gesendet hatte).
Ein oder mehrere „Abnehmerkernsysteme“, die die nächste Phase/den nächsten Vorgang in der Pipeline/dem DAG darstellen, die auf deren eigenen anderen Blattgenerator und Schablonenprozessor (z. B. Datenblattgenerator 103_2 und Schablonenprozessor 102_2) ausführt werden, empfangen anschließend die von dem ersten Schablonenprozessor 102_1 erzeugten Bilddaten von der nachgelagerten Zeilenpuffereinheit 101_2. Auf diese Weise werden die Ausgabedaten eines „Erzeugerkernsystems“, das auf einem ersten Schablonenprozessor betrieben wird, an ein „Abnehmerkernsystem“ weitergeleitet, das auf einem zweiten Schablonenprozessor betrieben wird, wobei das Abnehmerkernsystem nach dem Erzeugerkernsystem den nächsten Satz von Arbeitsschritten gemäß des Designs der gesamten Pipeline oder des DAGs ausführt.
Ein Schablonenprozessor 102 ist dafür ausgelegt, gleichzeitig an mehreren sich überlappenden Schablonen von Bilddaten zu arbeiten. Die mehreren sich überlappenden Schablonen und die interne Hardwareverarbeitungskapazität des Schablonenprozessors bestimmen effektiv die Größe eines Blattes. Hier arbeiten innerhalb eines Schablonenprozessors 102 Matrizen von Ausführungsbahnen zusammen, um gleichzeitig den Bilddatenoberflächenbereich zu verarbeiten, der von den mehreren sich überschneidenden Schablonen bedeckt ist.
Wie nachstehend näher beschrieben, werden in verschiedenen Ausführungsformen Blätter von Bilddaten in eine zweidimensionale Registermatrixstruktur innerhalb des Schablonenprozessors 102 geladen. Es wird davon ausgegangen, dass die Verwendung von Blättern und die zweidimensionale Registermatrixstruktur für effektive Energieverbrauchsverbesserungen sorgen, indem eine große Datenmenge in einen großen Registerbereich bewegt wird, so wird beispielsweise eine einzelne Ladeoperation mit direkt an den Daten ausgeführten Verarbeitungsschritten unmittelbar danach durch eine Ausführungsbahnmatrix durchgeführt. Zudem stellt die Verwendung einer Ausführungsbahnmatrix und einer entsprechenden Registermatrix verschiedene Schablonengrößen bereit, die leicht programmierbar/konfigurierbar sind.
2a bis 2e veranschaulichen umfassend Ausführungsformen sowohl der Parsing-Aktivität einer Zeilenpuffereinheit 101 als auch der feineren Parsing-Aktivität einer Blattgeneratoreinheit 103 sowie der Schablonenverarbeitungsaktivität des Schablonenprozessors 102, der mit der Blatterzeugereinheit 103 gekoppelt ist.
2a zeigt eine Ausführungsform eines Eingabeframes der Bilddaten 201. 2a zeigt zudem einen Umriss drei überlappender Schablonen 202 (die jeweils eine Abmessung von 3 Bildpunkten × 3 Bildpunkten aufweisen), für deren Betrieb ein Schablonenprozessor ausgelegt ist. Der Ausgabebildpunkt, für den jede Schablone jeweils die Ausgabebilddaten erzeugt, wird in schwarzer Farbe hervorgehoben. Der Einfachheit halber sind die drei überlappenden Schablonen 202 nur in vertikaler Richtung überlappend dargestellt. Es ist relevant, zu erkennen, dass ein Schablonenprozessor in Wirklichkeit so ausgelegt sein kann, dass dieser sowohl in vertikaler als auch in horizontaler Richtung überlappende Schablonen aufweist.
Aufgrund der sich, wie in 2a dargestellt, vertikal überlappenden Schablonen 202 innerhalb des Schablonenprozessors gibt es ein breites Band von Bilddaten innerhalb des Frames, das von einem einzelnen Schablonenprozessor bearbeitet werden kann. Wie nachfolgend näher beschrieben, verarbeiten die Schablonenprozessoren in einer Ausführungsform innerhalb ihrer sich überschneidenden Schablonen Daten von links nach rechts über sämtliche Bilddaten (und wiederholen den Vorgang dann für die nächste Gruppe von Zeilen in der Reihenfolge von oben nach unten). Somit nimmt, während die Schablonenprozessoren mit ihrer Operation fortfahren, die Anzahl der schwarzen Ausgabebildpunktblöcke horizontal nach rechts zu. Wie oben erwähnt, ist eine Zeilenpuffereinheit 101 für das Parsen einer Zeilengruppe von Eingabebilddaten aus einem eingehenden Frame verantwortlich, der für die Schablonenprozessoren ausreichend ist, um eine erweiterte Anzahl anstehender Zyklen zu bearbeiten. Eine exemplarische Darstellung einer Zeilengruppe ist als schattierter Bereich 203 dargestellt. In einer Ausführungsform kann die Zeilenpuffereinheit 101 unterschiedliche Dynamiken zum Senden/Empfangen einer Zeilengruppe an einen/von einem Blattgenerator umfassen. Beispielsweise werden gemäß einem Modus, der als „vollständige Gruppe“ bezeichnet wird, die gesamten Bilddatenzeilen mit voller Breite zwischen einer Zeilenpuffereinheit und einem Blattgenerator übermittelt. Gemäß einem zweiten Modus, der als „virtuell groß“ bezeichnet wird, wird eine Zeilengruppe zunächst mit einer Teilmenge von Zeilen mit voller Breite übermittelt. Die verbleibenden Zeilen werden dann nacheinander in kleineren Stücken (mit weniger als voller Breite) übermittelt.
Wenn die Zeilengruppe 203 der Eingabebilddaten durch die Zeilenpuffereinheit definiert und an die Blattgeneratoreinheit übermittelt worden ist, parst die Blattgeneratoreinheit die Zeilengruppe ferner in feinere Blätter, die an die Hardwarebeschränkungen des Schablonenprozessors präziser angepasst sind. Insbesondere wird in einer Ausführungsform, wie nachfolgend näher beschrieben, jeder Schablonenprozessor aus einer zweidimensionalen Schieberegistermatrix gebildet. Die zweidimensionale Schieberegistermatrix verschiebt im Wesentlichen Bilddaten „unterhalb“ einer Matrix von Ausführungsbahnen, wobei das Muster der Verschiebung bewirkt, dass jede Ausführungsbahn innerhalb ihrer eigenen jeweiligen Schablone an Daten arbeitet (d. h. jede Ausführungsbahn ihre eigene Schablone von Informationen verarbeitet, um eine Ausgabe für diese Schablone zu erzeugen). In einer Ausführungsform sind Blätter Oberflächenbereiche von Eingabebilddaten, die die zweidimensionale Schieberegistermatrix „ausfüllen“ oder anderweitig in dieselbe geladen werden.
Wie nachfolgend näher beschrieben, gibt es in verschiedenen Ausführungsformen tatsächlich mehrere Schichten von zweidimensionalen Registerdaten, die bei jedem Zyklus verschoben werden können. Zur Vereinfachung verwendet ein Großteil der vorliegenden Beschreibung einfach den Begriff „zweidimensionales Schieberegister“ und dergleichen, um auf Strukturen zu verweisen, die eine oder mehrere dieser Schichten zweidimensionaler Registerdaten aufweisen, die verschoben werden können.
Wie in 2b dargestellt, parst der Blattgenerator ein Anfangsblatt 204 von der Zeilengruppe 203 und stellt es dem Schablonenprozessor zur Verfügung (hier entspricht das Datenblatt dem schattierten Bereich, der im Allgemeinen mit der Bezugsnummer 204 gekennzeichnet ist). Wie in 2c und 2d dargestellt, arbeitet der Schablonenprozessor an dem Blatt der Eingabebilddaten durch effektives Bewegen der sich überschneidenden Schablonen 202 von links nach rechts über das Blatt. Wie in 2d ist die Anzahl der Bildpunkte, für die ein Ausgabewert aus den Daten innerhalb des Blattes berechnet werden könnte, erschöpft (keine anderen Bildpunktpositionen können einen Ausgabewert haben, der aus den Informationen innerhalb des Blattes bestimmt wird). Zur Vereinfachung wurden die Randbereiche des Bildes ignoriert.
Wie in 2e ersichtlich, liefert der Blattgenerator dann ein nächstes Blatt 205 für den Schablonenprozessor, um die Operationen fortzusetzen. Zu beachten ist, dass die Anfangspositionen der Schablonen, wenn sie mit der Operation an dem nächsten Blatt beginnen, der nächsten Progression (wie zuvor in 2d dargestellt) vom Erschöpfungspunkt nach rechts auf dem ersten Blatt entsprechen. Mit dem neuen Blatt 205 bewegen sich die Schablonen einfach weiter nach rechts, während der Schablonenprozessor auf dem neuen Blatt auf die gleiche Weise arbeitet wie bei der Verarbeitung des ersten Blattes.
Zu beachten ist, dass zwischen den Daten des ersten Blattes 204 und den Daten des zweiten Blattes 205 aufgrund der Randbereiche der Schablonen, die einen Ausgabebildpunktort umgeben, eine gewisse Überschneidung vorliegt. Die Überschneidung könnte einfach gehandhabt werden, indem der Blattgenerator die sich überschneidenden Daten zweimal überträgt. In alternativen Implementierungen kann, um dem Schablonenprozessor ein nächstes Blatt zuzuführen, der Blattgenerator damit fortfahren, ausschließlich neue Daten an den Schablonenprozessor zu senden, während der Schablonenprozessor die sich überschneidenden Daten aus dem vorhergehenden Blatt verwendet.
b. Schablonenprozessordesign und -betrieb
3a zeigt eine Ausführungsform einer Schablonenprozessorarchitektur 300. Wie in 3a dargestellt, beinhaltet der Schablonenprozessor eine Datenberechnungseinheit 301, einen Skalarprozessor 302 und einen zugehörigen Speicher 303, sowie eine E-/A-Einheit 304. Die Datenberechnungseinheit 301 beinhaltet eine Matrix von Ausführungsbahnen 305, eine zweidimensionale Verschiebungsmatrixstruktur 306 und getrennte Direktzugriffsspeicher 307, die mit bestimmten Zeilen oder Spalten der Matrix verbunden sind.
Die E/A-Einheit 304 ist verantwortlich für das Laden von „eingegebenen“ Datenblättern, die von dem Blattgenerator empfangen wurden, in die Datenberechnungseinheit 301 sowie das Speichern der von dem Schablonenprozessor „ausgegebenen“ Blätter im Blattgenerator. In einer Ausführungsform umfasst das Laden von Blattdaten in die Datenberechnungseinheit 301 das Parsen eines empfangenen Blattes in die Zeilen/Spalten der Bilddaten sowie das Laden der Zeilen/Spalten der Bilddaten in die zweidimensionale Schieberegisterstruktur 306 oder in die jeweiligen Arbeitsspeicher 307 der Zeilen/Spalten der Ausführungsbahnmatrix (wie nachfolgend näher beschrieben). Wird das Blatt anfänglich in die Speicher 307 geladen, können die einzelnen Ausführungsbahnen innerhalb der Ausführungsbahnmatrix 305 dann die Blattdaten, sofern geeignet (z. B. als Ladebefehl kurz vor der Operation der Blattdaten), in die zweidimensionale Schieberegisterstruktur 306 der Direktzugriffsspeicher 307 laden. Nach Beendigung des Ladens eines Datenblattes in die Registerstruktur 306 (ob direkt aus einem Blattgenerator oder aus den Speichern 307) arbeiten die Ausführungsbahnen der Ausführungsbahnmatrix 305 an den Daten und „schreiben“ letztendlich die fertigen Daten als ein Blatt direkt „zurück“ in den Blattgenerator oder in die Direktzugriffsspeicher 307. Im letzteren Fall ruft die E/A-Einheit 304 die Daten aus den Direktzugriffsspeichern 307 ab, um ein Ausgabeblatt zu bilden, das dann an den Blattgenerator weitergeleitet wird.
Der Skalarprozessor 302 beinhaltet einen Programmcontroller 309, der die Befehle des Programmcodes des Schablonenprozessors aus dem Skalarspeicher 303 einliest und die Befehle an die Ausführungsbahnen in der Ausführungsbahnmatrix 305 ausgibt. In einer Ausführungsform wird ein einzelner Befehl auf alle Ausführungsbahnen innerhalb der Matrix 305 übertragen, um ein SIMD-ähnliches Verhalten der Datenberechnungseinheit 301 zu bewirken. In einer Ausführungsform beinhaltet das Befehlsformat der Befehle, die aus dem Skalarspeicher 303 gelesen und an die Ausführungsbahnen der Ausführungsbahnmatrix 305 ausgegeben werden, ein sehr langes Befehlswortformat (VLIW), welches mehr als einen Operationscode pro Befehl beinhaltet. In einer weiteren Ausführungsform beinhaltet das VLIW- Format sowohl einen ALU-Operationscode, der eine mathematische Funktion anweist, die von der ALU einer Ausführungsbahn ausgeführt wird (wobei, wie nachstehend beschrieben, in einer Ausführungsform mehr als eine herkömmliche ALU-Operation angegeben sein kann), als auch einen Speicheroperationscode (der eine Speicheroperation für eine spezifische Ausführungsbahn oder eine Gruppe von Ausführungsbahnen anweist).
Der Begriff „Ausführungsbahn“ bezieht sich auf eine Gruppe von einer oder mehreren Ausführungseinheiten, die einen Befehl ausführen können (z. B. eine Logikschaltung, die einen Befehl ausführen kann). Eine Ausführungsbahn kann in verschiedenen Ausführungsformen jedoch prozessorähnlichere Funktionen und nicht nur Ausführungseinheiten beinhalten. Beispielsweise kann eine Ausführungsbahn neben einer oder mehreren Ausführungseinheiten auch Logikschaltungen beinhalten, die einen empfangenen Befehl dekodieren, oder für den Fall MIMD-ähnlicherer Architekturen eine Logikschaltung beinhalten, die einen Befehl abruft und dekodiert. In Bezug auf MIMD-ähnliche Ansätze kann, obwohl ein zentraler Programmcontroller-Ansatz hier weitgehend beschrieben wurde, auch ein verteilterer Ansatz in verschiedenen alternativen Ausführungsformen (z. B. unter anderem auch Programmcode und ein Programmcontroller innerhalb jeder Ausführungsbahn der Matrix 305) implementiert werden.
Die Kombination einer Ausführungsbahnmatrix 305, eines Programmcontrollers 309 und einer zweidimensionalen Schieberegisterstruktur 306 stellt eine weitgehend anpassbare/konfigurierbare Hardware-Plattform für ein breites Spektrum programmierbarer Funktionen bereit. Beispielsweise können Anwendungssoftwareentwickler in der Lage sein, Kernsysteme mit einem breiten Spektrum unterschiedlicher Funktionsfähigkeiten sowie Abmessungen (z. B. Schablonengrößen) zu programmieren, da die einzelnen Ausführungsbahnen in der Lage sind, eine breite Palette von Funktionen auszuführen und ohne Weiteres auf Eingabebilddaten in der Nähe einer beliebigen Ausgabematrixposition zuzugreifen.
Abgesehen davon, dass diese als Datenspeicher für Bilddaten genutzt werden, die durch die Ausführungsbahnmatrix 305 bearbeitet werden, können die Direktzugriffsspeicher 307 zudem eine oder mehrere Nachschlagetabellen verwalten. In verschiedenen Ausführungsformen können eine oder mehrere skalare Wertetabellen auch innerhalb des Skalarspeichers 303 instanziiert werden.
Ein skalarer Nachschlagevorgang beinhaltet das Übermitteln desselben Datenwertes aus derselben Nachschlagetabelle von demselben Index an sämtliche Ausführungsbahnen innerhalb der Ausführungsbahnmatrix 305. In verschiedenen Ausführungsformen wird das oben beschriebene VLIW-Befehlsformat erweitert, um darüber hinaus einen skalaren Operationscode einzuschließen, der eine vom Skalarprozessor ausgeführte Nachschlageoperation in eine skalare Wertetabelle leitet. Der für die Verwendung mit dem Operationscode angegebene Index kann ein unmittelbarer Operand sein oder von einer anderen Datenspeicherposition abgerufen werden. Unabhängig davon umfasst in einer Ausführungsform ein Nachschlagevorgang in einer skalaren Nachschlagetabelle innerhalb des Skalarspeichers im Wesentlichen das Senden desselben Datenwertes an alle Ausführungsbahnen innerhalb der Ausführungsbahnmatrix 305 während desselben Taktzyklus.
Weitere Details zur Verwendung und Operation von Nachschlagetabellen werden nachfolgend bereitgestellt.
3b fasst die oben beschriebene bzw. beschriebenen VLIW-Befehlswort-Ausführungsform(en) zusammen. Wie in 3b ersichtlich, beinhaltet das VLIW-Befehlswortformat Felder für drei separate Befehle: 1) einen Skalarbefehl 351, der durch den Skalarprozessor ausgeführt wird; 2) einen ALU-Befehl 352, der von den jeweiligen ALUs innerhalb der Ausführungsbahnmatrix an SIMD-Weise gesendet und ausgeführt wird; und 3) einen Speicherbefehl 353, der auf partielle SIMD-Weise gesendet und ausgeführt wird (z. B. wenn Ausführungsbahnen entlang derselben Zeile in der Ausführungsbahnmatrix einen gleichen Direktzugriffsspeicher teilen, anschließend wird der Befehl von einer Ausführungsbahn aus jeder der verschiedenen Zeilen tatsächlich ausgeführt (das Format des Speicherbefehls 353 kann einen Operanden beinhalten, der identifiziert, von welcher Ausführungsbahn aus jeder Zeile der Befehl ausgeführt wird)
Ein Feld 354 für einen oder mehrere unmittelbare Operanden ist ebenfalls enthalten. Welche der Befehle 351, 352, 353 welche unmittelbaren Operandeninformationen verwenden, kann im Befehlsformat festgelegt sein. Jeder der Befehle 351, 352, 353 beinhaltet zudem seine eigenen Eingabeoperanden sowie resultierende Informationen (z. B. lokale Register für ALU- Operationen und ein lokales Register sowie eine Speicheradresse für Speicherzugriffsbefehle). In einer Ausführungsform wird der Skalarbefehl 351 durch den Skalarprozessor ausgeführt, bevor die Ausführungsbahnen innerhalb der Ausführungsbahnmatrix einen der anderen Befehle 352, 353 ausführen. Das heißt, die Ausführung des VLIW-Wortes beinhaltet einen ersten Zyklus, bei dem der Skalarbefehl 351 ausgeführt wird, gefolgt von einem zweiten Zyklus, bei dem die anderen Befehle 352, 353 ausgeführt werden können (es ist zu beachten, dass in verschiedenen Ausführungsformen die Befehle 352 und 353 parallel ausgeführt werden können).
In einer Ausführungsform beinhalten die Skalarbefehle, die von dem Skalarprozessor ausgeführt werden, Befehle, die an den Blattgenerator ausgegeben werden, um Blätter vom/in die Speicher oder 2D-Schieberegister der Datenberechnungseinheit zu laden/zu speichern. Hier kann der Betrieb des Blattgenerators von der Operation der Zeilenpuffereinheit oder von anderen Variablen abhängig sein, die ein Vorlaufzeitverständnis der Anzahl von Zyklen verhindern, die der Blattgenerator ausführen wird, um einen Befehl zu beenden, der von dem Skalarprozessor ausgegeben wird. Dementsprechend beinhaltet in einer Ausführungsform jedes beliebige VLIW-Wort, dessen Skalarbefehl 351 dem Befehlsblockgenerator entspricht oder anderweitig einen Befehl ausgibt, auch Nicht-Operations-(NOOP-)Befehle in den anderen zwei Befehlsfeldern 352, 353. Der Programmcode gibt dann eine Schleife von NOOP-Befehlen für Befehlsfelder 352, 353 ein, bis der Blattgenerator seine Ladung von/Speicherung unter der Datenberechnungseinheit beendet. Hier kann bei der Ausgabe eines Befehls an den Blattgenerator der Skalarprozessor ein Bit eines Verriegelungsregisters setzen, das der Blattgenerator nach Beendigung des Befehls zurücksetzt. Während der NOOP-Schleife überwacht der Skalarprozessor das Bit des Verriegelungsbits. Sobald der Skalarprozessor erkennt, dass der Blattgenerator seinen Befehl beendet hat, beginnt die normale Ausführung erneut.
4 zeigt eine Ausführungsform einer Datenberechnungskomponente 401. Wie in 4 dargestellt, beinhaltet die Datenberechnungskomponente 401 eine Matrix von Ausführungsbahnen 405, die logisch „oberhalb“ einer zweidimensionalen Schieberegistermatrixstruktur 406 positioniert sind. Wie oben beschrieben, wird in verschiedenen Ausführungsformen ein von einem Blattgenerator bereitgestelltes Bilddatenblatt in das zweidimensionale Schieberegister 406 geladen. Die Ausführungsbahnen arbeiten dann an den Blattdaten aus der Registerstruktur 406.
Die Ausführungsbahnmatrix 405 und die Schieberegisterstruktur 406 sind in Bezug zueinander fixiert. Die Daten innerhalb der Schieberegistermatrix 406 verschieben sich jedoch in einer strategischen und koordinierten Weise, um zu bewirken, dass jede Ausführungsbahn in der Ausführungsbahnmatrix eine andere Schablone innerhalb der Daten verarbeitet. Demgemäß bestimmt jede Ausführungsbahn den Ausgabebildwert für einen anderen Bildpunkt in dem erzeugten Ausgabeblatt. Aus der Architektur von 4 sollte klar sein, dass sich überschneidende Schablonen nicht nur vertikal, sondern auch horizontal angeordnet sind, da die Ausführungsbahnmatrix 405 vertikal angrenzende Ausführungsbahnen sowie horizontal angrenzende Ausführungsbahnen aufweist.
Einige zu beachtende architektonische Merkmale der Datenberechnungseinheit 401 beinhalten die Schieberegisterstruktur 406, die breitere Abmessungen als die Ausführungsbahnmatrix 405 aufweist. Das heißt, es gibt einen „Ring“ von Registern 409 außerhalb der Ausführungsbahnmatrix 405. Obwohl der Ring 409 auf zwei Seiten der Ausführungsbahnmatrix dargestellt ist, kann der Ring je nach Implementierung auf weniger (einer) oder mehr (drei oder vier) Seiten der Ausführungsbahnmatrix 405 existieren. Der Ring 405 dient dazu, einen „Ausweitungsraum“ für Daten bereitzustellen, die sich außerhalb der Grenzen der Ausführungsbahnmatrix 405 ausweiten, wenn die Daten „unterhalb“ der Ausführungsbahnen 405 verschoben werden. In einem einfachen Fall benötigt eine 5×5-Schablone, die am rechten Rand der Ausführungsbahnmatrix 405 zentriert ist, vier Ringregisterpositionen weiter nach rechts, wenn die linksseitigen Bildpunkte der Schablone verarbeitet werden. Zur Vereinfachung der Zeichnung zeigt 4 die Register der rechten Seite des Rings mit nur horizontalen Schiebeverbindungen und Registern der Unterseite des Rings, da nur vertikale Schiebeverbindungen vorhanden sind, wenn in einer nominalen Ausführungsform die Register auf beiden Seiten (rechts, unten) sowohl horizontale als auch vertikale Verbindungen aufweisen würden.
Zusätzlicher Überlaufraum wird durch Direktzugriffsspeicher 407 bereitgestellt, die mit jeder Zeile und/oder jeder Spalte in der Matrix oder Teilen davon gekoppelt sind (z. B. kann ein Direktzugriffsspeicher einem „Bereich“ der Ausführungsbahnmatrix zugewiesen werden, die reihenweise 4 Ausführungsbahnen und spaltenweise 2 Ausführungsbahnen überspannt. Zur Vereinfachung bezieht sich der Rest der Anwendung hauptsächlich auf zeilen- und/oder spaltenbasierte Zuordnungsschemen). Wenn die Kernsystemoperationen einer Ausführungsbahn es erfordern, Bildpunktwerte außerhalb der zweidimensionalen Schieberegistermatrix 406 zu verarbeiten (was einige Bildverarbeitungsroutinen ggf. erfordern), kann sich Ebene der Bilddaten z.B. vom Ringbereich 409 in den Direktzugriffsspeicher 407 weiter überlaufen. Betrachten wir zum Beispiel eine 6 × 6-Schablone, bei der die Hardware einen Ringbereich von nur vier Speicherelementen rechts von einer Ausführungsbahn am rechten Rand der Ausführungsbahnmatrix beinhaltet. In diesem Fall müssten die Daten vom rechten Rand des Rings 409 weiter nach rechts verschoben werden, um die Schablone vollständig zu verarbeiten. Daten, die außerhalb des Ringbereichs 409 verschoben werden, würden dann in den Direktzugriffsspeicher 407 überlaufen. Andere Anwendungen der Direktzugriffsspeicher 407 und des Schablonenprozessors aus 3 werden nachfolgend bereitgestellt.
5a bis 5k zeigen ein Ausführungsbeispiel für die Art und Weise, auf der die Bilddaten, wie oben angedeutet, innerhalb der zweidimensionalen Schieberegistermatrix „unterhalb“ der Ausführungsbahnmatrix verschoben werden. Wie in 5a dargestellt, sind die Dateninhalte der zweidimensionalen Verschiebungsmatrix in einer ersten Matrix 507 dargestellt, während die Ausführungsbahnmatrix durch ein Frame 505 dargestellt ist. Außerdem sind innerhalb der Ausführungsbahnmatrix vereinfacht zwei angrenzende Ausführungsbahnen 510 dargestellt. In dieser vereinfachten Darstellung 510 beinhaltet jede Ausführungsbahn ein Register R1, das Daten aus dem Schieberegister akzeptieren kann, Daten von einer ALU- Ausgabe akzeptieren (z. B. sich durch Zyklen als Akkumulator verhalten) kann oder Ausgabedaten in ein Ausgabeziel schreiben kann.
Jede Ausführungsbahn verfügt zudem in einem lokalen Register R2 über den Inhalt „darunter“ in der zweidimensionalen Verschiebungsmatrix. Somit ist R1 ein physisches Register der Ausführungsbahn, während R2 ein physisches Register der zweidimensionalen Schieberegistermatrix ist. Die Ausführungsbahn beinhaltet eine ALU, die mit Operanden arbeiten kann, die von R1 und/oder R2 bereitgestellt werden. Wie nachfolgend näher beschrieben, wird in einer Ausführungsform das Schieberegister tatsächlich mit mehreren (einer „Tiefe“ von) Speicher-/Registerelementen pro Matrixposition implementiert, die Verschiebungsaktivität ist jedoch auf eine Ebene von Speicherelementen begrenzt (z. B. kann sich nur eine Ebene von Speicherelementen pro Zyklus verschieben). 5a bis 5k stellen eine dieser tieferen Registerpositionen dar, wie sie verwendet werden, um das resultierende X aus den jeweiligen Ausführungsbahnen zu speichern. Zur Veranschaulichung wird das tiefere resultierende Register neben anstatt unter dessen Gegenstückregister R2 gezogen.
5a bis 5k konzentrieren sich auf die Berechnung von zwei Schablonen, deren zentrale Position mit dem Paar von Ausführungsbahnpositionen 511 ausgerichtet ist, die in der Ausführungsbahnmatrix dargestellt sind. Zur Vereinfachung der Darstellung wird das Paar von Ausführungsbahnen 510 als horizontal aneinander angrenzend gezeichnet, obgleich sie nach dem folgenden Beispiel tatsächlich vertikal aneinander angrenzen.
Wie anfangs in 5a dargestellt, sind die Ausführungsbahnen auf deren zentralen Schablonenpositionen zentriert. 5b zeigt den Objektcode, der von beiden Ausführungsbahnen ausgeführt wird. Wie in 5b dargestellt, bewirkt der Programmcode beider Ausführungsbahnen, dass sich die Daten innerhalb der Schieberegistermatrix eine Position nach unten und eine Position nach rechts verschieben. Damit werden beide Ausführungsbahnen an der oberen linken Ecke ihrer jeweiligen Schablonen ausgerichtet. Der Programmcode bewirkt dann, dass sich die Daten (in R2) an ihren jeweiligen Stellen in R1 laden lassen.
Wie in 5c dargestellt, bewirkt der Programmcode als Nächstes, dass das Paar von Ausführungsbahnen die Daten innerhalb der Schieberegistermatrix um eine Einheit nach links verschiebt, wodurch bewirkt wird, dass der Wert rechts von der jeweiligen Position der jeweiligen Ausführungsbahn in die jeweilige Position der Ausführungsbahn verschoben wird. Der Wert in R1 (vorheriger Wert) wird dann mit dem neuen Wert addiert, der sich in die Position der Ausführungsbahn (in R2) verschoben hat. Das Ergebnis wird in R1 geschrieben. Wie in 5d dargestellt, wird der gleiche Prozess wie oben für 5c wiederholt, wodurch bewirkt wird, dass das Ergebnis R1 nun den Wert A + B + C in der oberen Ausführungsbahn und F + G + H in der unteren Ausführungsbahn beinhaltet. Zu diesem Zeitpunkt haben beide Ausführungsbahnen die obere Reihe ihrer jeweiligen Schablonen verarbeitet. Zu beachten ist der Überlauf in einen Ringbereich auf der linken Seite der Ausführungsbahnmatrix (falls einer auf der linken Seite existiert) oder in einen Direktzugriffsspeicher, wenn auf der linken Seite der Ausführungsbahnmatrix kein Ringbereich existiert.
Wie in 5e dargestellt, bewirkt der Programmcode als Nächstes, dass die Daten innerhalb der Schieberegistermatrix eine Einheit nach oben verschoben werden, wodurch bewirkt wird, dass beide Ausführungsbahnen am rechten Rand der mittleren Zeile ihrer jeweiligen Schablonen ausgerichtet sind. Register R1 der beiden Ausführungsbahnen beinhaltet derzeit die Summe der oberen Zeile der Schablone und den rechten Wert der mittleren Zeile. 5f und 5g zeigen weitere Fortschritte beim Bewegen über die mittlere Zeile der beiden Schablonen der Ausführungsbahn nach links. Die kumulative Addition setzt sich fort, sodass am Ende der Verarbeitung von 5g beide Ausführungsbahnen die Summe der Werte der obersten Reihe und der mittleren Reihe ihrer jeweiligen Schablonen beinhalten.
5h zeigt eine weitere Verschiebung, um jede Ausführungsbahn an der nächsten Zeile ihrer entsprechenden Schablonen auszurichten. 5i und 5j zeigen eine fortlaufende Verschiebung zur vollständigen Verarbeitung über den Verlauf der Schablonen der beiden Ausführungsbahnen. 5k zeigt eine zusätzliche Verschiebung, um jede Ausführungsbahn an ihrer korrekten Position in der Datenmatrix auszurichten und das Ergebnis in dasselbe zu schreiben.
In den Beispielen der 5a–5k ist zu beachten, dass der Objektcode für die Verschiebungsoperationen ein Befehlsformat umfassen kann, das die Richtung und die Größe der in (X, Y)-Koordinaten ausgedrückten Verschiebung identifiziert. Der Objektcode für einen Schiebevorgang um einen Ort nach oben kann in Objektcode beispielsweise als SHIFT 0, +1 ausgedrückt werden. Als weiteres Beispiel kann eine Verschiebung um eine Position nach rechts im Objektcode als SHIFT +1, 0 ausgedrückt werden. Darüber hinaus können in verschiedenen Ausführungsformen Verschiebungen größerer Größenordnung im Objektcode (z. B. SHIFT 0, +2) spezifiziert werden. Wenn die 2D-Schieberegister-Hardware hier nur Verschiebungen um eine Position pro Zyklus unterstützt, kann der Befehl der Maschine so interpretiert werden, dass eine Mehrfachzyklus-Ausführung erfordert wird, oder die 2D-Schieberegister-Hardware kann so ausgelegt sein, dass sie Verschiebungen um mehr als eine Position pro Zyklus unterstützt. Ausführungsformen der letzteren Variante werden nachfolgend näher beschrieben.
6a zeigt eine weitere, detailliertere Darstellung der Einheitszelle für die Ausführungsbahnmatrix und die Schieberegisterstruktur (Register im Ringbereich beinhalten keine entsprechende Ausführungsbahn). Die Ausführungsbahn und der Registerbereich, die jeder Position in der Ausführungsbahnmatrix zugeordnet sind, werden in einer Ausführungsform implementiert, indem der in 6a ersichtliche Schaltkreis an jedem Knoten der Ausführungsbahnmatrix instanziiert wird. Wie in 6a ersichtlich, beinhaltet die Einheitszelle eine Ausführungsbahn 601, die mit einer Registerdatei 602 gekoppelt ist, die aus vier Registern R2 bis RS besteht. Während eines Zyklus kann die Ausführungsbahn 601 von einem Register R1 bis RS einlesen oder in diese schreiben. Für Befehle, die zwei Eingangsoperanden erfordern, kann die Ausführungsbahn beide Operanden von einem beliebigen RI bis RS abrufen.
In einer Ausführungsform wird die zweidimensionale Schieberegisterstruktur implementiert, indem es während eines einzigen Zyklus erlaubt wird, dass der Inhalt eines beliebigen von (nur) eines der Register R2 bis R4 zu einer seiner angrenzenden Registerdateien durch den Ausgangsmultiplexer 603 „heraus“ verschoben wird, und der Inhalt eines beliebigen von (nur) eines der Register R2 bis R4 durch den Inhalt ersetzt wird, der von einem entsprechenden Nachbarn durch den Eingangsmultiplexer 604 „hinein“ verschoben wird, sodass Verschiebungen zwischen den Nachbarn in gleicher Richtung (z. B. alle Ausführungsbahnen nach links, alle Ausführungsbahnen nach rechts usw.) erfolgen. Obwohl es für ein gleiches Register üblich sein kann, dass dessen Inhalt verschoben und durch den Inhalt ersetzt wird, der in demselben Zyklus verschoben wird, erlaubt die Multiplexeranordnung 603, 604 unterschiedliche Schiebequellen- und Schiebezielregister innerhalb einer gleichen Registerdatei während eines gleichen Zyklus.
Wie in 6a dargestellt, ist zu beachten, dass während einer Verschiebungssequenz eine Ausführungsbahn den Inhalt aus ihrer Registerdatei 602 zu deren jeweiligen linken, rechten, oberen und unteren Nachbarn schiebt. In Verbindung mit derselben Verschiebungssequenz verschiebt die Ausführungsbahn zudem den Inhalt in deren Registerdatei von einem bestimmten seiner linken, rechten, oberen und unteren Nachbarn. Das Herausverschiebungsziel und die Hereinverschiebungsquelle sollten wiederum mit einer gleichen Verschiebungsrichtung für alle Ausführungsbahnen übereinstimmen (wenn z. B. die Verschiebung heraus zum rechten Nachbarn erfolgt, sollte die Verschiebung herein vom linken Nachbarn erfolgen).
Obwohl in einer Ausführungsform der Inhalt von nur einem Register pro Ausführungsbahn in einem Zyklus verschoben werden darf, können andere Ausführungsformen zulassen, dass der Inhalt von mehr als einem Register herein-/herausverschoben wird. Beispielsweise kann der Inhalt von zwei Registern während eines gleichen Zyklus heraus/herein verschoben werden, wenn eine zweite Instanz der in 6a beobachteten Multiplexerschaltung 603, 604 in das Design von 6a eingefügt wird. Selbstverständlich können bei Ausführungsformen, bei denen der Inhalt von nur einem Register pro Zyklus verschoben werden kann, Verschiebungen von mehreren Registern zwischen mathematischen Operationen stattfinden, indem mehr Taktzyklen für Verschiebungen zwischen mathematischen Operationen verbraucht werden (z. B. kann der Inhalt von zwei Registern zwischen mathematischen Operationen verschoben werden, indem zwei Verschiebungsoperationen zwischen den mathematischen Operationen verbraucht werden).
Falls weniger als der gesamte Inhalt der Registerdateien einer Ausführungsbahn während einer Verschiebungssequenz verschoben wird, ist zu beachten, dass der Inhalt der nicht verschobenen Register jeder Ausführungsbahn an Ort und Stelle bleibt (nicht verschoben wird). Dementsprechend bleibt jeder nicht verschobene Inhalt, der nicht durch verschobenen Inhalt ersetzt wird, durch den Verschiebungszyklus hinweg lokal auf der Ausführungsbahn. Die in jeder Ausführungsbahn beobachtete Speichereinheit („M“) wird verwendet, um Daten von/zu dem Arbeitsspeicher zu laden/zu speichern, der mit der Zeile und/oder Spalte der Ausführungsbahn innerhalb der Ausführungsbahnmatrix verbunden ist. Hier fungiert die M-Einheit als Standard-M-Einheit, indem sie häufig zum Laden/Speichern von Daten verwendet wird, die nicht von/in den eigenen Registerbereich der Ausführungsbahn geladen/gespeichert werden können. In verschiedenen Ausführungsformen besteht die primäre Operation der M- Einheit darin, Daten von einem lokalen Register in den Speicher zu schreiben und Daten aus dem Speicher einzulesen und in ein lokales Register zu schreiben.
In Bezug auf die von der ALU-Einheit der Hardware-Ausführungsbahn 601 unterstützten ISA-Operationscodes sind in verschiedenen Ausführungsformen die von der Hardware-ALU unterstützten mathematischen Operationscodes integral (d. h. im Wesentlichen gleich) mit den von den unterstützten mathematischen Operationscodes, die eine virtuelle Ausführungsbahn unterstützen (z. B. ADD, SUB, MOV, MUL, MAD, ABS, DIV, SHL, SHR, MIN/MAX, SEL, AND, OR, XOR, NOT), verbunden. Wie oben beschrieben, können Speicherzugriffsbefehle von der Ausführungsbahn 601 ausgeführt werden, um Daten von/zu ihrem zugehörigen Arbeitsspeicher abzurufen/zu speichern. Zudem unterstützt die Hardware- Ausführungsbahn 601 Verschiebungsoperationen (nach rechts, links, oben, unten), um Daten innerhalb der zweidimensionalen Schieberegisterstruktur zu verschieben. Wie oben beschrieben, werden Programmsteuerbefehle weitgehend durch den Skalarprozessor des Schablonenprozessors ausgeführt.
6b zeigt eine Ausführungsform einer Prozessor-ALU. Wie in 6b dargestellt, enthält die Prozessor-ALU eine Multiplikations-Additionseinheit 611 und eine erste und zweite nominale ALU 612, 613. Die Multiplikations-Additionseinheit 611 führt die Operation (A·B) + C durch. Die erste und zweite nominellen ALUs führen nominelle mathematische und logische Operationen einschließlich Vergleichsoperationen (z. B. Addition, Subtraktion bzw. Vergleich, Minimum, Maximum, Absolutwert, Verschiebung) durch. Das ALU-Design kann so angesehen werden, dass dieses zwei primäre Datenpfade aufweist: Einen ersten Datenpfad, der die Multiplikations-Additionseinheit 611 enthält und einen zweiten, der eine Dual-ALU 612, 613-Kette enthält. Die Dual-ALU-Kette 612, 613 erlaubt komplexere Befehle mit zwei Operationen in einem einzigen Befehl (z. B. zwei Additionen (ADD) in einem einzelnen Befehl; und ADD und eine Division (DIV) in einem einzigen Befehl; eine Subtraktion (SUB) sowie ein Absolutwert (ABS) in einem einzelnen Befehl, usw.). Eingangsoperanden können von Registern empfangen werden. Verschiedene Ausführungsformen können die Verwendung von unmittelbaren, an den Operationscode angehängten Operanden umfassen. Das resultierende Ergebnis wird in ein Register geschrieben.
c. 2D-Schieberegister-Ausführungsformen
7a zeigt eine Ausführungsform einer „Top-Down“-Ansicht des logischen (und potentiellen physikalischen) Entwurfs einer zweidimensionalen Registermatrixstruktur. Die „Top-Down“-Ansicht von 7a stimmt im Wesentlichen mit der Ausführungsform der Einheitszellenausführungsform von 6 überein, bei der jede Registerdatei an einer bestimmten Matrixposition mit der Registerdatei ihrer linken, rechten, oberen und unteren benachbarten Einheitszellenposition gekoppelt ist. Das heißt beispielsweise, wie in 7a dargestellt, dass die Registerdatei A mit den Registerdateien B, C, D und E gekoppelt ist.
7b zeigt eine weitere Ausführungsform einer „Top-Down“-Ansicht des logischen (und potentiellen physikalischen) Entwurfs einer zweidimensionalen Registermatrixstruktur. Wie in 7b zu sehen ist, sind Einheitszellen nicht nur an die nächsten vertikalen und horizontalen Nachbarn, sondern auch an die „zweiten“ nächsten vertikalen und horizontalen Nachbarn gekoppelt. Zum Beispiel ist, wie in 7b dargestellt, die Einheitszelle A nicht nur mit den Einheitszellen B, C, D und E gekoppelt, sondern ist auch mit den Einheitszellen F, G, H und I gekoppelt. Zur Erleichterung des Zeichnens und der Betrachtung ist nur die Einheitszelle A so dargestellt, dass diese den vollständigen Satz benötigter Verbindungen aufweist, um eine Kopplung sowohl zum nächsten als auch zum zweiten nächsten Nachbarn aufzuweisen. Anders als die Einheitszelle A zeigt nur jede zweite Einheitszelle die zweit nächste Nachbarkopplung entlang einer bestimmten Zeile oder Spalte (z. B. zeigt die Einheitszelle B keine zweite nächste Nachbarkopplung). Der Leser wird verstehen, dass eine bevorzugte Ausführungsform die Kopplung der Einheitszelle A für z. B. alle Einheitszellen innerhalb des Kerns und mit einem ausreichenden Abstand von den Matrixrändern umfasst, um die Kopplung zum zweit nächsten Nachbarn zu unterstützen.
Eine zweite nächstliegende Verbindung ermöglicht eine schnellere Ausbreitung der Registerwerte durch die Registermatrix. Zum Beispiel kann, wenn ein Registerwert zu einer vier Positionen entfernten Einheitszelle verschoben werden muss, die Matrixstruktur von 7b die Verschiebung in zwei Zyklen ausführen, während die Matrixstruktur von 7b dieselbe Verschiebung nur in vier Zyklen ausführen kann. Es muss beachtet werden, dass die Ausführungsform von 7b auch die nächsten Nachbarverbindungen aufweist. Somit kann der Prozessorbefehlssatz für die Struktur von 7b expansiver als der Prozessorbefehlssatz für die Struktur von 7a sein (wobei der erstere Ein-Sprung- und Zwei-Sprung-MOV-Befehle hat, während der letztere Befehlssatz nur Ein-Sprung-MOV-Befehle besitzt).
Es ist wichtig darauf hinzuweisen, dass die Anzahl und Kombination verschiedener Anzahlen von Sprungbewegungen und entsprechender Matrixstrukturausführungsformen von Ausführungsform zu Ausführungsform stark variieren können, abhängig von dem geeigneten Kompromiss zwischen der Notwendigkeit einer schnellen Registerwertbewegung und der Toleranz für die Matrixstruktur-Verdrahtungsdichte. Einige Ausführungsformen können die nächste dritte bzw. vierte Nachbarverbindung unterstützen, andere möglicherweise nicht (im Fall der nächsten vierten Nachbarverbindungen könnte die Einheitszelle D beispielsweise direkt mit der Einheitszelle J in 7b gekoppelt sein). Einige Ausführungsformen können nur die nächsten Nachbarverbindungen und die nächsten dritten oder weiteren Verbindungen usw. aufweisen. Denkbarerweise können aufwendigere Ausführungsformen sogar diagonale Verbindungen unterstützen (z. B. Verbindung von Einheitszelle A mit Einheitszelle K und ihren anderen drei benachbarten Eckeinheitszellen in 7b). Der Durchschnittsfachmann wird erkennen, dass eine beliebige der verschiedenen erweiterten Verbindungen zwischen den Einheitszellen leicht erreicht werden kann, indem die Quellen der Eingänge auf die Eingangsmultiplexerstruktur 604 erweitert werden und der Fan-Out der Ausgangsmultiplexerstruktur 603 von 6a erweitert wird.
8a zeigt eine beispielhafte logische Anordnung von Registern entlang einer Zeile oder Spalte innerhalb einer zweidimensionalen Registermatrixstruktur (zur Erleichterung des Zeichnens hat die Registermatrix nur Abmessungen von 8×8, während in der tatsächlichen Praxis die Abmessungen viel größer sein können). Hier werden benachbarte Bildpunkte in einer zu bearbeitenden Matrix in numerisch benachbarten Einheitszellen angeordnet sein (z. B. wird ein Paar von benachbarten Bildpunkten in der Matrix in Einheitszellen 3 und 4 anstelle von 3 und 5 platziert). Das logische Design von 8a umfasst auch eine Rollfähigkeit durch Koppeln der ersten logischen Einheitszelle 1 mit der letzten Einheitszelle 8 durch die Verbindung 801 (somit können die Prozessoren der Ausführungsbahn auch einen Roll-Operationscode enthalten).
Probleme können jedoch insbesondere im Fall von Matrizen mit großer Dimension auftreten, wenn das Design von 8a nicht nur das logische Design darstellt, sondern auch das physikalische Design. Wenn der Ansatz von 8a auch das physikalische Design darstellt, entspricht die Verbindung 801 einem Draht mit extremer Länge im Vergleich zur Länge der anderen Drähte, die andere Einheitszellenpaare als das Paar 1 und 8 verbinden. Dieser spezielle Drahtlängenausreißer kann Schaltungszeitverhaltenskomplikationen hervorrufen (durch Verlangsamung aller Schaltzeiten zwischen allen Einheitszellen auf nicht weniger als die langsamste 1<–>8-Schaltzeit oder durch Einführung von Komplikationen, die mehr Zyklen zwischen 1<–>8 Verschiebungen als Verschiebungen zwischen allen anderen benachbarten Einheitszellen notwendig werden lassen).
8b zeigt eine Ausführungsform eines verbesserten physikalischen Designs für eine Zeile oder Spalte einer Registermatrixstruktur mit dem logischen Design von 8a. Hier entspricht ein physikalisches Design dem tatsächlichen Schaltungsdesign von Schaltungsstrukturen im Gegensatz zu nur logischen Verbindungen (wie bei einem logischen Design). Wie in 8b zu sehen ist, amortisiert das physikalische Design die zusätzliche Länge, die von der 1<–>8-Verbindung unter der anderen Einheitszelle benötigt wird, indem ein Toroid-Design in die Logik des Schaltungsdesigns eingebracht wird. Beispielsweise ist, obgleich die Einheitszelle 1 zum Erhalt des Logikdesigns physisch mit der Einheitszelle 2 verbunden ist, die Einheitszelle 8 physisch zwischen diesen platziert. Das Ergebnis ist eine maximale Leitungslänge zwischen Einheitszellen in der Struktur von 8b, die viel kürzer ist als die Länge des Drahtes 801 in 8a. Als solche vermeiden die Zeitkomplikationen der Struktur von 8b die zeitlichen Komplikationen der oben erwähnten Struktur von 8a. In einer Ausführungsform kann sich ein Rollen des Registerinhalts zwischen allen Einheitszellen innerhalb eines einzelnen Zyklus herausstellen.
8c zeigt, dass die Datenbusstruktur zwischen dem Blattgenerator oder einem Direktzugriffsspeicher 802 (wie einem der RAMs 407 von 4) und einer Reihe oder Spalte der Registermatrix eine Art „Swizzling“-Struktur 803 umfasst, um die korrekten logischen Verbindungen zu einer Matrix oder einer Zeile mit einem physikalisch toroidförmigen Schaltungsdesign beizubehalten. 8d zeigt eine weitere Toroidstruktur, die 4-Sprung- Verschiebungen implementieren kann, bei denen die von jedem Registerwert zurückgelegte maximale Distanz 4 Einheitszellen beträgt. Hier sollte klar sein, dass ein anderer „Swizzling“-ähnlicher Datenbus zwischen den Registern von 8d und dem Blattgenerator oder RAM vorhanden sein würde. Als solches ist ein Merkmal der Implementierung eines physikalisch toroidförmigen Schaltungsdesigns das Vorhandensein von „Swizzling“ durch einen Datenbus, der die in logischer Reihenfolge angeordneten Eingänge verbindet.
8e zeigt eine spezielle Fan-Out-Schaltung des Ausgangsmultiplexers 804 einer Einheitszelle der Verschiebungsmatrixstruktur. Hier kann der Ausgangsmultiplexer 804 als dem Ausgangsmultiplexer 603 von 6a ähnlich angesehen werden. Da die Verschiebungsmatrix so ausgelegt ist, dass diese mehr und mehr Verbindungen (ein Sprung, zwei Sprünge usw.) unterstützt, wächst das Fan-Out des Ausgangsmultiplexers 804. Wenn der Fan-Out des Multiplexers 804 wächst, kann die Leistungsaufnahme immer mehr zum Problem werden. 8e zeigt einen Ausgangsmultiplexer 804 für eine sowohl einen Sprung als auch zwei Verbindungen vollständig unterstützende Schieberegistermatrix. Hier würde, ohne das Vorhandensein der in 8e dargestellten Logikgatter, ein neuer Ausgang am Multiplexer 804 (z. B. ein neuer Herausverschiebungswert) Werte an acht verschiedene Positionen (linker Nachbar, rechter Nachbar, ..., 2-Sprung unterer-Nachbar) übertragen. Hier, wie in der Technik verstanden wird, entspricht eine Datenänderung über eine Lauflänge des Drahtes in einer logischen Schaltung einer „Schaltaktivität“, die wiederum Leistung benötigt.
Das Vorhandensein der am Ausgang des Multiplexers 804 dargestellten acht Logikgatter ist dazu ausgelegt, irgendeine derartige Datenänderung zu verhindern, außer an dem tatsächlichen Draht, der der Verschiebungsrichtung entspricht. Ist beispielsweise die Verschiebungsrichtung ein Sprung nach rechts, wird nur das mit dem unmittelbaren rechten Nachbarn gekoppelte Gatter die Ausgabe des Multiplexers 804 passieren lassen. Alle anderen Logikgatter verhindern, dass sich der Datenwert zu den anderen Knoten ausbreitet (wo der Verschiebungswert nicht benötigt wird), und die Leistungsaufnahme wird während der Verschiebungsoperation in dem Prozess reduziert.
d. Zu beachtende zusätzliche Ausführungsbahnoperationen
9 bezieht sich auf eine verwendete Technik, um zu ermöglichen, dass die Ausführungsbahnen innerhalb der Ausführungsbahnmatrix unterschiedliche Datenbitbreiten verarbeiten. Hier wird, wie in der Technik verstanden wird, ein größerer Dynamikbereich durch Erhöhen der Bitbreite der Datenwerte erreicht (ein 16-Bit-Wert kann Werte mit einem größeren Dynamikbereich als ein 8-Bit-Wert ausdrücken). In einer Ausführungsform wird erwartet, dass die Schablonenprozessoren Bilder mit unterschiedlichen Bitbreiten wie 8-, 16- oder 32-Bit-Bildpunktwerte verarbeiten. Gemäß einem Ansatz sind die Ausführungsbahnen selbst somit 32-Bit-Maschinen in dem Sinne, dass die Ausführungsbahnen intern 32-Bit-Operanden verarbeiten können.
Um jedoch die Größe und Komplexität des zweidimensionalen Schieberegisters zu verringern, sind die einzelnen Speicherelemente der Register innerhalb der Registerdatei jeder Ausführungsbahn auf 8 Bit begrenzt. Im Fall von 8-Bit-Bilddaten besteht kein Problem, da ein ganzes Datenblatt in ein Register der Registerdatei passt. Im Gegensatz hierzu erzeugt der Blattgenerator im Fall von 16 oder 32-Bit-Operanden mehrere Blätter, um den Eingangsoperanden-Datensatz entsprechend auszudrücken.
Beispielsweise erzeugt der Blattgenerator, wie in 9 dargestellt, im Fall von 16-Bit-Eingangsoperanden ein HI- und ein LO-Halbblatt. Das HI-Halbblatt enthält die oberen 8 Bits jedes Datenelements an der richtigen Matrixposition. Das LO-Halbblatt enthält die unteren 8 Bits jedes Datenelements an der richtigen Matrixposition. 16-Bit-Operationen werden dann ausgeführt, indem beide Blätter in den Schablonenprozessor geladen werden und die Ausführungsbahn-Hardware (z. B. über einen unmittelbaren Wert in dem Programmcode) informiert wird, dass eine 16-Bit-Operation stattfinden soll. Hier werden, als nur eine von vielen möglichen Betriebsarten, sowohl die HI- als ebenfalls die LO-Blätter in zwei verschiedene Register jeder Registerdatei der Ausführungsbahn geladen.
Die Ausführungsbahneinheiten sind in der Lage, die korrekten Operanden intern zu erstellen, indem diese zuerst von einer der Registerdateipositionen gelesen werden und die darin enthaltenen Daten mit den Daten, die von einem anderen der Registerdateipositionen gelesen wurden, verbunden werden. Ähnlich müssen die Ausführungsbahneinheiten in Schreibrichtung zwei Schreibvorgänge durchführen. Insbesondere erfolgt ein erstes Schreiben der unteren 8 Bits in ein erstes Register der Registerdatei, die das LO-Blatt enthält, und anschließend erfolgt ein zweites Schreiben der oberen 8 Bits in ein zweites Register der Registerdatei, die das HI-Blatt enthält.
Aus den vorhergehenden Erläuterungen geht hervor, dass in verschiedenen Ausführungsformen der Inhalt nur eines Registers pro Zyklus verschoben werden darf. In diesen Fällen werden, um 16-Bit-Datenwerte in der zweidimensionalen Schieberegisterstruktur zu bewegen, zwei Zyklen pro Verschiebungssequenz (zwischen mathematischen Operationen) anstelle eines Zyklus im Fall von 8-Bit-Datenwerten benötigt. Das heißt, im nominalen Fall von 8-Bit-Datenwerten können alle Daten zwischen den Positionen in einem einzigen Zyklus verschoben werden. Im Gegensatz hierzu müssen bei 16-Bit-Datenwerten (das HI- und dem LO-Halbblatt) zwei 8-Bit-Werte pro Schieberegister-Verschiebungsoperation verschoben werden. In einer Ausführungsform werden im Fall von 32 Bits dieselben Prinzipien angewendet, außer dass vier Blätter anstelle von zwei Blättern zur Darstellung aller Bilddaten erzeugt werden. Dementsprechend können pro Verschiebungssequenz bis zu vier Zyklen erforderlich werden. Es muss beachtet werden, dass die Erläuterung von 8-Bit-breiten Registern nur beispielhaft ist. Im Allgemeinen ist jede Bitbreite möglich (z. B. 16 Bit-breite Register innerhalb der Registerdatei mit 32 Bit-breiten Schaltungen innerhalb der Ausführungsbahn).
10 bezieht sich auf eine Compiler-Operation, die zufällige Speicherzugriffe entrollt, damit während der Operation keine konkurrierenden Speicherzugriffe innerhalb der tatsächlichen Hardware auftreten. Hier ist die Prozedur von 10 auf die Strukturierung von Objektcode im Hinblick auf die Daten ausgerichtet, die durch einen virtuellen Code höherer Ebene und die physikalischen Beschränkungen der zugrundeliegenden Maschine verarbeitet werden. Wie zuvor erörtert, verfügt jede Ausführungsbahn in der Ausführungsbahnmatrix über eine zugeordnete Registerdatei (z. B. vier Register pro Ausführungsbahn). Wie die meisten Ausführungsbahnen liest bzw. schreibt die Ausführungsbahn in Übereinstimmung mit den Objektcodeanweisungen Daten von dem/den/in das/die Register(n). Wie die meisten Compiler ist der Compiler in der Lage zu erkennen, welche Daten sich in welchem Register befinden und erkennt die physikalischen Einschränkungen des verfügbaren Registerbereichs.
Als solches kann eine Ausführungsbahn von Zeit zu Zeit ein Datenelement benötigen, das sich nicht im Registerbereich befindet, sondern stattdessen in einem Direktzugriffsspeicher, der der Zeile bzw. der Spalte einer Ausführungsbahn in der Ausführungsbahnmatrix zugeordnet ist. In ähnlicher Weise kann von Zeit zu Zeit eine Ausführungsbahn möglicherweise ein Datenelement schreiben müssen, aber es ist kein Registerbereich vorhanden, in den die Daten geschrieben werden können (da alle zurzeit innerhalb des Registerbereichs befindliche Daten immer noch Abhängigkeiten besitzen). Unter diesen Umständen wird der Compiler Lade- oder Speicheranweisungen für den Speicher in den Objektcode einfügen (im Gegensatz zu Registerlade- oder Registerspeicheranweisungen), um Daten anstelle des Registerbereichs aus dem/in den Direktzugriffsspeicher abzurufen/zu schreiben.
10 zeigt eine Ausführungsform der Hardwarearchitektur, die einen getrennten Direktzugriffsspeicher 1007_1 bis 1007_R entlang jeder Zeile der Matrix zeigt. Basierend auf dieser Architektur wird den Ausführungsbahnen entlang einer gleichen Zeile der Ausführungsbahnmatrix Zugriff auf den gleichen Direktzugriffsspeicher eingeräumt. Wie gezeichnet umfasst jede Ausführungsbahn eine Speichereinheit für den Zugriff auf ihren jeweiligen Direktzugriffsspeicher. Führen dementsprechend zwei unterschiedliche Ausführungsbahnen in verschiedenen Zeilen eine Speicherladeanweisung während eines gleichen Zyklus aus, konkurrieren die Befehle nicht, da diese sich auf unterschiedliche Direktzugriffsspeicher beziehen.
Im Gegensatz dazu konkurrieren die Speicherzugriffe wenn die Ausführungsbahnen in derselben Zeile einen Speicherzugriff in demselben Zyklus ausführen sollen. In Anbetracht der Tatsache, dass die Ausführungsbahnmatrix auf eine SIMD-artige Weise arbeiten soll, verursacht der Programmcode natürlich, dass Ausführungsbahnen in der Matrix (was sowohl Zeilen als auch Spalten einschließt) Speicherzugriffsanforderungen in demselben Zyklus ausgeben. Somit stellt ein konkurrierender Speicherzugriff der Ausführungsbahnen derselben Zeile eine vorhersehbare Gefahr dar. 10 zeigt ein Paar von Threads 1001 zur Ausführung auf zwei unterschiedlichen Ausführungsbahnen in derselben Zeile. In Anbetracht der SIMD-artigen Weise der Maschine führen beide Ausführungsbahnen gleiche Operationscodes in denselben Zyklen aus, einschließlich eines Paares von Speicherladeanweisungen in den ersten zwei dargestellten Zyklen. Bei Betrachtung der Adressen der Speicherladeanweisungen muss beachtet werden, dass alle Adressen unterschiedlich sind. Somit konkurrieren die erste Speicherladeanweisung beider Threads und die zweite Speicherladeanweisung beider Threads tatsächlich miteinander.
Wenn der Compiler eine Speicherladeanweisung in den Objektcode einfügt, erkennt er als solches, dass Speicherladeanweisungen Konflikte der sich in derselben Zeile befindenden Ausführungsbahnen verursachen. Als Gegenmaßnahme fügt der Compiler sequentielle Speicherladeanweisungen in den Code ein, um den konkurrierenden Speicherladebefehl entlang einer gleichen Zeile effektiv abzurollen, damit jede Ausführungsbahn über einen eigenen reservierten Zyklus für den Zugriff auf den Speicher verfügt. In dem Beispiel von 10 ist zu beachten, dass der endgültige Objektcode 1002 eine Sequenz von vier sequentiellen Speicherladeanweisungen über vier Zyklen umfasst, um sicherzustellen, dass der Speicherzugriff einer Ausführungsbahn nicht mit dem Speicherzugriff einer anderen Ausführungsbahn entlang der gleichen Zeile zusammentrifft.
Es muss beachtet werden, dass der Ansatz von 10 besonders auf den Nachschlagetabellenteil des Speichermodells anwendbar ist, der oben in Abschnitt 1.0 erläutert wurde. Hier sollte daran erinnert werden, dass unterschiedliche Ausführungsbahnen unterschiedliche Indizes in einer selben Nachschlagetabelle verwenden können, um auf unterschiedliche Einträge einer gleichen Nachschlagetabelle in demselben Zyklus zuzugreifen. In einer Ausführungsform wird der Compiler eine andere Kopie derselben Nachschlagetabelle in jeden Direktzugriffsspeicher 1007_1 bis 1007_R instanziieren. Nachschlagevorgänge durch die Ausführungsbahnen können daher in der lokalen Tabellenkopie während eines gleichen Zyklus in verschiedenen Zeilen vorgenommen werden. Solche Nachschlagevorgänge konkurrieren nicht und der Index jedes Nachschlagens kann unterschiedlich sein. Im Gegensatz hierzu greifen Nachschlagevorgänge, die von den Ausführungsbahnen entlang derselben Zeile ausgeführt werden, auf die gleiche Nachschlagetabelle im gleichen Speicher zu und müssen sequentiell abgerollt und ausgeführt werden. Beim Abrollen für den sequentiellen Zugriff dürfen die Indexwerte unterschiedlich sein. In einer Ausführungsform enthält das VLIW-Befehlsformat des Objektcodes zusammen mit einem Operationscode für eine mathematische Operation einen Operationscode für eine Speicheroperation, die ferner die Identität der Ausführungsbahn entlang einer Zeile enthält, die eigentlich den Befehl ausführen soll (die anderen Ausführungsbahnen entlang der Zeile behandeln diesen als ein Nicht-Operationscode (NO-OP)).
In verschiedenen Ausführungsformen behandelt der Compiler elementare Aktualisierungsbefehle ähnlich wie Nachschlagetabellen. Das heißt, Speicherplatz wird in den Direktzugriffsspeichern 1007_1 bis 1007_R für elementare Befehlsergebnisse reserviert (z. B. pro Zeile). Nicht konkurrierende Aktualisierungen (z. B. von einer gleich positionierten Ausführungsbahn entlang unterschiedlicher Zeilen) können während eines gleichen Zyklus ausgeführt werden, während konkurrierende Aktualisierungen (z. B. durch Ausführungsbahnen entlang derselben Zeile) in getrennte Befehle aufgerollt werden. Elementare Aktualisierungsanweisungen werden oft vom Compiler als Lese-Modifizierungs-Schreibanweisungen implementiert, bei denen ein Lesevorgang von aktuellen resultierenden Daten durchgeführt wird, die sich in einem Registerbereich der Ausführungsbahn befinden, solche Daten werden mathematisch bearbeitet und dann in die Tabelle der speziell reservierten elementaren Aktualisierungen geschrieben.
e. Ausführungsformen der Implementierung
Es ist wichtig, darauf hinzuweisen, dass die oben beschriebenen verschiedenen Merkmale der Bildprozessorarchitektur nicht zwangsläufig auf die Bildverarbeitung im herkömmlichen Sinne beschränkt sind und daher auf andere Anwendungen angewendet werden können, die ggf. veranlassen, dass der Bildprozessor neu charakterisiert wird oder auch nicht. Wenn beispielsweise eines der vorstehend beschriebenen verschiedenen Merkmale der Bildprozessorarchitektur bei der Erstellung und/oder Erzeugung und/oder Wiedergabe von Animationen anstatt bei der Verarbeitung von tatsächlichen Kamerabildern verwendet werden soll, kann der Bildprozessor als grafische Verarbeitungseinheit charakterisiert sein. Zudem können die oben beschriebenen Architekturmerkmale des Bildprozessors in anderen technischen Anwendungen, wie z. B. in der Videoverarbeitung, Bildverarbeitung, Bilderkennung und/oder dem maschinellen Lernen, angewendet werden. Auf diese Weise kann der Bildprozessor (z. B. als Coprozessor) in einen allgemeineren Universalprozessor (z. B. als Teil einer CPU des Computersystems) mit integriert werden oder ein eigenständiger Prozessor innerhalb eines Computersystems sein.
Die oben beschriebenen Hardware-Ausführungsformen können in einem Halbleiterchip und/oder als Beschreibung eines Schaltungsdesigns zur letztendlichen Ausrichtung auf ein Halbleiterherstellungsverfahren enthalten sein. Im letzteren Fall können diese Schaltungsbeschreibungen in Form von Beschreibungen auf einer höheren Ebene/Verhaltensebene (z. B. VHDL oder Verilog) oder einer niedrigeren Ebene (wie z. B. einer Registerüberleitungsschaltung (RTL)-, einer Transistorebenen- oder einer Maskenbeschreibung) oder verschiedener Kombinationen derselben, erfolgen. Schaltungsbeschreibungen sind in der Regel auf einem computerlesbaren Speichermedium (wie z. B. einer CD-ROM oder einer anderen Art von Speichertechnologie) enthalten.
Aus den vorangehenden Abschnitten ist zu erkennen, dass ein Bildprozessor, wie oben beschrieben, in der Hardware auf einem Computersystem (z. B. als Teil eines Handgerätsystems on Chip (SOC), das Daten von der Kamera des Handgerätes verarbeitet) enthalten sein kann. In Fällen, in denen der Bildprozessor als Hardware-Schaltung ausgebildet ist, ist zu beachten, dass die Bilddaten, die von dem Bildprozessor verarbeitet werden, direkt von einer Kamera empfangen werden können. Hier kann der Bildprozessor Teil einer diskreten Kamera oder Teil eines Computersystems mit einer integrierten Kamera sein. Im letzteren Fall können die Bilddaten direkt von der Kamera oder aus dem Systemspeicher des Computersystems empfangen werden (z. B. sendet die Kamera ihre Bilddaten anstatt an den Bildprozessor an den Systemspeicher). Zu beachten ist auch, dass viele der in den vorangehenden Abschnitten beschriebenen Merkmale auf eine Bildprozessoreinheit (zur Darstellung von Animationen) anwendbar sind.
11 zeigt eine exemplarische Darstellung eines Computersystems. Viele der Komponenten des nachstehend beschriebenen Computersystems sind auf ein Computersystem mit einer integrierten Kamera und einem zugehörigen Bildprozessor (z. B. einem Handgerät, wie z. B. einem Smartphone oder Tablet-Computer) anwendbar. Fachleute auf dem Gebiet werden leicht zwischen beiden unterscheiden können.
Wie in 11 dargestellt, kann das grundlegende Computersystem eine zentrale Verarbeitungseinheit 1101 (die beispielsweise eine Vielzahl von Universal-Verarbeitungskernsystemen 1115_1 bis 1115_N und einen auf einem Multikernprozessor oder einem Anwendungsprozessor angeordneten Hauptspeichercontroller 1117 beinhalten kann), Systemspeicher 1102, eine Anzeige 1103 (z. B. Touchscreen, Flachbildschirm), eine lokal verdrahtete Punkt-zu-Punkt-Verbindung (z. B. eine USB-Schnittstelle) 1104, verschiedene Netzwerk-E/A-Funktionen 1105 (wie z. B. eine Ethernet-Schnittstelle und/oder ein Mobilfunkmodem-Teilsystem), ein drahtloses lokales Netzwerk (z. B. WLAN) 1106, eine drahtlose Punkt-zu-Punkt-Verbindung (z. B. Bluetooth-Schnittstelle) 1107 und eine globale Positionierungssystemschnittstelle 1108, verschiedene Sensoren 1109_1 bis 1109_N, eine oder mehrere Kameras 1110, eine Batterie 1111, eine Versorgungsspannungsmanagement-Steuereinheit 1112, einen Lautsprecher und ein Mikrofon 1113 sowie einen Audio-Codierer/Decodierer 1114 beinhalten.
Ein Anwendungsprozessor oder Multikernprozessor 1150 kann einen oder mehrere Universalprozessorkerne 1115 innerhalb seiner CPU 1101, eine oder mehrere grafische Verarbeitungseinheiten 1116, eine Speicherverwaltungsfunktion 1117 (z. B. einen Speichercontroller), eine E-/A-Steuerfunktion 1118 und eine Bildverarbeitungseinheit 1119 umfassen. Die Universalverarbeitungskerne 1115 führen in der Regel das Betriebssystem und die Anwendungssoftware des Computersystems aus. Die Grafikverarbeitungseinheiten 1116 führen in der Regel grafikintensive Funktionen aus, um z. B. Grafikdaten zu erzeugen, die auf der Anzeige 1103 dargestellt werden. Die Speichersteuerfunktion 1117 ist mit dem Systemspeicher 1102 verbunden, um Daten in den Systemspeicher 1102 zu schreiben bzw. aus diesem einzulesen. Die Versorgungsspannungsmanagement-Steuereinheit 1112 steuert im Allgemeinen die Leistungsaufnahme des Systems 1100.
Die Bildverarbeitungseinheit 1119 kann gemäß einer der oben in den vorangehenden Abschnitten beschriebenen Ausführungsformen der Bildverarbeitungseinheit implementiert sein. Alternativ dazu oder in Kombination kann die IPU 1119 mit einer oder sowohl der GPU 1116 als auch der CPU 1101 als Coprozessor derselben gekoppelt sein. Darüber hinaus kann in verschiedenen Ausführungsformen die GPU 1116 mit einem der oben beschriebenen Prozessormerkmale implementiert sein.
Die Touchscreen-Anzeige 1103, die Kommunikationsschnittstellen 1104–1107, die GPS-Schnittstelle 1108, die Sensoren 1109, die Kamera 1110 und der Lautsprecher/Mikrofon-Codec 1113, 1114 können alle als unterschiedliche Formen der E/A (Eingabe und/oder Ausgabe) in Bezug auf das gesamte Rechensystem betrachtet werden, darunter auch gegebenenfalls ein integriertes Peripheriegerät (z. B. die eine oder mehrere Kameras 1110). Je nach Implementierung können verschiedene dieser E-/A-Komponenten auf dem Anwendungsprozessor/Multikernprozessor 1150 integriert sein oder sich außerhalb des Chips oder außerhalb des Pakets des Anwendungsprozessors/Multikernprozessors 1150 befinden.
In einer Ausführungsform umfasst/umfassen die eine oder mehreren Kameras 1110 eine Tiefenkamera, die in der Lage ist, die Tiefe zwischen der Kamera und einem Objekt in dessen Sichtfeld zu messen. Anwendungssoftware, Betriebssystemsoftware, Gerätetreibersoftware und/oder Firmware, die auf einem universellen CPU-Kern (oder einem anderen Funktionsblock mit einer Befehlsausführungspipeline zum Ausführen eines Programmcodes) eines Anwendungsprozessors oder eines anderen Prozessors ausgeführt werden, können sämtliche der oben beschriebenen Funktionen ausführen.
Ausführungsformen der Erfindung können, wie oben dargelegt, verschiedene Verfahren umfassen. Die Prozesse können in maschinenausführbaren Befehlen enthalten sein. Die Befehle können dazu verwendet werden, einen Universalprozessor oder Spezialprozessor dazu zu veranlassen, bestimmte Prozesse auszuführen. Alternativ dazu können diese Prozesse von spezifischen Hardwarekomponenten ausgeführt werden, die eine fest verdrahtete Logik zum Ausführen der Prozesse oder eine beliebige Kombination von programmierten Computerkomponenten und benutzerdefinierten Hardwarekomponenten enthalten.
Elemente der vorliegenden Erfindung können darüber hinaus als maschinenlesbares Medium zum Speichern der maschinenausführbaren Befehle bereitgestellt sein. Das maschinenlesbare Medium kann unter anderem Disketten, optische Platten, CD-ROMs und magneto-optische Platten, FLASH-Speicher, ROMs, RAMs, EPROMs, EEPROMs, magnetische oder optische Karten, Ausbreitungsmedien oder andere Arten von Medien/maschinenlesbare Medien, die für die Speicherung von elektronischen Befehlen geeignet sind, beinhalten. Die vorliegende Erfindung kann beispielsweise als ein Computerprogramm heruntergeladen werden, das von einem dezentralen Computer (z. B. einem Server) mittels eines in einer Trägerwelle oder in einem anderen Ausbreitungsmedium enthaltenen Datensignals an einen anfordernden Computer (z. B. einen Client) über eine Kommunikationsverbindung (z. B. ein Modem oder eine Netzwerkverbindung) übertragen werden kann.
In der vorstehenden Spezifikation wurde die Erfindung unter Bezugnahme auf spezifische exemplarische Ausführungsformen derselben beschrieben. Es ist jedoch offensichtlich, dass verschiedene Modifikationen und Änderungen daran vorgenommen werden können, ohne von dem in den beigefügten Ansprüchen dargelegten Erfindungsgedanken und Umfang der Erfindung abzuweichen. Die Beschreibung und die Zeichnungen sind daher in einem veranschaulichenden und nicht in einem einschränkenden Sinne zu betrachten.

Claims

Vorrichtung, umfassend: Programmcontroller zum Abrufen und Ausgeben von Befehlen, und eine Ausführungsbahn mit mindestens einer Ausführungseinheit zum Ausführen der Befehle, wobei die Ausführungsbahn Teil einer Ausführungsbahnmatrix ist, die mit einer zweidimensionalen Schieberegistermatrix-Struktur gekoppelt ist, wobei sich die Ausführungsbahnen der Ausführungsbahnmatrix auf jeweiligen Matrixpositionen befinden und mit dedizierten Registern an denselben jeweiligen Matrixpositionen in der zweidimensionalen Schieberegistermatrix gekoppelt sind.
Vorrichtung nach Anspruch 1, wobei die Ausführungsbahn und andere Ausführungsbahnen der Ausführungsbahnmatrix mit dem Programmcontroller gekoppelt sind, um Befehle auf SIMD-Art zu empfangen und auszuführen.
Vorrichtung nach Anspruch 2, wobei die Ausführungsbahnen der Ausführungsbahnmatrix eine Speichereinheit umfasst.
Vorrichtung nach Anspruch 2, wobei die Ausführungsbahnen der Ausführungsbahnmatrix eine erste ALU aufweist, deren Ausgang mit einer zweiten ALU gekoppelt ist.
Vorrichtung nach Anspruch 2, wobei die Befehle in einer größeren Datenstruktur mit einem VLIW-Format enthalten sind.
Vorrichtung nach Anspruch 5, wobei der Programmcontroller Teil eines Skalarprozessors ist, der Skalarprozessor Skalarbefehle ausführt, die in der größeren Datenstruktur mit einem VLIW-Format enthalten sind.
Vorrichtung nach Anspruch 6, wobei die Skalarbefehle einen Befehl umfassen, mit dem ein Skalarwert an die Ausführungsbahnen der Ausführungsbahnmatrix gesendet wird.
Vorrichtung nach Anspruch 6, wobei der Skalarprozessor mit seinem eigenen dedizierten Direktzugriffsspeicher verbunden ist.
Vorrichtung nach Anspruch 1, wobei unterschiedliche Bereiche der Ausführungsbahnmatrix einem anderen entsprechenden Direktzugriffsspeicher zugeordnet sind.
Vorrichtung nach Anspruch 9, wobei verschiedene Direktzugriffsspeicher Registerwerte speichern sollen, die aus der zweidimensionalen Schieberegistermatrix-Struktur überlaufen.
Vorrichtung nach Anspruch 9, wobei verschiedene Direktzugriffsspeicher Nachschlagetabelleninformationen speichern sollen.
Maschinenlesbares Speichermedium, auf dem eine Beschreibung einer Schaltung gespeichert ist, wobei die Schaltung Folgendes umfasst: Programmcontroller zum Abrufen und Ausgeben von Befehlen, und Ausführungsbahn mit mindestens einer Ausführungseinheit zum Ausführen der Befehle, wobei die Ausführungsbahn Teil einer Ausführungsbahnmatrix ist, die mit einer zweidimensionalen Schieberegistermatrix-Struktur gekoppelt ist, wobei sich die Ausführungsbahnen der Ausführungsbahnmatrix auf jeweiligen Matrixpositionen befinden und mit dedizierten Registern an denselben jeweiligen Matrixpositionen in der zweidimensionalen Schieberegistermatrix gekoppelt sind.
Maschinenlesbares Speichermedium nach Anspruch 12, wobei die Ausführungsbahn und andere Ausführungsbahnen der Ausführungsbahnmatrix mit dem Programmcontroller gekoppelt sind, um Befehle auf SIMD-Art zu empfangen und auszuführen.
Maschinenlesbares Speichermedium nach Anspruch 13, wobei die Ausführungsbahnen der Ausführungsbahnmatrix eine Speichereinheit umfassen.
Maschinenlesbares Speichermedium nach Anspruch 13, wobei die Ausführungsbahnen der Ausführungsbahnmatrix eine erste ALU umfassen, deren Ausgang mit einer zweiten ALU gekoppelt ist.
Maschinenlesbares Speichermedium nach Anspruch 13, wobei die Befehle in einer größeren Datenstruktur mit einem VLIW-Format enthalten sind.
Maschinenlesbares Speichermedium nach Anspruch 16, wobei der Programmcontroller Teil eines Skalarprozessors ist, wobei der Skalarprozessor Skalarbefehle ausführt, die in der größeren, ein VLIW-Format aufweisenden Datenstruktur enthalten sind.
Maschinenlesbares Speichermedium nach Anspruch 12, wobei unterschiedliche Bereiche der Ausführungsbahnmatrix einem anderen entsprechenden Direktzugriffsspeicher zugeordnet sind.
Maschinenlesbares Speichermedium nach Anspruch 18, wobei verschiedene Direktzugriffsspeicher Registerwerte speichern sollen, die aus der zweidimensionalen Schieberegistermatrix-Struktur überlaufen.
Maschinenlesbares Speichermedium nach Anspruch 18, wobei verschiedene Direktzugriffsspeicher Nachschlagetabelleninformationen speichern sollen.
Computersystem, umfassend: eine Vielzahl von Verarbeitungskernen, die mit einem Systemspeicher verbunden sind; eine Bildverarbeitungseinheit, wobei die Bildverarbeitungseinheit Folgendes umfasst: einen Programmcontroller zum Abrufen und Ausgeben von Befehlen, und eine Ausführungsbahn mit mindestens einer Ausführungseinheit zum Ausführen der Befehle, wobei die Ausführungsbahn Teil einer Ausführungsbahnmatrix ist, die mit einer zweidimensionalen Schieberegistermatrix-Struktur gekoppelt ist, wobei sich die Ausführungsbahnen der Ausführungsbahnmatrix auf jeweiligen Matrixpositionen befinden und mit dedizierten Registern an denselben jeweiligen Matrixpositionen in der zweidimensionalen Schieberegistermatrix gekoppelt sind.
Computersystem nach Anspruch 21, wobei die Ausführungsbahn und andere Ausführungsbahnen der Ausführungsbahnmatrix mit dem Programmcontroller gekoppelt sind, um Befehle auf SIMD-Art zu empfangen und auszuführen.
Computersystem nach Anspruch 21, wobei die Ausführungsbahnen der Ausführungsbahnmatrix eine Speichereinheit umfassen.
Computersystem nach Anspruch 21, wobei die Ausführungsbahnen der Ausführungsbahnmatrix eine erste ALU umfassen, deren Ausgang mit einer zweiten ALU gekoppelt ist.
Computersystem nach Anspruch 19, wobei die Befehle in einer größeren Datenstruktur mit einem VLIW-Format enthalten sind.
Computersystem nach Anspruch 22, wobei der Programmcontroller Teil eines Skalarprozessors ist, wobei der Skalarprozessor Skalarbefehle ausführt, die in der größeren, ein VLIW-Format aufweisenden Datenstruktur enthalten sind.
Computersystem nach Anspruch 21, wobei unterschiedliche Bereiche der Ausführungsbahn einem anderen entsprechenden Direktzugriffsspeicher zugeordnet sind.
Computersystem nach Anspruch 27, wobei verschiedene Direktzugriffsspeicher Registerwerte speichern sollen, die aus der zweidimensionalen Schieberegistermatrixstruktur überlaufen.