DE112016001844T5 - Zweidimensionale Verschiebungsmatrix für Bildprozessor - Google Patents

Zweidimensionale Verschiebungsmatrix für Bildprozessor Download PDF

Info

Publication number
DE112016001844T5
DE112016001844T5 DE112016001844.4T DE112016001844T DE112016001844T5 DE 112016001844 T5 DE112016001844 T5 DE 112016001844T5 DE 112016001844 T DE112016001844 T DE 112016001844T DE 112016001844 T5 DE112016001844 T5 DE 112016001844T5
Authority
DE
Germany
Prior art keywords
shift register
locations
matrix
dimensional shift
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112016001844.4T
Other languages
English (en)
Inventor
Ofer Shacham
Jason Rupert Redgrave
Albert Meixner
Qiuling Zhu
Daniel Frederic Finchelstein
David Patterson
Donald Stark
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of DE112016001844T5 publication Critical patent/DE112016001844T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N3/00Scanning details of television systems; Combination thereof with generation of supply voltages
    • H04N3/10Scanning details of television systems; Combination thereof with generation of supply voltages by means not exclusively optical-mechanical
    • H04N3/14Scanning details of television systems; Combination thereof with generation of supply voltages by means not exclusively optical-mechanical by means of electrically scanned solid-state devices
    • H04N3/15Scanning details of television systems; Combination thereof with generation of supply voltages by means not exclusively optical-mechanical by means of electrically scanned solid-state devices for picture signal generation
    • H04N3/1575Picture signal readout register, e.g. shift registers, interline shift registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/60Memory management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3004Arrangements for executing specific machine instructions to perform operations on memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3004Arrangements for executing specific machine instructions to perform operations on memory
    • G06F9/30043LOAD or STORE instructions; Clear instruction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/3012Organisation of register space, e.g. banked or distributed register file
    • G06F9/30134Register stacks; shift registers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/28Indexing scheme for image data processing or generation, in general involving image processing hardware

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Processing (AREA)
  • Executing Machine-Instructions (AREA)
  • Image Input (AREA)

Abstract

Es wird eine Vorrichtung beschrieben. Die Vorrichtung umfasst eine Ausführungsbahnmatrix, die mit einer zweidimensionalen Schieberegistermatrixstruktur gekoppelt ist. Orte in der Ausführungsbahnmatrix sind mit gleichen Orten in der zweidimensionalen Schieberegistermatrixstruktur gekoppelt, sodass unterschiedliche Ausführungsbahnen verschiedene dedizierte Register haben.

Description

  • Gebiet der Erfindung
  • Das Gebiet der Erfindung betrifft im Allgemeinen die Bildverarbeitung und insbesondere eine zweidimensionale Verschiebungsmatrix für einen Bildprozessor.
  • Allgemeiner Stand der Technik
  • Die Bildverarbeitung beinhaltet in der Regel die Verarbeitung von Bildpunktwerten, die in einer Matrix angeordnet sind. Hierbei erfasst eine räumlich gegliederte zweidimensionale Matrix die zweidimensionale Beschaffenheit der Bilder (zusätzliche Dimensionen können unter anderem Zeit (z. B. eine Sequenz von zweidimensionalen Bildern) und Datentyp (z. B. Farben) einschließen. In einem typischen Szenario werden die angeordneten Bildpunktwerte von einer Kamera bereitgestellt, die ein Standbild oder eine Folge von Frames erzeugt hat, um Bewegungsbilder zu erfassen. Herkömmliche Bildprozessoren fallen in der Regel unter eines von zwei Extremen.
  • Ein erstes Extrem führt Bildverarbeitungsschritte als Softwareprogramme aus, die auf einem Universalprozessor oder einem universell verwendbaren Prozessor (z. B. einem Universalprozessor mit Vektorbefehlserweiterungen) ausgeführt werden. Obwohl das erste Extrem in der Regel eine vielseitig einsetzbare Anwendungssoftware-Entwicklungsplattform bereitstellt, resultiert dessen Verwendung feinerer Datenstrukturen kombiniert mit den zugehörigen Verwaltungsdaten (z. B. Befehlsabruf und -dekodierung, Handhabung von chipinternen und chipexternen Daten, spekulative Ausführung) letztendlich in einem Verbrauch größerer Energiemengen pro Dateneinheit während der Ausführung des Programmcodes.
  • Ein zweites, entgegengesetztes Extrem wendet stationäre, fest verdrahtete Schaltkreise auf viel größere Datenblöcke an. Die Verwendung von größeren (im Gegensatz zu feineren) Datenblöcken, die direkt auf benutzerdefinierte Schaltkreise angewendet werden, verringert den Energieverbrauch pro Dateneinheit erheblich. Jedoch führt die Verwendung von benutzerdefinierten stationären Funktionsschaltkreisen im Allgemeinen zu einer begrenzten Menge von Arbeitsschritten, die der Prozessor ausführen kann. Dementsprechend fehlt im zweiten Extrem die vielseitige Programmierumgebung (die mit dem ersten Extrem assoziiert ist).
  • Eine Technologieplattform, die sowohl vielseitige Anwendungssoftware-Entwicklungsmöglichkeiten als auch eine verbesserte Energieeffizienz pro Dateneinheit bietet, bleibt eine wünschenswerte und dennoch fehlende Lösung.
  • Kurzdarstellung
  • Eine Vorrichtung wird beschrieben. Die Vorrichtung enthält Mittel für die Verschiebung, in dieselbe Richtung und Anzahl der Standorte, von Daten aus mehreren zusammenhängenden Standorten innerhalb einer zweidimensionalen Schieberegistermatrixstruktur, um jeder der mehreren unterschiedlichen Ausführungsbahnen innerhalb einer Ausführungsbahnmatrix einen neuen Wert innerhalb des jeweiligen dedizierten Registers der mehreren unterschiedlichen Ausführungsbahnen bereitzustellen. Die unterschiedlichen Ausführungsbahnen sind mit ihren jeweiligen dedizierten Registern an die jeweiligen gleichen Orte der Ausführungsbahnmatrix und der zweidimensionalen Schieberegistermatrix gekoppelt.
  • Eine Vorrichtung wird beschrieben. Die Vorrichtung beinhaltet eine Ausführungsbahnmatrix, die mit einer zweidimensionalen Schieberegistermatrixstruktur gekoppelt ist. Orte in der Ausführungsbahnmatrix sind an die gleichen Orte in der zweidimensionalen Schieberegistermatrixstruktur gekoppelt, sodass unterschiedliche Ausführungsbahnen verschiedene dedizierte Register haben.
  • Figurenverzeichnis
  • Die folgende Beschreibung und begleitenden Zeichnungen dienen dazu, Ausführungsformen der Erfindung zu veranschaulichen. In den Zeichnungen:
  • 1 zeigt eine Ausführungsform einer Bildprozessor-Hardwarearchitektur;
  • 2a, 2b, 2c, 2d und 2e zeigen das Parsen von Bilddaten in eine Zeilengruppe, das Parsen einer Zeilengruppe in ein Blatt und die an einem Blatt mit überlappenden Schablonen durchgeführte Operation;
  • 3 zeigt eine Ausführungsform eines Schablonenprozessors;
  • 4 zeigt eine Ausführungsform einer Datenberechnungseinheit innerhalb eines Schablonenprozessors;
  • 5a, 5b, 5c, 5d, 5e, 5f, 5g, 5h, 5i, 5j und 5k zeigen ein Beispiel für die Verwendung einer zweidimensionalen Verschiebungsmatrix und einer Ausführungsbahnmatrix, um ein Paar benachbarte Ausgabebildpunktwerte mit überlappenden Schablonen zu bestimmen;
  • 6 zeigt eine Ausführungsform einer Einheitszelle für eine integrierte Ausführungsbahnmatrix und eine zweidimensionale Verschiebungsmatrix;
  • 7a zeigt ein erstes zweidimensionales Registermatrixstruktur-Verbindungsschema;
  • 7b zeigt ein zweites zweidimensionales Registermatrixstruktur-Verbindungsschema;
  • 8a zeigt eine erste Zeile oder Spalte einer zweidimensionalen Registermatrixstruktur;
  • 8b zeigt eine zweite Zeile oder Spalte einer zweidimensionalen Registermatrixstruktur;
  • 8c zeigt die Zeile von 8b gekoppelt mit einer Speichereinheit;
  • 8d zeigt eine weitere ringförmige Ausführungsform;
  • 8e zeigt einen Stromsparschaltkreis;
  • 9 zeigt eine Ausführungsform eines Computersystems.
  • Ausführliche Beschreibung
  • a. Bildprozessor-Hardware-Architektur und -Betrieb
  • 1 zeigt eine Ausführungsform einer Architektur 100 für einen in Hardware implementierten Bildprozessor. Der Bildprozessor kann z. B. von einem Compiler angesteuert werden, der den Programmcode, der für einen virtuellen Prozessor geschrieben wurde, in einer simulierten Umgebung in Programmcode umwandelt, der von dem Hardwareprozessor tatsächlich ausgeführt wird. Wie in 1 dargestellt, beinhaltet die Architektur 100 eine Vielzahl von Zeilenpuffereinheiten 101_1 bis 101_M, die mit einer Vielzahl von Schablonenprozessoreinheiten 102_1 bis 102_N und entsprechenden Blattgeneratoreinheiten 103_1 bis 103_N über ein Netzwerk 104 (z. B. ein Netzwerk auf Chip (NOC), unter anderem auch ein Chip-Switch-Netzwerk, ein On-Chip-Ring-Netzwerk oder einer anderen Art von Netzwerk) verbunden ist. In einer Ausführungsform kann jede Zeilenpuffereinheit mit jedem Blattgenerator und einem entsprechenden Schablonenprozessor über das Netzwerk 104 verbunden sein.
  • In einer Ausführungsform wird der Programmcode kompiliert und auf einen entsprechenden Schablonenprozessor 102 geladen, um die zuvor von einem Softwareentwickler definierten Bildverarbeitungsvorgänge auszuführen (der Programmcode kann je nach Konzipierung und Implementierung auch auf den zugehörigen Blattgenerator des Schablonenprozessors 103 geladen werden). In zumindest einigen Fällen kann eine Bildverarbeitungspipeline realisiert werden, indem ein erstes Kernprogramm für eine erste Pipelinephase in einen ersten Schablonenprozessor 102_1 geladen, ein zweites Kernprogramm für eine zweite Pipelinephase in einen zweiten Schablonenprozessor 102_2, geladen wird usw., wobei das erste Kernsystem die Funktionen der ersten Pipelinephase durchführt, das zweite Kernsystem die Funktionen der zweiten Pipelinephase durchführt usw., und zusätzliche Steuerablaufverfahren installiert werden, um Ausgabebilddaten von einer Pipelinephase zur nächsten Pipelinephase zu leiten.
  • In anderen Konfigurationen kann der Bildprozessor als eine parallele Maschine realisiert sein, die zwei oder mehr Schablonenprozessoren 102_1, 102_2 aufweist, die auf demselben Kernprogrammcode betrieben werden. Zum Beispiel kann ein hochgradig dichter und hoher Datenratenstrom von Bilddaten verarbeitet werden, indem Frames über mehrere Schablonenprozessoren verteilt werden, von denen jeder dieselbe Funktion ausführt.
  • Bei noch anderen Konfigurationen kann im Wesentlichen jeder DAG von Kerneln auf den Hardwareprozessor geladen werden, indem jeweilige Schablonenprozessoren mit deren eigenen jeweiligen Kernel von Programmcode konfiguriert und geeignete Steuerablauf-Hooks in die Hardware konfiguriert werden, um Ausgabebilder von einem Kernel an den Eingang eines nächsten Kernels im DAG-Design zu leiten.
  • Bei einem allgemeinen Ablauf werden die Frames der Bilddaten von einer Makro-E/A-Einheit 105 empfangen und zu einer oder mehreren der Zeilenpuffereinheiten 101 auf einer Frame-per-Frame-Basis übermittelt. Eine bestimmte Zeilenpuffereinheit parst ihren Frame aus Bilddaten in einen kleineren Bereich von Bilddaten, der als „Zeilengruppe“ bezeichnet wird, und führt dann die Zeilengruppe durch das Netzwerk 104 zu einem bestimmten Blattgenerator. Eine vollständige oder „volle“ singuläre Zeilengruppe kann sich beispielsweise aus den Daten mehrerer zusammenhängender vollständiger Zeilen oder Spalten eines Frames zusammensetzen (der Einfachheit halber bezieht sich die vorliegende Beschreibung hauptsächlich auf zusammenhängende Zeilen). Der Blattgenerator parst ferner die Zeilengruppe von Bilddaten in einen kleineren Bereich von Bilddaten, der als „Blatt“ bezeichnet wird, und präsentiert das Blatt seinem entsprechenden Schablonenprozessor.
  • Im Falle einer Bildverarbeitungspipeline oder eines DAG-Ablaufs mit einem einzigen Eingang werden im Allgemeinen Eingabeframes an die gleiche Zeilenpuffereinheit 101_1 geleitet, die die Bilddaten in Zeilengruppen parst und die Zeilengruppen zu dem Blattgenerator 103_1 leitet, dessen entsprechender Schablonenprozessor 102_1 den Code des ersten Kernsystems in der Pipeline/dem DAG ausführt. Nach Beendigung der Operationen durch den Schablonenprozessor 102_1 an den von ihm verarbeiteten Zeilengruppen sendet der Blattgenerator 103_1 Ausgabezeilengruppen an eine „nachgelagerten“ Zeilenpuffereinheit 101_2 (in manchen Anwendungsfällen kann die Ausgabezeilengruppe zurück an die gleiche Zeilenpuffereinheit 101_1 gesendet werden, die zuvor die Eingabezeilengruppen gesendet hatte).
  • Ein oder mehrere „Abnehmerkernsysteme“, die die nächste Phase/Operation in der Pipeline/dem DAG darstellen, die auf deren eigenen jeweiligen anderen Blattgenerator und Schablonenprozessor (z. B. Blattgenerator 103_2 und Schablonenprozessor 102_2) ausgeführt werden, empfangen anschließend die von dem ersten Schablonenprozessor 102_1 erzeugten Bilddaten von der nachgelagerten Zeilenpuffereinheit 101_2. Auf diese Weise werden die Ausgabedaten eines „Erzeugerkernsystems“, das auf einem ersten Schablonenprozessor betrieben wird, an ein „Abnehmerkernsystem“ weitergeleitet, das auf einem zweiten Schablonenprozessor betrieben wird, wobei das Abnehmerkernsystem nach dem Erzeugerkernsystem den nächsten Satz von Arbeitsschritten gemäß dem Design der gesamten Pipeline oder des DAGs ausführt.
  • Ein Schablonenprozessor 102 ist dafür ausgelegt, gleichzeitig an mehreren überlappenden Schablonen von Bilddaten zu arbeiten. Die mehreren überlappenden Schablonen und die interne Hardwareverarbeitungskapazität des Schablonenprozessors bestimmen effektiv die Größe eines Blattes. Hier arbeiten innerhalb eines Schablonenprozessors 102 Matrizen von Ausführungsbahnen zusammen, um gleichzeitig den Bilddatenoberflächenbereich zu verarbeiten, der von den mehreren überlappenden Schablonen bedeckt ist.
  • Wie nachstehend näher beschrieben, werden in verschiedenen Ausführungsformen, Blätter von Bilddaten in eine zweidimensionale Registermatrixstruktur innerhalb des Schablonenprozessors 102 geladen. Es wird davon ausgegangen, dass die Verwendung von Blättern und die zweidimensionale Registermatrixstruktur für effektive Energieverbrauchsverbesserungen sorgen, indem eine große Datenmenge in einen großen Registerbereich bewegt wird, so wird beispielsweise eine einzelne Ladeoperation mit direkt an den Daten ausgeführten Verarbeitungsschritten unmittelbar danach durch eine Ausführungsbahnmatrix durchgeführt. Zudem stellt die Verwendung einer Ausführungsbahnmatrix und einer entsprechenden Registermatrix verschiedene Schablonengrößen bereit, die leicht programmierbar/konfigurierbar sind.
  • 2a bis 2e veranschaulichen umfassend Ausführungsformen sowohl der Parsing-Aktivität einer Zeilenpuffereinheit 101 als auch der feineren Parsing-Aktivität einer Blattgeneratoreinheit 103 sowie der Schablonenverarbeitungsaktivität des Schablonenprozessors 102, der mit der Blatterzeugereinheit 103 gekoppelt ist.
  • 2a zeigt eine Ausführungsform eines Eingabeframes der Bilddaten 201. 2a zeigt zudem einen Umriss von drei überlappenden Schablonen 202 (die jeweils eine Abmessung von 3 Bildpunkten × 3 Bildpunkten aufweisen), für deren Betrieb ein Schablonenprozessor ausgelegt ist. Der Ausgabebildpunkt, für den jede Schablone jeweils die Ausgabebilddaten erzeugt, wird in schwarzer Farbe hervorgehoben. Der Einfachheit halber sind die drei überlappenden Schablonen 202 nur in vertikaler Richtung überlappend dargestellt. Es ist relevant, zu erkennen, dass ein Schablonenprozessor in Wirklichkeit so ausgelegt sein kann, dass dieser sowohl in vertikaler als auch in horizontaler Richtung überlappende Schablonen aufweist.
  • Aufgrund der sich, wie in 2a dargestellt, vertikal überlappenden Schablonen 202 innerhalb des Schablonenprozessors gibt es ein breites Band von Bilddaten innerhalb des Frames, das von einem einzelnen Schablonenprozessor bearbeitet werden kann. Wie nachfolgend näher beschrieben, verarbeiten die Schablonenprozessoren in einer Ausführungsform innerhalb ihrer überlappenden Schablonen Daten von links nach rechts über sämtliche Bilddaten (und wiederholen den Vorgang dann für die nächste Gruppe von Zeilen in der Reihenfolge von oben nach unten). Somit nimmt, während die Schablonenprozessoren mit ihrer Operation fortfahren, die Anzahl der schwarzen Ausgabebildpunktblöcke horizontal nach rechts zu. Wie oben erwähnt, ist eine Zeilenpuffereinheit 101 für das Parsen einer Zeilengruppe von Eingabebilddaten aus einem eingehenden Frame verantwortlich, der für die Schablonenprozessoren ausreichend ist, um eine erweiterte Anzahl anstehender Zyklen zu bearbeiten. Eine exemplarische Darstellung einer Zeilengruppe ist als schattierter Bereich 203 dargestellt. In einer Ausführungsform kann die Zeilenpuffereinheit 101 unterschiedliche Dynamiken zum Senden/Empfangen einer Zeilengruppe an einen/von einem Blattgenerator umfassen. Beispielsweise werden gemäß einem Modus, der als „vollständige Gruppe“ bezeichnet wird, die gesamten Bilddatenzeilen mit voller Breite zwischen einer Zeilenpuffereinheit und einem Blattgenerator übermittelt. Gemäß einem zweiten Modus, der als „virtuell groß“ bezeichnet wird, wird eine Zeilengruppe zunächst mit einer Teilmenge von Zeilen mit voller Breite übermittelt. Die verbleibenden Zeilen werden dann nacheinander in kleineren Stücken (mit weniger als voller Breite) übermittelt.
  • Wenn die Zeilengruppe 203 der Eingabebilddaten durch die Zeilenpuffereinheit definiert und an die Blattgeneratoreinheit übermittelt worden ist, parst die Blattgeneratoreinheit die Zeilengruppe ferner in feinere Blätter, die an die Hardwarebeschränkungen des Schablonenprozessors präziser angepasst sind. Insbesondere wird in einer Ausführungsform, wie nachfolgend näher beschrieben, jeder Schablonenprozessor aus einer zweidimensionalen Schieberegistermatrix gebildet. Die zweidimensionale Schieberegistermatrix verschiebt im Wesentlichen Bilddaten „unterhalb“ einer Matrix von Ausführungsbahnen, wobei das Muster der Verschiebung bewirkt, dass jede Ausführungsbahn innerhalb ihrer eigenen jeweiligen Schablone an Daten arbeitet (d. h. jede Ausführungsbahn ihre eigene Schablone von Informationen verarbeitet, um eine Ausgabe für diese Schablone zu erzeugen). In einer Ausführungsform sind Blätter Oberflächenbereiche von Eingabebilddaten, die die zweidimensionale Schieberegistermatrix „ausfüllen“ oder anderweitig in dieselbe geladen werden.
  • Wie nachfolgend näher beschrieben, gibt es in verschiedenen Ausführungsformen tatsächlich mehrere Schichten von zweidimensionalen Registerdaten, die bei jedem Zyklus verschoben werden können. Zur Vereinfachung verwendet ein Großteil der vorliegenden Beschreibung einfach den Begriff „zweidimensionales Schieberegister“ und dergleichen, um auf Strukturen zu verweisen, die eine oder mehrere dieser Schichten zweidimensionaler Registerdaten aufweisen, die verschoben werden können.
  • Wie in 2b dargestellt, parst der Blattgenerator ein Anfangsblatt 204 von der Zeilengruppe 203 und stellt es dem Schablonenprozessor zur Verfügung (hier entspricht das Datenblatt dem schattierten Bereich, der im Allgemeinen mit der Bezugsnummer 204 gekennzeichnet ist). Wie in 2c und 2d dargestellt, arbeitet der Schablonenprozessor an dem Blatt der eingegebenen Bilddaten durch effektives Bewegen der überlappenden Schablonen 202 von links nach rechts über das Blatt. Wie in 2d ist die Anzahl der Bildpunkte, für die ein Ausgabewert aus den Daten innerhalb des Blattes berechnet werden könnte, erschöpft (keine anderen Bildpunktpositionen können einen Ausgabewert haben, der aus den Informationen innerhalb des Blattes bestimmt wird). Zur Vereinfachung wurden die Randbereiche des Bildes ignoriert.
  • Wie in 2e ersichtlich, liefert der Blattgenerator dann ein nächstes Blatt 205 für den Schablonenprozessor, um die Operationen fortzusetzen. Zu beachten ist, dass die Anfangspositionen der Schablonen, wenn sie mit der Operation an dem nächsten Blatt beginnen, der nächsten Progression (wie zuvor in 2d dargestellt) vom Erschöpfungspunkt nach rechts auf dem ersten Blatt entsprechen. Mit dem neuen Blatt 205 bewegen sich die Schablonen einfach weiter nach rechts, während der Schablonenprozessor auf dem neuen Blatt auf die gleiche Weise arbeitet wie bei der Verarbeitung des ersten Blattes.
  • Zu beachten ist, dass zwischen den Daten des ersten Blattes 204 und den Daten des zweiten Blattes 205 aufgrund der Randbereiche der Schablonen, die einen Ausgabebildpunktort umgeben, eine gewisse Überlappung vorliegt. Die Überlappung könnte einfach gehandhabt werden, indem der Blattgenerator die überlappenden Daten zweimal überträgt. In alternativen Implementierungen kann, um dem Schablonenprozessor ein nächstes Blatt zuzuführen, der Blattgenerator damit fortfahren, ausschließlich neue Daten an den Schablonenprozessor zu senden, während der Schablonenprozessor die überlappenden Daten aus dem vorhergehenden Blatt verwendet.
  • b. Schablonenprozessordesign und -betrieb
  • 3a zeigt eine Ausführungsform einer Schablonenprozessorarchitektur 300. Wie in 3 ersichtlich, beinhaltet der Schablonenprozessor eine Datenberechnungseinheit 301, einen Skalarprozessor 302 und einen zugehörigen Speicher 303, sowie eine E/A-Einheit 304. Die Datenberechnungseinheit 301 beinhaltet eine Matrix von Ausführungsbahnen 305, eine zweidimensionale Verschiebungsmatrixstruktur 306 und getrennte Direktzugriffsspeicher 307, die mit bestimmten Zeilen oder Spalten der Matrix verbunden sind.
  • Die E/A-Einheit 304 ist verantwortlich für das Laden von „eingegebenen“ Datenblättern, die von dem Blattgenerator empfangen wurden, in die Datenberechnungseinheit 301 sowie das Speichern der von dem Schablonenprozessor „ausgegebenen“ Blätter im Blattgenerator. In einer Ausführungsform umfasst das Laden von Blattdaten in die Datenberechnungseinheit 301 das Parsen eines empfangenen Blattes in die Zeilen/Spalten der Bilddaten sowie das Laden der Zeilen/Spalten der Bilddaten in die zweidimensionale Schieberegisterstruktur 306 oder in die jeweiligen Direktzugriffsspeicher 307 der Zeilen/Spalten der Ausführungsbahnmatrix (wie nachfolgend näher beschrieben). Wird das Blatt anfänglich in die Speicher 307 geladen, können die einzelnen Ausführungsbahnen innerhalb der Ausführungsbahnmatrix 305 dann die Blattdaten, sofern geeignet (z. B. als Ladebefehl kurz vor der Operation der Blattdaten), in die zweidimensionale Schieberegisterstruktur 306 der Direktzugriffsspeicher 307 laden. Nach Beendigung des Ladens eines Datenblattes in die Registerstruktur 306 (ob direkt aus einem Blattgenerator oder aus den Speichern 307) arbeiten die Ausführungsbahnen der Ausführungsbahnmatrix 305 an den Daten und „schreiben“ letztendlich die fertigen Daten als ein Blatt direkt „zurück“ in den Blattgenerator oder in die Direktzugriffsspeicher 307. Im letzteren Fall ruft die E/A-Einheit 304 die Daten aus den Direktzugriffsspeichern 307 ab, um ein Ausgabeblatt zu bilden, das dann an den Blattgenerator weitergeleitet wird.
  • Der Skalarprozessor 302 beinhaltet einen Programmcontroller 309, der die Befehle des Programmcodes des Schablonenprozessors aus dem Skalarspeicher 303 einliest und die Befehle an die Ausführungsbahnen in der Ausführungsbahnmatrix 305 ausgibt. In einer Ausführungsform wird ein einzelner Befehl auf alle Ausführungsbahnen innerhalb der Matrix 305 übertragen, um ein SIMD-ähnliches Verhalten der Datenberechnungseinheit 301 zu bewirken. In einer Ausführungsform beinhaltet das Befehlsformat der Befehle, die aus dem Skalarspeicher 303 gelesen und an die Ausführungsbahnen der Ausführungsbahnmatrix 305 ausgegeben werden, ein sehr langes Befehlswortformat (VLIW), welches mehr als einen Operationscode pro Befehl beinhaltet. In einer weiteren Ausführungsform beinhaltet das VLIW-Format sowohl einen ALU-Operationscode, der eine mathematische Funktion anweist, die von der ALU einer Ausführungsbahn ausgeführt wird (wobei, wie nachstehend beschrieben, in einer Ausführungsform mehr als eine herkömmliche ALU-Operation angegeben sein kann), als auch einen Speicheroperationscode (der eine Speicheroperation für eine spezifische Ausführungsbahn oder eine Gruppe von Ausführungsbahnen anweist).
  • Der Begriff „Ausführungsbahn“ bezieht sich auf eine Gruppe von einer oder mehreren Ausführungseinheiten, die einen Befehl ausführen können (z. B. eine Logikschaltung, die einen Befehl ausführen kann). Eine Ausführungsbahn kann in verschiedenen Ausführungsformen jedoch prozessorähnlichere Funktionen und nicht nur Ausführungseinheiten beinhalten. Beispielsweise kann eine Ausführungsbahn neben einer oder mehreren Ausführungseinheiten auch Logikschaltungen beinhalten, die einen empfangenen Befehl dekodieren, oder für den Fall MIMD-ähnlicherer Architekturen eine Logikschaltung beinhalten, die einen Befehl abruft und dekodiert. In Bezug auf MIMD-ähnliche Ansätze kann, obwohl ein zentraler Programmsteuerungsansatz hier weitgehend beschrieben wurde, auch ein verteilter Ansatz in verschiedenen alternativen Ausführungsformen (z. B. unter anderem auch Programmcode und ein Programmcontroller innerhalb jeder Ausführungsbahn der Matrix 305) implementiert werden.
  • Die Kombination einer Ausführungsbahnmatrix 305, eines Programmcontrollers 309 und einer zweidimensionalen Schieberegisterstruktur 306 stellt eine weitgehend anpassbare/konfigurierbare Hardware-Plattform für ein breites Spektrum programmierbarer Funktionen bereit. Beispielsweise können Anwendungssoftwareentwickler in der Lage sein, Kernsysteme mit einem breiten Spektrum unterschiedlicher Funktionsfähigkeiten sowie Abmessungen (z. B. Schablonengrößen) zu programmieren, da die einzelnen Ausführungsbahnen in der Lage sind, eine breite Palette von Funktionen auszuführen und ohne Weiteres auf Eingabebilddaten in der Nähe einer beliebigen Ausgabematrixposition zuzugreifen.
  • Abgesehen davon, dass diese als Datenspeicher für Bilddaten genutzt werden, die durch die Ausführungsbahnmatrix 305 bearbeitet werden, können die Direktzugriffsspeicher 307 zudem eine oder mehrere Nachschlagetabellen verwalten. In verschiedenen Ausführungsformen können eine oder mehrere skalare Wertetabellen auch innerhalb des skalaren Speichers 303 instanziiert werden.
  • Ein skalarer Nachschlagevorgang beinhaltet das Übermitteln desselben Datenwerts aus derselben Nachschlagetabelle von demselben Index an sämtliche Ausführungsbahnen innerhalb der Ausführungsbahnmatrix 305. In verschiedenen Ausführungsformen wird das oben beschriebene VLIW-Befehlsformat erweitert, um darüber hinaus einen skalaren Operationscode einzuschließen, der eine vom Skalarprozessor ausgeführte Nachschlageoperation in eine skalare Wertetabelle leitet. Der für die Verwendung mit dem Operationscode angegebene Index kann ein unmittelbarer Operand sein oder von einem anderen Datenspeicherort abgerufen werden. Unabhängig davon umfasst in einer Ausführungsform ein Suchvorgang in einer skalaren Wertetabelle innerhalb des skalaren Speichers im Wesentlichen das Senden des gleichen Datenwerts an alle Ausführungsbahnen innerhalb der Ausführungsbahnmatrix 305 während des gleichen Taktzyklus. Weitere Details zur Verwendung und Operation von Wertetabellen werden nachfolgend bereitgestellt.
  • 4 zeigt eine Ausführungsform einer Datenberechnungskomponente 401. Wie in 4 dargestellt, beinhaltet die Datenberechnungskomponente 401 eine Matrix von Ausführungsbahnen 405, die logisch „oberhalb“ einer zweidimensionalen Schieberegistermatrixstruktur 406 positioniert sind. Wie oben beschrieben, wird in verschiedenen Ausführungsformen ein von einem Blattgenerator bereitgestelltes Bilddatenblatt in das zweidimensionale Schieberegister 406 geladen. Die Ausführungsbahnen arbeiten dann an den Blattdaten aus der Registerstruktur 406.
  • Die Ausführungsbahnmatrix 405 und die Schieberegisterstruktur 406 sind in Bezug zueinander fixiert. Die Daten innerhalb der Schieberegistermatrix 406 verschieben sich jedoch in einer strategischen und koordinierten Weise, um zu bewirken, dass jede Ausführungsbahn in der Ausführungsbahnmatrix eine andere Schablone innerhalb der Daten verarbeitet. Demgemäß bestimmt jede Ausführungsbahn den Ausgabebildwert für einen anderen Bildpunkt in dem erzeugten Ausgabeblatt. Aus der Architektur von 4 sollte klar sein, dass überlappende Schablonen nicht nur vertikal, sondern auch horizontal angeordnet sind, da die Ausführungsbahnmatrix 405 vertikal angrenzende Ausführungsbahnen sowie horizontal angrenzende Ausführungsbahnen aufweist.
  • Einige zu beachtende architektonische Merkmale der Datenberechnungseinheit 401 beinhalten die Schieberegisterstruktur 406, die breitere Abmessungen als die Ausführungsbahnmatrix 405 aufweist. Das heißt, es gibt einen „Ring“ von Registern 409 außerhalb der Ausführungsbahnmatrix 405. Obwohl der Ring 409 auf zwei Seiten der Ausführungsbahnmatrix dargestellt ist, kann der Ring je nach Implementierung auf weniger (einer) oder mehr (drei oder vier) Seiten der Ausführungsbahnmatrix 405 existieren. Der Ring 405 dient dazu, einen „Ausweitungsraum“ für Daten bereitzustellen, die sich außerhalb der Grenzen der Ausführungsbahnmatrix 405 ausweiten, wenn die Daten „unterhalb“ der Ausführungsbahnen 405 verschoben werden. In einem einfachen Fall benötigt eine 5×5-Schablone, die am rechten Rand der Ausführungsbahnmatrix 405 zentriert ist, vier Ringregisterorte weiter nach rechts, wenn die linksseitigen Bildpunkte der Schablone verarbeitet werden. Zur Vereinfachung der Zeichnung zeigt 4 die Register der rechten Seite des Rings mit nur horizontalen Schiebeverbindungen und Registern der Unterseite des Rings, da nur vertikale Schiebeverbindungen vorhanden sind, wenn in einer nominalen Ausführungsform die Register auf beiden Seiten (rechts, unten) sowohl horizontale als auch vertikale Verbindungen aufweisen würden.
  • Zusätzlicher Ausweitungsraum wird durch Direktzugriffsspeicher 407 bereitgestellt, die mit jeder Zeile und/oder jeder Spalte in der Matrix oder Teilen davon gekoppelt sind (z. B. kann ein Direktzugriffsspeicher einer „Region“ der Ausführungsbahnmatrix zugewiesen werden, die zeilenweise 4 Ausführungsbahnen und spaltenweise 2 Ausführungsbahnen überspannt. Zur Vereinfachung bezieht sich der Rest der Anwendung hauptsächlich auf zeilen- und/oder spaltenbasierte Zuordnungsschemen). Wenn die Kernsystemoperationen einer Ausführungsbahn es erfordern, Bildpunktwerte außerhalb der zweidimensionalen Schieberegistermatrix 406 zu verarbeiten (was einige Bildverarbeitungsroutinen ggf. erfordern), kann sich die Ebene der Bilddaten z. B. vom Ringbereich 409 in den Direktzugriffsspeicher 407 weiter ausweiten. Betrachten wir zum Beispiel eine 6×6-Schablone, bei der die Hardware einen Ringbereich von nur vier Speicherelementen rechts von einer Ausführungsbahn am rechten Rand der Ausführungsbahnmatrix beinhaltet. In diesem Fall müssten die Daten vom rechten Rand des Rings 409 weiter nach rechts verschoben werden, um die Schablone vollständig zu verarbeiten. Daten, die außerhalb des Ringbereichs 409 verschoben werden, würden sich dann in den Direktzugriffsspeicher 407 ausweiten. Andere Anwendungen der Direktzugriffsspeicher 407 und des Schablonenprozessors aus 3 werden nachfolgend bereitgestellt.
  • 5a bis 5k zeigen ein Ausführungsbeispiel für die Art und Weise, in der die Bilddaten, wie oben angedeutet, innerhalb der zweidimensionalen Schieberegistermatrix „unterhalb“ der Ausführungsbahnmatrix verschoben werden. Wie in 5a dargestellt, sind die Dateninhalte der zweidimensionalen Verschiebungsmatrix in einer ersten Matrix 507 dargestellt, während die Ausführungsbahnmatrix durch einen Frame 505 dargestellt ist. Außerdem sind innerhalb der Ausführungsbahnmatrix vereinfacht zwei benachbarte Ausführungsbahnen 510 dargestellt. In dieser vereinfachten Darstellung 510 beinhaltet jede Ausführungsbahn ein Register R1, das Daten aus dem Schieberegister akzeptieren kann, Daten von einer ALU-Ausgabe akzeptieren kann (z. B. sich durch Zyklen als Akkumulator verhalten) oder Ausgabedaten in ein Ausgabeziel schreiben kann.
  • Jede Ausführungsbahn verfügt zudem in einem lokalen Register R2 über den Inhalt „darunter“ in der zweidimensionalen Verschiebungsmatrix. Somit ist R1 ein physisches Register der Ausführungsbahn, während R2 ein physisches Register der zweidimensionalen Schieberegistermatrix ist. Die Ausführungsbahn beinhaltet eine ALU, die mit Operanden arbeiten kann, die von R1 und/oder R2 bereitgestellt werden. Wie nachfolgend näher beschrieben, wird in einer Ausführungsform das Schieberegister tatsächlich mit mehreren (einer „Tiefe“ von) Speicher-/Registerelementen pro Matrixposition implementiert, die Verschiebungsaktivität ist jedoch auf eine Ebene von Speicherelementen begrenzt (z. B. kann sich nur eine Ebene von Speicherelementen pro Zyklus verschieben). 5a bis 5k stellen eine dieser tieferen Registerpositionen dar, wie sie verwendet werden, um das resultierende X aus den jeweiligen Ausführungsbahnen zu speichern. Zur Veranschaulichung ist das tiefere resultierende Register neben anstatt unter dessen Gegenstückregister R2 gezeichnet.
  • 5a bis 5k konzentrieren sich auf die Berechnung von zwei Schablonen, deren zentrale Position mit dem Paar von Ausführungsbahnpositionen 511 ausgerichtet ist, die in der Ausführungsbahnmatrix dargestellt sind. Zur Vereinfachung der Darstellung wird das Paar von Ausführungsbahnen 510 als horizontale Nachbarn gezeichnet, obgleich sie nach dem folgenden Beispiel tatsächlich vertikale Nachbarn sind.
  • Wie anfangs in 5a ersichtlich, sind die Ausführungsbahnen auf deren zentralen Schablonenpositionen zentriert. 5b zeigt den Objektcode, der von beiden Ausführungsbahnen ausgeführt wird. Wie in 5b dargestellt, bewirkt der Programmcode beider Ausführungsbahnen, dass sich die Daten innerhalb der Schieberegistermatrix eine Position nach unten und eine Position nach rechts verschieben. Damit werden beide Ausführungsbahnen an der oberen linken Ecke ihrer jeweiligen Schablonen ausgerichtet. Der Programmcode bewirkt dann, dass sich die Daten (in R2) an ihren jeweiligen Stellen in R1 laden lassen.
  • Wie in 5c dargestellt, bewirkt der Programmcode als Nächstes, dass das Paar von Ausführungsbahnen die Daten innerhalb der Schieberegistermatrix um eine Einheit nach links verschiebt, wodurch bewirkt wird, dass der Wert rechts von der jeweiligen Position der jeweiligen Ausführungsbahn in die jeweilige Position der Ausführungsbahn verschoben wird. Der Wert in R1 (vorheriger Wert) wird dann mit dem neuen Wert addiert, der sich in die Position der Ausführungsbahn (in R2) verschoben hat. Das Ergebnis wird in R1 geschrieben. Wie in 5d dargestellt, wird der gleiche Prozess wie oben für 5c wiederholt, wodurch bewirkt wird, dass das Ergebnis R1 nun den Wert A + B + C in der oberen Ausführungsbahn und F + G + H in der unteren Ausführungsbahn beinhaltet. Zu diesem Zeitpunkt haben beide Ausführungsbahnen die obere Zeile ihrer jeweiligen Schablonen verarbeitet. Zu beachten ist der Überlauf in einen Ringbereich auf der linken Seite der Ausführungsbahnmatrix (falls einer auf der linken Seite existiert) oder in einen Direktzugriffsspeicher, wenn auf der linken Seite der Ausführungsbahnmatrix kein Ringbereich existiert.
  • Wie in 5e dargestellt, bewirkt der Programmcode als Nächstes, dass sich die Daten innerhalb der Schieberegistermatrix eine Einheit nach oben verschieben, wodurch bewirkt wird, dass beide Ausführungsbahnen am rechten Rand der mittleren Zeile ihrer jeweiligen Schablonen ausgerichtet sind. Register R1 der beiden Ausführungsbahnen beinhaltet derzeit die Summe der oberen Zeile der Schablone und den rechten Wert der mittleren Zeile. 5f und 5g zeigen weitere Fortschritte beim Bewegen über die mittlere Zeile der beiden Schablonen der Ausführungsbahn nach links. Die kumulative Addition setzt sich fort, sodass am Ende der Verarbeitung von 5g beide Ausführungsbahnen die Summe der Werte der obersten Zeile und der mittleren Zeile ihrer jeweiligen Schablonen beinhalten.
  • 5h zeigt eine weitere Verschiebung, um jede Ausführungsbahn an der nächsten Zeile ihrer entsprechenden Schablonen auszurichten. 5i und 5j zeigen eine fortlaufende Verschiebung zur vollständigen Verarbeitung über den Verlauf der Schablonen der beiden Ausführungsbahnen. 5k zeigt eine zusätzliche Verschiebung, um jede Ausführungsbahn an ihrer korrekten Position in der Datenmatrix auszurichten und das Ergebnis in dasselbe zu schreiben.
  • In dem Beispiel aus 5a5k ist zu beachten, dass der Objektcode für die Verschiebungsoperationen ein Befehlsformat beinhalten kann, das die Richtung und die Größe der in (X, Y)-Koordinaten ausgedrückten Verschiebung identifiziert. Der Objektcode für eine Verschiebung um eine Position nach oben kann im Objektcode beispielsweise als SHIFT 0, +1 ausgedrückt werden. Als weiteres Beispiel kann eine Verschiebung um eine Position nach rechts im Objektcode als SHIFT +1, 0 ausgedrückt werden. Darüber hinaus können in verschiedenen Ausführungsformen Verschiebungen größerer Größenordnung im Objektcode (z. B. SHIFT 0, +2) spezifiziert werden. Wenn die 2D-Schieberegister-Hardware hier nur Verschiebungen um eine Position pro Zyklus unterstützt, kann der Befehl der Maschine so interpretiert werden, dass eine Mehrfachzyklus-Ausführung erfordert wird, oder die 2D-Schieberegister-Hardware kann so ausgelegt sein, dass sie Verschiebungen um mehr als eine Position pro Zyklus unterstützt. Ausführungsformen der letzteren Variante werden nachfolgend näher beschrieben.
  • 6a zeigt eine weitere, detailliertere Darstellung der Einheitszelle für die Ausführungsbahnmatrix und die Schieberegisterstruktur (Register im Ringbereich beinhalten keine entsprechende Ausführungsbahn). Die Ausführungsbahn und der Registerbereich, die jeder Position in der Ausführungsbahnmatrix zugeordnet sind, werden in einer Ausführungsform implementiert, indem der in 6a ersichtliche Schaltkreis an jedem Knoten der Ausführungsbahnmatrix instanziiert wird. Wie in 6a dargestellt, beinhaltet die Einheitszelle eine Ausführungsbahn 601, die mit einer Registerdatei 602 verbunden ist, die aus vier Registern R2 bis R5 besteht. Während eines Zyklus kann die Ausführungsbahn 601 von einem Register R1 bis R5 einlesen oder in diese schreiben. Für Befehle, die zwei Eingangsoperanden erfordern, kann die Ausführungsbahn beide Operanden von einem beliebigen R1 bis R5 abrufen.
  • In einer Ausführungsform wird die zweidimensionale Schieberegisterstruktur implementiert, indem es während eines einzigen Zyklus erlaubt wird, dass der Inhalt eines beliebigen von (nur) einem der Register R2 bis R4 zu einer seiner benachbarten Registerdateien durch den Ausgangsmultiplexer 603 „heraus“ verschoben wird, und der Inhalt eines beliebigen von (nur) einem der Register R2 bis R4 durch den Inhalt ersetzt wird, der von einem entsprechenden Nachbarn durch den Eingangsmultiplexer 604 „hinein“ verschoben wird, sodass Verschiebungen zwischen den Nachbarn in gleicher Richtung (z. B. alle Ausführungsbahnen nach links, alle Ausführungsbahnen nach rechts usw.) erfolgen. Obwohl es für ein gleiches Register üblich sein kann, dass dessen Inhalt verschoben und durch den Inhalt ersetzt wird, der in demselben Zyklus verschoben wird, erlaubt die Multiplexeranordnung 603, 604 unterschiedliche Schiebequellen- und Schiebezielregister innerhalb einer gleichen Registerdatei während eines gleichen Zyklus.
  • Wie in 6a dargestellt, ist zu beachten, dass während einer Schiebesequenz eine Ausführungsbahn den Inhalt aus ihrer Registerdatei 602 zu deren jeweiligen linken, rechten, oberen und unteren Nachbarn schiebt. In Verbindung mit derselben Verschiebungssequenz verschiebt die Ausführungsbahn zudem den Inhalt in deren Registerdatei von einem bestimmten seiner linken, rechten, oberen und unteren Nachbarn. Das Herausverschiebungsziel und die Hereinverschiebungsquelle sollten wiederum mit einer gleichen Verschiebungsrichtung für alle Ausführungsbahnen übereinstimmen (wenn z. B. die Verschiebung heraus zum rechten Nachbarn erfolgt, sollte die Verschiebung herein vom linken Nachbarn erfolgen).
  • Obwohl in einer Ausführungsform der Inhalt von nur einem Register pro Ausführungsbahn pro Zyklus verschoben werden darf, können andere Ausführungsformen zulassen, dass der Inhalt von mehr als einem Register herein/heraus verschoben wird. Beispielsweise kann der Inhalt von zwei Registern während eines gleichen Zyklus heraus/herein verschoben werden, wenn eine zweite Instanz der in 6a beobachteten Multiplexerschaltung 603, 604 in das Design von 6a eingefügt wird. Selbstverständlich können bei Ausführungsformen, bei denen der Inhalt von nur einem Register pro Zyklus verschoben werden kann, Verschiebungen von mehreren Registern zwischen mathematischen Operationen stattfinden, indem mehr Taktzyklen für Verschiebungen zwischen mathematischen Operationen verbraucht werden (z. B. kann der Inhalt von zwei Registern zwischen mathematischen Operationen verschoben werden, indem zwei Verschiebungsoperationen zwischen den mathematischen Operationen verbraucht werden).
  • Falls weniger als der gesamte Inhalt der Registerdateien einer Ausführungsbahn während einer Verschiebungssequenz verschoben wird, ist zu beachten, dass der Inhalt der nicht verschobenen Register jeder Ausführungsbahn an Ort und Stelle bleibt (nicht verschoben wird). Dementsprechend bleibt jeder nicht verschobene Inhalt, der nicht durch verschobenen Inhalt ersetzt wird, durch den Verschiebungszyklus hinweg lokal auf der Ausführungsbahn. Die in jeder Ausführungsbahn beobachtete Speichereinheit („M“) wird verwendet, um Daten von/zu dem Direktzugriffsspeicherraum zu laden/zu speichern, der mit der Zeile und/oder Spalte der Ausführungsbahn innerhalb der Ausführungsbahnmatrix verbunden ist. Hier fungiert die M-Einheit als Standard-M-Einheit, indem sie häufig zum Laden/Speichern von Daten verwendet wird, die nicht von/in den eigenen Registerbereich der Ausführungsbahn geladen/gespeichert werden können. In verschiedenen Ausführungsformen besteht die primäre Operation der M-Einheit darin, Daten von einem lokalen Register in den Speicher zu schreiben und Daten aus dem Speicher einzulesen und in ein lokales Register zu schreiben.
  • In Bezug auf die von der ALU-Einheit der Hardware-Ausführungsbahn 601 unterstützten ISA-Operationscodes sind in verschiedenen Ausführungsformen die von der Hardware-ALU unterstützten mathematischen Operationscodes integral (d. h. im Wesentlichen gleich) mit den von den unterstützten mathematischen Operationscodes verbunden, die eine virtuelle Ausführungsbahn unterstützen (z. B. ADD, SUB, MOV, MUL, MAD, ABS, DIV, SHL, SHR, MIN/MAX, SEL, AND, OR, XOR, NOT). Wie oben beschrieben, können Speicherzugriffsbefehle von der Ausführungsbahn 601 ausgeführt werden, um Daten von/zu ihrem zugehörigen Arbeitsspeicher abzurufen/zu speichern. Zudem unterstützt die Hardware-Ausführungsbahn 601 Verschiebungsoperationen (nach rechts, links, oben, unten), um Daten innerhalb der zweidimensionalen Schieberegisterstruktur zu verschieben. Wie oben beschrieben, werden Programmsteuerbefehle weitgehend durch den Skalarprozessor des Schablonenprozessors ausgeführt.
  • 7a zeigt eine Ausführungsform einer Draufsicht des logischen (und möglicherweise physischen) Designs einer zweidimensionalen Registermatrixstruktur. Die Draufsicht von 7A entspricht im Wesentlichen der Ausführungsform des Einheitszellendesigns von 6, in der jede Registerdatei bei einem bestimmten Matrixort mit der Registerdatei seiner linken, rechten, oberen und unteren benachbarten Einheitszellenposition gekoppelt ist. Das heißt, beispielsweise, wie in 7a ersichtlich, die Registerdatei A ist mit den Registerdateien B, C, D und E gekoppelt.
  • 7b zeigt eine Ausführungsform einer Draufsicht des logischen (und möglicherweise physischen) Designs einer zweidimensionalen Registermatrixstruktur. Wie in 7b dargestellt, sind Einheitszellen nicht nur an die nächstgelegenen vertikalen und horizontalen Nachbarn gekoppelt, sondern auch an die „zweit-“nächstgelegenen vertikalen und horizontalen Nachbarn. Wie zum Beispiel in 7b dargestellt, die Einheitszelle A ist nicht nur an die Einheitszellen B, C, D und E gekoppelt, sondern auch an die Einheitszellen F, G, H und I. Zur Vereinfachung der Zeichnung und Ansicht wird nur Einheitszelle A mit der vollständigen Reihe an Verbindungen, die für die nächstgelegene und zweit-nächstgelegene benachbarte Kopplung nötig sind, dargestellt. Außer Einheitszelle A zeigt nur jede zweite Einheitszelle die zweit-nächstgelegene benachbarte Kopplung entlang einer bestimmten Zeile oder Spalte (z. B. Einheitszelle B zeigt keine nächstgelegene benachbarte Kopplung). Der Leser wird verstehen, dass eine bevorzugte Ausführungsform die Kopplung der Einheitszelle A für z. B. alle Einheitszellen innerhalb des Kerns und in ausreichender Entfernung der Matrixränder, um eine zweit-nächstgelegene benachbarte Kopplung zu unterstützen, beinhalten würde.
  • Die zweit-nächstgelegene Verbindung bietet eine schnellere Ausbreitung der Registerwerte durch die Registermatrix. Wenn ein Registerwert beispielsweise zu einer Einheitszelle vier Orte entfernt verschoben werden muss, kann die Matrixstruktur von 7b die Bewegung in zwei Zyklen erreichen, während die Matrixstruktur von 7b die gleiche Bewegung in nur vier Zyklen erreichen kann. Beachten Sie, dass die Ausführungsform von 7b auch nächstgelegene benachbarte Verbindungen hat. Der Ausführungsbahn-Befehlssatz für die Struktur von 7b kann daher ausgedehnter als der Ausführungsbahn-Befehlssatz für die Struktur von 7a sein (ersterer mit Ein-Sprung und Zwei-Sprung-MOV-Befehle, während letzterer nur Ein-Sprung-MOV-Befehle hat).
  • Es ist angebracht, darauf hinzuweisen, dass die Anzahl und Kombination von verschiedenen nummerierten Sprungbewegungen und entsprechenden Matrixstruktur-Ausführungsformen von Ausführungsform zu Ausführungsform, abhängig von der entsprechenden Abwägung aus dem Gleichgewicht zwischen der Notwendigkeit für schnelle Registerwertbewegung und der Toleranz für Matrixstruktur-Verdrahtungsdichte, sehr unterschiedlich sein kann. Einige Ausführungsformen können nächstgelegene dritte und/oder vierte benachbarte Verbindungen unterstützen, andere wiederum nicht (im Fall von nächstgelegenen vierten benachbarten Verbindungen würde z. B. Einheitszelle D direkt an Einheitszelle J in 7b gekoppelt werden). Einige Ausführungsformen können nur nächstgelegene benachbarte Verbindungen und nächstgelegene dritte oder weiter entfernte Verbindungen haben usw. Denkbar aufwendigere Ausführungsformen können sogar diagonale Verbindungen (z. B. die Verbindung von Einheitszelle A mit Einheitszelle K und ihren anderen drei benachbarten Eckeinheitszellen in 7b) unterstützen. Fachleute auf dem Gebiet werden erkennen, dass die verschiedenen erweiterten Verbindungen unter Einheitszellen einfach durch Erweitern der Eingabequellen zur Eingabe-Mux-Struktur 604 und Erweitern des Fan-Out zur Ausgabe-Mux-Struktur 603 von 6 erreicht wird.
  • 8a zeigt eine beispielhafte logische Anordnung der Register entlang einer Zeile oder Spalte in einer zweidimensionalen Registermatrixstruktur (zur Vereinfachung der Zeichnung hat die Registermatrix nur Abmessungen von 8×8, während in der Praxis die Abmessungen viel größer sein können). Benachbarte Bildpunkte, die in einer Matrix verarbeitet werden, befinden sich hier in numerisch benachbarten Einheitszellen (z. B. ein paar benachbarte Bildpunkte in der Matrix werden in Einheitszellen 3 und 4 statt 3 und 5 platziert). Das logische Design von 8a beinhaltet auch eine Rollfunktion durch Kopplung der ersten logischen Einheitszelle 1 bis zur letzten Einheitszelle 8 durch Verbindung 801 (somit können die Ausführungsbahnen der Ausführungsbahnmatrix auch einen Roll-Operationscode beinhalten).
  • Probleme können jedoch insbesondere bei Matrizen mit großen Abmessungen auftreten, wenn das Design von 8a nicht nur das logische Design, sondern auch das physische Design darstellt. Wenn der Ansatz von 8a auch das physische Design darstellt, so entspricht Verbindung 801 einem extrem langen Draht im Vergleich zu der Länge der anderen Drähte, die die anderen Einheitszellpaare als Paar 1 und 8 verbinden. Diese besondere abweichende Drahtlänge kann Timing-Komplikationen bei Schaltungen verursachen (durch Verlangsamen aller Schiebezeiten zwischen allen Einheitszellen, sodass sie nicht weniger als die langsamste 1<->8 Schiebezeit sind, oder durch Einführen von Komplikationen, die mehr Zyklen zwischen 1<->8 Verschiebungen als Verschiebungen zwischen allen anderen benachbarten Einheitszellen erkennen).
  • 8b zeigt eine Ausführungsform eines verbesserten physischen Designs für eine Zeile oder Spalte einer Registermatrixstruktur mit dem logischen Design von 8a. Das physische Design entspricht hier dem tatsächlichen Layout der Schaltungsstrukturen im Gegensatz zu nur logischen Verbindungen (wie bei einem logischen Design). Wie in 8b dargestellt, das physische Design amortisiert die zusätzliche Länge, die bei der 1<->8 Verbindung unter den anderen Einheitszellen erforderlich ist, indem es in der Logik des Layouts ein ringförmiges Design festlegt. Obwohl Elementarzelle 1 physisch mit Einheitszelle 2 verbunden ist, um das Logik-Design zu erhalten, sitzt beispielsweise Einheitszelle 8 physisch zwischen ihnen. Das Ergebnis ist eine maximale Drahtlänge zwischen den Einheitszellen in der Struktur von 8b, die viel kürzer als die Länge des Drahtes 801 in 8a ist. Demgemäß vermeiden die Timing-Komplikationen der Struktur von 8b die oben genannten Timing-Komplikationen der Struktur von 8a. In einer Ausführungsform kann eine Rolle von Registerinhalt zwischen allen Einheitszellen in einem einzigen Zyklus auftreten.
  • 8c zeigt, dass die Datenbusstruktur zwischen dem Blattgenerator oder einem Direktzugriffsspeicher 802 (z. B. eines RAMs 407 von 4) und einer Zeile oder Spalte der Registermatrix eine Art Umstellstruktur 803 beinhaltet, um die richtigen logischen Verbindungen zu einer Matrix oder einer Zeile mit einem ringförmigen physischen Layout aufrechtzuerhalten. 8d zeigt eine andere ringförmige Struktur, die 4-Sprung-Verschiebungen umsetzen kann, wo der maximale zurückgelegte Abstand eines jeden Registerwerts 4 Einheitszellen beträgt. Hier sollte klar sein, dass eine andere Umstellung, wie ein Datenbus, zwischen den Registern von 8d und dem Blattgenerator oder RAM existieren würde. Ein Merkmal kennzeichnend für die Umsetzung eines physikalischen ringförmigen Layouts ist die Existenz von Umstellung durch einen Datenbus, der Eingänge verbindet, die in logischer Reihenfolge angeordnet sind.
  • 8e zeigt eine besondere Fan-Out-Schaltung vom Ausgangsmultiplexer 804 einer Einheitszelle der Verschiebungsmatrixstruktur. Hier ist der Ausgangsmultiplexer 804 ähnlich wie der Ausgangsmultiplexer 603 von 6a. Da die Verschiebungsmatrix konzipiert ist, mehr und mehr Verbindungen (Ein-Sprung, Zwei-Sprung usw.) zu unterstützen, wächst der Fan-Out des Ausgangsmultiplexers 804. Sowie der Fan-Out des Ausgangsmultiplexers 804 wächst, kann Stromverbrauch mehr und mehr zu einem Problem werden. 8e zeigt einen Ausgangsmultiplexer 804 für eine Schieberegistermatrix, der Ein-Sprung und Zwei-Sprung-Verbindungen unterstützt. Hier würde ein neuer Ausgang am Multiplexer 804 (z. B. ein neuer Herausverschiebungswert) ohne das Vorhandensein von Logikgattern, wie in 8e dargestellt, an acht Orte (linker Nachbar, rechter Nachbar, ..., 2-Sprung unterer Nachbar) übertragen werden. Wie auf dem Fachgebiet bekannt ist, entspricht hier eine Änderung der Daten über eine Lauflänge von Draht in einer logischen Schaltung „Schaltaktivität“, die wiederum Strom verbraucht.
  • Das Vorhandensein von acht dargestellten Logikgattern am Ausgang des Multiplexers 804 sind dafür ausgelegt, um solche Datenänderungen zu verhindern, außer auf dem tatsächlichen Draht, der der Verschiebungsrichtung entspricht. Wenn beispielsweise die Verschiebungsrichtung ein Sprung nach rechts ist, erlaubt nur das Gatter, das zum unmittelbaren rechten Nachbarn gekoppelt ist, dass die Ausgabe des Multiplexers 804 hindurch gelangt. Alle anderen Logikgatter werden verhindern, dass der Datenwert an die anderen Knoten weitergegeben wird (wo der Verschiebungswert nicht benötigt wird) und reduzieren dabei den Stromverbrauch der Verschiebungsoperation.
  • c. Ausführungsformen zur Implementierung
  • Es ist wichtig, darauf hinzuweisen, dass die oben beschriebenen verschiedenen Merkmale der Bildprozessorarchitektur nicht zwangsläufig auf die Bildverarbeitung im herkömmlichen Sinne beschränkt sind und daher auf andere Anwendungen angewendet werden können, die ggf. veranlassen, dass der Bildprozessor neu charakterisiert wird oder auch nicht. Wenn beispielsweise eines der vorstehend beschriebenen verschiedenen Merkmale der Bildprozessorarchitektur bei der Erstellung und/oder Erzeugung und/oder Wiedergabe von Animationen anstatt bei der Verarbeitung von tatsächlichen Kamerabildern verwendet werden soll, kann der Bildprozessor als grafische Verarbeitungseinheit charakterisiert sein. Zudem können die oben beschriebenen Architekturmerkmale des Bildprozessors in anderen technischen Anwendungen, wie z. B. in der Videoverarbeitung, Bildverarbeitung, Bilderkennung und/oder dem maschinellen Lernen, angewendet werden. Auf diese Weise kann der Bildprozessor (z. B. als Coprozessor) in einen allgemeineren Universalprozessor (z. B. als Teil einer CPU des Computersystems) mit integriert werden oder ein eigenständiger Prozessor innerhalb eines Computersystems sein.
  • Die oben beschriebenen Hardware-Ausführungsformen können in einem Halbleiterchip und/oder als Beschreibung eines Schaltungsdesigns zur letztendlichen Ausrichtung auf einen Halbleiterherstellungsprozess enthalten sein. Im letzteren Fall können diese Schaltungsbeschreibungen die Form einer Schaltungsbeschreibung auf hoher Verhaltensebene (z. B. VHDL-Beschreibung) oder einer Schaltungsbeschreibung auf niedrigerer Ebene (z. B. Beschreibung einer Registerüberleitungsschaltung (RTL), einer Transistorschaltung oder einer Maske) oder verschiedener Kombinationen derselben annehmen. Schaltungsbeschreibungen sind in der Regel auf einem computerlesbaren Speichermedium (wie z. B. einer CD-ROM oder einer anderen Art von Speichertechnologie) enthalten.
  • Aus den vorangehenden Abschnitten ist zu erkennen, dass ein Bildprozessor, wie oben beschrieben, in der Hardware auf einem Computersystem (z. B. als Teil eines Handgerätsystems on Chip (SOC), das Daten von der Kamera des Handgerätes verarbeitet) enthalten sein kann. In Fällen, in denen der Bildprozessor als Hardware-Schaltung ausgebildet ist, ist zu beachten, dass die Bilddaten, die von dem Bildprozessor verarbeitet werden, direkt von einer Kamera empfangen werden können. Hier kann der Bildprozessor Teil einer diskreten Kamera oder Teil eines Computersystems mit einer integrierten Kamera sein. Im letzteren Fall können die Bilddaten direkt von der Kamera oder aus dem Systemspeicher des Computersystems empfangen werden (z. B. sendet die Kamera ihre Bilddaten anstatt an den Bildprozessor an den Systemspeicher). Zu beachten ist auch, dass viele der in den vorangehenden Abschnitten beschriebenen Merkmale auf eine Bildprozessoreinheit (zur Darstellung von Animationen) anwendbar sind.
  • 9 zeigt eine exemplarische Darstellung eines Computersystems. Viele der Komponenten des nachstehend beschriebenen Computersystems sind auf ein Computersystem mit einer integrierten Kamera und einem zugehörigen Bildprozessor (z. B. einem Handgerät, wie z. B. einem Smartphone oder Tablet-Computer) anwendbar. Fachleute auf dem Gebiet werden leicht zwischen beiden unterscheiden können.
  • Wie in 9 ersichtlich, kann das grundlegende Computersystem eine zentrale Verarbeitungseinheit 901 (die beispielsweise eine Vielzahl von Universal-Verarbeitungskernsystemen 915_1 bis 915_N und einen auf einem Multikernprozessor oder einem Anwendungsprozessor angeordneten Hauptspeichercontroller 917 beinhalten kann), Systemspeicher 902, ein Display 903 (z. B. Touchscreen, Flachbildschirm), eine lokal verdrahtete Punkt-zu-Punkt-Verbindung (z. B. eine USB-Schnittstelle) 904, verschiedene Netzwerk-E/A-Funktionen 905 (wie z. B. eine Ethernet-Schnittstelle und/oder ein Mobilfunkmodem-Teilsystem), ein drahtloses lokales Netzwerk (z. B. WLAN) 906, eine drahtlose Punkt-zu-Punkt-Verbindung (z. B. Bluetooth-Schnittstelle) 907 und eine globale Positionierungssystemschnittstelle 908, verschiedene Sensoren 909_1 bis 909_N, eine oder mehrere Kameras 910, eine Batterie 911, eine Energieverwaltungssteuereinheit 912, einen Lautsprecher und ein Mikrofon 913 sowie einen Audio-Kodierer/Dekodierer 914 beinhalten.
  • Ein Anwendungsprozessor oder Multikernprozessor 950 kann einen oder mehrere Universalprozessorkerne 915 innerhalb seines CPUs 901, eine oder mehrere grafische Verarbeitungseinheiten 916, eine Speicherverwaltungsfunktion 917 (z. B. einen Speichercontroller), eine E/A-Steuerfunktion 918 und eine Bildverarbeitungseinheit 919 beinhalten. Die Universalverarbeitungskerne 915 führen in der Regel das Betriebssystem und die Anwendungssoftware des Computersystems aus. Die Grafikverarbeitungseinheiten 916 führen in der Regel grafikintensive Funktionen aus, um z. B. Grafikdaten zu erzeugen, die auf dem Display 903 dargestellt werden. Die Speichersteuerfunktion 917 ist mit dem Systemspeicher 902 verbunden, um Daten in den Systemspeicher 902 zu schreiben bzw. aus diesem einzulesen. Die Energieverwaltungssteuereinheit 912 steuert im Allgemeinen den Energieverbrauch des Systems 900.
  • Die Bildverarbeitungseinheit 919 kann gemäß einer der oben in den vorangehenden Abschnitten beschriebenen Ausführungsformen der Bildverarbeitungseinheit implementiert sein. Alternativ dazu oder in Kombination kann die IPU 919 mit einer oder sowohl dem GPU 916 als auch der CPU 901 als Coprozessor derselben gekoppelt sein. Darüber hinaus kann in verschiedenen Ausführungsformen der GPU 916 mit einem der oben beschriebenen Prozessormerkmale implementiert sein.
  • Das Touchscreen-Display 903, die Kommunikationsschnittstellen 904907, die GPS-Schnittstelle 908, die Sensoren 909, die Kamera 910 und der Lautsprecher/Mikrofon-Codec 913, 914 können alle als unterschiedliche Formen von E/A (Eingang und/oder Ausgang) in Bezug auf das gesamte Computersystem betrachtet werden, darunter auch gegebenenfalls ein integriertes Peripheriegerät (z. B. die eine oder mehrere Kameras 910). Je nach Implementierung können verschiedene dieser E/A-Komponenten auf dem Anwendungsprozessor/Multikernprozessor 950 integriert sein oder sich außerhalb des Chips oder außerhalb des Pakets des Anwendungsprozessors/Multikernprozessors 950 befinden.
  • In einer Ausführungsform beinhalten eine oder mehrere Kameras 910 eine Tiefenkamera, die in der Lage ist, die Tiefe zwischen der Kamera und einem Objekt in dessen Sichtfeld zu messen. Anwendungssoftware, Betriebssystemsoftware, Gerätetreibersoftware und/oder Firmware, die auf einem universellen CPU-Kern (oder einem anderen Funktionsblock mit einer Befehlsausführungspipeline zum Ausführen eines Programmcodes) eines Anwendungsprozessors oder eines anderen Prozessors ausgeführt werden, können sämtliche der oben beschriebenen Funktionen ausführen.
  • Ausführungsformen der Erfindung können, wie oben dargelegt, verschiedene Verfahren beinhalten. Die Prozesse können in maschinenausführbaren Befehlen enthalten sein. Die Befehle können dazu verwendet werden, einen Universalprozessor oder Spezialprozessor dazu zu veranlassen, bestimmte Prozesse auszuführen. Alternativ dazu können diese Prozesse von spezifischen Hardwarekomponenten ausgeführt werden, die eine fest verdrahtete Logik zum Ausführen der Prozesse oder eine beliebige Kombination von programmierten Computerkomponenten und benutzerdefinierten Hardwarekomponenten enthalten.
  • Elemente der vorliegenden Erfindung können darüber hinaus als maschinenlesbares Medium zum Speichern der maschinenausführbaren Befehle bereitgestellt sein. Das maschinenlesbare Medium kann unter anderem Disketten, optische Platten, CD-ROMs und magneto-optische Platten, FLASH-Speicher, ROMs, RAMs, EPROMs, EEPROMs, magnetische oder optische Karten, Ausbreitungsmedien oder andere Arten von Medien/maschinenlesbare Medien, die für die Speicherung von elektronischen Befehlen geeignet sind, beinhalten. Die vorliegende Erfindung kann beispielsweise als ein Computerprogramm heruntergeladen werden, das von einem dezentralen Computer (z. B. einem Server) mittels eines in einer Trägerwelle oder in einem anderen Ausbreitungsmedium enthaltenen Datensignals an einen anfordernden Computer (z. B. einen Client) über eine Kommunikationsverbindung (z. B. ein Modem oder eine Netzwerkverbindung) übertragen werden kann.
  • In der vorstehenden Spezifikation wurde die Erfindung unter Bezugnahme auf spezifische exemplarische Ausführungsformen derselben beschrieben. Es ist jedoch offensichtlich, dass verschiedene Modifikationen und Änderungen daran vorgenommen werden können, ohne von dem in den beigefügten Ansprüchen dargelegten Erfindungsgedanken und Umfang der Erfindung abzuweichen. Die Beschreibung und die Zeichnungen sind daher in einem veranschaulichenden und nicht in einem einschränkenden Sinne zu betrachten.

Claims (29)

  1. Vorrichtung, umfassend: Eine Ausführungsbahnmatrix, die mit einer zweidimensionalen Schieberegistermatrixstruktur gekoppelt ist, wobei Orte in der Ausführungsbahnmatrix mit gleichen Orten in der zweidimensionalen Schieberegistermatrixstruktur gekoppelt sind, sodass unterschiedliche Ausführungsbahnen verschiedene dedizierte Register haben.
  2. Vorrichtung nach Anspruch 1, wobei die zweidimensionale Schieberegistermatrixstruktur eine Kopplung zwischen benachbarten Orten in der zweidimensionalen Schieberegistermatrixstruktur aufweist.
  3. Vorrichtung nach Anspruch 2, wobei die zweidimensionale Schieberegistermatrixstruktur eine Kopplung zwischen Orten in der zweidimensionalen Schieberegistermatrixstruktur beinhaltet, die zwei Positionen auseinander sind.
  4. Vorrichtung nach Anspruch 2, wobei die zweidimensionale Schieberegistermatrixstruktur eine Kopplung zwischen den Orten in der zweidimensionalen Schieberegistermatrixstruktur beinhaltet, die mindestens einen von drei und vier Orten auseinander sind.
  5. Vorrichtung nach Anspruch 1, wobei die zweidimensionale Schieberegistermatrixstruktur Kopplung zwischen Orten in der zweidimensionalen Schieberegistermatrixstruktur beinhaltet, die mindestens einen von zwei, drei und vier Orten auseinander sind.
  6. Vorrichtung nach Anspruch 1, wobei die Abmessungen der zweidimensionalen Registermatrixstruktur größer sind als die Abmessungen der Ausführungsbahnmatrix, sodass ein Ringbereich außerhalb der Ausführungsbahnmatrix vorhanden ist.
  7. Vorrichtung nach Anspruch 1, wobei ein Paar logisch benachbarte Matrixorte in der zweidimensionalen Registermatrixstruktur einen physischen Matrixort zwischen ihren jeweiligen physischen Orten haben.
  8. Vorrichtung nach Anspruch 6, wobei die physische Matrix eine ringförmige Struktur festlegt.
  9. Vorrichtung nach Anspruch 6, wobei die zweidimensionale Registermatrixstruktur einen letzten logischen Ort an einen ersten logischen Ort koppelt, um einen Roll-Betrieb zu unterstützen.
  10. Vorrichtung nach Anspruch 6, wobei die zweidimensionale Registermatrixstruktur an einen Direktzugriffsspeicher durch einen Umstell-Datenbus gekoppelt ist.
  11. Computersystem, umfassend: eine Vielzahl von Prozessorkernen; einen Speichercontroller, der mit der Vielzahl von Prozessorkernen gekoppelt ist und der Speichercontroller mit dem Systemspeicher gekoppelt ist; ein Bildprozessor, wobei der Bildprozessor eine an eine zweidimensionale Schieberegistermatrixstruktur gekoppelte Ausführungsbahnmatrix aufweist, wobei Orte in der Ausführungsbahnmatrix mit gleichen Orten in der zweidimensionalen Schieberegistermatrixstruktur gekoppelt sind, sodass unterschiedliche Ausführungsbahnen verschiedene dedizierte Register haben.
  12. Computersystem nach Anspruch 11, wobei die zweidimensionale Schieberegistermatrixstruktur die Kopplung zwischen benachbarten Orten in der zweidimensionalen Schieberegistermatrixstruktur beinhaltet.
  13. Computersystem nach Anspruch 12, wobei die zweidimensionale Schieberegistermatrixstruktur die Kopplung zwischen Orten in der zweidimensionalen Schieberegistermatrixstruktur beinhaltet, die zwei Orte auseinander sind.
  14. Computersystem nach Anspruch 12, wobei die zweidimensionale Schieberegistermatrixstruktur die Kopplung zwischen Orten in der zweidimensionalen Schieberegistermatrixstruktur beinhaltet, die mindestens einen von drei und vier Orten auseinander sind.
  15. Computersystem nach Anspruch 11, wobei die zweidimensionale Schieberegistermatrixstruktur die Kopplung zwischen Orten in der zweidimensionalen Schieberegistermatrixstruktur beinhaltet, die mindestens einen von zwei, drei und vier Orten auseinander sind.
  16. Computersystem nach Anspruch 11, wobei die Abmessungen der zweidimensionalen Registermatrixstruktur größer sind als die Abmessungen der Ausführungsbahnmatrix, sodass ein Ringbereich außerhalb der Ausführungsbahnmatrix vorhanden ist.
  17. Computersystem nach Anspruch 11, wobei ein Paar logisch benachbarte Matrixorte in der zweidimensionalen Registermatrixstruktur einen physischen Matrixort zwischen ihren jeweiligen physischen Orten haben.
  18. Computersystem nach Anspruch 16, wobei die physische Matrix eine ringförmige Struktur festlegt.
  19. Computersystem nach Anspruch 16, wobei die zweidimensionale Registermatrixstruktur einen letzten logischen Ort an einen ersten logischen Ort koppelt, um einen Roll-Betrieb zu unterstützen.
  20. Computersystem nach Anspruch 16, wobei die zweidimensionale Registermatrixstruktur an einen Direktzugriffsspeicher durch einen Umstell-Datenbus gekoppelt ist.
  21. Verfahren, umfassend: Eine Verschiebung in eine gleiche Richtung und Anzahl von Orten, von Daten von mehreren zusammenhängenden Orten innerhalb einer zweidimensionalen Schieberegistermatrixstruktur, um jeweils mehreren unterschiedlichen Ausführungsbahnen innerhalb einer Ausführungsbahnmatrix einen neuen Wert innerhalb der jeweiligen dedizierten Register der mehreren unterschiedlichen Ausführungsbahnen zu bieten, wobei die unterschiedlichen Ausführungsbahnen mit ihren jeweiligen dedizierten Registern an die jeweiligen gleichen Orte der Ausführungsbahnmatrix und der zweidimensionalen Schieberegistermatrix gekoppelt sind.
  22. Verfahren nach Anspruch 21, wobei der Abstand ein Ort ist.
  23. Verfahren nach Anspruch 22, wobei die Richtung jede beliebige nach oben, unten, links, rechts, diagonal ist.
  24. Verfahren nach Anspruch 21, wobei der Abstand jeder beliebige von zwei, drei, vier Orten ist.
  25. Verfahren nach Anspruch 21, das ferner das Rollen von Daten innerhalb der zweidimensionalen Registermatrixstruktur umfasst.
  26. Ein maschinenlesbares Medium, das eine Beschreibung einer Schaltung ausweist, wobei die Schaltung umfasst: Eine Ausführungsbahnmatrix, die mit einer zweidimensionalen Schieberegistermatrixstruktur gekoppelt ist, wobei Orte in der Ausführungsbahnmatrix mit gleichen Orten in der zweidimensionalen Schieberegistermatrixstruktur gekoppelt sind, sodass unterschiedliche Ausführungsbahnen verschiedene dedizierte Register haben.
  27. Maschinenlesbares Medium nach Anspruch 26, wobei die zweidimensionale Schieberegistermatrixstruktur die Kopplung zwischen benachbarten Orten in der zweidimensionalen Schieberegistermatrixstruktur beinhaltet.
  28. Maschinenlesbares Medium nach Anspruch 27, wobei die zweidimensionale Schieberegistermatrixstruktur die Kopplung zwischen Orten in der zweidimensionalen Schieberegistermatrixstruktur beinhaltet, die zwei Orte auseinander sind.
  29. Maschinenlesbares Medium nach Anspruch 27, wobei die zweidimensionale Schieberegistermatrixstruktur die Kopplung zwischen Orten in der zweidimensionalen Schieberegistermatrixstruktur beinhaltet, die mindestens einen von drei und vier Orten auseinander sind.
DE112016001844.4T 2015-04-23 2016-04-08 Zweidimensionale Verschiebungsmatrix für Bildprozessor Pending DE112016001844T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/694,750 2015-04-23
US14/694,750 US9769356B2 (en) 2015-04-23 2015-04-23 Two dimensional shift array for image processor
PCT/US2016/026786 WO2016171926A1 (en) 2015-04-23 2016-04-08 Two dimensional shift array for image processor

Publications (1)

Publication Number Publication Date
DE112016001844T5 true DE112016001844T5 (de) 2018-02-08

Family

ID=55806822

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112016001844.4T Pending DE112016001844T5 (de) 2015-04-23 2016-04-08 Zweidimensionale Verschiebungsmatrix für Bildprozessor

Country Status (7)

Country Link
US (3) US9769356B2 (de)
EP (1) EP3286724B1 (de)
JP (2) JP6389571B2 (de)
KR (2) KR102016097B1 (de)
CN (1) CN107430760B (de)
DE (1) DE112016001844T5 (de)
WO (1) WO2016171926A1 (de)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10061746B2 (en) * 2014-09-26 2018-08-28 Intel Corporation Instruction and logic for a vector format for processing computations
US10313641B2 (en) 2015-12-04 2019-06-04 Google Llc Shift register with reduced wiring complexity
US9830150B2 (en) 2015-12-04 2017-11-28 Google Llc Multi-functional execution lane for image processor
US10204396B2 (en) 2016-02-26 2019-02-12 Google Llc Compiler managed memory for image processor
US10387988B2 (en) 2016-02-26 2019-08-20 Google Llc Compiler techniques for mapping program code to a high performance, power efficient, programmable image processing hardware platform
US10380969B2 (en) 2016-02-28 2019-08-13 Google Llc Macro I/O unit for image processor
US10546211B2 (en) 2016-07-01 2020-01-28 Google Llc Convolutional neural network on programmable two dimensional image processor
US20180007302A1 (en) 2016-07-01 2018-01-04 Google Inc. Block Operations For An Image Processor Having A Two-Dimensional Execution Lane Array and A Two-Dimensional Shift Register
US20180005059A1 (en) 2016-07-01 2018-01-04 Google Inc. Statistics Operations On Two Dimensional Image Processor
US20180005346A1 (en) * 2016-07-01 2018-01-04 Google Inc. Core Processes For Block Operations On An Image Processor Having A Two-Dimensional Execution Lane Array and A Two-Dimensional Shift Register
US10789202B2 (en) * 2017-05-12 2020-09-29 Google Llc Image processor with configurable number of active cores and supporting internal network
US10489199B2 (en) * 2017-05-12 2019-11-26 Google Llc Program code transformations to improve image processor runtime efficiency
US10489878B2 (en) * 2017-05-15 2019-11-26 Google Llc Configurable and programmable image processor unit
US10915319B2 (en) * 2017-05-15 2021-02-09 Google Llc Two dimensional masked shift instruction
US10262701B2 (en) 2017-06-07 2019-04-16 Micron Technology, Inc. Data transfer between subarrays in memory
WO2020103766A1 (en) * 2018-11-23 2020-05-28 Huawei Technologies Co., Ltd. Filter independent l1 mapping of convolution data into general purpose register
US10552939B1 (en) * 2019-02-12 2020-02-04 Google Llc Image processor complex transfer functions

Family Cites Families (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4380046A (en) * 1979-05-21 1983-04-12 Nasa Massively parallel processor computer
US4445177A (en) 1981-05-22 1984-04-24 Data General Corporation Digital data processing system utilizing a unique arithmetic logic unit for handling uniquely identifiable addresses for operands and instructions
US4797852A (en) * 1986-02-03 1989-01-10 Intel Corporation Block shifter for graphics processor
DE3851005T2 (de) 1987-06-01 1995-04-20 Applied Intelligent Syst Inc Paralleles Nachbarverarbeitungssystem und -Verfahren.
US4935894A (en) 1987-08-31 1990-06-19 Motorola, Inc. Multi-processor, multi-bus system with bus interface comprising FIFO register stocks for receiving and transmitting data and control information
US5253308A (en) 1989-06-21 1993-10-12 Amber Engineering, Inc. Massively parallel digital image data processor using pixel-mapped input/output and relative indexed addressing
WO1994009595A1 (en) 1991-09-20 1994-04-28 Shaw Venson M Method and apparatus including system architecture for multimedia communications
JP3482660B2 (ja) 1993-09-08 2003-12-22 ソニー株式会社 画像データ処理装置および画像データ処理方法
US6058473A (en) 1993-11-30 2000-05-02 Texas Instruments Incorporated Memory store from a register pair conditional upon a selected status bit
US5612693A (en) * 1994-12-14 1997-03-18 International Business Machines Corporation Sliding window data compression using a toroidal bit shift register
US6049859A (en) 1996-01-15 2000-04-11 Siemens Aktiengesellschaft Image-processing processor
US5892962A (en) 1996-11-12 1999-04-06 Lucent Technologies Inc. FPGA-based processor
US6366289B1 (en) 1998-07-17 2002-04-02 Microsoft Corporation Method and system for managing a display image in compressed and uncompressed blocks
US6587158B1 (en) 1998-07-23 2003-07-01 Dvdo, Inc. Method and apparatus for reducing on-chip memory in vertical video processing
US7010177B1 (en) 1998-08-27 2006-03-07 Intel Corporation Portability of digital images
US6757019B1 (en) * 1999-03-13 2004-06-29 The Board Of Trustees Of The Leland Stanford Junior University Low-power parallel processor and imager having peripheral control circuitry
AU2941600A (en) 1999-03-16 2000-10-04 Hamamatsu Photonics K.K. High-speed vision sensor
JP3922859B2 (ja) 1999-12-28 2007-05-30 株式会社リコー 画像処理装置、画像処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US6745319B1 (en) 2000-02-18 2004-06-01 Texas Instruments Incorporated Microprocessor with instructions for shuffling and dealing data
US6728862B1 (en) 2000-05-22 2004-04-27 Gazelle Technology Corporation Processor array and parallel data processing methods
US6728722B1 (en) 2000-08-28 2004-04-27 Sun Microsystems, Inc. General data structure for describing logical data spaces
US6986025B2 (en) 2001-06-11 2006-01-10 Broadcom Corporation Conditional execution per lane
US7286717B2 (en) 2001-10-31 2007-10-23 Ricoh Company, Ltd. Image data processing device processing a plurality of series of data items simultaneously in parallel
EP1322117A1 (de) * 2001-12-06 2003-06-25 Koninklijke Philips Electronics N.V. Arithmetischer Kodierer und Dekodierer
JP4146654B2 (ja) 2002-02-28 2008-09-10 株式会社リコー 画像処理回路、複合画像処理回路、および、画像形成装置
US9170812B2 (en) 2002-03-21 2015-10-27 Pact Xpp Technologies Ag Data processing system having integrated pipelined array data processor
WO2003088033A1 (en) 2002-04-09 2003-10-23 University Of Rochester Multiplier-based processor-in-memory architectures for image and graphics processing
CN1215553C (zh) * 2002-04-17 2005-08-17 西安交通大学 一种内在并行的二维离散小波变换的vlsi结构的设计方法
US7084929B2 (en) * 2002-07-29 2006-08-01 Koninklijke Philips Electronics N.V. Video data filtering arrangement and method
WO2004021176A2 (de) 2002-08-07 2004-03-11 Pact Xpp Technologies Ag Verfahren und vorrichtung zur datenverarbeitung
GB2395299B (en) * 2002-09-17 2006-06-21 Micron Technology Inc Control of processing elements in parallel processors
CN1187698C (zh) * 2003-04-07 2005-02-02 西安交通大学 内在并行的二维离散小波变换的vlsi结构设计方法
US20060044576A1 (en) 2004-07-30 2006-03-02 Kabushiki Kaisha Toshiba Apparatus for image processing
US7199915B2 (en) * 2004-03-26 2007-04-03 Avago Technologies Fiber Ip (Singapore) Pte. Ltd. Buffers for light modulation elements in spatial light modulators
US7667764B2 (en) 2004-06-04 2010-02-23 Konica Minolta Holdings, Inc. Image sensing apparatus
KR100614647B1 (ko) * 2004-07-02 2006-08-22 삼성전자주식회사 디블록킹 필터에서의 효과적인 에지 필터링 연산을 위한레지스터 어레이 구조
JP4219887B2 (ja) 2004-12-28 2009-02-04 富士通マイクロエレクトロニクス株式会社 画像処理装置及び画像処理方法
WO2006114642A1 (en) 2005-04-28 2006-11-02 The University Court Of The University Of Edinburgh Reconfigurable instruction cell array
US7882339B2 (en) 2005-06-23 2011-02-01 Intel Corporation Primitives to enhance thread-level speculation
JP2007034887A (ja) * 2005-07-29 2007-02-08 Matsushita Electric Ind Co Ltd ハイレベル合成コンパイラ用のシフトレジスタファイルを自動生成するための方法および装置
JP2007067917A (ja) 2005-08-31 2007-03-15 Matsushita Electric Ind Co Ltd 画像データ処理装置
JP4712503B2 (ja) * 2005-09-29 2011-06-29 富士通セミコンダクター株式会社 リコンフィグ可能な画像処理用アドレス生成回路及びそれを有するリコンフィグlsi
US7602974B2 (en) 2005-10-21 2009-10-13 Mobilic Technology (Cayman) Corp. Universal fixed-pixel-size ISP scheme
FR2895103B1 (fr) 2005-12-19 2008-02-22 Dxo Labs Sa Procede et systeme de traitement de donnees numeriques
US7802073B1 (en) 2006-03-29 2010-09-21 Oracle America, Inc. Virtual core management
JP4934356B2 (ja) * 2006-06-20 2012-05-16 株式会社日立製作所 映像処理エンジンおよびそれを含む映像処理システム
US20080111823A1 (en) 2006-11-13 2008-05-15 Faraday Technology Corp. Graphics processing system
EP1927949A1 (de) * 2006-12-01 2008-06-04 Thomson Licensing Verarbeitungselement-Array mit lokalen Registern
US8321849B2 (en) 2007-01-26 2012-11-27 Nvidia Corporation Virtual architecture and instruction set for parallel thread computing
US20080244222A1 (en) 2007-03-30 2008-10-02 Intel Corporation Many-core processing using virtual processors
US8068114B2 (en) 2007-04-30 2011-11-29 Advanced Micro Devices, Inc. Mechanism for granting controlled access to a shared resource
JP4389976B2 (ja) 2007-06-29 2009-12-24 ブラザー工業株式会社 画像処理装置および画像処理プログラム
US20090046105A1 (en) * 2007-08-15 2009-02-19 Bergland Tyson J Conditional execute bit in a graphics processor unit pipeline
JP4844853B2 (ja) 2007-09-05 2011-12-28 国立大学法人東北大学 固体撮像素子及びその駆動方法
WO2009145917A1 (en) 2008-05-30 2009-12-03 Advanced Micro Devices, Inc. Local and global data share
JP4999791B2 (ja) 2008-06-30 2012-08-15 キヤノン株式会社 情報処理装置、その制御方法、及びプログラム
JP5435902B2 (ja) 2008-07-07 2014-03-05 サーパス工業株式会社 流量調整弁
US8456480B2 (en) 2009-01-14 2013-06-04 Calos Fund Limited Liability Company Method for chaining image-processing functions on a SIMD processor
US8332794B2 (en) 2009-01-22 2012-12-11 Taiwan Semiconductor Manufacturing Company, Ltd. Circuits and methods for programmable transistor array
KR101572879B1 (ko) 2009-04-29 2015-12-01 삼성전자주식회사 병렬 응용 프로그램을 동적으로 병렬처리 하는 시스템 및 방법
US20110055495A1 (en) 2009-08-28 2011-03-03 Qualcomm Incorporated Memory Controller Page Management Devices, Systems, and Methods
US8976195B1 (en) 2009-10-14 2015-03-10 Nvidia Corporation Generating clip state for a batch of vertices
US8436857B2 (en) 2009-10-20 2013-05-07 Oracle America, Inc. System and method for applying level of detail schemes
US8595428B2 (en) * 2009-12-22 2013-11-26 Intel Corporation Memory controller functionalities to support data swizzling
US8749667B2 (en) 2010-08-02 2014-06-10 Texas Instruments Incorporated System and method for maintaining maximum input rate while up-scaling an image vertically
US8508612B2 (en) 2010-09-30 2013-08-13 Apple Inc. Image signal processor line buffer configuration for processing ram image data
US8797323B2 (en) 2011-01-18 2014-08-05 Intel Corporation Shadowing dynamic volumetric media
WO2012105174A1 (ja) 2011-01-31 2012-08-09 パナソニック株式会社 プログラム生成装置、プログラム生成方法、プロセッサ装置及びマルチプロセッサシステム
US9092267B2 (en) 2011-06-20 2015-07-28 Qualcomm Incorporated Memory sharing in graphics processing unit
US20130027416A1 (en) 2011-07-25 2013-01-31 Karthikeyan Vaithianathan Gather method and apparatus for media processing accelerators
JP5742651B2 (ja) 2011-10-15 2015-07-01 コニカミノルタ株式会社 画像処理装置、連携方法および連携プログラム
JP5746100B2 (ja) 2011-12-27 2015-07-08 京セラドキュメントソリューションズ株式会社 画像形成装置
US8823736B2 (en) 2012-01-20 2014-09-02 Intel Corporation Graphics tiling architecture with bounding volume hierarchies
US10244246B2 (en) 2012-02-02 2019-03-26 Texas Instruments Incorporated Sub-pictures for pixel rate balancing on multi-core platforms
US9235769B2 (en) 2012-03-15 2016-01-12 Herta Security, S.L. Parallel object detection method for heterogeneous multithreaded microarchitectures
TWI520598B (zh) 2012-05-23 2016-02-01 晨星半導體股份有限公司 影像處理裝置與影像處理方法
JP5939572B2 (ja) * 2012-07-11 2016-06-22 国立大学法人東京農工大学 データ処理装置
US20140019486A1 (en) 2012-07-13 2014-01-16 Amitava Majumdar Logic Content Processing for Hardware Acceleration of Multi-Pattern Search
US9232139B2 (en) 2012-07-24 2016-01-05 Apple Inc. Image stabilization using striped output transformation unit
US9378181B2 (en) 2012-11-09 2016-06-28 Intel Corporation Scalable computing array
CN103019656B (zh) * 2012-12-04 2016-04-27 中国科学院半导体研究所 可动态重构的多级并行单指令多数据阵列处理系统
US9851977B2 (en) * 2012-12-06 2017-12-26 Kalray Apparatus and method for combining thread warps with compatible execution masks for simultaneous execution and increased lane utilization
US8954992B2 (en) 2013-03-15 2015-02-10 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Distributed and scaled-out network switch and packet processing
US9477999B2 (en) * 2013-09-20 2016-10-25 The Board Of Trustees Of The Leland Stanford Junior University Low power programmable image processor
US9818166B2 (en) 2015-01-16 2017-11-14 Intel Corporation Graph-based application programming interface architectures with producer/consumer nodes for enhanced image processing parallelism
US9749548B2 (en) 2015-01-22 2017-08-29 Google Inc. Virtual linebuffers for image signal processors

Also Published As

Publication number Publication date
EP3286724A1 (de) 2018-02-28
US10397450B2 (en) 2019-08-27
JP6389571B2 (ja) 2018-09-12
US20190364174A1 (en) 2019-11-28
JP2018185847A (ja) 2018-11-22
EP3286724B1 (de) 2021-10-06
CN107430760B (zh) 2021-01-12
KR102202579B1 (ko) 2021-01-13
CN107430760A (zh) 2017-12-01
US11153464B2 (en) 2021-10-19
JP6764904B2 (ja) 2020-10-07
WO2016171926A1 (en) 2016-10-27
KR20190102086A (ko) 2019-09-02
KR20170125395A (ko) 2017-11-14
US20160316107A1 (en) 2016-10-27
KR102016097B1 (ko) 2019-08-29
US9769356B2 (en) 2017-09-19
JP2018520399A (ja) 2018-07-26
US20170310855A1 (en) 2017-10-26

Similar Documents

Publication Publication Date Title
DE112016001844T5 (de) Zweidimensionale Verschiebungsmatrix für Bildprozessor
DE112016001836T5 (de) Energieeffiziente Prozessorkernarchitektur für Bildprozessoren
DE102017113733B4 (de) Faltendes neuronales Netzwerk auf programmierbarem zweidimensionalem Bildprozessor
DE112016001837T5 (de) Architektur für leistungseffiziente und programmierbare hochleistungs-bildverarbeitung
DE112016001835T5 (de) Blattgenerator für Bildprozessor
DE102017103764A1 (de) Compilerverwalteter speicher für bildprozessor
DE102017113735B4 (de) Statistische Operationen auf einem zweidimensionalen Bildprozessor
DE112016001866T5 (de) Zeilenpuffereinheit für Bildprozessor
DE202017103725U1 (de) Blockoperationen für einen Bildprozessor mit einer zweidimensionalen Ausführungsbahnmatrix und einem zweidimensionalen Schieberegister
DE112016005552T5 (de) Schieberegister mit verringerter Verdrahtungskomplexität
DE202017103727U1 (de) Kernprozesse für Blockoperationen an einem Bildprozessor mit einer zweidimensionalen Ausführungsbahnmatrix und einem zweidimensionalen Schieberegister
CN110574067B (zh) 图像处理器i/o单元
DE102014119038A1 (de) Ausführung von Verarbeitungsvorgängen in einer SIMD-Verarbeitungseinheit
KR20190107101A (ko) 지원 내부 네트워크 및 구성 가능한 개수의 활성 코어들을 갖는 이미지 프로세서
DE102016125846A1 (de) Makro-E/A-Einheit für Grafikprozessor
DE112016005521T5 (de) Multifunktionale Ausführungsbahn für Bildprozessor
DE102006027181B4 (de) Prozessor mit internem Raster von Ausführungseinheiten

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: PROCK, THOMAS, DR., GB

Representative=s name: MAIKOWSKI & NINNEMANN PATENTANWAELTE PARTNERSC, DE

R082 Change of representative

Representative=s name: PROCK, THOMAS, DR., GB

R082 Change of representative

Representative=s name: PROCK, THOMAS, DR., GB

R016 Response to examination communication