DE10393918T5

DE10393918T5 - Effiziente Multiplikation kleiner Matrizen durch Verwendung von SIMD-Registern

Info

Publication number: DE10393918T5
Application number: DE10393918T
Authority: DE
Inventors: William Jr. Palo Alto Macy
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2002-12-20
Filing date: 2003-11-21
Publication date: 2006-03-16
Also published as: AU2003291170A1; WO2004061705A2; TW200413947A; WO2004061705A3; US20040122887A1; TWI276972B; GB0508682D0; HK1074504A1; CN1774709A; GB2410108B; GB2410108A

Abstract

Matrixmultiplikationsverfahren mit den folgenden Schritten:
Laden jeder Diagonalen der Multiplikandenmatrix c in prozessorzugänglichen Speicher,
Laden einer Multiplikatormatrix a in prozessorzugänglichen Speicher in Spaltenreihenfolge,
Verschieben von Elementen in jeder Spalte der Multiplikatormatrix a in dem Register durch Verschieben eines Elements, wobei das letzte Element einer Spalte zu dem Spaltenanfang geschoben wird, und
Multiplizieren von Diagonalen der Multiplikandenmatrix c mit Spalten der Multiplikatormatrix a, wobei ihr Produkt zu der Summe von Produkten für Spalten einer Ergebnismatrix addiert wird.

Description

Technisches Gebiet
Die vorliegende Erfindung betrifft die Matrixarithmetik. Insbesondere gibt die vorliegende Erfindung Beispiele für eine effiziente Multiplikation von Matrizen durch Verwendung von SIMD-Registern.
Allgemeiner Stand der Technik
Die arithmetische Manipulation herkömmlicher m × n-Matrizen ist eine häufig auftretende Datenverarbeitungsaufgabe. Eine m × n-Matrix besteht aus m Zeilen und n Spalten. Die Dimensionen der Multiplikandenmatrix c sind n × m und der Multiplikatormatrix a m × p. Die resultierenden Dimensionen von b sind n × p. Werte in b werden aus der Summe von Produkten von Werten in den Zeilen in c mit Werten in Spalten von a unter Verwendung der Beziehung
berechnet, wobei sich der erste Index auf die Zeile und der zweite auf die Spalte bezieht. Deshalb wird der Wert eines Elements in b in der Zeile i und der Spalte j aus dem Skalarprodukt der Zeile i von c und der Spalte j von a berechnet. Die Gesamtzahl von Produkten m∙n∙p* und die Gesamtzahl von Additionen beträgt (m-1)∙n∙p.
Für optimale Ergebnisse wurden Matrixmultiplikationsimplementierungen verwendet, um die Schritte der Multiplikationen, Additionen und Datenordnung mit der kleinstmöglichen Anzahl von Anweisungen auszuführen. Da c eine Matrix von Koeffizienten und a eine Matrix von Daten ist, wurden verschiedene Techniken entwickelt, die die Möglichkeit ausnutzen, Elemente von c auf eine Weise, die für eine effiziente Implementierung der Matrixmultiplikation geeignet ist, im voraus zu speichern. Diese Flexibilität beim Speichern von Elementen ist bei Daten in der Matrix a jedoch nicht verfügbar. Daten in a werden im allgemeinen in einer logischen Reihenfolge gespeichert, die keine Rücksicht auf einen etwaigen Datenverarbeitungsalgorithmus nimmt.
Matrixmultiplikation wird bei Anwendungen wie zum Beispiel Koordinaten- und Farbtransformationen, Abbildungsalgorithmen und zahlreichen wissenschaftlichen Berechnungsaufgaben verwendet. Die Matrixmultiplikation ist eine rechnerisch intensive Operation, die mit Hilfe von SIMD-Registern (Single Instruction, Multiple Data) von Mikroprozessoren durchgeführt werden kann, die herkömmliche SIMD-Matrixmultiplikationsvorgänge unterstützen, indem SIMD-Anweisungen zum Anordnen von Daten und zur Ausführung der Matrixmultiplikation verwendet werden, wobei die durch die folgende Matrixmultiplikationsgleichung angegebene Reihenfolge von Berechnungen befolgt wird:
wobei b(x)=c(x)∙a(x)folgendem entspricht:
Elemente der Ergebnismatrix b werden aus dem inneren Produkt (Skalarprodukt) von Zeilen der Multiplikandenmatrix c mit Spalten der Multiplikatormatrix a berechnet. Das erste Element von b lautet: b00=(c00∙a00)+(c01∙a01)+(c02∙a20)+(c03∙a30)wobei es sich um das Produkt und die Summe der ersten Zeile von c und der ersten Spalte von a handelt.
Als nächstes ist b01=(c00∙a01)+(c01∙a11)+(c02∙a21)+(c03∙a31)das Produkt und die Summe wieder der ersten Zeile von c und der zweiten Spalte von a. Die Berechnung wird fortgesetzt, bis die Ergebnisse für die erste Zeile vollständig sind. Die nächste Zeile von b wird unter Verwendung der nächsten Zeile von c berechnet, beginnend mit: b10=(c10∙a00)+(c11∙a01)+(c12∙a20)+(c13∙a30)
Mit geeigneten Änderungen (XOR anstelle von Addition) wird dasselbe Muster für die modulare Multiplikation und die herkömmliche Multiplikation verwendet.
Die herkömmliche Implementierung der Matrixmultiplikation unter Verwendung von SIMD-Anweisungen speichert Elemente der Multiplikatormatrix a in SIMD-Register(n) in der Reihenfolge, in der sie im Speicher gespeichert sind, und speichert Elemente der Multiplikandenmatrix c in SIMD-Registern in der Zeilenreihenfolge, wobei die Zeilen mit der Anzahl von Spalten in c wiederholt wird. Elemente von a werden in der Reihenfolge, in der sie im Speicher gespeichert sind, in dem Register gespeichert. Zum Beispiel werden in einer Matrix mit 4 Spalten Elemente der ersten Zeile in c viermal wiederholt, weil 4 Spalten von c vorliegen. Wäre die Größe von c kleiner als das SIMD-Register, könnten auch Elemente anderer Zeilen von c in dem SIMD-Register gespeichert werden. Wäre die Größe von c größer als die SIMD-Register, wären zusätzliche Register zum Speichern von Daten aus der Zeile erforderlich.
Die Matrixmultiplikation von Ergebnissen unter Verwendung der in SIMD-Registern gespeicherten Daten beginnt mit dem Multiplizieren von Elementen in c mit Elementen in a – c₀₀∙a₀₀, c₀₁∙a₁₀, ... c₀₃∙a₃₃. Als nächstes müssen Summen dieser Produkte für jede Zeile, die nebeneinander in demselben Register angeordnet sind, berechnet werden. Wenn eine Multiplizier-Akkumulier-(MAC-)Anweisung verwendet wird, werden einige dieser Summen von Produkten bei der Berechnung der Multiplikationen berechnet. Typischerweise wird b₀₀ berechnet, gefolgt durch die Berechnung von b₀₁. Das Register mit Werten von c wird mit der nächsten Zeile der Matrix c geladen, um Elemente der nächsten Zeile der Matrix b zu berechnen.
Obwohl es genau ist, ist im Betrieb möglicherweise eine erhebliche Datenumordnung modularer Produkte erforderlich, so daß sie Elemente von b berechnen können (wobei XOR zum Beispiel eine Additionsoperation bei einer Galoisfeld-Arithmetikoperation bereitstellt). Außerdem müssen Ergebnisse zwischen Registern ausgetauscht werden, bevor sie gespeichert werden können, wenn die Ergebnisse nicht in ein Register passen. Beide Probleme führen zu einem erheblichen rechnerischen Overhead und wirken sich auf die Geschwindigkeit der Matrixmultiplikationsverarbeitung aus.
Kurze Beschreibung der Zeichnungen
Die Erfindungen werden aus der nachfolgend angegebenen ausführlichen Beschreibung und aus den beigefügten Zeichnungen von Ausführungsformen der Erfindung besser verständlich, die jedoch nicht als die Erfindungen auf die spezifisch beschriebenen Ausführungsformen einschränkend aufgefaßt werden sollen, sondern nur zur Erläuterung und für das Verständnis dienen.
1 zeigt schematisch ein SIMD-Register unterstützendes Datenverarbeitungssystem;
2 ist eine Prozedur zum Umordnen von Daten für eine effiziente Matrixmultiplikation;
3 zeigt eine generisch modulare 4x4-Matrixmultiplikation;
4 zeigt die Umordnung von Daten für die auf Registern basierende Multiplikation;
5 zeigt die Register nach der Umordnung gemäß 4;
6 zeigt die Matrixmultiplikation nach der Umordnung gemäß 4 und 5;
7 zeigt die modulare Matrixmultiplikation, wenn die Anzahl der Elemente in einer Diagonalen der Multiplikandenmatrix c nicht gleich der Anzahl der Elemente in einer Spalte der Multiplikatormatrix ist;
8 zeigt die Umordnung von Daten für auf Registern basierende Multiplikation;
9 zeigt die Matrixmultiplikation nach der Umordnung gemäß 7 und 8;
10 zeigt modulare Matrixmultiplikation, wenn die Diagonale der Multiplikandenmatrix c kleiner als die Multiplikatormatrix a ist, wobei eine 2x3-Spalte c und eine 3x4-Matrix verwendet wird;
11 zeigt die Umordnung von Daten für die auf Registern basierende Multiplikation;
12 zeigt die Matrixmultiplikation nach der Umordnung gemäß 10 und 11;
13 zeigt die modulare Matrixmultiplikation mit regulären Matrizen;
14 zeigt die Umordnung von Daten für die auf Registern basierende Multiplikation; und
15 zeigt die Matrixmultiplikation nach der Umordnung gemäß 13 und 14.
Ausführliche Beschreibung
1 zeigt allgemein ein Datenverarbeitungssystem 10 mit einem Prozessor 12 und einem Speichersystem 13 (bei dem es sich um beliebigen zugänglichen Speicher handeln kann, darunter externer Cache-Speicher, externer RAM und/oder Speicher, der teilweise intern in dem Prozessor ist) zur Ausführung von Anweisungen, die extern in Software als Computerprogrammprodukt bereitgestellt und in der Datenspeichereinheit 18 gespeichert werden können.
Der Prozessor 12 des Datenverarbeitungssystems 10 unterstützt außerdem interne Speicherregister 14, einschließlich SIMD-Register 16 (Single Instruction, Multiple Data). Die Bedeutung der Register 14 ist nicht auf eine bestimmte Art von Speicherschaltung beschränkt. Stattdessen erfordert ein Register einer Ausführungsform die Fähigkeit zum Speichern und Bereitstellen von Daten und zum Durchführen der hier beschriebenen Funktionen. Bei einer Ausführungsform enthält das Register 14 Multimedia-Register, wie zum Beispiel SIMD-Register 16, zum Speichern von Multimedia-Informationen. Bei einer Ausführungsform speichern Multimedia-Register jeweils bis zu einhundertachtundzwanzig Bit gepackter Daten. Multimedia-Register können eigene Multimedia-Register sein oder Register, mit denen Multimedia-Informationen und andere Informationen gespeichert werden. Bei einer Ausführungsform speichern Multimedia-Register Multimedia-Daten bei der Durchführung von Multimedia-Operationen und speichern Gleitkomma-Daten bei der Durchführung von Gleitkomma-Operationen.
Das Computersystem 10 der vorliegenden Erfindung kann eine oder mehrere E/A-(Eingabe/Ausgabe-)Einrichtungen 15 enthalten, darunter eine Anzeigeeinrichtung wie zum Beispiel ein Monitor. Die E/A-Einrichtungen können außerdem eine Eingabeeinrichtung wie zum Beispiel eine Tastatur, und eine Cursorsteuerung wie zum Beispiel eine Maus, einen Trackball oder ein Trackpad enthalten. Zusätzlich können die E/A-Einrichtungen auch einen Netzwerkverbinder enthalten, so daß das Computersystem 10 Teil eines lokalen Netzwerks (LAN) oder eines großflächigen Netzwerks (WAN) ist, die E/A-Einrichtungen 15, eine Einrichtung zur Tonaufzeichnung und/oder -wiedergabe, wie zum Beispiel einen Audiodigitalisierer, der an ein Mikrofon angekoppelt ist, um Spracheingabe für die Spracherkennung aufzuzeichnen. Die E/A-Einrichtungen 15 können außerdem eine Videodigitalisie rungseinrichtung enthalten, mit der Videobilder erfaßt werden können, eine Druckausgabeeinrichtung, wie zum Beispiel einen Drucker, und eine CD-ROM-Einrichtung.
Bei einer Ausführungsform kann ein von der Datenspeichereinheit 18 lesbares Computerprogrammprodukt ein maschinen- oder computerlesbares Medium enthalten, auf dem Anweisungen gespeichert sind, mit denen ein Computer (oder andere elektronische Einrichtungen) programmiert werden kann (d.h. die Funktionsweise festlegt), um einen Prozeß gemäß der vorliegenden Erfindung durchzuführen. Das computerlesbare Medium der Datenspeichereinheit 18 kann u.a. ohne Einschränkung Disketten, optische Datenträger, Kompaktdisk, Nurlesespeicher (CD-ROMs) und magnetooptische Datenträger, Nurlesespeicher (ROMs), Direktzugriffsspeicher (RAMs), löschbare programmierbare Nurlesespeicher (EPROMs), elektrisch löschbare programmierbare Nurlesespeicher (EEPROMs), magnetische oder optische Karten, Flash-Speicher oder dergleichen umfassen.
Folglich umfaßt das computerlesbare Medium eine beliebige Art von für das Speichern elektronischer Anweisungen geeigneten Medien bzw. ein maschinenlesbares Medium. Darüber hinaus kann die vorliegende Erfindung auch als ein Computerprogrammprodukt heruntergeladen werden. Dementsprechend kann das Programm von einem abgesetzten Computer (z.B. einem Server) zu einem anfordernden Computer (z.B. einem Client) transferiert werden. Der Transfer des Programms kann mittels Datensignalen erfolgen, die in einer Trägerwelle oder einem anderen Ausbreitungsmedium über eine Kommunikationsstrecke (z.B. ein Modem, eine Netzwerkverbindung oder dergleichen) realisiert werden.
Das Datenverarbeitungssystem 10 kann ein Vielzweckcomputer mit einem Prozessor mit geeigneter Registerstruktur sein oder kann für Spezial- oder eingebettete Anwendungen konfiguriert werden. Bei einer Ausführungsform werden die Verfahren der vorliegenden Erfindung in maschinenausführbaren Anweisungen realisiert, die für die Steuerung der Funktionsweise des Computersystems und insbesondere der Funktionsweise des Prozessors und der Register ausgelegt sind. Mit den Anweisungen kann man bewirken, daß ein Vielzweck- oder Spezialprozessor, der mit den Anweisungen programmiert wird, die Schritte der vorliegenden Erfindung ausführt. Alternativ dazu könnten die Schritte der vorliegenden Erfindung auch durch spezifische Hardwarekomponenten durchgeführt werden, die festverdrahtete Logik zur Durchführung der Schritte enthalten, oder durch eine beliebige Kombination von programmierten Computerkomponenten und angepaßten Hardwarekomponenten.
Es versteht sich, daß Fachleute verschiedene Begriffe und Techniken zur Beschreibung der Kommunikation, Protokolle, Anwendungen, Implementierungen, Mechanismen usw. benutzen. Eine solche Technik ist die Beschreibung einer Implementierung einer Technik über einen Algorithmus oder einen mathematischen Ausdruck. Das heißt, obwohl die Technik zum Beispiel als Ausführung vom Code auf einem Computer implementiert werden kann, kann der Ausdruck dieser Technik also geeigneter und kürzer als Formel, Algorithmus oder mathematischer Ausdruck übermittelt und kommuniziert werden.
Fachleute würden also eine Blockbezeichnung A+B=C als eine additive Funktion erkennen, deren Implementierung in Hardware und/oder Software zwei Eingaben (A und B) annehmen und eine Summierungsausgabe (C) erzeugen würde. Die Verwendung von Formeln, Algorithmen oder mathematischen Ausdrücken als Beschreibungen ist also so zu verstehen, daß sie eine physische Ausführungsform mindestens in Hardware und/oder Software besitzt (wie zum Beispiel als ein Computersystem, in dem die Techniken der vorliegenden Erfindung ausgeübt werden können, sowie als Implementierung als eine Ausführungsform).
2 zeigt eine Ausführungsform einer Prozedur zur Multiplikation einer Matrix, wie zum Beispiel in 3 dargestellt, gemäß der vorliegenden Erfindung. Wie aus 2 zu sehen ist, werden Daten zuerst durch Umordnen und Laden in Speicher zur effizienten Matrixmultiplikation organisiert (in diesem Beispiel sind die Register als Box 21 bezeichnet). Jede Diagonale der Multiplikandenmatrix c wird in ein verschiedenes Register geladen. Die Diagonalen mit einem Element in der äußersten rechten Spalte, das sich nicht in der unteren Zeile befindet, wird durch Verwendung einer Kopie der Matrix, die neben der rechten Spalte positioniert wird, in das Element in der nächsten Zeile verlängert. Das nächste Element einer Diagonale befindet sich in der nächsten Zeile. Die Diagonalen werden in Register(n) so oft dupliziert, wie die Anzahl der Spalten in der Multiplikatormatrix a. Die Anzahl der Elemente in einer Diagonale ist gleich der Anzahl der Spalten in c. Daten der Multiplikatormatrix a werden in Spaltenreihenfolge, der Reihenfolge, in der Daten im Speicher gespeichert sind, in Register geladen. Zwischen jeder Multiplikation und Addition werden Elemente in jeder Spalte von a in dem Register um ein Element verschoben (Box 22). Das letzte Element einer Spalte wird an die vordere Position der Spalte geschoben oder rotiert. Diagonalen der Multiplikandenmatrix c werden mit Spalten der Multiplikatormatrix a (deren Länge möglicherweise eingestellt wird) multipliziert (Box 23) und ihr Produkt wird zu der Summe der Produkte für die Spalten der Ergebnismatrix b addiert (Box 24).
Wenn die Anzahl der Elemente einer Spalte von a von der Anzahl einer Spalte von c verschieden ist, wird die Anzahl der Elemente aus einer Spalte von a in dem SIMD-Register gleich der Anzahl der Elemente in einer Spalte von c eingestellt. Eine Möglichkeit, zu bestimmen, welche Elemente der Multiplikatormatrix a auszuwählen sind, besteht darin, zuerst Kopien der Multiplikatormatrix a übereinander zu stapeln, so daß Spalten ausgerichtet sind und so daß die obere Zeile einer Kopie sich unter der unteren Zeile und einer weiteren Kopie befindet. Dadurch wird jede Spalte effektiv verlängert. Da die Anzahl der einer verlängerten Spalte entnommenen Elemente gleich der Anzahl der Elemente in einer Diagonalen der Multiplikandenmatrix c ist. Nach jeder Multiplizier- und Addieroperation werden Elemente für die nächste Multiplizier- und Addieroperation ausgewählt, indem die verlängerte Spalte um ein Element nach unten verschoben wird. Wenn die Länge einer Multiplikandendiagonale größer als eine Multiplikatorspalte ist, werden gleiche Werte aus einer Spalte ausgewählt, und wenn die Länge einer Multiplikandendiagonale kleiner als eine Multiplikatorspalte ist, werden nicht alle Werte aus einer Spalte ausgewählt.
Obwohl das obige Beispiel interne Prozessorregister verwendet, versteht sich, daß es nicht immer notwendig ist, ein internes Prozessorregister zu laden, um die SIMD-Operation auszuführen. Für Multiplikation oder anderes verwendete Ope randen können im Speicher gespeichert werden, statt erst in ein Register geladen zu werden. Bestimmte Architekturen, wie zum Beispiel RISC-Architekturen, laden zuerst Register, aber die Intel-Architektur kann im Speicher vorliegende Operanden aufweisen. Ein Vergleich der Verwendung von Register- und Speicheroperanden lautet
pmaddwd xmm0, xmm1
und
pmaddwd xmm0, [eax]
Diese produzieren dasselbe Ergebnis in xmm0, wenn die in Adresse, die in dem Register eax vorliegt, gespeicherten Daten dieselben wie Daten in xmm1 sind. Es ist wünschenswert, den Speicheroperanden zu verwenden, wenn dem Code die Register ausgehen und der Speicherzugriff schnell ist.
3 zeigt die modulare Multiplikation 30 gemäß der allgemein in bezug auf 2 besprochenen Prozedur. In diesem Beispiel ist die modulare Multiplikation eine Arithmetik im Galoisfeld, wobei XOR zum Addieren von Werten ohne Überträge verwendet wird (z.B. binäre Addition ohne Überträge, so daß folgendes gilt: 1 + 1 = 0, 0 + 0 = 0, 0 + 1 = 1 und 1 + 0 = 1, und wobei die Ergebnisse gewöhnlich mit einem XOR berechnet werden). Wie in 3 zu sehen ist, wird die Multiplikation 30 regulärer quadratischer Matrizen b(x) = c(x) ⊗ a(x) bestimmt. 4 zeigt die Bestimmung eines Registerdatenlademusters 40 für die Multiplikation der Matrizen von 3. Wie in einem Registeranordnungsdiagramm 40 von 4 zu sehen ist, sind Daten in Registern für den nächsten Schritt fettgedruckt. Durchgezogene Linien zeigen Grenzen an, an denen die Matrix dupliziert wird. In einem ersten Schritt werden Spalten von a mit einer Diagonale von c multipliziert. Im zweiten Schritt werden Spalten von a verschoben und mit der nächsten Diagonale von c multipliziert, wie durch die Pfeile angegeben.
5 zeigt die Reihenfolge 50 der Daten in Registern, die sich aus den in 4 angegebenen Verschiebungen ergibt. Wie mit Bezug auf den Zeitschritt (A) in 5 zu sehen ist, halten die Register die Hauptdiagonale von c, und Daten der a-Matrix in der Reihenfolge, in der sie im Speicher gespeichert sind. Im Zeitschritt (B) von 5 halten die Register die Diagonale und Spalten des verschobenen a. Das Verschieben von Spalten wird durch Rotieren von Elementen mit einer Byte-Shuffle-Operation implementiert. Man beachte, daß Spalten in a aufwärts verschoben werden können und die Auswahl von Diagonalen in c nach links anstelle von rechts ausgewählt werden kann.
6 zeigt die Operationen 60 zum Multiplizieren der 4x4 Matrizen a und c weiter. Daten für jeden Zeitschritt werden wie oben in bezug auf 4 und 5 beschrieben angeordnet. In jedem Zeitschritt C, D, E und F wird das modulare Produkt von a und c berechnet. Produkte werden mit XOR zu Produkten anderer Schritte addiert.
Der folgende Pseudocodeausschnitt gibt eine Implementierungsbeispiel der c Matrixmultiplikation:
Die Anweisungen 9 bis 12 repräsentieren die grundlegenden Operationen dieses Verfahrens. Spalten der Multiplikatormatrix a werden in der Anweisung 9 rotiert. Das Ergebnis wird in Anweisung 10 kopiert, weil es durch die Multiplikation in der Anweisung 11 überschrieben wird, und das Produkt wird in der Anweisung 12 zu der Summe von Produkten addiert.
Auch nichtreguläre Matrizen können einer Ausführungsform der Prozedur der Erfindung unterzogen werden. Man betrachte zum Beispiel die Matrixmultiplikation 70 von 7, wobei die Anzahl der Elemente in einer Diagonale der Multiplikandenmatrix c nicht gleich der Anzahl der Elemente in einer Spalte der Multiplikatormatrix a ist und die Diagonale der Multiplikandenmatrix c größer als die Spalte der Multiplikatormatrix a ist. In diesem Beispiel modulare Multiplikation einer 3x2-Matrix c mit einer 2x4-Matrix a. Das Verfahren zum Auswählen und Anordnen von Daten in SIMD-Registern für dieses Beispiel ist in 8 beschrieben. Die erste Diagonale von c lautet c₀₀, c₁₁, c₂₀. Diese Diagonale wird mit den ersten 3 Werten verlängerter Spalten von a multipliziert. Da die Spaltenlänge von a nur 2 beträgt, werden a-Matrizen in einer Reihenfolge 80, wie in 8 gezeigt, übereinander gestapelt, um die Länge der Spalten effektiv zu verlängern. Anders betrachtet, klappt oder rotiert sie auf den ersten Wert zurück, wenn das Ende einer Spalte erreicht wird. 9 zeigt die Datenanordnung 90 von Werten für die erste Diagona le von c und die verlängerten Spalten von a. Man beachte, daß die ersten drei Werte von a auf der rechten Seite a₀₀, a₁₀, a₀₀ sind, so daß a₀₀ wiederholt wird. Die nächste Diagonale von c lautet c₀₁, c₁₀, c₂₁ und die nächste Spalte lautet a₁₀, a₀₀, a₁₀, ausgewählt durch Verschieben eines Elements in jeder verlängerten Spalte, wie in 8 gezeigt nach unten. 9 zeigt Operationen zum Multiplizieren der Matrizen a und c weiter. Die Datenreihenfolge 90 für jeden Zeitschritt ist wie oben in Beziehung auf 7 und 8 beschrieben. In jedem Zeitschritt wird das modulare Produkt von a und c berechnet. Produkte werden mit XOR zu Produkten anderer Schritte addiert.
10 zeigt die modulare Multiplikation 100, wobei die Diagonale der Multiplikandenmatrix c kleiner als die Multiplikatormatrix a ist, wobei eine 2x3-Spalte c und eine 3x4-Matrix a verwendet wird. Wie in 11 gezeigt, setzt die Reihenfolgeauswahl 110 die erste Diagonale von c als c₀₀ und c₁₁. Diese Diagonale wird mit den ersten zwei Werten der verlängerten Spalten von a, a₀₀ und a₁₀, multipliziert. Die Spaltenlänge von a ist die Länge 3, es werden aber nur zwei Werte der Spalte a ausgewählt. 12 zeigt die Datenanordnung 120 von Werten in Registern. Es gibt drei Paare von Registern mit Werten aus den Matrizen a und c, die miteinander multipliziert werden, weil die Matrix c 3 Diagonalen aufweist. Nur die ersten zwei Werte von a der ersten Spalte a₀₀ und a₁₀ werden in dem ersten Register gespeichert. In dem nächsten Paar von Registern lautet die Diagonale von c c₀₁ und c₁₂ und die nächsten Werte aus a werden durch Herunterschieben ausgewählt. Zum Beispiel lauten Werte aus der ersten Spalte a₁₀ und a₂₀. Das dritte Paar von Registern hält die dritte Diagonale und die nächsten Werte, die Spalten von a herunterschieben. In diesem Fall lauten Werte aus der ersten Spalte a₂₀ und a₀₀.
Es versteht sich, daß die obige Beschreibung von 3-12 arithmetische Operationen beschreibt, die keine Anweisung zum Multiplizieren/Akkumulieren (MAC) erfordern. Stattdessen wird Galoisfeldarithmetik unter Verwendung der modularen Multiplikation und XOR für Addition beschrieben. Wenn die Summe von Produkten von Elementen einer Zeile des Multiplikanden und einer Spalte des Multiplikators durch denselben Datentyp wie die ursprünglichen Matrixelemente repräsentiert wird, dann ist der einzige Unterschied zwischen herkömmlicher Arithmetik und Galoisfeldarithmetik das verwendete Verfahren für Addition und Multiplikation. Alle Muster bleiben gleich. Wenn der vom Ergebnis erforderte Datentyp eine größere Größe als der der Originaldaten aufweist, dann wird der Datentyp der Matrixelemente vor der Matrixmultiplikation vergrößert (im allgemeinen Verdopplung der Größe). In diesem Fall werden die konstanten Multiplikandenmatrixdaten als der größere Datentyp gespeichert. Zum Beispiel werden Koeffizienten mit Byte-Größe als 16-Bit-Integer gespeichert. Der Datentyp der Multiplikatormatrix wird vor den in 3-12 gezeigten Berechnungen verändert. Die SIMD-Unpack-Operation dient im allgemeinen zum Ändern des Datentyps. Dadurch wird dann die Anzahl der erforderlichen Register zunehmen, aber ansonsten sind die in 3-12 beschriebenen Operationen in bezug auf Galoisfeld- oder herkömmlicher Arithmetik invariant.
Wenn eine MAC-Anweisung verfügbar ist, kann die Matrixmultiplikation wie mit Bezug auf die folgenden 13-15 voranschreiten. Während eine MAC-Anweisung für jede beliebige Form von Arithmetik (einschließlich Galoisfeldarithmetik) benutzt werden kann, berechnet im Fall herkömmlicher Fixpunktarithmetik eine MAC zwei Produkte, addiert diese Produkte und schreibt das Ergebnis allgemein als einen Datentyp der zweimal so groß wie der ursprüngliche Multiplikand und Multiplikator ist (Byte zu 16-Bit-Wort und 16-Bit-Wort zu Doppel-32-Bit-Wort sind typisch). Im Fall einer Galoisfeldarithmetik berechnet eine MAC zwei Produkte durch modulare Multiplikation, addiert die Produkte mit einer XOR-Operation und schreibt ein Ergebnis, das denselben Datentyp aufweist. Die Anzahl zur Repräsentation einer Summe oder eines Produkts in Galoisfeldarithmetik erforderlicher Bit ist dieselbe wie die Anzahl der erforderlichen Bit zur Repräsentation der ursprünglichen Daten. MACs für herkömmliche Arithmetik finden sich in fast allen SIMD-Anweisungssätzen (d.h. madd in dem Anweisungssatz der Intel-Architektur). Entsprechend zeigt 13 die Multiplikation 130 mit regulären Matrizen und die Verwendung einer geeigneten MAC-Anweisung. Wie in 14 zu sehen ist, gibt die Anordnung 140 Daten in Registern für den nachfolgenden Schritt fettgedruckt an. Durchgezogene Linien zeigen Grenzen an, an denen die Matrix dupliziert wird. Man beachte, daß für reguläre Matrixmultiplikation Elemente zwei Werte und jede Verschiebung zwei Werte betragen. Im Fall regulärer Multiplikation liegen zweimal soviel Werte in einer c-Matrixdiagonalen wie in einer a-Matrixspalte vor, wie in 14 gezeigt (in diesem Beispiel werden 8 Werte geordnet). Jede a-Matrixspalte wird wie in der Registeranordnung 150 von 15 a und b gezeigt dupliziert. Folglich werden die ersten beiden Spalten der a-Matrix in einem Register und die zweiten beiden in einem anderen gehalten. Der Ansatz für die Anordnung von Daten für eine reguläre Matrixmultiplikation ist derselbe wie der für modulare Multiplikation, mit der Ausnahme, daß im regulären Fall Elemente zwei Werte betragen, die Verschiebung der Datenreihenfolge des nächsten Schritts zwei Werte beträgt und Multiplikatorspalten dupliziert werden. Auf angrenzende Werte in a und c wird eine Multiplizier-Addier-Operation angewandt. Diese Operation multipliziert Werte in a und c und addiert angrenzende Produkte. Die Multiplizier-Addier-Ergebnisse werden in Plätzen gespeichert, die zweimal so groß wie die anfänglichen Daten sind. Zum Beispiel berechnet im Schritt (1) die madd-Operation das Produkt von a₀₀ und c₀₀ und das Produkt von a₁₀ und c₀₁ und addiert die beiden Produkte. Ähnlich berechnet im Schritt (2) die madd-Operation das Produkt von a₂₀ und c₀₂ und das Produkt a₃₀ und c₀₃ und addiert die beiden Produkte. Ergebnisse der madd-Operationen werden addiert, um das Ergebnis für die Matrixmultiplikation (b₀₀) zu erhalten.
Es folgt ein Pseudocode für reguläre Matrixmultiplikation unter Verwendung von 16-Bit-Wörtern und 128-Bit-Registern:
Jedes Ergebnis wird durch zwei Multiplizier-Addier-Operationen, ein Shuffle und eine Addition der Multiplizier-Addier-Ergebnisse produziert. Ergebnisse sind 16 Bit, so daß 16 Ergebnisse zwei 128-Bit-Register erfordern.
Obwohl die vorliegende Erfindung besonders nützlich für die Multiplikation von Matrizen von Byte-Daten ist, die mit SIMD-Anweisungen implementiert werden, ist die Erfindung nicht auf solche Multiplikationen beschränkt. Es können größere Datentypen verwendet werden, wobei nur eine Reduktion der Anzahl von Elementen erforderlich ist, die in einem Register gespeichert werden können, und größere Matrizen, die mehr Elemente, die gespeichert werden müssen, aufweisen. Wenn Diagonalen der Multiplikandenmatrix c oder die Spalten der Multiplikatormatrix a nicht in ein SIMD-Register passen, können sie in zusätzliche Register verlängert werden. In bestimmten Fällen kann für die Benutzung größerer Register die Rotation von Daten in einer Spalte einen Austausch von Elementen zwischen Registern erfordern.
Es versteht sich, daß Erwähnung von "Ausführungsform", "eine Ausführungsform", "bestimmte Ausführungsformen" oder "andere Ausführungsformen" in der vorliegenden Beschreibung bedeutet, daß ein bestimmtes Merkmal, eine bestimmte Struktur oder eine bestimmte Eigenschaft, das bzw. die in Verbindung mit den Ausführungsformen beschrieben wird, mindestens in bestimmten Ausführungs formen enthalten ist, aber nicht unbedingt in allen Ausführungsformen der Erfindung. Die verschiedenen Erwähnungen "Ausführungsform", "eine Ausführungsform" oder "bestimmte Ausführungsformen" sollen sich nicht unbedingt alle auf dieselben Ausführungsformen beziehen.
Wenn die Beschreibung erwähnt, daß eine Komponente, ein Merkmal, eine Struktur oder eine Eigenschaft "eventuell", "möglicherweise" oder "gegebenenfalls" enthalten sein kann, muß diese bestimmte Komponente, dieses bestimmte Merkmal, diese bestimmte Struktur oder diese bestimmte Eigenschaft nicht enthalten sein. Wenn die Beschreibung oder ein Anspruch "ein" Element erwähnt, bedeutet dies nicht, daß nur eines von dem Element vorliegt. Wenn die Beschreibung oder Ansprüche "ein zusätzliches" Element erwähnen, schließt dies nicht aus, daß mehr als eines des zusätzlichen Elements vorliegt.
Für Fachleute ist an Hand der vorliegenden Offenlegung erkennbar, daß viele andere Varianten der obigen Beschreibung und Zeichnungen innerhalb des Schutzumfangs der vorliegenden Erfindung vorgenommen werden können. Es sind also die folgenden Ansprüche, einschließlich etwaiger Ergänzungen dieser, die den Schutzumfang der Erfindung definieren.
Zusammenfassung
Es wird ein Beispiel für ein Matrixmultiplikationsverfahren beschrieben, das die Berechnungszeiten auf SIMD-Prozessoren reduziert. Die Matrixmultiplikation erfordert das Laden jeder Diagonalen der Multiplikandenmatrix c in ein verschiedenes Register eines Prozessors und das Laden einer Multiplikatormatrix in mindestens ein Register in Spaltenreihenfolge. Multiplikations- und Additionselemente in jeder Spalte der Multiplikatormatrix a in dem Register werden durch Verschieben eines Elements selektiv verschoben, wobei das letzte Element einer Spalte zu dem Spaltenanfang geschoben wird. Diagonalen der Multiplikandenmatrix c werden mit spalten der Multiplikatormatrix a multipliziert, wobei ihr Produkt zu der Summe von Produkten für Spalten einer Ergebnismatrix addiert wird.

Claims

Matrixmultiplikationsverfahren mit den folgenden Schritten: Laden jeder Diagonalen der Multiplikandenmatrix c in prozessorzugänglichen Speicher, Laden einer Multiplikatormatrix a in prozessorzugänglichen Speicher in Spaltenreihenfolge, Verschieben von Elementen in jeder Spalte der Multiplikatormatrix a in dem Register durch Verschieben eines Elements, wobei das letzte Element einer Spalte zu dem Spaltenanfang geschoben wird, und Multiplizieren von Diagonalen der Multiplikandenmatrix c mit Spalten der Multiplikatormatrix a, wobei ihr Produkt zu der Summe von Produkten für Spalten einer Ergebnismatrix addiert wird.
Verfahren nach Anspruch 1, wobei der prozessorzugängliche Speicher ein SIMD-Register ist.
Verfahren nach Anspruch 2, ferner mit dem Schritt des Ladens einer Diagonalen in mehrere SIMD-Register des Prozessors.
Verfahren nach Anspruch 1, wobei die Länge der Multiplikatormatrix a vor dem Multiplizieren mit Diagonalen der Multiplikandenmatrix c eingestellt wird, indem Kopien der Multiplikatormatrix a übereinander gestapelt werden, so daß die Spalten ausgerichtet sind und eine oberste Zeile einer Kopie unter einer unteren Zeile und jeder anderen Kopie liegt, um jede Spalte zu verlängern.
Verfahren nach Anspruch 1, wobei die Diagonale der Multiplikandenmatrix c kürzer als die Spalte der Multiplikatormatrix a ist.
Verfahren nach Anspruch 1, wobei die Diagonale der Multiplikandenmatrix c länger als die Spalte der Multiplikatormatrix a ist.
Verfahren nach Anspruch 1, wobei das Verschieben der Elemente ferner ein Multiplizieren von Spalten von a mit einer Diagonale von c und ein Verschieben und Multiplizieren von Spalten von a mit einer nächsten Diagonale von c in einer vorbestimmten Reihenfolge umfaßt.
Verfahren nach Anspruch 1, wobei das Verschieben der Elemente weiterhin das Rotieren von Elementen unter Verwendung einer Byte-Shuffle-Operation umfaßt.
Verfahren nach Anspruch 1, wobei jedes Element ein Byte ist.
Verfahren nach Anspruch 1, wobei das Multiplizieren von Diagonalen ferner das Anwenden einer MAC-Operation umfaßt.
Artikel mit einem Speichermedium, auf dem Anweisungen gespeichert sind, die, wenn sie von einer Maschine ausgeführt werden, zu folgendem führen: Laden jeder Diagonalen der Multiplikandenmatrix c in prozessorzugänglichen Speicher, Laden einer Multiplikatormatrix a in prozessorzugänglichen Speicher in Spaltenreihenfolge, Verschieben der Elemente in jeder Spalte der Multiplikatormatrix a in dem Register durch Verschieben eines Elements, wobei das letzte Element einer Spalte zu dem Spaltenanfang geschoben wird, und Multiplizieren von Diagonalen der Multiplikandenmatrix cmit Spalten der Multiplikatormatrix a, wobei ihr Produkt zu der Summe von Produkten für Spalten einer Ergebnismatrix addiert wird.
Artikel mit einem Speichermedium, auf dem Anweisungen gespeichert sind, nach Anspruch 11, wobei der prozessorzugängliche Speicher ein SIMD-Register ist.
Artikel mit einem Speichermedium, auf dem Anweisungen gespeichert sind, nach Anspruch 12, ferner mit dem Schritt des Ladens einer Diagonalen in mehrere SIMD-Register des Prozessors.
Artikel mit einem Speichermedium, auf dem Anweisungen gespeichert sind, nach Anspruch 11, wobei die Länge der Multiplikatormatrix a vor dem Multiplizieren mit Diagonalen der Multiplikandenmatrix c eingestellt wird, indem Kopien der Multiplikatormatrix a übereinander gestapelt werden, so daß die Spalten ausgerichtet sind und eine oberste Zeile einer Kopie unter einer unteren Zeile und jeder anderen Kopie liegt, um jede Spalte zu verlängern.
Artikel mit einem Speichermedium, auf dem Anweisungen gespeichert sind, nach Anspruch 11, wobei die Diagonale der Multiplikandenmatrix c kürzer als die Spalte der Multiplikatormatrix a ist.
Artikel mit einem Speichermedium, auf dem Anweisungen gespeichert sind, nach Anspruch 11, wobei die Diagonale der Multiplikandenmatrix c länger als die Spalte der Multiplikatormatrix a ist.
Artikel mit einem Speichermedium, auf dem Anweisungen gespeichert sind, nach Anspruch 11, wobei das Verschieben der Multiplikations- und Additionselemente ferner ein Multiplizieren von Spalten von a mit einer Diagonale von c und ein Verschieben und Multiplizieren von Spalten von a mit einer nächsten Diagonale von c in einer vorbestimmten Reihenfolge umfaßt.
Artikel mit einem Speichermedium, auf dem Anweisungen gespeichert sind, nach Anspruch 11, wobei das Verschieben der Multiplikations- und Additionselemente weiterhin das Rotieren von Elementen unter Verwendung einer Byte-Shuffle-Operation umfaßt.
Artikel mit einem Speichermedium, auf dem Anweisungen gespeichert sind, nach Anspruch 11, wobei das Multiplizieren von Diagonalen ferner das Anwenden einer MAC-Operation umfaßt.
Artikel mit einem Speichermedium, auf dem Anweisungen gespeichert sind, nach Anspruch 11, wobei jedes Element ein Byte ist.
System, umfassend einen Prozessor mit Registern, der jede Diagonale der Multiplikandenmatrix c in prozessorzugänglichen Speicher laden, wobei eine Multiplikatormatrix a in Spaltenreihenfolge in prozessorzugänglichen Speicher geladen wird, und Steuerlogik zum Verschieben der Multiplikations- und Additionselemente in jeder Spalte der Multiplikatormatrix a in den Registern durch Verschieben eines Elements, wobei das letzte Element einer Spalte zu dem Spaltenanfang geschoben wird, und Multiplizieren von Diagonalen der Multiplikandenmatrix c mit Spalten der Multiplikatormatrix a, wobei ihr Produkt zu der Summe von Produkten für Spalten einer Ergebnismatrix addiert wird.
System nach Anspruch 21, wobei der prozessorzugängliche Speicher ein SIMD-Register ist.
System nach Anspruch 22, ferner umfassend das Laden einer Diagonale in mehrere SIMD-Register des Prozessors.
System nach Anspruch 21, wobei die Länge der Multiplikatormatrix a vor dem Multiplizieren mit Diagonalen der Multiplikandenmatrix c eingestellt wird, indem Kopien der Multiplikatormatrix a übereinander gestapelt werden, so daß die Spalten ausgerichtet sind und eine oberste Zeile einer Kopie unter einer unteren Zeile und jeder anderen Kopie liegt, um jede Spalte zu verlängern.
System nach Anspruch 21, wobei die Diagonale der Multiplikandenmatrix c kürzer als die Spalte der Multiplikatormatrix a ist.
System nach Anspruch 21, wobei die Diagonale der Multiplikandenmatrix c länger als die Spalte der Multiplikatormatrix a ist.
System nach Anspruch 21, wobei die Steuerlogik zum Verschieben der Multiplikations- und Additionselemente ferner ein Multiplizieren von Spalten von a mit einer Diagonale von c und ein Verschieben und Multiplizieren von Spalten von a mit einer nächsten Diagonale von c in einer vorbestimmten Reihenfolge umfaßt.
System nach Anspruch 21, wobei die Steuerlogik zum Verschieben der Multiplikations- und Additionselemente weiterhin das Rotieren von Elementen unter Verwendung einer Byte-Shuffle-Operation umfaßt.
System nach Anspruch 21, wobei jedes Element ein Byte ist.
System nach Anspruch 21, wobei das Multiplizieren von Diagonalen ferner das Anwenden einer MAC-Operation umfaßt.