DE202017105528U1

DE202017105528U1 - Ausführen von Mittelwert-Poolbildung in Hardware

Info

Publication number: DE202017105528U1
Application number: DE202017105528.0U
Authority: DE
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-12-13
Filing date: 2017-09-12
Publication date: 2017-12-18
Anticipated expiration: 2027-09-13
Also published as: FI3555814T3; KR102370563B1; CN114239797A; KR102315346B1; IE20180231A1; KR20210127813A; US11232351B2; US10679127B2; IE20190119A1; GB2557703B; EP4369255A1; GB2557703A; EP3555814A1; JP6900487B2; SG10201805259XA; SG10201707701PA; EP3555814B1; GB201715180D0; US20180165577A1; DE102017121257A1

Abstract

System, das umfasst:
eine Hardware-Schaltung; und
eine oder mehrere Speichervorrichtungen, die Anweisungen speichern, die arbeiten, wenn sie durch die Hardware-Schaltung ausgeführt werden, um zu bewirken, dass die Hardware-Schaltung Operationen ausführt, die umfassen:
Ausführen einer Faltung eines Eingabetensors für die Mittelwert-Poolbildungsschicht des neuronalen Netzes und eines Kerns mit einer Größe gleich einem Fenster der Poolbildungsschicht des neuronalen Netzes, der aus Elementen besteht, die jeweils eine Einheitsmatrix sind, um einen ersten Tensor zu erzeugen; und
Ausführen von Operationen, um zu bewirken, dass jedes Element des ersten Tensors durch eine Anzahl von Elementen in dem Fenster der Mittelwert-Poolbildungsschicht des neuronalen Netzes dividiert wird, um einen initialen Ausgabetensor zu erzeugen.

Description

Hintergrund
Diese Anmeldung bezieht sich auf das Berechnen von Inferenzen in neuronalen Netzen in Hardware.
Neuronale Netze sind Modelle zum maschinellen Lernen, die eine oder mehrere Schichten einsetzen, um eine Ausgabe, z. B. eine Klassifizierung, für eine empfangene Eingabe zu erzeugen. Einige neuronale Netze enthalten eine oder mehrere verdeckte Schichten zusätzlich zu einer Ausgabeschicht. Die Ausgabe jeder verdeckten Schicht wird als Eingabe für die nächste Schicht in dem Netz, d. h. die nächste verdeckte Schicht oder die Ausgabeschicht des Netzes, verwendet. Jede Schicht des Netzes erzeugt eine Ausgabe aus einer empfangenen Eingabe in Übereinstimmung mit aktuellen Werten einer jeweiligen Parametermenge.
Zusammenfassung
Zu schützen durch das Gebrauchsmuster und Gegenstand des Gebrauchsmusters sind in Übereinstimmung mit den Anforderungen des Gebrauchsmustergesetzes nur Einrichtungen, wie sie in den beigefügten Ansprüchen definiert sind, jedoch keine Verfahren. In dem Fall, in dem die Beschreibung sich auf Verfahren bezieht, dienen diese Bezugnahmen lediglich dazu, die Einrichtung oder Einrichtungen zu veranschaulichen, für die Schutz mit den beigefügten Ansprüchen gesucht wird.
Im Allgemeinen beschreibt diese Anmeldung eine Spezial-Hardware-Schaltung, die Inferenzen in neuronalen Netzen berechnet.
Im Allgemeinen enthält ein innovativer Aspekt des Gegenstands, der in dieser Anmeldung beschrieben ist, Systeme und Verfahren zum Empfangen einer Anforderung, ein neuronales Netz auf einer Hardware-Schaltung zu verarbeiten, wobei das neuronale Netz eine Mittelwert-Poolbildungsschicht des neuronalen Netzes umfasst, und in Reaktion darauf Erzeugen von Anweisungen, die dann, wenn sie durch die Hardware-Schaltung ausgeführt werden, bewirken, dass die Hardware-Schaltung während der Verarbeitung einer Netzeingabe durch das neuronale Netz einen Schichtausgabetensor erzeugt, der einer Ausgabe der Mittelwert-Poolbildungsschicht des neuronalen Netzes äquivalent ist, durch Ausführen von Operationen, die umfassen: Ausführen einer Faltung eines Eingabetensors für die Mittelwert-Poolbildungsschicht des neuronalen Netzes und eines Kerns mit einer Größe gleich einem Fenster der Mittelwert-Poolbildungsschicht des neuronalen Netzes, der aus Elementen besteht, von denen jedes eine Einheitsmatrix ist, um einen ersten Tensor zu erzeugen, und Ausführen von Operationen, um zu bewirken, dass jedes Element aus dem ersten Tensor durch eine Anzahl von Elementen in dem Fenster der Mittelwert-Poolbildungsschicht des neuronalen Netzes dividiert wird, um einen initialen Ausgabetensor zu erzeugen.
Implementierungen können eines oder mehrere aus den folgenden Merkmalen enthalten. In einigen Implementierungen enthalten innovative Aspekte des Gegenstands Neuskalieren von Randelementen des initialen Ausgabetensors durch einen ersten Skalierungsfaktor und Neuskalieren von Eckelementen des initialen Ausgabetensors durch einen zweiten Skalierungsfaktor, um einen Ausgabetensor zu erzeugen. Der erste Skalierungsfaktor basiert auf einer Anzahl von Elementen des Eingabetensors, die mit Elementen des Kerns bei dem Ausführen der Faltung multipliziert werden, um ein Randelement des ersten Tensors zu erzeugen, und der zweite Skalierungsfaktor basiert auf einer Anzahl von Elementen in dem Eingabetensor, die mit Elementen des Kerns bei dem Ausführen der Faltung multipliziert werden, um ein Eckelement des ersten Tensors zu erzeugen. In einigen Implementierungen enthalten innovative Aspekte Neuskalieren von dem Rand benachbarten Elementen des ersten Tensors mit einem dritten Skalierungsfaktor und Neuskalieren von einer Ecke benachbarten Elementen des ersten Tensors mit einem vierten Skalierungsfaktor, um den Ausgabetensor zu erzeugen.
Implementierungen können ferner eines oder mehrere aus den folgenden Merkmalen enthalten. Ausführen der Faltung des Eingabetensors und des Kerns, um den ersten Tensor zu erzeugen, umfasst Auffüllen des Eingabetensors mit Nullen, um einen mit Nullen aufgefüllten Eingabetensor zu erzeugen, und Ausführen einer Faltung des mit Nullen aufgefüllten Eingabetensors und des Kerns, um den ersten Tensor zu erzeugen. Ausführen der Operationen, um zu bewirken, dass jedes Element des ersten Tensors durch eine Anzahl von Elementen in dem Fenster der Mittelwert-Poolbildungsschicht des neuronalen Netzes dividiert werden, um den initialen Ausgabetensor zu erzeugen, umfasst Ausführen einer ersten Multiplikation jedes Elements des ersten Tensors mit einem ersten Faktor, wobei der erste Faktor ein kleinster gemeinsamer Nenner (i) einer Anzahl von Elementen eines Eingabetensors, die multipliziert sind mit Elementen eines Kerns mit einer Größe gleich dem Fenster der Mittelwert-Poolbildungsschicht des neuronalen Netzes zum Ausführen einer Faltung, um ein Eckelement eines Ausgabetensors zu erzeugen, (ii) einer Anzahl von Elementen eines Eingabetensors, die multipliziert sind mit Elementen eines Kerns mit einer Größe gleich dem Fenster der Mittelwert-Poolbildungsschicht des neuronalen Netzes zum Ausführen einer Faltung, um ein Randelement eines Ausgabetensors zu erzeugen, und (iii) der Anzahl von Elementen in dem Fenster der Mittelwert-Poolbildungsschicht des neuronalen Netzes, und Ausführen einer zweiten Multiplikation jedes Elements des ersten Tensors mit einem oder mehreren zweiten Faktoren, wobei jeder zweite Faktor auf einer Anzahl von Elementen in dem Eingabetensor basiert, die multipliziert sind mit Elementen des Kerns zum Ausführen der Faltung, um das jeweilige Element des ersten Tensors zu erzeugen. Elemente eines Ergebnisses des Ausführens der ersten Multiplikation weisen eine höhere Bitauflösung als eine Bitauflösung der Elemente des ersten Tensors auf.
Implementierungen können ferner eines oder mehrere aus den folgenden Merkmalen enthalten. Das Ausführen der Operationen, um zu bewirken, dass jedes Element des ersten Tensors durch eine Anzahl von Elementen in dem Fenster der Mittelwert-Poolbildungsschicht eines neuronalen Netzes dividiert wird, um den initialen Ausgabetensor zu erzeugen, umfasst Erzeugen eines Maskierungstensors, wobei eine Größe des Maskierungstensors durch eine Größe des Eingabetensors bestimmt wird und wobei Elemente des Maskierungstensors durch eine Größe des Fensters der Mittelwert-Poolbildungsschicht des neuronalen Netzes bestimmt werden, und Ausführen elementweiser Multiplikation jedes Elements des ersten Tensors und jedes entsprechenden Elements des Maskierungstensors. Das Erzeugen des Maskierungstensors umfasst Kacheln eines oder mehrerer Maskierungstensorfragmente, die im Speicher gespeichert sind. Der Eingabetensor wird in einem Einheitspuffer der Hardware-Schaltung gespeichert, und der Maskierungstensor wird in einem dynamischen Speicher der Hardware-Schaltung gespeichert, und wobei das Ausführen der Operationen, um zu bewirken, dass jedes Element des ersten Tensors durch eine Anzahl von Elementen in dem Fenster der Mittelwert-Poolbildungsschicht des neuronalen Netzes dividiert wird, um den initialen Ausgabetensor zu erzeugen, Senden des Eingabetensors aus dem Einheitspuffer zu einer Matrixberechnungseinheit der Hardware-Schaltung, die in Hardware-Schaltung implementiert ist, Senden des Maskierungstensors aus dem dynamischen Speicher zu der Matrixberechnungseinheit der Hardware-Schaltung und Ausführen durch die Matrixberechnungseinheit der Hardware-Schaltung von elementweiser Multiplikation des Eingabetensors und des Maskierungstensors, um den ersten Tensor zu erzeugen, umfasst.
Implementierungen können ferner eines oder mehrere aus den folgenden Merkmalen enthalten. Der Eingabetensor wird in einem Einheitspuffer der Hardware-Schaltung gespeichert, und der Kern wird in einem dynamischen Speicher der Hardware-Schaltung gespeichert, wobei das Ausführen der Faltung des Eingabetensors und des Kerns, um den ersten Tensor zu erzeugen, Senden des Eingabetensors aus dem Einheitspuffer zu einer Matrixberechnungseinheit der Hardware-Schaltung, die in Hardware implementiert ist, Senden des Kerns aus dem dynamischen Speicher zu der Matrixberechnungseinheit der Hardware-Schaltung und Ausführen durch die Matrixberechnungseinheit der Hardware-Schaltung der Faltung des Eingabetensors und des Kerns, um den ersten Tensor zu erzeugen, umfasst. Das Ausführen der Faltung und das Ausführen der Operationen, um zu bewirken, dass jedes Element des ersten Tensors dividiert wird, werden als Festkommaoperationen auf Werten, die in Ganzzahlregistern gespeichert sind, ausgeführt.
Spezielle Ausführungsformen des in dieser Anmeldung beschriebenen Gegenstands können so implementiert sein, dass sie eine oder mehrere aus den folgenden Vorteilen realisieren. Ein Ausgabetensor, der einer Mittelwert-Poolbildungsschicht des neuronalen Netzes entspricht, kann in Hardware durch eine Spezial-Hardware-Schaltung erzeugt werden, selbst wenn die Hardware-Schaltung einen Eingabetensor nicht direkt verarbeiten kann, um Mittelwert-Poolbildung auszuführen. Durch Erzeugen der geeigneten Ausgabe unter Verwendung der Spezial-Hardware-Schaltung kann die Verarbeitung einer Mittelwert-Poolbildungsschicht des neuronalen Netzes ausgeführt werden, ohne Daten zurück zu einem Host-Computer zu leiten, d. h. ohne Ausführen wenigstens eines Teils der Berechnung außerhalb des Chips, selbst wenn die Spezial-Hardware-Schaltung die Mittelwert-Poolbildung nicht direkt unterstützt. Das ermöglicht es, dass eine Inferenz eines neuronalen Netzes, das eine Mittelwert-Poolbildungsschicht enthält, ohne Modifizieren der Hardware-Architektur der Spezial-Hardware-Schaltung effizient bestimmt wird. Das heißt, Verarbeitungsverzögerungen, die vom Ausführen eines Teils der Verarbeitung außerhalb des Chips, in Software oder beidem herrühren, werden vermieden.
Der in dieser Anmeldung beschriebene Gegenstand bezieht sich auch auf ein Bilderkennungs- oder Klassifizierungsverfahren und System, die die offenbarten Verfahren und Hardware zum effizienten Ausführen von Mittelwert-Poolbildung in Berechnung eines neuronalen Netzes verwenden.
Die Einzelheiten einer oder mehrerer Ausführungsformen des Gegenstands dieser Anmeldung sind in den begleitenden Zeichnungen und der nachstehenden Beschreibung dargelegt. Andere Merkmale, Aspekte und Vorteile des Gegenstands werden aus der Beschreibung, den Zeichnungen und den Ansprüchen offensichtlich.
Kurzbeschreibung der Zeichnungen
1 zeigt ein beispielhaftes Verarbeitungssystem eines neuronalen Netzes.
2 ist ein Ablaufdiagramm eines Beispielverfahrens zum Ausführen einer Berechnung für eine gegebene Schicht eines neuronalen Netzes.
3 zeigt ein beispielhaftes Verarbeitungssystem eines neuronalen Netzes.
4 zeigt eine Beispielarchitektur, die eine Matrixberechnungseinheit enthält.
5 zeigt eine Beispielarchitektur einer Zelle innerhalb eines systolischen Array.
6 ist ein Ablaufdiagramm eines Beispielverfahrens zum Anweisen eines Verarbeitungssystems eines neuronalen Netzes, eine Berechnung für eine Mittelwert-Poolbildungsschicht eines neuronalen Netzes auszuführen.
7 ist ein Ablaufdiagramm eines Beispielverfahrens zum Ausführen einer Berechnung für eine Mittelwert-Poolbildungsschicht eines neuronalen Netzes.
8 ist ein Beispiel einer Berechnung für eine Mittelwert-Poolbildungsschicht eines neuronalen Netzes.
9 ist ein Beispiel einer Berechnung zum Neuskalieren von Randelementen in einer Mittelwert-Poolbildungsschicht eines neuronalen Netzes.
Gleiche Bezugszeichen und Bezeichnungen in den verschiedenen Zeichnungen geben gleiche Elemente an.
Ausführliche Beschreibung
Ein neuronales Netz, das mehrere Schichten aufweist, kann verwendet werden, um Inferenzen zu berechnen. Beispielsweise kann bei einer gegebenen Eingabe das neuronale Netz eine Inferenz für die Eingabe berechnen. Das neuronale Netz berechnet diese Inferenz durch Verarbeiten der Eingabe über jede aus den Schichten des neuronalen Netzes. Jede Schicht empfängt eine Eingabe und verarbeitet die Eingabe in Übereinstimmung mit der Menge von Gewichten für die Schicht, um eine Ausgabe zu erzeugen.
Deshalb empfängt das neuronale Netz, um eine Inferenz aus einer empfangenen Eingabe zu berechnen, die Eingabe und verarbeitet sie über jede aus den Schichten des neuronalen Netzes, um die Inferenz zu erzeugen, wobei die Ausgabe aus einer Schicht des neuronalen Netzes als Eingabe für die nächste Schicht des neuronalen Netzes bereitgestellt wird. Dateneingaben in eine Schicht eines neuronalen Netzes, z. B. entweder die Eingabe für das neuronale Netz oder die Ausgaben der Schicht unterhalb der Schicht in der Folge in eine Schicht eines neuronalen Netzes, können als Aktivierungseingaben für die Schicht bezeichnet werden.
In einigen Implementierungen sind die Schichten des neuronalen Netzes in einer Folge angeordnet. In einigen anderen Implementierungen sind die Schichten als gerichtete Graphen angeordnet. Das heißt, jede spezielle Schicht kann mehrere Eingaben, mehrere Ausgaben oder beides empfangen. Die Schichten des neuronalen Netzes können auch so angeordnet sein, dass eine Ausgabe einer Schicht als eine Eingabe zu einer früheren Schicht zurückgesendet werden kann.
Einige neuronale Netze bündeln [engl.: pool] Ausgaben aus einer oder mehreren Schichten des neuronalen Netzes, um gebündelte Werte zu erzeugen, die als Eingabe für nachfolgende Schicht des neuronalen Netzes verwendet werden. In einigen Implementierungen bündelt das neuronale Netz eine Gruppe von Ausgaben durch Bestimmen eines Maximums, eines Minimums oder eines Mittelwerts der Gruppe von Ausgaben und Verwenden des Maximums, Minimums oder Mittelwerts als die gebündelte Ausgabe für die Gruppe. Bündeln [engl.: Pooling] der Ausgabe kann einige räumliche Invarianz erhalten, so dass die Ausgaben, die in verschiedenen Konfigurationen angeordnet sind, so verarbeitet werden können, dass sie die gleiche Inferenz aufweisen. In einigen Implementierungen kann die Poolbildung für die Ausgaben auch die Größe oder Dimensionalität von Eingaben, die an den nachfolgenden Schicht des neuronalen Netzes empfangen werden, reduzieren, während es gewünschte Eigenschaften der Ausgaben vor der Poolbildung erhält, was die Effizienz verbessern kann, ohne einen wesentlichen Kompromiss für die Qualität von Inferenzen, die durch die neuronalen Netze erzeugt werden, einzugehen.
Diese Anmeldung beschreibt die Spezial-Hardware-Schaltungsanordnung, die Schichten eines neuronalen Netzes verarbeitet und optional Poolbildung auf Ausgaben einer oder mehrere Schichten des neuronalen Netzes ausführt.
1 zeigt ein beispielhaftes Verarbeitungssystem 100 eines neuronalen Netzes. Das Verarbeitungssystem 100 des neuronalen Netzes ist ein Beispiel eines Systems, das als ein oder mehrere Computer an einem oder mehreren Orten implementiert ist, in denen Systeme, Komponenten und Techniken, die nachstehend beschreiben sind, implementiert sein können.
Das Verarbeitungssystem 100 des neuronalen Netzes ist ein System, das Berechnungen des neuronalen Netzes unter Verwendung einer Spezial-Hardware-Schaltung 110 ausführt. Die Hardware-Schaltung 110 ist eine integrierte Schaltung zum Ausführen von Berechnungen des neuronalen Netzes und enthält eine Matrixberechnungseinheit 120, die Vektor-Matrixmultiplikationen in Hardware ausführt. Die Hardware-Schaltung 110 enthält außerdem eine Vektorberechnungseinheit 140. Eine beispielhafte Spezial-Hardware-Schaltung 120 ist nachstehend mit Bezug auf 3 genauer beschrieben.
Insbesondere empfängt das Verarbeitungssystem 100 des neuronalen Netzes Anforderungen, neuronale Netze auf der Spezial-Hardware-Schaltung 110 zu implementieren, implementiert die neuronalen Netze auf der Spezial-Hardware-Schaltung 110 und verarbeitet, sobald ein gegebenes neuronales Netz implementiert ist, Eingaben in das neuronale Netz unter Verwendung der Spezial-Hardware-Schaltung 110, um Inferenzen des neuronalen Netzes zu erzeugen.
Das heißt, das Verarbeitungssystem 100 des neuronalen Netzes kann eine Anforderung empfangen, die eine Architektur eines neuronalen Netzes für ein neuronales Netz spezifiziert, das verwendet werden soll, um Eingaben zu verarbeiten. Die Architektur des neuronalen Netzes definiert die Anzahl und Konfiguration von Schichten in dem neuronalen Netz und Werte der Parameter für jede aus den Schichten, die Parameter aufweist.
Um ein neuronales Netz auf der integrierten Spezialschaltung 110 zu implementieren, enthält das Verarbeitungssystem 100 des neuronalen Netzes eine Implementierungs-Engine 150 für ein neuronales Netz, die als ein oder mehrere Computerprogramme auf einem oder mehreren Computern an einem oder mehreren physikalischen Orten implementiert ist.
Die Implementierungs-Engine 150 für das neuronale Netz erzeugt Anweisungen, die dann, wenn sie durch die Spezial-Hardware-Schaltung 110 ausgeführt werden, bewirken, dass die Hardware-Schaltung 110 die Operationen ausführt, die durch das neuronale Netz spezifiziert sind, um eine Ausgabe des neuronalen Netzes aus einer empfangenen Eingabe des neuronalen Netzes zu erzeugen.
Sobald die Anweisungen durch die Implementierungs-Engine 150 für das neuronale Netz erzeugt worden und der Hardware-Schaltung 110 zur Verfügung gestellt worden sind, kann das Verarbeitungssystem 100 des neuronalen Netzes Eingaben des neuronalen Netzes empfangen und kann die Eingaben des neuronalen Netzes unter Verwendung des neuronalen Netzes durch Bewirken, dass die Hardware-Schaltung 110 die erzeugten Anweisungen ausführt, verarbeiten.
Einige neuronale Netze enthalten jedoch eine oder mehrere inkompatible Schichten des neuronalen Netzes. Der Begriff inkompatible Schicht des neuronalen Netzes, wie er in dieser Anmeldung verwendet ist, bezieht sich auf eine Schicht des neuronalen Netzes, die eine Operation spezifiziert, die nicht direkt in Hardware durch die Spezial-Hardware-Schaltung 110 ausgeführt werden kann. Um diese neuronalen Netze auf der Hardware-Schaltung 110 zu implementieren, erzeugt die Implementierungs-Engine 150 für das neuronale Netz Anweisungen, die dann, wenn sie durch die Hardware-Schaltung 110 ausgeführt werden, bewirken, dass die Hardware-Schaltung 110 eine Ausgabe für die inkompatible Schicht des neuronalen Netzes erzeugt durch Ausführen von Operationen in Hardware, die von denen, die durch die Schicht des neuronalen Netzes spezifiziert sind, verschieden sind, die jedoch dazu führen, dass eine Schichtausgabe erzeugt wird, die die Anmeldung der inkompatiblen Schicht des neuronalen Netzes erfüllt, d. h. eine Schichtausgabe, der die gleiche ist wie eine Ausgabe, der durch direktes Ausführen der spezifizierten Operationen durch die Schicht erzeugt worden wäre.
Insbesondere enthalten einige neuronale Netze eine Mittelwert-Poolbildungsschicht. Eine solche Schicht eines neuronalen Netzes definiert ein Fenster zum Ausführen der Mittelwert-Poolbildung. Konzeptionell wird, um ein Element eines Ausgabetensors der Mittelwert-Poolbildungsschicht zu erzeugen, ein Bereich eines Eingabetensors identifiziert, der die Dimensionen des Fensters aufweist, und ein Mittelwert der Elemente innerhalb des Bereichs wird bestimmt. Das Fenster wird über den Eingabetensor verschoben, d. h. mit einer Schrittweite von eins, um den Ausgabetensor zu erzeugen. In einem solchen Szenario wird der Ausgabetensor Dimensionen aufweisen, die mit denjenigen des Eingabetensors übereinstimmen. Der Ausgabetensor kann dann als eine Inferenz des neuronalen Netzes oder als ein Eingabetensor für eine nachfolgende Schicht des neuronalen Netzes bereitgestellt werden.
Einige neuronale Netze können andere Typen von Poolbildungsschichten enthalten, die allgemein einen Tensor produzieren, in dem jedes Element das Ergebnis einer Operation ist, z. B. einer algebraischen Operation, die auf Teilmengen von Elementen eines Eingabetensors angewandt wird. Beispielsweise kann eine Maximum-Poolbildungsschicht oder eine Minimum-Poolbildungsschicht ein Fenster für Maximum- oder Minimum-Poolbildung spezifizieren, wobei jedes Element in einem Ausgabetensor, der durch die Poolbildungsschicht erzeugt wird, ein jeweiliges Maximum oder Minimum eines entsprechenden Bereichs von Elementen des Eingabetensors ist.
Weil die Haupt-Hardware-Einheit, die Matrixoperationen auf der Spezial-Hardware-Schaltung 110 ausführt, die Matrixberechnungseinheit 120 ist und obwohl die Spezial-Hardware-Schaltung 110 eine andere Schaltungsanordnung enthalten kann, die andere Operationen des neuronalen Netzes in Hardware ausführt, kann die Spezial-Hardware-Schaltung 110 eine Ausgabe einer Mittelwert-Poolbildungsschicht nicht direkt berechnen. Um ein neuronales Netz zu implementieren, das eine Mittelwert-Poolbildungsschicht enthält, erzeugt die Implementierungs-Engine 150 für das neuronale Netz Anweisungen, die dann, wenn sie durch die Spezial-Hardware-Schaltung 110 während der Verarbeitung der Eingabe zu dem neuronalen Netz durch das neuronale Netz ausgeführt werden, bewirken, dass die Spezial-Hardware-Schaltung 110 andere Operationen in der Hardware ausführt, um einen Ausgabetensor zu erzeugen, der die Anmeldung der Mittelwert-Poolbildungsschicht des neuronalen Netzes erfüllt. Insbesondere können die Anweisungen verwendet werden, um Steuersignale zum Steuern der Matrixmultiplikationseinheit 120 und der Vektorberechnungseinheit 140 zu erzeugen, um Operationen auszuführen, die zu der Ausgabe eines Tensors führen, der die Anmeldung der Mittelwert-Poolbildungsschicht erfüllt. Diese Anweisungen und andere Operationen sind nachstehend genauer mit Bezug auf die 6–10 beschrieben.
2 ist ein Ablaufdiagramm eines Beispielprozesses 200 zum Ausführen einer Berechnung für eine gegebene Schicht eines neuronalen Netzes unter Verwendung einer Spezial-Hardware-Schaltung. Zur Vereinfachung wird das Verfahren 200 mit Bezug auf ein System beschrieben, das eine oder mehrere Schaltungen aufweist, die das Verfahren 200 ausführen. Das Verfahren 200 kann für jede Schicht des neuronalen Netzes ausgeführt werden, um eine Inferenz aus einer empfangenen Eingabe zu berechnen.
Das System empfängt Mengen von Gewichtseingaben (Schritt 202) und Mengen von Aktivierungseingaben (Schritt 204) für eine gegebene Schicht. Die Mengen der Gewichtseingaben und die Mengen der Aktivierungseingaben können aus dem dynamischen Speicher bzw. einem Einheitspuffer der Spezial-Hardware-Schaltung empfangen werden. In einigen Implementierungen können sowohl die Mengen der Gewichtseingaben als auch die Mengen der Aktivierungseingaben aus dem Einheitspuffer empfangen werden.
Das System erzeugt akkumulierte Werte aus den Gewichtseingaben und den Aktivierungseingaben unter Verwendung einer Matrixmultiplikationseinheit der Spezial-Hardware-Schaltung (Schritt 206). In einigen Implementierungen sind die akkumulierten Werte innere Produkte der Mengen von Gewichtseingaben und der Mengen von Aktivierungseingaben. Das heißt, für eine Menge von Gewichten, die eine Teilmenge aller Gewichte in der Schicht ist, kann das System jede Gewichtseingabe mit jeder Aktivierungseingabe multiplizieren und die Produkte zusammen addieren, um einen akkumulierten Wert zu bilden. Das System kann dann innere Produkte anderer Mengen von Gewichten mit anderen Menschen von Aktivierungseingaben berechnen.
Das System kann eine Schichtausgabe aus den Akkumulierungswerten unter Verwendung einer Vektorberechnungseinheit der Spezial-Hardware-Schaltung erzeugen (Schritt 208). In einigen Implementierungen wendet die Vektorberechnungseinheit eine Aktivierungsfunktion auf die akkumulierten Werte an, was nachstehend mit Bezug auf 5 weiter beschrieben wird. Die Ausgabe der Schicht kann in dem Einheitspuffer gespeichert werden zum Gebrauch als eine Eingabe für eine nachfolgende Schicht in dem neuronalen Netz oder kann verwendet werden, um die Inferenz des neuronalen Netzes zu bestimmen. In einigen Implementierungen kann die Schicht des neuronalen Netzes eine Mittelwert-Poolbildungsschicht sein, und das System kann zusätzliche Verarbeitung auf den Akkumulierungswerten ausführen, um einen Ausgabetensor für die Schicht zu erhalten, der äquivalent einer Ausgabe der Mittelwert-Poolbildungsschicht ist. Das System beendet die Verarbeitung des neuronalen Netzes, wenn eine empfangene Eingabe über jede Schicht des neuronalen Netzes verarbeitet worden ist, um die Inferenz für die empfangene Eingabe zu erzeugen.
3 zeigt eine beispielhafte Spezial-Hardware-Schaltung 300 zum Ausführen von Berechnungen des neuronalen Netzes. Die Schaltung 300 enthält eine Host-Schnittstelle 302. Die Host-Schnittstelle 302 kann Anweisungen empfangen, beispielsweise von einem Host-Computer oder einem externen Prozessor, die Parameter für eine Berechnung des neuronalen Netzes enthalten. Die Parameter können eines oder mehrere aus dem Folgenden enthalten: wie viele Schichten verarbeitet werden sollten, entsprechende Mengen von Gewichtseingaben für jede Schicht des Modells, eine initiale Menge von Aktivierungseingaben, d. h. die Eingabe zu dem neuronalen Netz, aus der die Inferenz berechnet werden soll, entsprechende Eingabe- und Ausgabegrößen jeder Schicht, einen Schrittwert für die Berechnung des neuronalen Netzes und einen Typ der Schicht, die verarbeitet werden soll, z. B. eine Faltungsschicht, eine Poolbildungsschicht oder eine vollständig verbundene Schicht.
Die Host-Schnittstelle 302 kann die Anweisungen zu einem Sequenzer 306 senden, der die Anweisungen in Steuersignale auf niedriger Ebene umsetzt, die die Schaltung steuern, um die Berechnungen des neuronalen Netzes auszuführen. In einigen Implementierungen regulieren die Steuersignale den Datenfluss in der Schaltung, z. B. wie die Mengen von Gewichtseingaben und die Mengen von Aktivierungseingaben durch die Schaltung fließen. Mit anderen Worten spezifizieren die Steuersignale, wie Elemente eines Eingabetensors als Eingaben bereitzustellen sind, beispielsweise für die Matrixberechnungseinheit 312, die die Mittelwert-Poolbildungsberechnungen ausführt, und wo die resultierende Ausgabe gespeichert wird. Der Sequenzer 306 kann die Steuersignale zu einem Einheitspuffer 308, einer Matrixberechnungseinheit 312 und einer Vektorberechnungseinheit 314 senden. In einigen Implementierungen sendet der Sequenzer 306 Steuersignale auch zu einer Speicherdirektzugriffs-Engine 304 und einem dynamischen Speicher 310. In einigen Implementierungen ist der Sequenzer 306 ein Prozessor, der Steuersignale erzeugt. Der Sequenzer 306 kann das Timing der Steuersignale verwenden, um zu geeigneten Zeiten die Steuersignale zu jeder Komponente der Schaltung 300 zu senden. In einigen anderen Implementierungen leitet die Host-Schnittstelle 302 ein Steuersignal von einem externen Prozessor ein.
Die Host-Schnittstelle 302 kann die Mengen von Gewichtseingaben und die initiale Menge von Aktivierungseingaben zu der Speicherdirektzugriffs-Engine 304 senden. Die Speicherdirektzugriffs-Engine 304 kann die Mengen von Aktivierungseingaben in dem Einheitspuffer 308 speichern. In einigen Implementierungen speichert der Direktspeicherzugriff die Mengen von Gewichten in dem dynamischen Speicher 310, der eine Speichereinheit sein kann. In einigen Implementierungen befindet sich der dynamische Speicher außerhalb der Schaltung.
Der Einheitspuffer 308 ist ein Speicherpuffer, z. B. ein Speicherpufferregister, das Daten speichert, die durch die Spezial-Hardware-Schaltung 300 verarbeitet werden, die Daten enthalten, die von dem dynamischen Speicher 310 empfangen werden oder in ihm gespeichert werden sollen. Er kann verwendet werden, um die Menge von Aktivierungseingaben aus der Speicherdirektzugriffs-Engine 304 und Ausgaben aus der Vektorberechnungseinheit 314 zu speichern. Die Speicherdirektzugriffs-Engine 304 kann außerdem die Ausgaben der Vektorberechnungseinheit 314 aus dem Einheitspuffer 308 lesen.
Der dynamische Speicher 310 und der Einheitspuffer 308 können die Mengen von Gewichtseingaben bzw. die Mengen von Aktivierungseingaben zu der Matrixberechnungseinheit 312 senden. In einigen Implementierungen ist die Matrixberechnungseinheit 312 ein zweidimensionales systolisches Array. Die Matrixberechnungseinheit 312 kann auch ein eindimensionales systolisches Array oder eine andere Schaltungsanordnung sein, die mathematische Operationen, z. B. Multiplikation und Addition, ausführen kann. In einigen Implementierungen ist die Matrixberechnungseinheit 312 ein Allzweck-Matrixprozessor.
Die Matrixberechnungseinheit 312 kann die Gewichtseingaben und die Aktivierungseingaben verarbeiten und einen Vektor von Ausgaben für die Vektorberechnungseinheit 314 bereitstellen. In einigen Implementierungen sendet die Matrixberechnungseinheit 312 den Vektor von Ausgaben zu der Vektorberechnungseinheit 314, die den Vektor von Ausgaben zu dem Einheitspuffer 308 sendet. Die Vektorberechnungseinheit 314 kann den Vektor von Ausgaben verarbeiten und einen Vektor von verarbeiteten Ausgaben in den Einheitspuffer 308 speichern. Der Vektor von verarbeiteten Ausgaben kann als Aktivierungseingaben für die Matrixberechnungseinheit 312 verwendet werden, z. B. zum Gebrauch in einer nachfolgenden Schicht in dem neuronalen Netz. Die Matrixberechnungseinheit 312 wird nachstehend mit Bezug auf 4 genauer beschrieben.
Um einen Vektor, z. B. einen Vektor von Ausgaben, der von der Matrixberechnungseinheit 312 empfangen wird, zu berechnen, kann die Vektorberechnungseinheit 314 eine oder mehrere aus einer Aktivierungseinheit, einer Normalisierungseinheit oder anderen Einheiten enthalten. Eine Aktivierungseinheit der Vektorberechnungseinheit 314 kann eine Schaltungsanordnung enthalten, die eine nichtlineare Funktion, z. B. tanh(x), auf akkumulierte Werte, die von der Matrixberechnungseinheit 312 empfangen werden, anwendet, wobei x ein akkumulierter Wert ist. Die Aktivierungseinheit kann Ganzzahlregister oder Puffer enthalten, die eine Breite von 8 oder 16 Bits aufweisen. Eine Normalisierungseinheit der Vektorberechnungseinheit 314 kann eine Schaltungsanordnung zum Beschränken akkumulierter Werte, die von der Matrixberechnungseinheit 312 empfangen werden, enthalten, um Berechnungsfehler zu vermeiden, die durch Durchleiten nicht normalisierter akkumulierter Werte durch aufeinanderfolgende Schichten des neuronalen Netzes eingeführt werden können. Eine Schaltungsanordnung zum Ausführen anderer Operationen auf akkumulierten Werten kann ebenfalls in der Vektorberechnungseinheit 314 enthalten sein.
4 zeigt eine Beispielarchitektur 400, die eine Matrixberechnungseinheit enthält. Die Matrixberechnungseinheit ist ein zweidimensionales systolisches Array 406. Das Array 406 enthält mehrere Zellen 404. In einigen Implementierungen entspricht eine erste Dimension 420 des systolischen Array 406 Spalten von Zellen, und eine zweite Dimension 422 des systolischen Array 4116 entspricht Zeilen von Zellen. Das systolische Array kann mehr Zeilen als Spalten, mehr Spalten als Zeilen oder eine gleiche Anzahl von Spalten und Zeilen aufweisen.
In dem dargestellten Beispiel senden Wertelader 402 Aktivierungseingaben zu Zeilen des Array 406, und eine Gewichtsabholungsschnittstelle 408 sendet Gewichtseingaben zu Spalten des Array 406. In einigen anderen Implementierungen werden jedoch Aktivierungseingaben in die Spalten übertragen, und Gewichtseingaben werden in die Zeilen des Array 406 übertragen.
Die Wertelader 402 können die Aktivierungseingaben von einem Einheitspuffer empfangen, z. B. dem Einheitspuffer 308 von 3. Jeder Wertelader kann eine entsprechende Aktivierungseingabe zu einer unterschiedlichen am weitesten links gelegenen Zelle des Array 406 senden. Beispielsweise kann der Wertelader 412 eine Aktivierungseingabe zu der Zelle 414 senden. Der Wertelader kann außerdem die Aktivierungseingabe zu einem benachbarten Wertelader senden, und die Aktivierungseingabe kann in einer weiteren am weitesten links gelegenen Zelle des Array 406 verwendet werden. Das ermöglicht es, dass Aktivierungseingaben zum Gebrauch in einer weiteren speziellen Zelle des Array 406 verschoben werden.
Die Gewichtsabholungsschnittstelle 408 kann die Gewichtseingabe aus einer Speichereinheit empfangen, z. B. dem dynamischen Speicher 310 von 2. Die Gewichtsabholungsschnittstelle 408 kann eine entsprechende Gewichtseingabe zu einer unterschiedlichen am weitesten oben gelegenen Zelle des Array 406 senden. Beispielsweise kann die Gewichtsabholungsschnittstelle 408 Gewichtseingaben zu den Zellen 414 und 416 senden.
In einigen Implementierungen verschiebt eine Host-Schnittstelle, z. B. die Host-Schnittstelle 302 von 3, Aktivierungseingaben durch das Array 406 entlang einer Dimension, z. B. nach rechts, während das sie Gewichtseingaben durch das Array 406 entlang einer weiteren Dimension, z. B. nach unten, verschiebt. Beispielsweise kann über einem Taktzyklus die Aktivierungseingabe an der Zelle 414 zu einem Aktivierungsregister in der Zelle 416, die rechts von Zelle 414 ist, verschoben werden. Ähnlich kann die Gewichtseingabe an der Zelle 416 zum einem Gewichtsregister an der Zelle 418, die unterhalb von Zelle 414 ist, verschoben werden.
An jedem Taktzyklus kann jede Zelle eine gegebene Gewichtseingabe, eine gegebene Aktivierungseingabe und eine akkumulierte Ausgabe aus einer benachbarten Zelle verarbeiten, um eine akkumulierte Ausgabe zu erzeugen. Die akkumulierte Ausgabe kann auch zu der benachbarten Zelle entlang der gleichen Dimension wie die gegebene Gewichtseingabe weitergeleitet werden. Jede Zelle kann auch eine gegebene Gewichtseingabe und eine gegebene Aktivierungseingabe verarbeiten, um eine Ausgabe zu erzeugen, ohne eine akkumulierte Ausgabe aus einer benachbarten Zelle zu verarbeiten. Die Ausgabe kann zu benachbarten Zellen entlang den gleichen Dimensionen wie die gegebene Gewichtseingabe weitergeleitet und ausgegeben werden, ohne akkumuliert zu sein, z. B. um elementweise Multiplikation einer Gruppe von Gewichten und Aktivierungseingaben auszuführen. Eine einzelne Zelle ist nachstehend mit Bezug auf 5 weiter beschrieben.
In einigen Implementierungen kann eine Einheitsmatrix, d. h. eine Matrix, die auf der Hauptdiagonalen Einsen und überall sonst Nullen aufweist, zu dem Array 406 weitergeleitet werden und dadurch die Eingaben, die an den Werteladern 402 bereitgestellt sind, ohne Modifikation zu den Akkumulatoren weiterleiten. Das kann verwendet werden, um elementweise Multiplikation von zwei Eingaben auszuführen, wobei eine erste Ausgabe an den Akkumulatoren als Ausgabe = MatMul(Eingabe1, Identität) repräsentiert sein kann, wobei MatMul eine Anweisung für die Matrixberechnungseinheit ist, Matrixmultiplikation auszuführen, und eine zweite Ausgabe, die der elementweisen Multiplikation entspricht, als Ausgabe *= MatMul(Eingabe2, Identität) repräsentiert ist.
In einigen Implementierungen erfordert eine Matrixmultiplikation zwischen einer Eingabe und einer Einheitsmatrix keine Multiplikation mit der vollständigen Einheitsmatrix, da viele der Werte in der Einheitsmatrix Nullen sind. Beispielsweise kann, um eine Matrixmultiplikation einer 768×768-Matrix mit einer entsprechenden 768×768-Einheitsmatrix auszuführen, die 768×768-Einheitsmatrix durch die Matrixberechnungseinheit als 9 Kacheln von 256×256-Matrizen verarbeitet werden. In einem solchen Fall würde nur 3 aus den 256×256-Matrizen andere Werte als Null enthalten, d. h. diejenigen Kacheln, die die Hauptdiagonale der 768-768-Einheitsmatrix enthalten, und die anderen 6 Kacheln sind Matrizen, die nur Nullen enthalten. Um die Anforderungen für die Verarbeitung zu reduzieren, kann die Matrixmultiplikationseinheit Matrixmultiplikation unter Verwendung nur der 3 Kacheln, die Matrizen mit Werten ungleich null enthalten, ausführen, um das korrekte Multiplikationsergebnis zu erhalten.
Die akkumulierte Ausgabe kann entlang derselben Spalte wie die Gewichtseingabe weitergeleitet werden, z. B. zum unteren Ende der Spalte in dem Array 406 hin. In einigen Implementierungen kann das Array 406 unten an jeder Spalte Akkumulatoreinheiten 410 enthalten, die jede akkumulierte Ausgabe aus jeder Spalte speichern und akkumulieren, wenn Berechnungen mit Schichten ausgeführt werden, die mehr Aktivierungseingaben als Zeilen aufweisen. Die Akkumulatoreinheiten können 32-Bit-Ganzzahlregister oder Puffer enthalten, die Ausgaben der Zellen 404 speichern. In einigen Implementierungen speichert jede Akkumulatoreinheit mehrere parallele Akkumulierungen. Die Akkumulatoreinheiten 410 können jede akkumulierte Ausgabe akkumulieren, um einen akkumulierten Endwert zu erzeugen. Der akkumulierte Endwert kann zu einer Vektorberechnungseinheit übertragen werden, z. B. zu der Vektorberechnungseinheit von 3. In einigen anderen Implementierungen leiten die Akkumulatoreinheiten 410 die akkumulierten Werte zu der Vektorberechnungseinheit weiter, ohne irgendwelche Akkumulierungen auszuführen, wenn die Schichten verarbeitet werden, wenn die Schichten weniger Aktivierungseingaben als Zeilen aufweisen.
5 zeigt eine Beispiel-Architektur 500 einer Zelle innerhalb eines systolischen Array, z. B. in dem systolischen Array 406 von 4.
Die Zelle kann ein Aktivierungsregister 506 enthalten, das eine Aktivierungseingabe speichert. Das Aktivierungsregister kann eine Aktivierungseingabe von einer links benachbarten Zelle empfangen, d. h. einer benachbarten Zelle, die sich links von der gegebenen Zelle befindet, oder aus einem Einheitspuffer, abhängig von der Position der Zelle innerhalb des systolischen Array. Die Zelle kann ein Gewichtsregister 502 enthalten, das eine Gewichtseingabe speichert. Die Gewichtseingabe kann von einer oben benachbarten Zelle oder aus einer Gewichtsabholungsschnittstelle übertragen werden, abhängig von der Position der Zelle innerhalb des systolischen Array. Die Zelle kann außerdem ein Summeneingangsregister 504 enthalten. Das Summeneingangsregister 504 kann einen akkumulierten Wert von der oben benachbarten Zelle speichern. Eine Multiplikations-Schaltungsanordnung 508 kann verwendet werden, um die Gewichtseingabe aus dem Gewichtsregister 502 mit der Aktivierungseingabe aus dem Aktivierungsregister 506 zu multiplizieren. Die Multiplikations-Schaltungsanordnung 508 kann das Produkt zu der Summierungs-Schaltungsanordnung 510 ausgeben.
Die Summierungs-Schaltungsanordnung 510 kann das Produkt und den akkumulierten Wert aus dem Summeneingangsregister 504 summieren, um einen neuen akkumulierten Wert zu erzeugen. Die Summierungs-Schaltungsanordnung 510 kann den neuen akkumulierten Wert zu einem weiteren Summeneingangsregister senden, das sich in einer unten benachbarten Zelle befindet. Der neue akkumulierte Wert kann als ein Operand für eine Summation in der unteren benachbarten Zelle verwendet werden.
Die Summierungs-Schaltungsanordnung 510 kann auch einen Wert aus dem Summeneingangsregister 504 annehmen und den Wert aus dem Summeneingangsregister 504 zu einer unten benachbarten Zelle senden, ohne den Wert aus dem Summeneingangsregister 504 mit dem Produkt aus der Multiplikations-Schaltungsanordnung 508 zu summieren. Beispielsweise kann eine Zelle, um elementweise Multiplikation auszuführen, einen Wert in dem Summeneingangsregister 504 empfangen, und der empfangene Wert kann zu einer benachbarten Zelle ausgegeben werden, d. h. ohne dass die Summierungs-Schaltungsanordnung 510 das Produkt zu dem empfangenen Wert addiert. Die Zelle kann außerdem das Produkt, das durch die Multiplikations-Schaltungsanordnung 508 produziert wird, das einer elementweisen Multiplikation durch die Zelle entspricht, für eine benachbarten Zelle bereitstellen, ohne das Produkt und einen Wert, der in dem Summeneingangsregister 504 empfangen wird, zu summieren. Das Ergebnis ist, dass das systolische Array 406 Ausgabevektoren bereitstellen kann, die der elementweisen Multiplikation von Aktivierungseingaben und Gewichten entsprechen.
Die Zelle kann außerdem die Gewichtseingabe und die Aktivierungseingabe zu benachbarten Zellen zur Verarbeitung verschieben. Beispielsweise kann das Gewichtsregister 502 die Gewichtseingabe zu einem weiteren Gewichtsregister in der unten benachbarten Zelle senden. Das Aktivierungsregister 506 kann die Aktivierungseingabe zu einem weiteren Aktivierungsregister in der rechts benachbarten Zelle senden. Sowohl die Gewichtseingabe als auch die Aktivierungseingabe können deshalb durch andere Zellen in dem Array in einem nachfolgenden Taktzyklus wiederverwendet werden.
In einigen Implementierungen enthält die Zelle außerdem ein Steuerungsregister. Das Steuerungsregister kann ein Steuersignal speichern, das bestimmt, ob die Zelle entweder die Gewichtseingabe oder die Aktivierungseingabe zu benachbarten Zellen verschieben sollte. In einigen Implementierungen dauert das Verschieben der Gewichtseingabe oder der Aktivierungseingabe einen oder mehrere Taktzyklen. Das Steuersignal kann außerdem bestimmen, ob die Aktivierungseingabe oder Gewichtseingaben zu der Multiplikations-Schaltungsanordnung 508 übertragen werden, oder kann bestimmen, ob die Multiplikations-Schaltungsanordnung 508 auf den Aktivierungs- und Gewichtseingaben arbeitet. Das Steuersignal kann außerdem zu einer oder mehreren benachbarten Zellen weitergeleitet werden, z. B. unter Verwendung einer Leitung.
In einigen Implementierungen werden Gewichte in ein Gewichtspfadregister 512 vorverschoben. Das Gewichtspfadregister 512 kann die Gewichtseingabe empfangen, z. B. von einer oben benachbarten Zelle, und die Gewichtseingabe zu dem Gewichtsregister 502 basierend auf dem Steuersignal übertragen. Das Gewichtsregister 502 kann die Gewichtseingabe statisch speichern, so dass, wenn Aktivierungseingaben über mehrere Taktzyklen zu der Zelle übertragen werden, z. B. über das Aktivierungsregister 506, die Gewichtseingabe innerhalb der Zelle bleibt und nicht zu einer benachbarten Zelle übertragen wird. Deshalb kann die Gewichtseingabe auf mehrere Aktivierungseingaben angewandt werden, z. B. unter Verwendung der Multiplikations-Schaltungsanordnung 508, und jeweilige akkumulierte Werte können zu einer benachbarten Zelle übertragen werden.
6 ist ein Ablaufplan eines Beispielprozesses 600 zum Ausführen einer Berechnung für eine Mittelwert-Poolbildungsschicht eines neuronalen Netzes. Im Allgemeinen wird der Prozess 600 durch ein System aus einem oder mehreren Computern ausgeführt, das eine Spezial-Hardware-Schaltung enthält, beispielsweise das System von 1.
Das System empfängt eine Anforderung, ein neuronales Netz auf der Spezial-Hardware-Schaltung (602) zu implementieren. Insbesondere enthält das neuronale Netz eine Mittelwert-Poolbildungsschicht. Die Anforderung kann Parameter zum Implementieren des neuronalen Netzes spezifizieren, wie z. B. Netzeingabe zum Verarbeiten unter Verwendung des neuronalen Netzes, einen Ort zum Speichern einer Inferenz, die durch das Verarbeiten der Netzeingabe unter Verwendung des neuronalen Netzes erzeugt wird, und andere Parameter. Einige der Parameter können für die Mittelwert-Poolbildungsschicht des neuronalen Netzes spezifisch sein, wie z. B. ein Parameter, der Fensterdimensionen definiert, über die die Mittelwert-Poolbildung angewandt werden sollte.
Das System erzeugt Berechnungstensoren basierend auf der Anforderung, die zur Verarbeitung der Mittelwert-Poolbildungsschicht des neuronalen Netzes verwendet werden (604). Beispielsweise erzeugt das System, basierend auf dem Empfangen der Anforderung, das neuronale Netz zu implementieren, die eine Netzeingabe in das neuronale Netz und ein Fenster der Mittelwert-Poolbildungsschicht des neuronalen Netzes spezifiziert, einen Poolbildungs-Kern, einen mit Nullen aufgefüllten Eingabetensor zum Verarbeiten der Mittelwert-Poolbildungsschicht, einen Maskierungstensor zum Verarbeiten der Mittelwert-Poolbildungsschicht und einen optionalen dritten Tensor zum Verarbeiten der Mittelwert-Poolbildungsschicht.
Ein erster Berechnungstensor, der bei der Berechnung der Mittelwert-Poolbildungsschicht verwendet wird, ist ein Poolbildungs-Kern. Im Allgemeinen ist ein Kern eine Matrix, die in Berechnungen mit einer Eingabematrix verwendet wird, die typischerweise kleinere Dimensionen aufweist als die Eingabematrix. Der Poolbildungs-Kern besteht aus Einheitsmatrizen und weist Dimensionen auf, die mit dem Mittelwert-Poolbildungsfenster, das für die Mittelwert-Poolbildungsschicht spezifiziert ist, übereinstimmen. Für ein 3×3-Fenster wird beispielsweise der Kern ein 3×3-Kern sein, wobei jedes Element des Kern eine Einheitsmatrix ist, die Dimensionen von D × D aufweist, wobei D die Tiefe des Eingabetensors ist, der durch die Mittelwert-Poolbildungsschicht des neuronalen Netzes verarbeitet wird. Jede Einheitsmatrix besteht aus Werten, z. B. Einsen und Nullen, so dass eine Faltung des Poolbildungs-Kerns und eines Bereichs eines Eingabetensors zu einem Element führen wird, das einen Wert aufweist, der gleich einer Summe der Elemente innerhalb des Bereichs an einer speziellen Tiefe ist.
Beispielsweise wenn die Tiefe des Eingabetensors eins ist, d. h. der Eingabetensor ist ein zweidimensionaler Eingabetensor, wird die Einheitsmatrix eine 1×1-Matrix aus Einsen sein, d. h. ein skalares Element mit einem Wert von Eins. Somit wird der Poolbildungs-Kern eine zweidimensionale Matrix sein, die aus Einsen besteht, da jedes Element des Poolbildungs-Kerns eine 1×1-Matrix aus Einsen, d. h. ein skalarer Wert mit einem Wert von Eins, ist. Falls jedoch der Eingabetensor eine Tiefe von drei aufweist, wird der Poolbildungs-Kern ein zweidimensionaler Tensor sein, der die spezifizierte Größe des Mittelwert-Poolbildungsfensters aufweist, wobei jedes Element des Poolbildungs-Kerns eine 3×3-Einheitsmatrix ist, die Einsen auf der Hauptdiagonalen und Nullen überall sonst aufweist. Somit können mehrere Dimensionen des Eingabetensors parallel verarbeitet werden.
Die Berechnungseinheit 150 für das neuronale Netz kann die Einheitsmatrizen und den Poolbildungs-Kern, der aus Einheitsmatrizen besteht, erzeugen und kann die Einheitsmatrizen und/oder den Poolbildungs-Kern an einem Ort speichern, der durch die Spezial-Hardware-Schaltung 110 zugänglich ist, z. B. in dem dynamischen Speicher 310. Alternativ kann die Berechnungs-Engine 150 für das neuronale Netz die Einheitsmatrizen und/oder den Poolbildungs-Kern für die Spezial-Hardware-Schaltung 110 bereitstellen oder kann Anweisungen zum Erzeugen des Poolbildungs-Kerns für die Spezial-Hardware-Schaltung 110 bereitstellen, wobei z. B. der Poolbildungs-Kern oder die Anweisungen zum Erzeugen des Poolbildungs-Kerns durch die Host-Schnittstelle 302 empfangen werden können.
Ein zweiter Berechnungstensor, der zum Berechnen der Mittelwert-Poolbildungsschicht verwendet wird, kann ein mit Nullen aufgefüllter Eingabetensor sein. Beispielsweise kann das System eine Anforderung empfangen, ein neuronales Netz, das eine Mittelwert-Poolbildungsschicht enthält, zu implementieren, und basierend auf der Anforderung kann das System einen Netz-Eingabetensor, der durch die Anforderung spezifiziert ist, oder einen Eingabetensor für die Mittelwert-Poolbildungsschicht mit Nullen auffüllen, um einen mit Nullen aufgefüllten Eingabetensor zu erzeugen. Der mit Nullen aufgefüllte Eingabetensor kann basierend auf einem Fenster erzeugt werden, das für die Mittelwert-Poolbildungsschicht des neuronalen Netzes spezifiziert ist. In einigen Implementierungen kann die Implementierungs-Engine 150 für das neuronale Netz des Systems den Eingabetensor mit Nullen auffüllen und kann den mit Nullen aufgefüllten Eingabetensorfürdie Spezial-Hardware-Schaltung 110 bereitstellen. Alternativ kann die Implementierungs-Engine 150 für das neuronale Netz Anweisungen erzeugen zum Steuern der Spezial-Hardware-Schaltung 110, den mit Nullen aufgefüllten Eingabetensor zu erzeugen. Die Anweisungen und der Eingabetensor können durch die Host-Schnittstelle 302 der Spezial-Hardware-Schaltung empfangen werden, und Steuersignale basierend auf den empfangenen Anweisungen können die Vektorberechnungseinheit 314, die Speicherdirektzugriffs-Engine 304 oder eine weitere Komponente der Spezial-Hardware-Schaltung steuern, eine mit Nullen aufgefüllte Version des Eingabetensors in dem Einheitspuffer 308 zu speichern.
In einigen Implementierungen, in denen das Auffüllen mit Nullen durch die Spezial-Hardware-Schaltung 110 ausgeführt wird, wird das Auffüllen mit Nullen erreicht durch zuerst Kopieren des Eingabetensors in die geeigneten Teile der Ausgabe, z. B. in den Einheitspuffer 308, und dann Schreiben von Nullen an den geeigneten Positionen in dem Speicher, um einen mit Nullen aufgefüllten Eingabetensor zu erhalten. Beispielsweise für einen 8×8-Eingabetensor und ein 3×3-Fenster für eine Mittelwert-Poolbildungsschicht wäre ein mit Nullen aufgefüllter Eingabetensor ein 10×10-Tensor. Unter der Annahme einer Rasterabtast-Anordnung der Daten für sowohl Eingabe als auch Ausgaben des Auffüllens mit Nullen wäre der mit Nullen aufgefüllte Ausgabetensor strukturiert als anfangs 10 Nullen, die einer ersten Zeile des Auffüllens mit Nullen der Eingabematrix entsprechen, gefolgt von 8 Zeilen, von denen jede aus einer Null zum Auffüllen links, acht Werten aus einer Zeile des Eingabetensors und einer weiteren Null zum Auffüllen rechts, besteht, gefolgt von weiteren 10 Nullen, die einer letzten Zeile des Auffüllens mit Nullen entsprechen.
Um dieses Auffüllen mit Nullen zu erreichen, kann der Eingabetensor aus dem Einheitspuffer 308 in die Matrixberechnungseinheit 312 geladen werden, z. B. basierend auf Steuersignalen die aus Anweisungen aus der Implementierungs-Engine 150 für das neuronale Netz erzeugt werden. Die Multiplikation des Eingabetensors und einer Einheitsmatrix wird in der Matrixberechnungseinheit 312 ausgeführt, um die Aktivierungswerte des Eingabetensors in die Akkumulatoren zu laden, wo sie dann an den geeigneten Plätzen in dem Einheitspuffer 308 für den mit Nullen aufgefüllten Eingabetensor gespeichert werden können. Die Vektorberechnungseinheit 314 kann dann die geeigneten Nullen in dem Einheitspuffer 308 schreiben, um den mit Nullen aufgefüllten Eingabetensor zu erzeugen.
In einigen Implementierungen kann das System außerdem einen dritten Berechnungstensor zum Verarbeiten der Mittelwert-Poolbildungsschicht des neuronalen Netzes erzeugen. Der dritte Tensor besteht aus Elementen, von denen jedes gleich einer Inversen der Anzahl von Elementen in dem Fenster der Mittelwert-Poolbildungsschicht eines neuronalen Netzes ist. Die Implementierung 150 für das neuronale Netz kann den dritten Tensor basierend auf der empfangenen Anforderung, das neuronale Netz zu implementieren, erzeugen. Beispielsweise kann die Implementierungs-Engine 150 für das neuronale Netz einen dritten Tensor erzeugen, der die gleiche Größe aufweist wie ein Eingabetensor für die Mittelwert-Poolbildungsschicht des neuronalen Netzes, und kann den Tensor mit Werten füllen gleich einer Inversen der Anzahl von Elementen in dem Fenster, das für die Mittelwert-Poolbildungsschicht spezifiziert ist. Der erzeugte dritte Tensor kann in einem Speicherort gespeichert werden, der durch die Spezial-Hardware-Schaltung 110 zugänglich ist, oder kann für die Spezial-Hardware-Schaltung 110 zum Gebrauch bei der Berechnung der Mittelwert-Poolbildungsschicht bereitgestellt werden. Alternativ kann die Spezial-Hardware-Schaltung 110 den dritten Tensor basierend auf Anweisungen, die von der Implementierungs-Engine 150 für das neuronale Netz empfangen werden, erzeugen.
In einigen Implementierungen ist ein vierter Berechnungstensor, der durch das System erzeugt wird, ein Maskierungstensor. Im Allgemeinen besteht der Maskierungstensor aus Werten zum Ausführen von Neuskalierungsoperationen bei der Berechnung der Mittelwert-Poolbildungsschicht des neuronalen Netzes. Insbesondere können die Werte des Maskierungstensors basierend auf den Dimensionen des Eingabetensors für die Mittelwert-Poolbildungsschicht und des Fensters, das für die Mittelwert-Poolbildungsschicht spezifiziert ist, bestimmt werden, so dass jeder Wert die Anzahl von Eingabetensorwerten widerspiegelt, die gemittelt sind, um den entsprechenden Wert des Ausgabetensors zu erzeugen.
Eine Größe des Maskierungstensors kann basierend auf Dimensionen der spezifizierten Netzeingabe oder einer erwarteten Größe eines Eingabetensors für die Mittelwert-Poolbildungsschicht des neuronalen Netzes bestimmt werden. Die Werte von Elementen in dem Maskierungstensor können basierend auf dem spezifizierten Fenster der Mittelwert-Poolbildungsschicht und den Dimensionen der Netzeingabe oder des Eingabetensors für die Mittelwert-Poolbildungsschicht bestimmt werden. Die Elemente des Maskierungstensors sind so eingestellt, dass sie das Neuskalieren von Elementen, die bei der Ausführung von Mittelwert-Poolbildungsberechnungen produziert werden, erlauben, z. B. um Rand- und Eckelemente eines initialen Eingabetensors, der während der Verarbeitung der Mittelwert-Poolbildungsschicht produziert wird, neu zu skalieren. Falls ein neuronales Netz mehr als eine Mittelwert-Poolbildungsschicht enthält, kann das System einen Maskierungstensor für jede aus den Mittelwert-Poolbildungsschichten erzeugen. In einigen Implementierungen erzeugt das System den Maskierungstensor durch Kacheln eines oder mehrerer Maskierungstensorfragmente, die in dem Speicher gespeichert sind. Beispielsweise können Zeilen von Elementen oder Segmente von Zeilen von Elementen gekachelt werden, um den Maskierungstensor zu erzeugen, z. B. angeordnet, um einen größeren Maskierungsvektor oder eine Matrix, die aus Maskierungstensorfragmenten besteht, zu bilden. In einigen Implementierungen kann das System eine Bibliothek von Maskierungsmatrizen speichern, z. B. in einem Speicher, und kann eine Maskierungsmatrix aus der Bibliothek auswählen.
Der Maskierungstensor kann durch die Implementierungs-Engine 150 für das neuronale Netz erzeugt werden, oder es können Anweisungen erzeugt werden zum Steuern der Spezial-Hardware-Schaltung 110, den Maskierungstensor zu erzeugen. Beispielsweise kann die Implementierungs-Engine 150 für das neuronale Netz den Maskierungstensor basierend auf der Anforderung, das neuronale Netz zu implementieren, erzeugen und den Maskierungstensor in einem Speicherort speichern, der für die Spezial-Hardware-Schaltung 110 zugänglich ist, z. B. in dem dynamischen Speicher 310. Um den Maskierungstensor zu erzeugen, kann die Implementierungs-Engine 150 für das neuronale Netz auf Tensorfragmente zugreifen und kann die Tensorfragmente kompilieren, um den Maskierungstensor in dem Speicher zu erzeugen. Alternativ kann die Implementierungs-Engine 150 für das neuronale Netz den Maskierungstensor erzeugen und den Maskierungstensor für die Spezial-Hardware-Schaltung 110 bereitstellen, wo er durch die Host-Schnittstelle 302 empfangen werden kann. In anderen Implementierungen kann die Implementierungs-Engine 150 für das neuronale Netz Anweisungen für die Spezial-Hardware-Schaltung 110 zum Steuern der Spezial-Hardware-Schaltung 110, den Maskierungstensor zu erzeugen, bereitstellen. Beispielsweise können die Anweisungen die Spezial-Hardware-Schaltung 110 steuern, den Maskierungstensor zu erzeugen, z. B. aus Tensorfragmenten, die in dem dynamischen Speicher 110 zugänglich sind, und den Maskierungstensor zu speichern, z. B. in dem dynamischen Speicher 110.
Das System erzeugt Anweisungen, die dann, wenn sie durch die Spezial-Hardware-Schaltung des Systems ausgeführt werden, bewirken, dass die Spezial-Hardware-Schaltung während der Verarbeitung einer Netzeingabe für das neuronale Netz einen Schichtausgabetensor erzeugt, der einer Ausgabe der Mittelwert-Poolbildungsschicht eines neuronalen Netzes äquivalent ist (606). Beispielsweise erzeugt in Reaktion auf die Anforderung die Implementierungs-Engine 150 für das neuronale Netz des Systems von 1 Anweisungen, die die Spezial-Hardware-Schaltung 110 anweisen oder steuern, einen Ausgabetensor zu erzeugen, d. h. einen Ausgabevektor, der einer Ausgabe äquivalent ist, die die Spezial-Hardware-Schaltung 110 erzeugen würde, falls sie einen Eingabetensor durch Ausführen von Mittelwert-Poolbildung auf dem Eingabetensor verarbeiten würde.
Das System überträgt die Anweisungen und die Berechnungstensoren zu der Spezial-Hardware-Schaltung (608). Beispielsweise kann die Implementierungs-Engine 150 für das neuronale Netz die Anweisungen für die Spezial-Hardware-Schaltung 110 des Systems von 1 bereitstellen, und die Spezial-Hardware-Schaltung 110 kann die Anweisungen empfangen, z. B. an der Host-Schnittstelle 302 der Spezial-Hardware-Schaltung. Die Implementierungs-Engine 150 für das neuronale Netz kann außerdem die Berechnungstensoren für die Spezial-Hardware-Schaltung 110 bereitstellen, z. B. wo sie durch die Host-Schnittstelle 302 empfangen werden können. Alternativ können die Anweisungen, die für die Spezial-Hardware-Schaltung 110 bereitgestellt werden, der Spezial-Hardware-Schaltung 110 ermöglichen, die Berechnungstensoren zum Berechnen der Mittelwert-Poolbildungsschicht zu erzeugen oder auf sie zuzugreifen, z. B. in dem Speicher. Die Implementierungs-Engine 150 für das neuronale Netz kann außerdem andere Anweisungen und/oder Parameter für die Berechnung des neuronalen Netzes bereitstellen, die durch die Spezial-Hardware-Schaltung 110 empfangen werden können. Durch Bereitstellen der Anweisungen, Maskierungstensoren und/oder Parameter für die Spezial-Hardware-Schaltung 110 kann die Spezial-Hardware-Schaltung 110 eine Mittelwert-Poolbildungsschicht eines neuronalen Netzes mit sehr geringer Latenz berechnen, um die Verzögerung nachfolgender Berechnungen von Schichten des neuronalen Netzes zu reduzieren.
7 ist ein Ablaufplan eines Beispielprozesses 700 zum Berechnen einer Mittelwert-Poolbildungsschicht eines neuronalen Netzes. In einigen Implementierungen kann der Prozess 700 durch die Spezial-Hardware-Schaltung 110 des Systems von 1 basierend auf Anweisungen, die von der Implementierungs-Engine 150 für das neuronale Netz empfangen werden, ausgeführt werden.
Beispielsweise kann die Spezial-Hardware-Schaltung 110 mit den Anweisungen versorgt werden, die durch die Implementierungs-Engine 150 für das neuronale Netz erzeugt werden, wie in 6 beschrieben ist, und kann den Prozess 700 basierend auf den Anweisungen ausführen. Die Anweisungen können durch die Host-Schnittstelle 302 der Spezial-Hardware-Schaltung empfangen werden und zu dem Sequenzer 306 der Spezial-Hardware-Schaltung gesendet werden, wobei der Sequenzer 306 die Anweisungen in Steuersignale niedriger Ebene umsetzen kann, die Komponenten der Spezial-Hardware-Schaltung steuern, die Berechnung der Mittelwert-Poolbildungsschicht auszuführen.
Basierend auf den empfangenen Anweisungen führt die Spezial-Hardware-Schaltung eine Faltung eines Eingabetensors für die Mittelwert-Poolbildungsschicht des neuronalen Netzes und eines Kerns, der ein Poolbildungs-Kern mit einer Größe gleich einem Fenster der Mittelwert-Poolbildungsschicht des neuronalen Netzes ist, aus, um einen summierten Ausgabetensor zu erzeugen (702). Beispielsweise steuern die Steuersignale, die basierend auf den empfangenen Anweisungen erzeugt werden, die Spezial-Hardware-Schaltung, eine Faltung eines Eingabetensors für die Mittelwert-Poolbildungsschicht des neuronalen Netzes, z. B. einer Netzeingabe oder einer Ausgabe einer vorhergehenden Schicht des neuronalen Netzes, und eines Poolbildungs-Kerns auszuführen. Falls die Mittelwert-Poolbildungsschicht des neuronalen Netzes eine erste Schicht in dem neuronalen Netz ist, dann würde die Mittelwert-Poolbildungsschicht eine Netzeingabe in das neuronale Netz verarbeiten, z. B. eine Eingabe, die ein Digitalbild repräsentiert, die Element umfasst, die Pixeln des digitalen Bilds entsprechen. Andernfalls, falls die Mittelwert-Poolbildungsschicht des neuronalen Netzes nicht eine erste Schicht in dem neuronalen Netz ist, dann kann der Eingabetensor ein Ausgabetensor einer vorhergehenden Schicht des neuronalem Netzes sein.
Um die Faltung auszuführen, kann sich der Eingabetensor in dem Einheitspuffer 308 befinden, z. B. falls der Eingabetensor eine Ausgabe einer vorhergehenden Schicht des neuronalen Netzes ist, oder kann empfangen und in dem Einheitspuffer 308 gespeichert werden, z. B. falls der Eingabetensor eine Netzeingabe ist. Der Eingabetensor kann dann aus dem Einheitspuffer 308 zu der Matrixberechnungseinheit 312 gesendet werden. Zusätzlich kann ein Poolbildungs-Kern, d. h. eine Matrix, die Einheitsmatrizen als ihre Elemente aufweist, erzeugt oder empfangen werden, wie in 6 diskutiert ist, und in dem dynamischen Speicher 310 gespeichert werden. Die Größe der Poolbildungs-Kerns wird basierend auf dem Fenster der Mittelwert-Poolbildungsschicht bestimmt. Beispielsweise wenn die Mittelwert-Poolbildungsschicht ein 3×3-Fenster für Mittelwert-Poolbildung spezifiziert, dann kann ein 3×3-Poolbildungs-Kern empfangen werden, z. B. an der Host-Schnittstelle 302, und zu den dynamischen Speicher 310 gesendet werden, oder kann in dem dynamischen Speicher 310 identifiziert werden, z. B. wenn der dynamische Speicher 310 eine Menge von Poolbildungs-Kernen unterschiedlicher Dimensionen speichert. Die Elemente, d. h. Einheitsmatrizen, des Poolbildungs-Kerns werden aus dem dynamischen Speicher 310 zu der Matrixberechnungseinheit 312 gesendet.
Die Matrixberechnungseinheit 312 führt eine Faltung des Eingabetensors und des Poolbildungs-Kerns aus, um einen summierten Ausgabetensor zu erzeugen. Das Falten des Eingabetensors mit dem Poolbildungs-Kern führt zu einem summierten Ausgabetensor mit einer Größe, die derjenigen des Eingabetensors entspricht. In einigen Implementierungen kann die Faltung ausgeführt werden unter Verwendung von Techniken, die in der PCT-Anmeldung mit der Veröffentlichungs-Nr. WO 2016/186811 offenbart ist, die hierdurch durch Bezugnahme vollständig mit aufgenommen ist. Jedes Element des summierten Ausgabetensors ist einer Summe von Elementen des Eingabetensors innerhalb eines Bereichs des Eingabetensors, der durch das Fenster definiert ist, wenn es auf ein entsprechendes Element des Eingabetensors angewandt wird, äquivalent. Wenn der Eingabetensor eine Tiefe D größer als 1 aufweist, so dass die Elemente des Poolbildungs-Kerns jeweils eine D×D-Einheitsmatrix sind, ist die Faltung des Eingabetensors und des Poolbildungs-Kerns so, dass unterschiedliche Tiefen des Eingabetensors parallel verarbeitet werden können, um den summierten Ausgabetensor zu erzeugen. Auf diese Weise kann die Latenz der Berechnung des summierten Ausgabetensors reduziert werden. Der summierte Ausgabetensor kann in dem Einheitspuffer 308 gespeichert werden. In einigen Beispielen kann die Matrixberechnungseinheit 312 den summierten Ausgabetensor für die Vektorberechnungseinheit 314 bereitstellen, und die Vektorberechnungseinheit 314 speichert den summierten Ausgabetensor in dem Einheitspuffer 308.
In einigen Implementierungen beinhaltet das Ausführen der Faltung des Eingabetensors und des Poolbildungs-Kerns Ausführen einer Faltung eines mit Nullen aufgefüllten Eingabetensors und des Poolbildungs-Kerns. Beispielsweise, wie mit Bezug auf 6 diskutiert ist, kann eine mit Nullen aufgefüllte Version eines Eingabetensors erzeugt werden, und der mit Nullen aufgefüllte Eingabetensor und der Poolbildungs-Kern können gefaltet werden, um den summierten Ausgabetensor zu erzeugen. Um die Faltung auszuführen, kann der mit Nullen aufgefüllte Eingabetensor erzeugt und in dem Einheitspuffer 308 gespeichert werden. Ein Faltungsprozess ähnlich dem vorstehend beschriebenen kann dann ausgeführt werden, um einen summierten Ausgabetensor zu erzeugen, der die gleiche Größe wie der Eingabetensor aufweist. Beispielsweise können der mit Nullen aufgefüllte Eingabetensor und der Poolbildungs-Kern für die Matrixberechnungseinheit 312 bereitgestellt werden, wobei die Matrixberechnungseinheit 312 die Faltungsoperation ausführen kann und die resultierenden Werte zu dem Einheitspuffer 308 senden kann, damit sie als der summierte Ausgabetensor gespeichert werden.
In einigen Implementierungen benutzen die Faltungsoperationen Festkommaarithmetik. Um die Auflösung beizubehalten, können die Ergebnisse der Faltung in den Akkumulatoren 410 der Matrixberechnungseinheit gehalten werden. Weil in einigen Implementierungen die Akkumulatoren jeweils 32 Bit breit sind, werden die Ergebnisse der Faltung, d. h. die Summen der Elemente des Eingabetensors, die innerhalb des Poolbildungsfensters sind, die Akkumulatoren 410 nicht zum Überlauf bringen. Somit kann die Auflösung an diesem Schritt der Mittelwert-Poolbildungsberechnung beibehalten werden.
Basierend auf den empfangenen Anweisungen führt die Spezial-Hardware Operationen aus, um zu bewirken, dass jedes Element des summierten Ausgabetensors durch eine Anzahl von Elementen in dem Fenster der Mittelwert-Poolbildungsschicht des neuronalen Netzes dividiert wird, um einen initialen Ausgabetensor zu erzeugen (704). Beispielsweise können Steuersignale durch den Sequenzer 306 basierend auf Anweisungen, die an der Host-Schnittstelle 302 von der Implementierungs-Engine für das neuronale Netz empfangen werden, zum Multiplizieren jedes Elements des summierten Ausgabetensors mit einem Faktor gleich einer Inversen der Anzahl von Elementen in dem Fenster der Mittelwert-Poolbildungsschicht des neuronalen Netzes erzeugt werden.
In einigen Implementierungen bewirken die Steuersignale, dass die Spezial-Hardware-Schaltung den initialen Ausgabetensor erzeugt durch Ausführen einer elementweisen Multiplikation des summierten Ausgabetensors und eines Tensors, der aus Elementen besteht, von denen jedes gleich einer Inversen der Anzahl von Elementen in dem Fenster der Mittelwert-Poolbildungsschicht des neuronalen Netzes ist. Wie mit Bezug auf 6 diskutiert ist, kann die Spezial-Hardware-Schaltung eine solche Matrix empfangen, z. B. an der Host-Schnittstelle 302, und kann die Matrix in dem dynamischen Speicher 310 speichern. Alternativ kann die Spezial-Hardware-Schaltung Operationen ausführen, um die Matrix zu erzeugen und die Matrix in dem dynamischen Speicher 310 zu speichern. Die Matrix kann eine Größe aufweisen, die mit derjenigen des summierten Ausgabetensors übereinstimmt, die außerdem mit dem der Eingabetensors übereinstimmt. Beispielsweise falls eine Mittelwert-Poolbildungsschicht so spezifiziert ist, dass sie ein 3×3-Fenster aufweist, d. h. ein Fenster aus 9 Elementen, dann kann eine Matrix aus Elementen, die Werte von 1/9 (oder ungefähr 0,11) aufweist und Dimensionen des summierten Ausgabetensors aufweist, durch die Host-Schnittstelle 302 der Spezial-Hardware-Schaltung empfangen werden. Die Matrix kann in dem dynamischen Speicher 310 gespeichert werden. Alternativ kann eine solche Matrix bereits in dem dynamischen Speicher 310 gespeichert sein und kann durch die Spezial-Hardware-Schaltung identifiziert werden.
Um elementweise Multiplikation des summierten Ausgabetensors und der Matrix auszuführen, kann der summierte Ausgabevektor aus dem Einheitspuffer 308 für die Matrixberechnungseinheit 312 bereitgestellt werden, und die andere Matrix kann aus dem dynamischen Speicher 310 für die Matrixberechnungseinheit 312 bereitgestellt werden. Die elementweise Multiplikation der Matrizen kann ausgeführt werden, und eine Ausgabe der elementweisen Multiplikation kann in dem Einheitspuffer 308 gespeichert werden. Beispielsweise kann die Matrixberechnungseinheit 312 die elementweise Multiplikation basierend auf empfangenen Steuersignalen ausführen und den resultierenden initialen Ausgabetensor für die Vektorberechnungseinheit 314 bereitstellen, die dann den initialen Ausgabetensor in dem Einheitspuffer 308 speichern kann.
Alternativ kann die Multiplikation der Elemente des summierten Ausgabevektors mit dem Faktor gleich der Inversen der Anzahl von Elementen in dem Fenster durch Ausführen von Skalarmultiplikation des summierten Ausgabevektors mit dem Faktor erreicht werden. Beispielsweise kann der summierte Ausgabevektor aus der Matrixberechnungseinheit 312 für die Vektorberechnungseinheit 314 bereitgestellt werden, und die Vektorberechnungseinheit 314 kann eine Funktion auf den summierten Ausgabevektor anwenden, um die Elemente des summierten Ausgabevektors mit dem Faktor zu multiplizieren, um den initialen Ausgabevektor zu erzeugen. Die Vektorberechnungseinheit 314 kann dann den initialen Ausgabevektor in dem Einheitspuffer 308 speichern.
Obwohl hier als durch Multiplikation ausgeführt diskutiert, können in einigen Implementierungen andere Operationen ausgeführt werden, um den initialen Ausgabevektor zu erhalten. Somit kann die Spezial-Hardware-Schaltung Operationen ausführen, um Elemente des summierten Ausgabevektors durch der Anzahl von Elementen in dem spezifizierten Fenster der Mittelwert-Poolbildungsschicht zu dividieren, um den initialen Ausgabevektor zu erhalten, anstatt dass die Spezial-Hardware-Schaltung die Elemente des summierten Ausgabevektors mit einer Inversen der Anzahl von Elementen des spezifizierten Fensters der Mittelwert-Poolbildungsschicht multipliziert, d. h. in denen die Spezial-Hardware-Schaltung zum Ausführen von Division fähig ist.
Obwohl das Ausführen der Schritte 702 und 704 der Spezial-Hardware-Schaltung ermöglicht, eine Ausgabe für die Mittelwert-Poolbildungsschicht bereitzustellen, die weitgehend genau ist, wird die Ausgabe spezielle Elemente aufweisen, die nicht korrekte Mittelwerte sind. Beispielsweise wenn eine Mittelwert-Poolbildungsschicht mit einem 3×3-Fenster auf ein Eckelement eines Eingabetensors angewandt wird, wäre ein Werte eines entsprechenden Eckelements eines Ausgabetensors ein Mittelwert nur des entsprechenden Eckelements des Eingabetensors und der 3 benachbarten Elemente in dem Eingabetensor, d. h. ein Mittelwert von nur 4 Elementen. Durch Multiplizieren des Eckelements des summierten Ausgabevektors mit einer Inversen der Anzahl von Elementen des 3×3-Fensters, d. h. Multiplizieren mit 1/9, ist es wahrscheinlich, dass der berechnete Mittelwert in dem initialen Ausgabevektor für dieses Element nicht korrekt ist.
Um dieses Problem zu adressieren, kann das System Elemente des initialen Ausgabetensors neu skalieren, um einen Ausgabetensor zu erzeugen (706). Um das Neuskalieren auszuführen, kann die Spezial-Hardware-Schaltung 110 einen Maskierungstensor empfangen oder erzeugen, wie mit Bezug auf Schritt 604 von 6 diskutiert ist. Der Maskierungstensor kann für die Spezial-Hardware-Schaltung zugänglich sein, z. B. in dem dynamischen Speicher 310, und kann für die Matrixberechnungseinheit 312 bereitgestellt werden. Der initiale Ausgabetensor kann für die Matrixberechnungseinheit 312 aus dem Einheitspuffer 308 bereitgestellt werden. Die elementweise Multiplikation des initialen Ausgabetensors und des Maskierungstensors kann ausgeführt werden, um einen Ausgabetensor zu erzeugen, der einer Ausgabe der Mittelwert-Poolbildungsschicht des neuronale Netzes entspricht. Der Ausgabetensor kann in dem Einheitspuffer 308 gespeichert werden, z. B. durch die Vektorberechnungseinheit 314.
Wie mit Bezug auf Schritt 604 des Prozesses 600 diskutiert ist, kann der Maskierungstensor von einer Größe sein, die der Größe des Eingabetensors entspricht, die außerdem der Größe des summierten Ausgabetensors und des initialen Ausgabetensors entspricht. Die Werte des Maskierungstensors können basierend auf den Dimensionen des Eingabetensors und des Fensters, das für die Mittelwert-Poolbildungsschicht des neuronalen Netzes spezifiziert ist, bestimmt werden, so dass jeder Wert die Anzahl von Eingabetensorwerten widerspiegelt, die gemittelt sind, um den entsprechenden Wert des Ausgabetensors zu erzeugen. Beispielsweise wird für ein 3×3-Mittelwertfenster und einen zweidimensionalen Eingabetensor der Größe 3×3 oder größer der Maskierungstensor die Faktoren von 9/4 für Eckelemente und 9/6 für Randelemente enthalten, wobei die restlichen Werte des Maskierungstensors Einsen sind. Somit wird nach der Multiplikation mit dem Faktor gleich der Inversen der Anzahl von Elementen in dem Fenster, d. h. 1/9, das Neuskalieren von Eckelementen mit einer Skalierung von 9/4 dazu führen, dass der Eckwert des summierten Ausgabetensors durch 4 dividiert wird, was geeignet ist, da das Anwenden des 3×3-Poolbildungs-Kerns auf Eckelemente des Eingabetensors dazu führt, dass 4 Elemente des Eingabetensors summiert werden, um ein Eckelement des summierten Ausgabetensors zu produzieren.
In anderen Implementierungen kann das System, anstatt Operationen auszuführen, um zu bewirken, dass die Elemente des summierten Ausgabetensors durch eine Anzahl von Elementen in dem Fenster der Mittelwert-Poolbildungsschicht dividiert werden, zuerst einen kleinsten gemeinsamen Nenner für die Anzahl von Aktivierungswerten des Eingabetensor bestimmen, die summiert sind, um jeden Wert des summierten Ausgabetensors zu erzeugen. Somit werden für das 3×3-Fenster und einen 3×3- oder größeren zweidimensionalen Eingabetensor 4 Elemente des Eingabetensors summiert, um ein Eckelement des summierten Ausgabetensors zu erzeugen, 6 Elemente des Eingabetensors werden summiert, um ein Randelement des summierten Ausgabetensors zu erzeugen, und 9 Elemente des Eingabetensors werden summiert, um die anderen Elemente des Eingabetensors zu erzeugen. Somit wäre der kleinste gemeinsame Nenner 36. Um die richtigen Werte für die Mittelwert-Poolbildungsschicht zu erzeugen, kann ein Maskierungstensor bestimmt werden, der Neunen in den Eckelementen, Sechsen in den Randelementen und Vieren überall sonst aufweist. Das Ausführen von Operationen, um zu bewirken, dass jedes Element des summierten Ausgabetensors durch den kleinsten gemeinsamen Nenner dividiert wird, gefolgt von Neuskalieren unter Verwendung des Maskierungstensors, würde dann zu einem Ausgabetensor führen, der eine genaue Ausgabe für die Mittelwert-Poolbildungsschicht ist. Das heißt, das Ausführen von elementweiser Multiplikation des summierten Ausgabetensors mit einer Matrix, die aus einer Inversen des kleinsten gemeinsamen Nenners besteht, d. h. 1/36 oder ungefähr 0,03, kombiniert mit elementweiser Multiplikation mit dem Maskierungstensor würde zu einem Ausgabetensor führen, der eine genaue Ausgabe für die Mittelwert-Poolbildungsschicht des neuronalen Netzes ist.
Eine solche Technik, in der Multiplikation mit einer Ganzzahl statt Multiplikation mit einem Bruch ausgeführt wird, wird in speziellen Implementierungen eingesetzt, um die Auflösung der produzierten Werte in den Berechnungen durchgehend zu erhalten. Wie diskutiert sind in einigen Implementierungen die Akkumulatoren 410 der Matrixberechnungseinheit 312 32 Bit breit, während Aktivierungen, z. B. in der Aktivierungseinheit der Vektorberechnungseinheit 314, entweder 8 Bit oder 16 Bit breit sind. Das System kann Festkommaarithmetik unter Verwendung der 32-Bit-, 8-Bit- oder 16-Bit-Register ausführen, um Berechnungen zum Produzieren einer Ausgabe der Mittelwert-Poolbildungsschicht auszuführen. Nur die Aktivierungen sind jedoch zum Ausführen von Bruch-Operationen imstande. Weil die Aktivierungen eine geringere Auflösung aufweisen, d. h. 8 oder 16 Bit gegenüber 32 Bit, ist es wünschenswert, Ganzzahlberechnungen auszuführen, um die Auflösung wenn möglich zu erhalten. Sobald Aktivierungsoperationen, z. B. durch die Aktivierungseinheit der Vektorberechnungseinheit 314, auf Werten ausgeführt werden, die in den 32-Bit-Akkumulatoren gespeichert sind, wird die Auflösung der resultierenden Werte verlorengehen.
Somit können bei Ausführen von elementweiser Multiplikation unter Verwendung von Ganzzahlen die Ergebnisse in den Akkumulatoren mit einer höheren Auflösung beibehalten werden als dann, wenn elementweise Multiplikation unter Verwendung von Brüchen in den Aktivierungen ausgeführt würde. Wo die Mittelwert-Poolbildungsoperationen unter Verwendung von nur Ganzzahlarithmetik, d. h. ohne Verwendung von Multiplikation mit Brüchen, ausgeführt werden kann, kann eine höchste Auflösung beibehalten werden. Wo wenigstens einige Bruchzahlarithmetik ausgeführt werden muss, kann das Reduzieren der Anzahl von Bruchzahlarithmetikoperationen, die in den Aktivierungen ausgeführt werden, die Quantisierungsartefakte, die durch Verwenden der Aktivierungen mit niedrigerer Auflösung produziert werden, reduzieren.
8 bildet ein Beispiel einer Berechnung für eine Mittelwert-Poolbildungsschicht eines neuronalen Netzes ab. Das Beispiel von 8 kann unter Verwendung der Prozesse von 7 durch die Spezial-Hardware-Schaltung von 3 ausgeführt werden. Zur Veranschaulichung wendet das Beispiel von 8 eine Mittelwert-Poolbildungsschicht auf ein zweidimensionales 8×8-Array von Aktivierungswerten an. Die Mittelwert-Poolbildungsschicht des neuronalen Netzes kann ein 3×3-Fenster aufweisen, z. B. kann eine Anforderung, das neuronale Netz zu implementieren, spezifizieren, dass die Mittelwert-Poolbildungsschicht ein 3×3-Fenster aufweist, was bedeutet, dass jedes Element einer Ausgabe der Mittelwert-Poolbildungsschicht ein numerischer Mittelwert des entsprechenden Elements eines Eingabetensors und der 8 Elemente des Eingabetensors, die dem entsprechenden Element des Eingabetensors benachbart sind, sein wird. Der 8×8-Eingabetensor, der in 8 gezeigt ist, kann einen 8×8-Abschnitt eines Bilds repräsentieren, das in das neuronale Netz als eine Netzeingabe eingegeben wird, oder kann einen 8×8-Abschnitt eines weiteren Eingabetensors repräsentieren, z. B. eines Eingabetensors, der einer Ausgabe einer vorhergehenden Schicht des neuronalen Netzes entspricht.
In Teil (a) von 8 wird eine Faltung des 8×8-Eingabetensors und des Poolbildungs-Kerns ausgeführt, um einen summierten Ausgabetensor zu erzeugen. Wie gezeigt ist der Poolbildungs-Kern ein 3×3-Kern aus Einsen. Das liegt daran, dass der Eingabetensor zweidimensional ist, d. h. eine Tiefe von Eins aufweist, so dass jedes Element des Poolbildungs-Kerns eine 1×1-Einheitsmatrix ist, das heißt ein skalarer Wert von Eins. Die Faltung des Eingabetensors und des Poolbildungs-Kerns führt zu dem summierten Ausgabetensor, wobei jedes Element des summierten Ausgabetensors einer Summe eines entsprechenden Elements des Eingabetensors und der acht Elementen benachbart dem entsprechenden Element des Eingabetensors ist, d. h. der 8 Elemente, die bei Schreibung in Matrixformat das entsprechende Element des Eingabetensors umgeben. Weil der Eingabetensor im Speicher, d. h. in dem Einheitspuffer 308, in Rasterabtastreihenfolge gespeichert sein kann, können im Speicher die Elemente des Eingabetensors, die summiert werden, um ein Element des summierten Ausgabetensors zu erzeugen, nicht benachbart sein. Obwohl in 8 nicht gezeigt kann der Eingabetensor auch ein mit Nullen aufgefüllter Eingabetensor sein, wie mit Bezug auf den Prozess 700 von 7 beschrieben ist.
Für das in Teil (a) von 8 gezeigte spezifische Beispiel wird der 3×3-Poolbildungs-Kern auf den Eingabetensor angewandt, um ein Element des summierten Ausgabetensors zu erzeugen, das einer (1,1)-Position des summierten Ausgabetensors entspricht. Somit ist das (1,1)-Element des summierten Ausgabetensors eine Summierung von Elemente, die den (0,0)-, (1,0)-, (2,0)-, (1,0)-, (1,1)-, (1,2)-, (2,0)-, (2,1)- und (2,2)-Matrixpositionen des Eingabetensors entsprechen. Somit ist für die in Teil (a) gezeigten Werte das Element, das der (1,1)-Position des summierten Ausgabetensors entspricht, gleich 36. Andere Elemente des summierten Ausgabetensors würden ähnlich berechnet, sind jedoch in dem Beispiel von 8 nicht gezeigt.
In Teil (b) von 8 werden die Elemente des summierten Ausgabetensors mit einem Faktor multipliziert, der einer Inversen der Anzahl von Elementen in dem Fenster der Mittelwert-Poolbildungsschicht des neuronalen Netzes äquivalent ist, um einen initialen Ausgabetensor zu erzeugen. Um die Multiplikation auszuführen, wird ein Maskierungstensor erzeugt, der eine Größe äquivalent der Größe des summierten Ausgabetensors aufweist, die auch gleich der Größe des Eingabetensors ist. Elemente des Maskierungstensors sind gleich einer Inversen der Anzahl von Elementen in dem Fenster der Mittelwert-Poolbildungsschicht des neuronalen Netzes. Somit ist, wie in 8 gezeigt ist, der Maskierungstensor ein 8×8-Array von Werten, von denen jeder gleich 1/9 ist, wie in 8 genähert als 0,11 gezeigt ist.
Die elementweise Multiplikation des summierten Ausgabetensors und des Maskierungstensors führt zu einem initialen Ausgabetensor, wobei jedes Element des initialen Ausgabetensors gleich dem Produkt eines entsprechenden Elements des summierten Ausgabetensors und einem entsprechenden Element des Maskierungstensors ist. Somit ist das Element, das sich an der (1,1)-Position des initialen Ausgabetensors befindet, gleich 4, basierend auf 36·(1/9) = 4. Andere Elemente des initialen Ausgabetensors würden ähnlich berechnet, sind jedoch in 8 nicht gezeigt. Zusätzlich kann, obwohl in 8 als durch elementweise Multiplikation ausgeführt gezeigt, in einigen Implementierungen der initiale Ausgabetensor durch Ausführen von skalarer Multiplikation des summierten Ausgabetensors und eines Faktors äquivalent der Inversen der Anzahl von Elementen in dem Fenster der Mittelwert-Poolbildungsschicht erreicht werden. Somit würde für das in 8 gezeigte Beispiel die skalare Multiplikation des summierten Ausgabetensors und 1/9, z. B. durch die Vektorberechnungseinheit 314 ausgeführt, zu dem initialen Ausgabetensor führen.
In Teil (c) von 8 werden Elemente des initialen Ausgabetensors neu skaliert, um einen Ausgabetensor für die Mittelwert-Poolbildungsschicht des neuronalen Netzes zu erzeugen. Um die Neuskalierung auszuführen, wird elementweise Multiplikation zwischen dem initialen Ausgabetensor und einem zweiten Maskierungstensor ausgeführt. Eine Größe des zweiten Maskierungstensors stimmt mit der Größe des initialen Ausgabetensors überein, die auch gleich der Größe sowohl des summierten Ausgabetensors als auch des Eingabetensors ist. Die Elemente des zweiten Maskierungstensors werden basierend auf einer Anzahl von Elementen des Eingabetensors bestimmt, die bei der Ausführung der Faltung in Teil (a) von 8 mit Elementen des Poolbildungs-Kerns multipliziert werden. Somit führt in dem Beispiel von 8 das Anwenden der 3×3-Gewichtsmatrix auf ein Eckelement des Eingabetensors dazu, dass 4 aus den 9 Elementen des Poolbildungs-Kerns mit Elementen des Eingabetensors multipliziert werden, und das Anwenden des 3×3-Poolbildungs-Kerns auf ein Randelement des Eingabetensors führt dazu, dass 6 aus den 9 Elementen des Poolbildungs-Kerns mit Elementen des Eingabetensors multipliziert werden. Für alle anderen Elemente des Eingabetensors führt das Anwenden des 3×3-Poolbildungs-Kerns dazu, dass alle 9 Elemente des Poolbildungs-Kerns mit einem Element des Eingabetensors multipliziert werden.
Die Elemente des zweiten Maskierungstensors sind deshalb so einstellt, dass die erste Multiplikation mit der Anzahl von Elementen des Fensters der Mittelwert-Poolbildungsschicht und die zweite Multiplikation mit dem Neuskalierungsfaktor dazu führen, dass die richtige Mittelwertberechnung für jedes Element des Ausgabetensors angewandt wird. Somit führt für ein Eckelement des Eingabetensors, wo nur 4 Elemente des Eingabetensors gemittelt werden, wenn der Poolbildungs-Kern auf das Eckelement angewandt wird, die Multiplikation des entsprechenden Elements mit dem summierten Ausgabetensor zuerst mit 1/9, d. h. 0,11 wie in Teil (b) gezeigt, und dann mit 9/4 zu einer effektiven Division des Eckelements des summierten Ausgabevektors durch 4. Mit anderen Worten wird der Neuskalierungsfaktor beispielsweise auf der Basis der Anzahl von Summanden, die zu einem speziellen Element in dem initialen Ausgabetensor beitragen, bestimmt.
In einigen Implementierungen werden der Maskierungstensor von Teil (b) und der zweite Maskierungstensor von Teil (c) durch die Implementierungs-Engine 150 für das neuronale Netz von 1 erzeugt und für die Spezial-Hardware-Schaltung 110 bereitgestellt. Die Spezial-Hardware-Schaltung 110 kann die erzeugten Maskierungstensoren empfangen, z. B. an der Host-Schnittstelle 302, und kann die Maskierungstensoren zum Gebrauch in den Berechnungen der Mittelwert-Poolbildungsschicht speichern, z. B. durch Speichern der Maskierungstensoren in dem dynamischen Speicher 310. Alternativ kann die Implementierungs-Engine 150 für das neuronale Netz Anweisungen für die Spezial-Hardware-Schaltung 110 bereitstellen, die bewirken, dass die Spezial-Hardware-Schaltung die Maskierungstensoren erzeugt und/oder in dem dynamischen Speicher 310 speichert, z. B. durch Bewirken, dass die Spezial-Hardware-Schaltung 110 Tensorfragmente kachelt, um die Maskierungstensoren zu erzeugen, und die erzeugten Maskierungstensoren in dem dynamischen Speicher 310 speichert.
Die elementweise Multiplikation des initialen Ausgabetensors und des zweiten Maskierungstensors führt zu dem Ausgabetensor, der dann in dem Einheitspuffer 308 als die Ausgabe der Mittelwert-Poolbildungsschicht des neuronalen Netzes gespeichert werden kann. Für das in 8 gezeigte Beispiel werden alle Elemente des Poolbildungs-Kerns auf das Element des Eingabetensors angewandt, das die Position (1,1) aufweist, und somit ist der entsprechende Faktor des zweiten Maskierungstensors gleich 1. Somit ist das Element an der (1,1)-Position des Ausgabetensors gleich dem entsprechenden Element des initialen Ausgabetensors, das einen Wert von 4 aufweist. Die gleiche elementweise Multiplikation kann für alle anderen Elemente des initialen Ausgabetensors ausgeführt werden, um den Ausgabetensor zu erzeugen.
In einigen Fällen werden die elementweisen Multiplikationen, die in 8 gezeigt sind, des summierten Ausgabetensors und des Maskierungstensors und des initialen Ausgabetensors und des zweiten Maskierungstensors in den Aktivierungen ausgeführt, z. B. in der Aktivierungseinheit der Vektorberechnungseinheit 314. Das kann stattfinden, wenn die Operationen für elementweise Multiplikation sowohl Bruch- als auch Festkomma-Arithmetikoperationen sind, die in einigen Implementierungen durch die Aktivierungen gehandhabt werden können, jedoch nicht durch die Akkumulatoren.
9 bildet ein weiteres Beispiel einer Berechnung einer Mittelwert-Poolbildungsschicht eines neuronalen Netzes ab. Das Beispiel von 9 kann unter Verwendung des Prozesses von 7 durch die Spezial-Hardware-Schaltung von 3 ausgeführt werden. Zur Veranschaulichung wendet das Beispiel von 9 eine Mittelwert-Poolbildungsschicht auf ein 8×8-Array von Aktivierungswerten an. Die Mittelwert-Poolbildungsschicht des neuronalen Netzes kann ein 3×3-Fenster aufweisen, z. B. kann eine Anforderung, das neuronale Netz zu implementieren, spezifizieren, dass die Mittelwert-Poolbildungsschicht ein 3×3-Fenster aufweist, was bedeutet, dass jedes Element einer Ausgabe der Mittelwert-Poolbildungsschicht ein numerischer Mittelwert des entsprechenden Elements eines Eingabetensors und der 8 benachbarten Elemente des entsprechenden Element des Eingabetensors sein wird. Der 8×8-Eingabetensor, der in 9 gezeigt ist, kann einen 8×8-Abschnitt eines Bilds repräsentieren, das in das neuronale Netz als eine Netzeingabe eingegeben wird, oder kann einen 8×8-Abschnitt eines weiteren Eingabetensors repräsentieren, z. B. eines Eingabetensors, der einer Ausgabe einer vorhergehenden Schicht des neuronalen Netzes entspricht.
In Teil (a) von 9 ist ein Eingabetensor für die Mittelwert-Poolbildungsschicht des neuronalen Netzes mit Nullen aufgefüllt worden, um einen mit Nullen aufgefüllten Eingabetensor zu erzeugen. Anweisungen, die für die Spezial-Hardware-Schaltung bereitgestellt werden, können verwendet werden, um Steuersignale zum Steuern der Spezial-Hardware-Schaltung, einen Eingabetensor mit Nullen aufzufüllen, zu erzeugen. Das Auffüllen mit Nullen kann beispielsweise erreicht werden durch Bereitstellen des Eingabetensors aus dem Einheitspuffer 308 für die Matrixberechnungseinheit 312, Multiplizieren der Eingabematrix mit einer Eingabematrix in der Matrixberechnungseinheit 312, Speichern der Ausgabe in dem Einheitspuffer 308 und dann Ausführen von Aktivierungsoperationen z. B. durch die Vektorberechnungseinheit 314, um Nullen in die geeigneten Plätze in dem Einheitspuffer 308 zu schreiben, um den mit Nullen aufgefüllten Eingabetensor zu erzeugen. Der resultierende mit Nullen aufgefüllte Eingabetensor ist eine 10×10-Matrix, die eine erste Zeile aus 10 Nullen, 8 Zeilen, von denen jede eine erste Null, 8 Werte aus einer Zeile des Eingabetensors und eine zweite Null an dem Ende der Zeile aufweist, und eine Endzeile aus 10 Nullen aufweist.
Der mit Nullen aufgefüllte Eingabetensor wird mit einem Kern gefaltet, der ein Poolbildungs-Kern ist, der die gleiche Größe aufweist wie ein Fenster, das für die Mittelwert-Poolbildungsschicht des neuronalen Netzes spezifiziert ist. Somit wird für das Beispiel, das in 9 gezeigt ist, ein 3×3-Kern, der aus 1×1-Einheitsmatrizen, d. h. Einsen, besteht, mit dem mit Nullen aufgefüllten Eingabetensor gefaltet, um einen summierten Ausgabetensor zu erzeugen. Wie gezeigt erzeugt das Falten des mit Nullen aufgefüllten Eingabetensors mit dem Poolbildungs-Kern den summierten Ausgabetensor, in dem jedes Element des summierten Ausgabetensors gleich einer Summe des entsprechenden Elements des mit Null aufgefüllten Eingabetensors und der 8 Elemente ist, die benachbart dem entsprechenden Element des mit Nullen aufgefüllten Eingabetensors gezeigt sind. Somit ist das (0,0)-Element des summierten Ausgabetensors, der in 9 gezeigt ist, gleich 8, d. h. der Summe 0 + 0 + 0 + 0 + 0 + 1 + 0 + 3 + 4 = 8. Ein ähnlicher Prozess kann ausgeführt werden, um jedes aus deren anderen Elementen des summierten Ausgabetensors zu erhalten, in 9 nicht gezeigt.
Bei Teil (b) von 9 wird die elementweise Multiplikation des summierten Ausgabetensors und eines Maskierungstensors ausgeführt. Der Maskierungstensor von 9 kann durch zuerst Bestimmen eines kleinsten gemeinsamen Nenners der Anzahl von Elementen in dem Fenster, das für die Mittelwert-Poolbildungsschicht des neuronalen Netzes spezifiziert ist, und einer Anzahl von Elementen des Eingabetensors, die verwendet werden zum Erzeugen jedes Elements des summierten Ausgabetensors, bestimmt werden. Für das Beispiel von 9 wird der kleinste gemeinsame Nenner deshalb 36 sein, d. h. der kleinste gemeinsame Nenner von 9, d. h. der Anzahl von Elementen in dem 3×3-Fenster, 4, d. h. der Anzahl von Elementen des Eingabetensors, die summiert sind, um Eckelemente des summierten Ausgabetensors zu erzeugen, und 6, d. h. der Anzahl von Elementen des Eingabetensors, die summiert sind, um Randelemente des summierten Ausgabetensors zu erzeugen.
Die Faktoren des Maskierungstensors werden dann basierend auf dem kleinsten gemeinsamen Nenner und der Anzahl von Elementen des Eingabetensors, die summiert sind, um ein entsprechendes Element des summierten Ausgabetensors zu erzeugen, bestimmt. Die Faktoren werden ermöglichen, dass die Multiplikation eines Elements des summierten Ausgabetensors mit einer Inversen des kleinsten gemeinsamen Nenners und die Multiplikation mit dem Faktor zu einem Wert führen, der der Wert des Elements des summierten Ausgabetensors dividiert durch die Anzahl von Elementen des Eingabetensors ist, die summiert sind, um den Wert des summierten Ausgabetensors zu erzeugen. Somit sind die Eckelemente des Maskierungstensors Neunen, d. h. da die Multiplikation des Eckelements des summierten Ausgabetensors mit 9 und mit 1/36 zu der geeigneten Division des Eckelements durch 4 führen wird. Die Randelemente des Maskierungstensors sind Sechsen, d. h. da die Multiplikation des Randelements des summierten Ausgabetensors mit 6 und mit 1/36 zu der geeigneten Division des Eckelements durch 6 führen wird. Andere Elemente des Maskierungstensors sind Vieren, d. h. da die Multiplikation des entsprechenden Elements des summierten Ausgabevektors mit 4 und mit 1/36 zu der geeigneten Division durch 9 führen wird.
Die elementweise Multiplikation des summierten Ausgabetensors und des Maskierungstensors führt zu dem initialen Ausgabetensor, der in Teil (b) von 9 gezeigt ist. Beispielsweise kann der summierte Ausgabetensor für die Matrixberechnungseinheit 312 aus dem Einheitspuffer 308 bereitgestellt werden, und der Maskierungstensor, der empfangen oder durch die Spezial-Hardware-Schaltung erzeugt wird, kann für die Matrixberechnungseinheit 312 aus dem dynamischen Speicher 310 bereitgestellt werden. Die Matrixberechnungseinheit 312 führt elementweise Multiplikation aus, um den initialen Ausgabetensor zu erzeugen. Beispielsweise führt die elementweise Multiplikation des Eckelements des summierten Ausgabetensors gleich 8 und des entsprechenden Elements des Maskierungstensors mit einem Wert von 9 zu dem Eckelement des initialen Ausgabetensors mit einem Wort von 72. Ein ähnlicher Prozess wird ausgeführt, um die anderen Elemente des initialen Ausgabetensors zu erzeugen, die in 9 aus Gründen der Einfachheit nicht gezeigt sind.
Bei Teil (c) von 9 wird der initialen Ausgabetensor mit einem zweiten Maskierungstensor multipliziert, um einen Ausgabetensor zu erzeugen. Der zweite Maskierungstensor ist eine Matrix, die die gleiche Größe aufweist wie der initiale Ausgabetensor und aus Elementen besteht, von denen jedes gleich einer Inversen des bestimmten kleinsten gemeinsamen Nenners ist, d. h. 1/36 oder ungefähr 0,03. Die elementweise Multiplikation des initialen Ausgabetensors und des zweiten Maskierungstensors wird ausgeführt, um den Ausgabetensor zu erzeugen. Beispielsweise kann der initiale Ausgabetensor in dem Einheitspuffer 308 gespeichert sein und kann aus dem Einheitspuffer 308 für die Matrixberechnungseinheit 312 bereitgestellt werden. Der zweite Maskierungstensor kann in dem dynamischen Speicher 310 gespeichert sein und ebenfalls für die Matrixberechnungseinheit 312 bereitgestellt werden, wo elementweise Multiplikation ausgeführt wird, um den Ausgabetensor zu erzeugen. Beispielsweise führt die elementweise Multiplikation des Eckelements des initialen Ausgabetensors mit einem Wert von 72 und des entsprechenden Element des zweiten Maskierungstensors mit einem Wert von 1/36 zu dem entsprechenden Eckelement des Ausgabetensors mit einem Wert von 2. Die elementweise Multiplikation kann ausgeführt werden, um die anderen Elemente des Ausgabetensors zu erzeugen, die in 9 nicht gezeigt sind. Alternativ kann eine Skalarmultiplikationsfunktion auf den initialen Ausgabetensor angewandt werden, z. B. durch die Vektorberechnungseinheit 314. Der resultierende Ausgabetensor kann in dem Einheitspuffer 308 gespeichert werden.
Insbesondere können die in 9 ausgeführten Berechnungen das Auftreten von Quantisierungsfehlern begrenzen. Durch Ausführen von elementweiser Multiplikation, die in Teil (b) gezeigt ist, unter Verwendung von Ganzzahlen können die Berechnungen in den Akkumulatoren anstatt in den Aktivierungen ausgeführt werden. Somit kann, wo die Akkumulatoren eine höhere Auflösung aufweisen als die Aktivierungen, die Ausgabe von Berechnungen in Teil (b) an einer höheren Auflösung gehalten werden. Diese erhöhte Auflösung in den Berechnungen bei Teil (b) würde folglich die Genauigkeit des Ausgabetensors erhöhen, der aus den Berechnungen in Teil (c) resultiert. Ausführungsformen der Gegenstands und der funktionalen Operationen, die in dieser Anmeldung beschrieben sind, können in einer digitalen elektronischen Schaltungsanordnung, in materiell ausgeführter Computer-Software oder Firmware, in Computer-Hardware, die die Strukturen enthalten, die in dieser Anmeldung offenbart sind, und ihre strukturellen Äquivalente enthalten, oder in Kombinationen aus einem oder mehreren daraus implementiert sein. Ausführungsformen des Gegenstands, der in dieser Anmeldung beschrieben ist, können als ein oder mehrere Computerprogramme implementiert sein, d. h. ein oder mehrere Module aus Computerprogrammanweisungen, die auf einem materiellen nichttransitorischen Programmträger zur Ausführung durch oder zur Steuerung des Betriebs einer Datenverarbeitungseinrichtung codiert sind. Alternativ oder zusätzlich können die Programmanweisungen auf einem künstlich erzeugten verbreiteten Signal codiert sein, z. B. einem maschinenerzeugten elektrischen, optischen oder elektromagnetischen Signal, das erzeugt wird, um Informationen zur Übertragung zu geeigneten Empfängereinrichtungen zur Ausführung durch eine Datenverarbeitungseinrichtung zu codieren. Das Computerspeichermedium kann eine maschinenlesbare Speichervorrichtung, ein maschinenlesbares Speichersubstrat, eine Speichervorrichtung für Direktzugriff oder seriellen Zugriff oder eine Kombination aus einem oder mehreren daraus sein.
Der Begriff ”Datenverarbeitungseinrichtung” umfasst alle Arten von Einrichtungen, Vorrichtungen und Maschinen zur Verarbeitung von Daten, die als Beispiel einen programmierbaren Prozessor, einen Computer oder mehrere Prozessoren oder Computer enthalten. Die Einrichtung kann Spezial-Logikschaltungsanordnung, z. B. ein FGPA (feldprogrammierbares Gatterfeld) oder eine ASIC (anwendungsspezifische integrierte Schaltung), enthalten. Die Einrichtung kann außerdem zusätzlich zu Hardware Code enthalten, der eine Ausführungsumgebung für das fragliche Computerprogramm erzeugt, z. B. Code, der Prozessor-Firmware, einen Protokollstack, ein Datenbankmanagementsystem, ein Betriebssystem oder eine Kombination aus einem oder mehreren davon bildet.
Ein Computerprogramm (das auch als Programm, Software, eine Software-Anwendung, ein Modul, ein Software-Modul, ein Skript oder Code bezeichnet oder beschrieben sein kann) kann in irgendeiner Form einer Programmiersprache geschrieben sein, die kompilierte oder interpretierte Sprachen oder deklarative oder prozedurale Sprachen enthält, und es kann in irgendeiner Form verteilt werden, die als ein eigenständiges Programm oder als ein Modul, eine Komponente, eine Subroutine oder eine andere Einheit, die zum Gebrauch in einer Berechnungsumgebung geeignet ist, enthält. Ein Computerprogramm kann, muss jedoch nicht, einer Datei in einem Dateisystem entsprechen. Ein Programm kann in einem Abschnitt einer Datei, die andere Programme oder Daten enthält, z. B. ein oder mehrere Skripte, die in einem Auszeichnungssprachen-Dokument gespeichert sind, in einer einzelnen Datei, die für das fragliche Programm dediziert ist, oder in mehreren koordinierten Dateien, z. B. Dateien, die ein oder mehrere Module, Unterprogramme oder Code-Abschnitte speichern, gespeichert sein. Ein Computerprogramm kann verteilt werden, um auf einem Computer oder auf mehreren Computern, die sich an einem Standort oder verteilt über mehrere Standorte befinden und durch ein Kommunikationsnetz miteinander verbunden sind, ausgeführt zu werden.
Die Prozesse und Logikabläufe, die in dieser Anmeldung beschrieben sind, können durch einen oder mehrere programmierbare Computer ausgeführt werden, die ein oder mehrere Computerprogramme ablaufen lassen, um durch Arbeiten auf Eingabedaten und Erzeugen einer Ausgabe Funktionen auszuführen. Die Prozesse und Logikabläufe können auch durch eine Spezial-Logikschaltungsanordnung, z. B. ein FGPA (feldprogrammierbares Gatterfeld) oder eine ASIC (anwendungsspezifische integrierte Schaltung) ausgeführt werden, und die Einrichtung kann dadurch implementiert sein.
Computer, die für die Ausführung eines Computerprogramms geeignet sind, können als Beispiel auf Allzweck- oder Spezial-Mikroprozessoren oder beiden oder irgendeiner anderen Art von zentraler Verarbeitungseinheit basieren. Allgemein wird eine zentrale Verarbeitungseinheit Anweisungen und Daten von einem Festwertspeicher oder einem Direktzugriffsspeicher oder beiden empfangen. Die wesentlichen Elemente eines Computers sind eine zentrale Verarbeitungseinheit zum Ausführen oder Durchführen von Anweisungen und eine oder mehrere Speichervorrichtungen zum Speichern von Anweisungen und Daten. Allgemein wird ein Computer auch eine oder mehrere Massenspeichervorrichtungen zum Speichern von Daten, z. B. magnetische, magneto-optische Platten oder optische Platten, enthalten oder betriebstechnisch damit gekoppelt sein, um Daten von ihnen zu empfangen, zu ihnen zu übertragen oder beides. Ein Computer muss jedoch solche Vorrichtungen nicht aufweisen. Außerdem kann ein Computer in eine weitere Vorrichtung eingebettet sein, z. B. in ein Mobiltelefon, einen persönlichen digitalen Assistenten (PDA), ein mobiles Audio- oder Videoabspielgerät, eine Spielkonsole, einen Empfänger des globalen Positionierungssystems (GPS-Empfänger) oder eine tragbare Speichervorrichtung, z. B. ein Flashlaufwerk über den universellen seriellen Bus (USB-Flashlaufwerk, um nur einige wenige zu nennen.
Computerlesbare Medien, die zum Speicher von Computerprogrammanweisungen und Daten geeignet sind, enthalten alle Formen von nichtflüchtigem Speicher, Medien und Speichervorrichtungen, die als Beispiel Halbleiterspeichervorrichtungen, z. B. EPROM, EEPROM und Flash-Speichervorrichtungen enthalten; Magnetplatten, z. B. interne Festplatten oder herausnehmbare Platten; magneto-optische Platten; und CD ROM und DVD-ROM-Platten. Der Prozessor und der Speicher können durch eine Spezial-Logikschaltungsanordnung ergänzt oder darin integriert sein.
Um die Interaktion mit einem Anwender zu senden, können Ausführungsformen des in dieser Anmeldung beschriebenen Gegenstands auf einem Computer implementiert sein, der eine Anzeigevorrichtung, z. B. einen CRT- (Kathodenstrahlröhren-) oder LCD-Monitor (Flüssigkristallanzeige-Monitor) zum Anzeigen von Informationen für den Anwender und eine Tastatur und eine Zeigevorrichtung, z. B. eine Maus oder einen Trackball, durch die der Anwender Eingaben für den Computer senden kann, aufweist. Andere Arten von Vorrichtungen können verwendet werden, um ebenfalls Interaktion mit einem Anwender zu senden; beispielsweise kann eine für den Anwender bereitgestellte Rückmeldung irgendeine Form sensorischer Rückmeldung sein, z. B. visuelle Rückmeldung, hörbare Rückmeldung oder tastbare Rückmeldung; und eine Eingabe von dem Anwender kann in irgendeiner Form empfangen werden, die akustische, Sprach- oder tastbare Eingabe enthält. Zusätzlich kann ein Computer mit einem Anwender durch Senden von Dokumenten zu einer Vorrichtung und Empfangen von Dokumenten von einer Vorrichtung, die durch den Anwender verwendet wird, interagieren; beispielsweise durch Senden von Web-Seiten zu einem Web-Browser auf einer Clientvorrichtung eines Anwenders in Reaktion auf Anforderungen, die von dem Web-Browser empfangen werden.
Ausführungsformen des in dieser Anmeldung beschriebenen Gegenstands können in einem Berechnungssystem implementiert sein, das eine Backend-Komponente, z. B. als einen Daten-Server, enthält oder das eine Middleware-Komponente, z. B. einen Anwendungsserver, enthält, oder der eine Frontend-Komponente, z. B. einen Client-Computer, enthält, der eine grafische Anwenderschnittstelle oder einen Web-Browser aufweist, über den ein Anwender mit einer Implementierung des in dieser Anmeldung beschriebenen Gegenstands interagieren kann, oder irgendeine Kombination einer oder mehrerer solcher Backend-, Middleware- oder Frontend-Komponenten. Die Komponenten des Systems können durch irgendeine Form oder irgendein Medium zur digitalen Datenkommunikation, z. B. ein Kommunikationsnetz, miteinander verbunden sein. Beispiele für Kommunikationsnetze enthalten ein lokales Netz (”LAN”) und ein Weitbereichsnetz (”WAN”), z. B. das Internet.
Das Berechnungssystem kann Clients und Server enthalten. Ein Client und ein Server sind im Allgemeinen voneinander entfernt und interagieren typischerweise über ein Kommunikationsnetz. Die Beziehung von Client und Server entsteht aufgrund der Computerprogramme, die auf den jeweiligen Computern laufen und eine Client-Server-Beziehung miteinander aufweisen.
Obwohl diese Anmeldung viele spezifische Implementierungseinzelheiten beinhaltet, sollten diese nicht als Einschränkungen für den Schutzbereich irgendeiner Erfindung oder dessen, das beansprucht sein kann, gedeutet werden, sondern vielmehr als Beschreibungen der Merkmale, die für spezielle Ausführungsformen der speziellen Erfindungen spezifisch sein können. Spezielle Merkmale, die in dieser Anmeldung im Kontext getrennter Ausführungsformen beschrieben sind, können auch in Kombination in einer einzigen Ausführungsform implementiert sein. Umgekehrt können verschiedene Merkmale, die im Kontext einer einzigen Ausführungsform beschrieben sind, auch in mehreren Ausführungsformen getrennt oder in irgendeiner geeigneten Unterkombination implementiert sein. Außerdem können, obwohl Merkmale vorstehend als in speziellen Kombinationen arbeitend beschrieben und anfangs sogar als solche beansprucht sind, ein oder mehrere Merkmale aus einer beanspruchten Kombination in einigen Fällen aus der Kombination herausgenommen sein, und die beanspruchte Kombination kann sich auf eine Unterkombination oder eine Variation einer Unterkombination richten.
Ähnlich sollte, obwohl Operationen in den Zeichnungen in einer speziellen Reihenfolge abgebildet sind, das nicht so verstanden werden, dass es erforderlich ist, dass solche Operationen in der speziellen gezeigten Reihenfolge oder in sequentieller Reihenfolge ausgeführt werden oder dass alle dargestellten Operationen ausgeführt werden, um wünschenswerte Ergebnisse zu erreichen. Unter speziellen Umständen können Multitasking und Parallelverarbeitung vorteilhaft sein. Außerdem sollte die Trennung verschiedener Systemmodule und Komponenten in den vorstehend beschriebenen Ausführungsformen nicht so verstanden werden, dass eine solche Trennung in allen Ausführungsformen erforderlich ist, und es sollte verstanden werden, dass die beschriebenen Programmkomponenten und Systeme im Allgemeinen gemeinsam in einem einzigen Software-Produkt oder in mehrere Software-Produkte paketiert integriert sein können.
Gemäß Implementierungen dieser Offenbarung sind Verfahren und Systeme bereitstellt zum Empfangen einer Anforderung, ein neuronales Netz, das eine Mittelwert-Poolbildungsschicht auf einer Hardware-Schaltung umfasst, zu implementieren, und in Reaktion darauf Erzeugen von Anweisungen, die dann, wenn sie durch die Hardware-Schaltung ausgeführt werden, bewirken, dass die Hardware-Schaltung während des Verarbeiten einer Netzeingabe durch das neuronale Netz einen Schicht-Ausgabetensor erzeugt, der einer Ausgabe der Mittelwert-Poolbildungsschicht des neuronalen Netzes äquivalent ist, durch Ausführen einer Faltung eines Eingabetensors für die Mittelwert-Poolbildungsschicht des neuronalen Netzes und eines Kerns mit einer Größe gleich einem Fenster der Mittelwert-Poolbildungsschicht des neuronalen Netzes und bestehend aus Elementen, die jeweils eine Einheitsmatrix sind, um einen ersten Tensor zu erzeugen, und Ausführen von Operationen, um zu bewirken, dass jedes Element des ersten Tensors durch eine Anzahl von Elementen in dem Fenster der Mittelwert-Poolbildungsschicht des neuronalen Netzes dividiert wird, um einen initialen Ausgabetensor zu erzeugen.
Gemäß Implementierungen dieser Offenbarung sind Systeme bereitgestellt zum Empfangen einer Anforderung, ein neuronales Netz zu implementieren, das eine Mittelwert-Poolbildungsschicht auf einer Hardware-Schaltung umfasst, und in Reaktion darauf Erzeugen von Anweisungen, die dann, wen sie durch die Hardware-Schaltung ausgeführt werden, bewirken, dass die Hardware-Schaltung während des Verarbeiten einer Netzeingabe durch das neuronale Netz einen Schicht-Ausgabetensor erzeugt, der einer Ausgabe der Mittelwert-Poolbildungsschicht des neuronalen Netzes äquivalent ist, durch Ausführen einer Faltung eines Eingabetensors für die Mittelwert-Poolbildungsschicht des neuronalen Netzes und eines Kerns mit einer Größe gleich einem Fenster der Mittelwert-Poolbildungsschicht des neuronalen Netzes und bestehend aus Elementen, die jeweils eine Einheitsmatrix sind, um einen ersten Tensor zu erzeugen, und Ausführen von Operationen, um zu bewirken, dass jedes Element des ersten Tensors durch eine Anzahl von Elementen in dem Fenster der Mittelwert-Poolbildungsschicht des neuronalen Netzes dividiert wird, um einen initialen Ausgabetensor zu erzeugen.
Spezielle Ausführungsformen des Gegenstands sind beschrieben worden. Andere Ausführungsformen sind innerhalb des Schutzbereichs der folgenden Ansprüche. Beispielsweise können die Aktionen, die in den Ansprüchen vorgetragen sind, in einer anderen Reihenfolge ausgeführt werden und immer noch wünschenswerte Ergebnisse erreichen. Als ein Beispiel erfordern die in den begleitenden Figuren abgebildeten Prozesse nicht notwendigerweise die spezielle gezeigte Reihenfolge oder sequentielle Reihenfolge, um wünschenswerte Ergebnisse zu erreichen. In speziellen Implementierungen können Multitasking und Parallelverarbeitung vorteilhaft sein.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

WO 2016/186811 [0085]

Claims

System, das umfasst: eine Hardware-Schaltung; und eine oder mehrere Speichervorrichtungen, die Anweisungen speichern, die arbeiten, wenn sie durch die Hardware-Schaltung ausgeführt werden, um zu bewirken, dass die Hardware-Schaltung Operationen ausführt, die umfassen: Ausführen einer Faltung eines Eingabetensors für die Mittelwert-Poolbildungsschicht des neuronalen Netzes und eines Kerns mit einer Größe gleich einem Fenster der Poolbildungsschicht des neuronalen Netzes, der aus Elementen besteht, die jeweils eine Einheitsmatrix sind, um einen ersten Tensor zu erzeugen; und Ausführen von Operationen, um zu bewirken, dass jedes Element des ersten Tensors durch eine Anzahl von Elementen in dem Fenster der Mittelwert-Poolbildungsschicht des neuronalen Netzes dividiert wird, um einen initialen Ausgabetensor zu erzeugen.
System nach Anspruch 1, wobei die Operationen ferner umfassen: Neuskalieren von Randelementen des initialen Ausgabetensors durch einen ersten Skalierungsfaktor und Neuskalieren von Eckelementen des initialen Ausgabetensors durch einen zweiten Skalierungsfaktor, um einen Ausgabetensor zu erzeugen.
System nach Anspruch 2, wobei erste Skalierungsfaktor auf einer Anzahl von Elementen des Eingabetensors basiert, die mit Elementen des Kern bei dem Ausführen der Faltung multipliziert werden, um ein Randelement des ersten Tensors zu erzeugen, und der zweite Skalierungsfaktor auf einer Anzahl von Elementen in dem Eingabetensor basiert, die mit Elemente des Kerns bei dem Ausführen der Faltung multipliziert werden, um ein Eckelement des ersten Tensors zu erzeugen.
System nach einem der vorhergehenden Ansprüche, wobei die Operationen ferner umfassen: Neuskalieren von dem Rand benachbarten Elementen des ersten Tensors durch einen dritten Skalierungsfaktor und Neuskalieren von einer Ecke benachbarten Elementen des ersten Tensors durch einen vierten Skalierungsfaktor, um den Ausgabetensor zu erzeugen.
System nach einem der vorhergehenden Ansprüche, wobei das Ausführen der Faltung des Eingabetensors und des Kerns, um den ersten Tensor zu erzeugen, umfasst: Auffüllen mit Nullen des Eingabetensors, um einen mit Nullen aufgefüllten Eingabetensor zu erzeugen; und Ausführen einer Faltung des mit Nullen aufgefüllten Eingabetensors und des Kerns, um den ersten Tensor zu erzeugen.
System nach einem der vorhergehenden Ansprüche, wobei das Ausführen der Operationen, um zu bewirken, dass jedes Element des ersten Tensors durch eine Anzahl von Elementen in dem Fenster der Poolbildungsschicht des neuronalen Netzes dividiert wird, um den initialen Ausgabetensor zu erzeugen, umfasst: Ausführen einer ersten Multiplikation jedes Elements des ersten Tensors mit einem ersten Faktor, wobei der erste Faktor ein kleinster gemeinsamer Nenner (i) einer Anzahl von Elementen eines Eingangstensors, die multipliziert sind mit Elementen eines Kerns mit einer Größe gleich dem Fenster der Mittelwert-Poolbildungsschicht des neuronalen Netzes zum Ausführen einer Faltung, um ein Eckelement eines Ausgangstensors zu erzeugen, (ii) einer Anzahl von Elementen eines Eingangstensors, die multipliziert sind mit Elementen eines Kerns mit einer Größe gleich dem Fenster der Mittelwert-Poolbildungsschicht eines neuronalen Netzes zum Ausführen einer Faltung, um ein Randelement eines Ausgangstensors zu erzeugen, und (iii) der Anzahl von Elementen in dem Fenster der Mittelwert-Poolbildungsschicht des neuronalen Netzes, und Ausführen einer zweiten Multiplikation jedes Elements des ersten Tensors mit einem oder mehreren zweiten Faktoren, wobei jeder zweite Faktor auf einer Anzahl von Elementen in dem Eingangstensor basiert, die multipliziert sind mit Elementen des Kerns zum Ausführen der ersten Faltung, um das jeweilige Element des ersten Tensors zu erzeugen.
System nach Anspruch 6, wobei Elemente eines Ergebnisses des Ausführens der ersten Multiplikation eine höhere Bitauflösung als eine Bitauflösung der Elemente des ersten Tensors aufweisen.
System nach einem der vorhergehenden Ansprüche, wobei das Ausführen der Operationen, um zu bewirken, dass jedes Element des ersten Tensors durch eine Anzahl von Elementen in dem Fenster der Mittelwert-Poolbildungsschicht des neuronalen Netzes dividiert wird, um den initialen Ausgabetensor zu erzeugen, umfasst: Erzeugen eines Maskierungstensors, wobei eine Größe des Maskierungstensors durch eine Größe des Eingabetensors bestimmt wird und wobei Elemente des Maskierungstensors durch eine Größe des Fensters der Mittelwert-Poolbildungsschicht des neuronalen Netzes bestimmt werden; und Ausführen von elementweiser Multiplikation jedes Elements des ersten Tensors und jedes entsprechenden Elements des Maskierungstensors.
System nach Anspruch 8, wobei das Erzeugen des Maskierungstensors Kacheln eines oder mehrerer Maskierungstensorfragmente, die in dem Speicher gespeichert sind, umfasst.
System nach Anspruch 8, wobei der Eingabetensor in einem Einheitspuffer der Hardware-Schaltung gespeichert ist und der Maskierungstensor in einem dynamischen Speicher der Hardware-Schaltung gespeichert ist, und wobei das Ausführen der Operationen, um zu bewirken, dass jedes Element des ersten Tensors durch eine Anzahl von Elementen in dem Fenster der Mittelwert-Poolbildungsschicht des neuronalen Netzes dividiert wird, um den initialen Ausgabetensor zu erzeugen, umfasst: Senden des Eingabetensors aus dem Einheitspuffer zu einer Matrixberechnungseinheit der Hardware-Schaltung, die in Hardware implementiert ist; Senden des Maskierungstensors aus dem dynamischen Speicher zu der Matrixberechnungseinheit der Hardware-Schaltung; und Ausführen durch die Matrixberechnungseinheit der Hardware-Schaltung von elementweiser Multiplikation des Eingabetensors und des Maskierungstensors, um den ersten Tensor zu erzeugen.
System nach einem der vorhergehenden Ansprüche, wobei der Eingabetensor in einem Einheitspuffer der Hardware-Schaltung gespeichert ist und der Kern in einem dynamischen Speicher der Hardware-Schaltung gespeichert ist, und wobei das Ausführen der Faltung des Eingabetensors und des Kerns, um den ersten Tensor zu erzeugen, umfasst: Senden des Eingabetensors aus dem Einheitspuffer zu einer Matrixberechnungseinheit der Hardware-Schaltung, die in Hardware implementiert ist; Senden des Kerns aus dem dynamischen Speicher zu der Matrixberechnungseinheit der Hardware-Schaltung; und Ausführen durch die Matrixberechnungseinheit der Hardware-Schaltung der Faltung des Eingabetensors und des Kerns, um den ersten Tensor zu erzeugen.
System nach einem der vorhergehenden Ansprüche, wobei das Ausführen der Faltung und das Ausführen der Operationen, um zu bewirken, dass jedes Element des ersten Tensors dividiert wird, werden als Festkommaoperationen auf Werten, die in Ganzzahlregistern gespeichert sind, ausgeführt werden.