DE102018123761A1

DE102018123761A1 - FUSE PROTECTION IN AN ERROR CORRECTION CODE (ECC) IMPLEMENTED IN A MOTOR VEHICLE SYSTEM

Info

Publication number: DE102018123761A1
Application number: DE102018123761.8A
Authority: DE
Inventors: Nirmal R. Saxena
Original assignee: Nvidia Corp
Current assignee: Nvidia Corp
Priority date: 2017-09-29
Filing date: 2018-09-26
Publication date: 2019-04-04
Also published as: CN109582484A; CN109582484B

Abstract

Im Allgemeinen sind Daten anfällig für Fehler, die durch Störungen in Hardware (d. h. permanente Störungen) verursacht werden, wie z. B. Störungen in der Funktion von Speicher und/oder Kommunikationskanälen. Um durch Hardware-Störungen verursachte Fehler in Daten zu erkennen, wurde der Fehlerkorrekturcode (ECC) eingeführt, der den Daten im Wesentlichen eine Art Redundanz verschafft, mit der überprüft werden kann, ob die Daten frei von durch Hardwarefehler verursachten Fehlern sind. In manchen Fällen kann der ECC auch zur Korrektur von durch Hardware-Störungen verursachten Fehlern in den Daten verwendet werden. Der ECC selbst ist jedoch ebenfalls anfällig für Fehler, insbesondere für Fehler, die durch Störungen in der ECC-Logik verursacht werden. Somit werden ein Verfahren, ein computerlesbares Medium und ein System zur Sicherung gegen Fehler in einem ECC bereitgestellt.In general, data is susceptible to faults caused by hardware failures (i.e., permanent faults), such as faults. B. disturbances in the function of memory and / or communication channels. In order to detect errors in data caused by hardware interference, the Error Correction Code (ECC) has been introduced which essentially provides the data with some kind of redundancy that can be used to verify that the data is free from errors caused by hardware errors. In some cases, the ECC may also be used to correct errors caused by hardware failure in the data. However, the ECC itself is also prone to errors, especially errors caused by disturbances in the ECC logic. Thus, a method, a computer-readable medium, and an error-proofing system in an ECC are provided.

Description

Gebiet der ErfindungField of the invention

Die vorliegende Erfindung bezieht sich auf Codes, die zur Beherrschung von Datenfehlern verwendet werden, und insbesondere auf Fehlerkorrekturcode-Logik (ECC-Logik), die zur Beherrschung von Datenfehlern verwendet wird.The present invention relates to codes used to control data errors, and more particularly to error correction code (ECC) logic used to control data errors.

Hintergrundbackground

Im Allgemeinen sind Daten anfällig für Fehler, die durch Störungen in Hardware (d. h. permanente Störungen) verursacht werden, wie z. B. Störungen in der Funktion von Speicher und/oder Kommunikationskanälen. Um durch Hardware-Störungen verursachte Fehler in Daten zu erkennen, hat man Codes entwickelt, die den Daten eine Art Redundanz verschaffen. In manchen Fällen können diese Codes sogar verwendet werden, um den Fehler in den Daten zu korrigieren.In general, data is susceptible to faults caused by hardware failures (i.e., permanent faults), such as faults. B. disturbances in the function of memory and / or communication channels. In order to detect errors in data caused by hardware faults, codes have been developed which provide the data with a kind of redundancy. In some cases, these codes can even be used to correct the error in the data.

Ein Design eines Codes, der zur Erkennung und in manchen Fällen Korrektur von durch Hardware-Störungen verursachten Datenfehlern entwickelt wurde, ist der Fehlerkorrekturcode ECC (Error Correcting Code). Der ECC ist generell Logik, die einen Encoder enthält, um eine Kopie der Daten zu codieren, um einen Code zu bilden, wobei der Code in Verbindung mit den Daten übertragen und/oder gespeichert wird. Die ECC-Logik enthält weiterhin einen Decoder zum Decodieren des Codes, so dass der einmal decodierte Code dann zum Erkennen und optional Korrigieren von Fehlern in den Daten verwendet werden kann. Leider ist die ECC-Logik auch anfällig für Störungen, die Fehler in den Code selbst einführen können. So können zum Beispiel Störungen im Encoder und/oder Decoder, wie z. B. Einzel-Festhäng-Störungen, bei denen ein Gate des Encoder/Decoders auf einem bestimmten Wert festhängt, Fehler in den Code einführen. Fehler im Code können zu einer falschen Erkennung von Fehlern in den Daten und schlimmer noch zu einer falschen Korrektur der Daten führen, was weitere Fehler in die Daten einführt.One design of a code that has been developed to detect and in some cases correct data errors caused by hardware interference is the Error Correcting Code (ECC). The ECC is generally logic that includes an encoder to encode a copy of the data to form a code, the code being transmitted and / or stored in association with the data. The ECC logic further includes a decoder for decoding the code so that the once decoded code can then be used to detect and optionally correct errors in the data. Unfortunately, ECC logic is also prone to errors that can introduce errors into the code itself. For example, disturbances in the encoder and / or decoder, such. For example, single stall events where a gate of the encoder / decoder is stuck at a certain value introduce errors into the code. Errors in the code can lead to false detection of errors in the data and, worse, incorrect correction of the data, which introduces more errors into the data.

Bislang wurde das ECC-Design nicht angepasst, um gegen Fehler zu sichern, die durch die ECC-Logik selbst eingeführt werden. Es besteht daher die Notwendigkeit, diese Aufgaben und/oder andere Aufgaben im Zusammenhang mit dem Stand der Technik anzugehen.So far, the ECC design has not been adapted to guard against errors introduced by the ECC logic itself. There is therefore a need to address these tasks and / or other tasks associated with the prior art.

KurzdarstellungSummary

Es werden ein Verfahren, ein computerlesbares Medium und ein System zur Sicherung gegen Fehler in einem ECC offenbart. Im Gebrauch wird auf einen für Daten unter Verwendung einer Fehlerkorrekturcode-Logik (ECC-Logik) erzeugten Code zugegriffen, wobei der Code in einem ersten Speicher gespeichert ist und die Daten in einem zweiten Speicher gespeichert sind. Zusätzlich wird ein durch einen Fehler in der ECC-Logik verursachter Fehler in dem Code erkannt. Weiterhin wird bestimmt, ob der Fehler in dem Code korrigierbar ist. Als Reaktion auf ein Bestimmen, dass der Fehler in dem Code korrigierbar ist, wird der Fehler in dem Code korrigiert, um einen korrigierten Code zu bilden, werden die Daten aus dem zweiten Speicher abgerufen und werden die abgerufenen Daten unter Verwendung des korrigierten Codes verifiziert. Als Reaktion auf ein Bestimmen, dass der Fehler in dem Code nicht korrigierbar ist, wird der Fehler in dem Code als nicht korrigierbar angezeigt.Disclosed is a method, a computer-readable medium, and an error-proofing system in an ECC. In use, a code generated for data using error correction code (ECC) logic is accessed, the code being stored in a first memory and the data stored in a second memory. In addition, an error in the code caused by an error in the ECC logic is detected. Furthermore, it is determined whether the error in the code is correctable. In response to determining that the error in the code is correctable, the error in the code is corrected to form a corrected code, the data is retrieved from the second memory, and the retrieved data is verified using the corrected code. In response to determining that the error in the code is uncorrectable, the error in the code is displayed as being uncorrectable.

Figurenlistelist of figures

1A FIG. 12 illustrates a flowchart of a method for securing against errors in an ECC according to one embodiment.
1B FIG. 12 illustrates a block diagram of an ECC logic architecture according to an embodiment. FIG.
1C illustrates a block diagram of the input and output of the ECC encoder of 1B according to one embodiment.
1D FIG. 12 illustrates a block diagram of the input and output of the ECC decoder of FIG 1B according to one embodiment.
2A-E illustrate a parity check matrix of a SEC-DED ECC logic design in conjunction with an ECC logic algorithm design for securing against errors in the ECC according to one embodiment.
3 illustrates a parallel processing unit according to an embodiment.
4A illustrates a general processing cluster within the parallel processing unit of FIG 3 according to one embodiment.
4B FIG. 10 illustrates a memory partition unit of the parallel processing unit of FIG 3 according to one embodiment.
5A illustrates the streaming multiprocessor of 4A according to one embodiment.
5B is a conceptual diagram of one using the PPU of 3 implemented processing system according to one embodiment.
5C FIG. 3 illustrates an example system in which the various architecture and / or functionality of the various previous embodiments may be implemented.
6 is a conceptual diagram of a by the PPU of 3 implemented graphics processing pipeline according to one embodiment.

Detaillierte BeschreibungDetailed description

Im Allgemeinen sind Daten anfällig für Fehler, die durch Störungen (Defekte) in Hardware verursacht werden, wie z. B. Störungen in der Funktion von Speicher und/oder Kommunikationskanälen. Um Fehler in Daten zu erkennen (die das Ergebnis von gestörter Hardware oder Strahlung, die mit den gespeicherten Daten interagiert, sein können), wurde Fehlerkorrekturcode (ECC) eingeführt. Wenn Daten gespeichert (oder übertragen) werden, wird ein ECC berechnet, der den gespeicherten Daten entspricht; wenn die Daten später abgerufen werden, wird diese Berechnung erneut durchgeführt. Wenn der ECC zu den Ergebnissen der zweiten Berechnung passt, dann sind die Daten frei von Fehlern; wenn der EEC nicht passt, dann wurde ein Fehler eingeführt. Der ECC repräsentiert somit eine „korrekte“ Form der Daten. Da der EEC eine „korrekte“ Form der Daten repräsentiert, kann der EEC in manchen Fällen auch zur Korrektur von irgendwelchen Fehlern in den Daten verwendet werden. Der ECC selbst ist jedoch ebenfalls anfällig für Fehler, insbesondere für Fehler, die durch Störungen in der ECC-Logik (Schaltungen) verursacht werden, wie z. B. Hardware-Störungen im Encoder und/oder Decoder der ECC-Logik. Fehler im ECC können zu einer falschen Erkennung von Fehlern in den Daten und schlimmer noch zu einer falschen Korrektur der Daten führen, was weitere Fehler in die Daten einführt.In general, data is susceptible to errors caused by hardware failures (defects) such as: B. disturbances in the function of memory and / or communication channels. To detect errors in data (which may be the result of disturbed hardware or radiation interacting with the stored data), error correction code (ECC) has been introduced. When data is stored (or transferred), an ECC corresponding to the stored data is calculated; if the data is retrieved later, this calculation is performed again. If the ECC matches the results of the second calculation then the data is free from errors; if the EEC does not fit, then an error has been introduced. The ECC thus represents a "correct" form of the data. Since the EEC represents a "correct" form of the data, in some cases the EEC can also be used to correct for any errors in the data. However, the ECC itself is also susceptible to errors, particularly errors caused by disturbances in the ECC logic (circuitry), such as errors. B. Hardware faults in the encoder and / or decoder of the ECC logic. Errors in the ECC can lead to false detection of errors in the data and, worse, incorrect correction of the data, introducing further errors into the data.

Die nachfolgende Beschreibung stellt verschiedene Ausführungsformen zur Sicherung gegen Fehler im ECC bereit, die insbesondere durch Störungen in der ECC-Logik verursacht werden, und stellt somit verschiedene störungssichere ECC-Logik-Designs bereit. Diese störungssicheren ECC-Logik-Designs können unabhängig oder in Verbindung miteinander verwendet werden und umfassen, eine Hardware-Konfiguration von bestimmten Teilen der ECC-Logik (z. B. des Encoders und/oder Decoders) zu beschränken, und umfassen auch, den traditionellen Computer-Code (Algorithmus), der von der ECC-Logik verwendet wird, zu modifizieren. Diese störungssicheren ECC-Logik-Designs sichern letzten Endes gegen die oben genannten Fehler im ECC, indem sie die Fähigkeit bereitstellen, die Fehler zu erkennen und entweder 1) den ECC zur Verwendung beim Validieren der Daten zu korrigieren oder 2) den ECC als nicht korrigierbar und damit unbrauchbar zum Validieren der Daten zu identifizieren. Darüber hinaus können die störungssicheren ECC-Logik-Designs in verschiedenen Systemen implementiert werden, um die Daten dieser Systeme zu sichern, wie z. B. Kraftfahrzeugsystemen und/oder auf künstlicher Intelligenz („KI“) basierenden Systemen.The following description provides various embodiments for securing against errors in the ECC, which are particularly caused by disturbances in the ECC logic, and thus provides various fail-safe ECC logic designs. These fail-safe ECC logic designs may be used independently or in conjunction with each other and include, but are not limited to, limiting the hardware configuration of certain portions of the ECC logic (eg, the encoder and / or decoder) Computer code (algorithm) that is used by the ECC logic to modify. These fail-safe ECC logic designs ultimately protect against the above errors in the ECC by providing the ability to detect the errors and either 1) correct the ECC for use in validating the data, or 2) make the ECC uncorrectable and thus useless to identify validating the data. In addition, the fail-safe ECC logic designs can be implemented in various systems to secure the data of these systems, such as: As automotive systems and / or on artificial intelligence ("AI") based systems.

1A veranschaulicht ein Flussdiagramm eines Verfahrens 100 zur Sicherung gegen Fehler in einem ECC gemäß einer Ausführungsform. Das Verfahren 100 kann mittels ECC-Logik (Schaltung) in Verbindung mit einem Prozessor, wie z. B. einer GPU (Graphic Processing Unit, Grafikverarbeitungseinheit), CPU (Zentralverarbeitungseinheit) oder irgendeinem Prozessor, der in der Lage ist, gegen Fehler in einem ECC zu schützen, durchgeführt werden. Insbesondere kann das Verfahren 100 in manchen optionalen Ausführungsformen unter Verwendung des Parallelverarbeitungselements (PPU) 300 von 3 und/oder im Kontext irgendeiner der nachfolgend beschriebenen Ausführungsformen implementiert werden. Darüber hinaus werden Fachleute erkennen, dass irgendein System, welches das Verfahren 100 durchführt, im Schutzumfang und Geist der Ausführungsformen der vorliegenden Erfindung liegt. 1A illustrates a flowchart of a method 100 for securing against errors in an ECC according to one embodiment. The procedure 100 can by means of ECC logic (circuit) in conjunction with a processor, such. A GPU (graphic processing unit), CPU (central processing unit) or any processor capable of protecting against errors in an ECC. In particular, the method can 100 in some optional embodiments using the parallel processing element (PPU) 300 from 3 and / or implemented in the context of any of the embodiments described below. In addition, professionals will recognize that any system that uses the procedure 100 is within the scope and spirit of embodiments of the present invention.

Wie in Operation 110 gezeigt, wird auf einen für Daten unter Verwendung der Fehlerkorrekturcode-Logik (ECC-Logik) erzeugten Code zugegriffen, wobei der Code in einem ersten Speicher gespeichert ist und die Daten in einem zweiten Speicher gespeichert sind. Da der Code unter Verwendung der ECC-Logik erzeugt wird, kann der Code im Kontext der vorliegenden Beschreibung auch als ein für die Daten erzeugter ECC bezeichnet werden. Die Daten können irgendein Typ von Daten sein, für die Validierung unter Verwendung des Codes gewünscht ist, wie z. B. eine Anweisung, die von einem Prozessor (einschließlich GPUs, CPUs, Rechenkerne) ausführbar ist, ein Operand, eine Adresse usw., und in diesem Fall kann der Code erzeugt werden, um die Daten mit einer Redundanz zu versehen. So können zum Beispiel die Daten einem durch eine permanente Störung in Hardware (z. B. Speicher, Kommunikationskanal) verursachten Fehler aussetzbar sein, und der Code kann erzeugt werden, um zu verifizieren, ob die Daten den Fehler enthalten. Somit kann der Code erzeugt werden, bevor die Daten von der Hardware verarbeitet werden, und dementsprechend bevor der potenzielle Fehler in die Daten einführbar ist (z. B. bevor die Daten im Speicher gespeichert werden und/oder bevor die Daten über den Kommunikationskanal übertragen werden). Weiterhin kann auf den Code mit Bezug auf den aktuellen Betrieb zugegriffen werden, wenn er zur Verwendung beim Validieren der Daten aus dem ersten Speicher abgerufen wird.As in operation 110 2, a code generated for data using error correction code (ECC) logic is accessed, the code being stored in a first memory and the data stored in a second memory. Since the code is generated using the ECC logic, in the context of the present description, the code may also be referred to as an ECC generated for the data. The data may be any type of data for which validation using the code is desired, such as: For example, an instruction generated by a processor (including GPUs, CPUs, Calculation cores), an operand, an address, etc., and in this case the code can be generated to provide redundancy to the data. For example, the data may be susceptible to an error caused by a permanent failure in hardware (eg, memory, communication channel), and the code may be generated to verify that the data contains the error. Thus, the code may be generated before the data is processed by the hardware, and accordingly before the potential error is insertable into the data (eg, before the data is stored in memory and / or before the data is transmitted over the communication channel ). Furthermore, the code may be accessed with reference to the current operation when retrieved for use in validating the data from the first memory.

Der Betrieb der ECC-Logik zum Erzeugen des Codes wird im Folgenden unter Bezugnahme auf 1B näher beschrieben. Im Allgemeinen ist die ECC-Logik jedoch Hardware, die einen Encoder, der die Daten codiert, um den Code zu erzeugen, und einen Decoder, der den Code zur Verwendung beim Validieren der Daten decodiert, enthält. Sowohl der Encoder als auch der Decoder sind in Hardware der ECC-Logik implementiert und sind daher Störungen ausgesetzt. Die ECC-Logik kann als Einzelfehler erkennend (SED), Einzelfehler korrigierend (SEC) oder Einzelfehler korrigierend und Doppelfehler erkennend (SEC-DED) ausgelegt sein, und dementsprechend kann der von der ECC-Logik erzeugte Code SED, SEC oder SEC-DED sein.The operation of the ECC logic for generating the code will be described below with reference to FIG 1B described in more detail. In general, however, the ECC logic is hardware that includes an encoder that encodes the data to generate the code and a decoder that decodes the code for use in validating the data. Both the encoder and decoder are implemented in ECC logic hardware and are therefore susceptible to interference. The ECC logic can be designed as Single Error Correcting (SED), Single Error Correcting (SEC) or Single Error Correcting and Double Error Detecting (SEC-DED), and accordingly, the code generated by the ECC logic can be SED, SEC or SEC-DED ,

Wie oben erwähnt, wird der Code im ersten Speicher gespeichert und werden die Daten im zweiten Speicher gespeichert. In einer Ausführungsform können der erste und der zweite Speicher verschiedene physische Speicher sein. In dieser Ausführungsform kann zum Beispiel der erste Speicher zur Verwendung beim Speichern von durch die ECC-Logik erzeugten Codes bestimmt sein, und der zweite Speicher kann zur Verwendung beim Speichern von Daten, aus denen die Codes erzeugt werden, bestimmt sein. In einer anderen Ausführungsform können der erste und der zweite Speicher verschiedene Teile desselben physischen Speichers sein. Zum Beispiel kann der erste Speicher ein erster Teil des physischen Speichers sein, der zur Verwendung beim Speichern von Codes durch die ECC-Logik erzeugten Codes bestimmt ist, und kann der zweite Speicher ein zweiter Teil des physischen Speichers sein, der zur Verwendung beim Speichern von Daten, aus denen die Codes erzeugt werden, bestimmt ist.As mentioned above, the code is stored in the first memory and the data is stored in the second memory. In one embodiment, the first and second memories may be different physical memories. For example, in this embodiment, the first memory may be for use in storing codes generated by the ECC logic, and the second memory may be for use in storing data from which the codes are generated. In another embodiment, the first and second memories may be different portions of the same physical memory. For example, the first memory may be a first portion of the physical memory designated for use in storing codes generated by the ECC logic-generated codes, and the second memory may be a second portion of the physical memory suitable for use in storing Data from which the codes are generated is determined.

Zusätzlich wird, wie in Operation 112 gezeigt, ein durch einen Fehler in der ECC-Logik verursachter Fehler in dem Code erkannt. Im Kontext der vorliegenden Beschreibung umfasst der Fehler in der ECC-Logik eine Hardware-Störung in der ECC-Logik, wie z. B. eine Einzel-Festhäng-Störung, bei der ein Gate in der ECC-Logik auf einem bestimmten Wert (z. B. logisch 0, 1, usw.) festhängt. In einer Ausführungsform kann der Fehler in dem Code durch einen Fehler in einem Encoder der ECC-Logik verursacht sein, der die Daten codiert hat, um den Code zu bilden. In einer anderen Ausführungsform kann der Fehler in dem Code durch einen Fehler in einem Decoder der ECC-Logik verursacht sein, der den Code aus dem ersten Speicher decodiert hat.In addition, as in operation 112 shown an error in the code caused by an error in the ECC logic detected. In the context of the present description, the error in the ECC logic includes a hardware failure in the ECC logic, such as the following: For example, a single stuck-on fault in which a gate in the ECC logic is stuck at a certain value (eg, logic 0, 1, etc.). In one embodiment, the error in the code may be caused by an error in an encoder of the ECC logic that encoded the data to form the code. In another embodiment, the error in the code may be caused by an error in a decoder of the ECC logic that has decoded the code from the first memory.

Weiterhin wird, wie in Operation 114 gezeigt, bestimmt, ob der Fehler in dem Code korrigierbar ist. Dies kann von dem Decoder der ECC-Logik durchgeführt werden. Wie in den Operationen 116-120 gezeigt, wird als Reaktion auf ein Bestimmen, dass der Fehler in dem Code korrigierbar ist, der Fehler in dem Code korrigiert, um einen korrigierten Code zu bilden (Operation 116), werden die Daten aus dem zweiten Speicher abgerufen (Operation 118) und werden die abgerufenen Daten unter Verwendung des korrigierten Codes verifiziert (Operation 120). Dementsprechend kann der Code, wenn er korrigiert ist, zur Verifizierung und erforderlichenfalls sogar zur Korrektur der Daten verwendet werden.Furthermore, as in Operation 114 shown determines whether the error in the code is correctable. This can be done by the decoder of the ECC logic. As in the operations 116 - 120 In response to determining that the error in the code is correctable, the error in the code is corrected to form a corrected code (Operation 116 ), the data is retrieved from the second memory (Operation 118 ) and the retrieved data is verified using the corrected code (Operation 120 ). Accordingly, the code, if corrected, can be used to verify and, if necessary, even correct the data.

Wie in Operation 122 gezeigt, wird als Reaktion auf ein Bestimmen, dass der Fehler in dem Code nicht korrigierbar ist, der Fehler in dem Code als nicht korrigierbar angezeigt. Dadurch kann verhindert werden, dass der fehlerhafte Code zum Verifizieren und weiterhin fehlerhaften Korrigieren der Daten verwendet wird. Zu diesem Zweck kann das Verfahren 100 die Integrität irgendeiner an den Daten durchgeführten Fehlerkorrektur gewährleisten, insbesondere bei Vorhandensein von Störungen in der ECC-Logik.As in operation 122 9, in response to determining that the error in the code is uncorrectable, the error in the code is displayed as being uncorrectable. This can prevent the erroneous code from being used for verifying and further erroneously correcting the data. For this purpose, the procedure 100 ensure the integrity of any error correction performed on the data, especially in the presence of disturbances in the ECC logic.

Es werden nun weitere veranschaulichende Informationen zu verschiedenen optionalen Architekturen und Merkmalen gegeben, mit denen das vorgenannte Gerüst nach den Wünschen des Benutzers implementiert werden kann. Es sei ausdrücklich darauf hingewiesen, dass die folgenden Informationen zur Veranschaulichung gegeben werden und nicht als in irgendeiner Weise einschränkend auszulegen sind. Jedes der folgenden Merkmale kann optional mit oder ohne den Ausschluss von anderen beschriebenen Merkmalen aufgenommen werden.Additional illustrative information will now be provided on various optional architectures and features that can be used to implement the aforementioned framework to the user's liking. It is to be understood that the following information is given by way of illustration and should not be construed as limiting in any way. Each of the following features may optionally be included with or without the exclusion of other described features.

1B veranschaulicht ein Blockdiagramm einer ECC-Logik-Architektur 200 gemäß einer Ausführungsform. Die ECC-Logik-Architektur 200 kann so konfiguriert sein, dass sie das Verfahren 100 von 1A durchführt. 1B illustrates a block diagram of an ECC logic architecture 200 according to one embodiment. The ECC logic architecture 200 can be configured to follow the procedure 100 from 1A performs.

Wie gezeigt, werden Eingabedaten (Data In), die n Bits breit sind, und ECC (berechnet durch den Encoder 210), die k Bits breit sind, in einem Missionsspeicher 212 bzw. einem ECC-Speicher 214 gespeichert. In der vorliegenden Ausführungsform sind der Missionsspeicher 212 und der ECC-Speicher 214 verschiedene Felder desselben physischen Speichers 211. Der Speicher 211 weist m logische Stellen auf, die ein Speicher-Array bilden, wobei jede Stelle n+k Bits codierter Daten umfasst. Die Gesamtkapazität des Speichers beträgt m(n+k) Bits. Die Struktur des Speicher-Arrays ist mit einem Spaltendecodierungsfaktor f.As shown, input data (Data In), which is n bits wide, and ECC (calculated by the encoder 210 ), which are k bits wide, in a mission memory 212 or an ECC memory 214 saved. In the present embodiment, the mission memory 212 and the ECC memory 214 different fields of the same physical memory 211 , The memory 211 has m logical locations that make up a memory array, each location comprising n + k bits of encoded data. The total capacity of the memory is m (n + k) bits. The structure of the memory array is a column decoding factor f.

Der Decoder 216 decodiert die ausgelesenen n+k Bits codierten Daten aus dem ECC-Speicher 214 und erzeugt ein k-Bit-Syndrom und bis zu drei mögliche Fehleranzeigen: kein Fehler (NE), korrigierbarer Fehler (CE) und nicht korrigierbarer Fehler (UE). Die Korrekturlogik 218 verwendet das k-Bit-Syndrom, um die n-Bit-Auslesedaten aus dem Missionsspeicher 212 zu korrigieren, wenn die vom Decoder 216 ausgegebene Fehleranzeige CE ist, was den Zustand korrigierbarer Fehler anzeigt. Die CE-Ausgabe des Decoders 216 steuert die Multiplex-(MUX)-Einheit 220 der unveränderten Daten aus dem Missionsspeicher 212 und der korrigierten Daten aus der Korrekturlogik 218. Die MUX 220 und die Korrekturlogik 218 können zu einer einzigen Einheit zusammengeführt sein, sind aber hier getrennt gezeigt, um eine konservativere Buchung von Störungen zu ermöglichen. Abhängig von den Designparameterwerten kann die ECC-Logik-Architektur 200 SED (wie bei Parität), SEC oder SEC-DED sein, wie nachfolgend beschrieben.The decoder 216 decodes the read out n + k bits of encoded data from the ECC memory 214 and generates a k-bit syndrome and up to three possible error indications: no error (NE), correctable error (CE) and uncorrectable error (UE). The correction logic 218 uses the k-bit syndrome to get the n-bit read data from the mission memory 212 correct if that from the decoder 216 output error indication CE is what indicates the state of correctable errors. The CE output of the decoder 216 controls the multiplex (MUX) unit 220 the unchanged data from the mission memory 212 and the corrected data from the correction logic 218 , The mux 220 and the correction logic 218 may be merged into a single entity but are shown separately to allow a more conservative posting of disturbances. Depending on the design parameter values, the ECC logic architecture 200 SED (as in parity), SEC or SEC-DED as described below.

SED (oder Parität): Dies ist der Fall, wenn k=1 und der Encoder 210 und der Decoder 216 XOR-Paritätsbäume sind. In diesem Design signalisiert der Decoder 216 nur NE und UE, und es gibt keine Korrekturlogik 218 und MUX-Einheit 220 (getrennt von der in 1B gezeigten Ausführungsform).SED (or parity): This is the case if k = 1 and the encoder 210 and the decoder 216 XOR parity trees are. In this design, the decoder signals 216 only NE and UE, and there is no correction logic 218 and mux unit 220 (separate from the in 1B shown embodiment).

SEC: Für ein gegebenes n wird k so gewählt, dass 2^k - 1 ≥ n + k Λ 2^k-1 - 1 < n + k - 1. Zum Beispiel, wenn n=32, dann k=6. (2⁵ - 1) < (32 + 5) Λ (2|6 - 1) ≥ (32 + 6). In diesem Design der ECC-Logik-Architektur 200 signalisiert der Decoder 216 nur NE und CE. Der Encoder 210 und der Decoder 216 sind durch spezielle Paritätsprüfungsgleichungen gestaltet, die durch eine Paritätsprüfungsmatrix spezifiziert sind. Dies ist in „Error-Control Coding for Computer Systems“ von T. R. N. Rao & E. Fujiwara, Prentice Hall Series in Computer Engineering, Prof. Edward J. McCluskey Series Editor, 1989, New Jersey, näher beschrieben. Die ECC-Logik-Architektur 200 kann optional so konfiguriert sein, dass sie nur Fehler erkennt; in diesem Fall wird der SEC-Code Doppelfehler erkennender (DED)-Code, und der Decoder 216 signalisiert nur NE und UE, und wie im SED-Code gibt es keine Korrekturlogik 218 und MUX-Einheit 220.SEC: For a given n, k is chosen such that 2 ^k - 1 ≥ n + k Λ 2 ^k-1 - 1 <n + k - 1. For example, if n = 32, then k = 6. (2 ⁵ - 1) <(32 + 5) Λ (2 | 6 - 1) ≥ (32 + 6). In this design of the ECC logic architecture 200 signals the decoder 216 only NE and CE. The encoder 210 and the decoder 216 are designed by special parity check equations specified by a parity check matrix. This is further described in "Error-Control Coding for Computer Systems" by TRN Rao & E. Fujiwara, Prentice Hall Series in Computer Engineering, Professor Edward J. McCluskey Series Editor, 1989, New Jersey. The ECC logic architecture 200 can optionally be configured to only detect errors; in this case, the SEC code becomes double-error-detecting (DED) code, and the decoder 216 only signals NE and UE, and as in the SED code there is no correction logic 218 and mux unit 220 ,

SEC-DED: Der wie vorstehend beschrieben gewählte (n,k)-SEC-Code wird auf (n,k+1)-SEC-DED-Code vergrößert. Der Encoder 210 und der Decoder 216 haben zusätzliche Paritätsprüfungsgleichungen für das zusätzliche Prüfbit, wie in „Error-Control Coding for Computer Systems“ wie oben erwähnt beschrieben. Der SECDED-Code kann als ein Dreifachfehler erkennender TED-Code verwendet werden.SEC-DED: The (n, k) SEC code selected as described above is increased to (n, k + 1) SEC-DED code. The encoder 210 and the decoder 216 have additional parity check equations for the additional check bit as described in "Error-Control Coding for Computer Systems" as mentioned above. The SECDED code can be used as a triple-error detecting TED code.

ECC-Schutz an Busschnittstellenstrukturen (nicht gezeigt) ist ein Spezialfall von 1B, in dem das Speicher-Array und die Zeilen/Spalten-Decoder nicht benötigt werden. Hier liegt der Encoder 210 auf der Datenquellenebene, und der Decoder 216 und die Korrekturlogik 218 liegen auf dem Ziel der Busschnittstelle.ECC protection on bus interface structures (not shown) is a special case of 1B in which the memory array and the row / column decoders are not needed. Here lies the encoder 210 at the data source level, and the decoder 216 and the correction logic 218 lie on the target of the bus interface.

1C veranschaulicht ein Blockdiagramm der Eingabe und Ausgabe des ECC-Encoders 210 von 2A gemäß einer Ausführungsform. ECC-Designs basieren auf der theoretischen Struktur von linearen Fehlerkorrekturcodes und verwenden EXKLUSIV-ODER-(XOR)-Logik-Gate-Implementierungen. Lineare codebasierte ECC-Designs haben drei Strukturkomponenten: 1C illustrates a block diagram of the input and output of the ECC encoder 210 from 2A according to one embodiment. ECC designs are based on the theoretical structure of linear error correction codes and use EXCLUSIVE-OR (XOR) logic gate implementations. Linear code-based ECC designs have three structural components:

Der Encoder 210 berechnet ECC, d. h. k Prüfbits C[k-1:0] aus n Datenbits D[n-1:0]). Die berechneten Prüfbits werden zusammen mit den Datenbits im ECC-Speicher 214 bzw. Missionsspeicher 212 gespeichert.The encoder 210 calculates ECC, ie k check bits C [k-1: 0] from n data bits D [n-1: 0]). The calculated check bits are combined with the data bits in the ECC memory 214 or mission memory 212 saved.

1D veranschaulicht ein Blockdiagramm der Eingabe und Ausgabe des ECC-Decoders 216 von 2A gemäß einer Ausführungsform. Der Decoder 216 nimmt das codierte Codewort (dargestellt durch C[k-1:0], D[n-1:0]) als Eingabe und bestimmt durch eine dazwischenliegende k-Bit-Ausgabe namens Syndrom (S[k-1:0]), ob es keinen Fehler (NE), korrigierbaren Fehler (CE) oder nicht korrigierbaren Fehler (UE) gibt. NE, CE, UE schließen sich gegenseitig aus, indem die gültigen Ergebnisse (NE, CE, UE) = (1,0,0), (0,1,0) oder (0,0,1) sind. 1D illustrates a block diagram of the input and output of the ECC decoder 216 from 2A according to one embodiment. The decoder 216 takes the coded codeword (represented by C [k-1: 0], D [n-1: 0]) as input and determined by an intermediate k-bit output called syndrome (S [k-1: 0]), whether there is no error (NE), correctable error (CE) or uncorrectable error (UE). NE, CE, UE are mutually exclusive, with the valid results (NE, CE, UE) = (1,0,0), (0,1,0) or (0,0,1).

Die Korrekturlogik 218 verwendet die Ausgabe (S[k-1]:0) des Decoders 216 und das CE-Signal, um korrigierte Daten CD[n-1:0] zu erzeugen (im Falle von korrigierbaren Fehlern, wie durch CE=1 angezeigt), oder behält im Falle von CE=0 die ursprünglichen Daten bei. The correction logic 218 uses the output (S [k-1]: 0) of the decoder 216 and the CE signal to generate corrected data CD [n-1: 0] (in case of correctable errors as indicated by CE = 1), or retains the original data in the case of CE = 0.

In der ISO-26262-Nomenklatur wird zum Beispiel die ECC-Logik-Architektur 200 in 1B als ein Sicherheitsmechanismus in sicherheitsrelevanten elektronischen Kraftfahrzeugsystemen betrachtet. In dieser und anderen Ausführungsformen kann sie verwendet werden, um aus Hardware-Störungen resultierende Fehler in Daten zu erkennen und in manchen Fällen zu korrigieren. Störungen in der ECC-Logik selbst können jedoch Fehler in den ECC einführen, der sonst zum Schutz der Daten dienen soll. Insbesondere permanente Störungen im Encoder 210 und/oder Decoder 216 können zu Datenbeschädigung führen, ohne einen geeigneten Erkennungsmechanismus auszulösen.In the ISO 26262 nomenclature, for example, the ECC logic architecture 200 in 1B considered as a safety mechanism in safety-related electronic automotive systems. In this and other embodiments, it may be used to detect and in some cases correct errors resulting from hardware failures in data. Errors in the ECC logic itself, however, can introduce errors into the ECC that should otherwise serve to protect the data. Especially permanent disturbances in the encoder 210 and / or decoder 216 can lead to data corruption without triggering an appropriate detection mechanism.

Um gegen durch Störungen in der ECC-Logik selbst eingeführte Fehler zu schützen, können die ECC-Logik und/oder der Code auf mehrere Arten beschränkt werden.To guard against errors introduced by faults in the ECC logic itself, the ECC logic and / or code may be limited in several ways.

Ausführungsform 1 - SEC ECC Logikbeschränkung für EncoderEmbodiment 1 - SEC ECC logic restriction for encoder

Für ECC-Logik, die einen SEC-Code erzeugt, kann die ECC-Logik in Bezug auf alle Einzel-Festhäng-Störungen störungssicher gemacht werden, wenn die ECC-Logik so beschränkt wird, dass es keine gemeinsame Benutzung von gemeinsamen Unterausdrücken im Encoder 210 für jeweilige Prüfbit-Ausgaben gibt: C[0], C[1], ..., C[k - 1]. Obwohl dieser Encoder 210 die Flächen- und Leistungs-Gemeinkosten erhöht, garantiert er, dass irgendeine Einzel-Festhäng-Störung im Encoder 210 höchstens eine einzelne Prüfbit-Ausgabe beschädigt und dass irgendeine Decodierung dieses beschädigten Ergebnisses (d. h. nur ein einzelner Prüfbit-Fehler) denselben beschädigten Prüfbit-Wert korrigiert.For ECC logic that generates a SEC code, the ECC logic can be rendered fail-safe with respect to all single-hard-hangs interference when the ECC logic is limited so that there is no sharing of common sub-expressions in the encoder 210 for respective check bit outputs: C [0], C [1], ..., C [k-1]. Although this encoder 210 Increasing the area and power overheads, it guarantees that any single hard-hangs interference in the encoder 210 at most a single checkbit output is corrupted and any decoding of this corrupted result (ie, only a single checkbit error) will correct the same corrupted checkbit value.

Ausführungsform 1 - BeispielEmbodiment 1 - Example

Für lineare Fehlererkennung und -korrektur von Codes einschließlich SEC-Codes werden die Prüfbit-Encoder durch die Paritätsprüfungsmatrix [I_kxk P_kxn] definiert, wobei die Identitätsmatrix die Prüfbit-Positionen C[0] bis C[k-1] in den jeweiligen k Zeilen repräsentiert; und die Paritätsmatrix in jeder Zeile identifiziert die Datenbits, die die Paritätsgleichungen für das entsprechende Prüfbit bilden. Die in Tabelle 1 unten dargestellte Paritätsprüfungsmatrix definiert einen (11, 4) SEC-Code mit n=11 Datenbits und k=4 Prüfbits. Tabelle 1 $Paritätsprüfungsmatrix H = [\begin{matrix} C [0 \dots 3] D [0 \dots 10] \\ 100010011101101 \\ 010011001010111 \\ 001011100101011 \\ 000101110110101 \end{matrix}]$

For linear error detection and correction of codes including SEC codes, the check bit encoders are defined by the parity check matrix [I _kxk P _kxn ], where the identity matrix holds the check bit positions C [0] to C [k-1] in the respective k Represents lines; and the parity matrix in each row identifies the data bits that form the parity equations for the corresponding check bit. The parity check matrix shown in Table 1 below defines a (11, 4) SEC code with n = 11 data bits and k = 4 check bits. Table 1

Parity check matrix H = [\begin{matrix} C [0 ... 3] D [0 ... 10] \\ 100010011101101 \\ 010011001010111 \\ 001011100101011 \\ 000101110110101 \end{matrix}]

Die erste 4×4 Identitäts-Submatrix in H entspricht den vier Prüfbits C[0] bis C[3]. Die folgende 4×11-Submatrix entspricht den Dateneingaben D[0] bis D[10]. Die Prüfbit-Gleichungen werden wie folgt kanonisch aus der Paritätsprüfungsmatrix abgeleitet:

1. In jeder Zeile der Matrix H identifiziert das erste Bit ungleich Null an der Stelle i das Prüfbit C[i-1], und jedes nachfolgende Bit ungleich Null j1, j2, .... identifiziert jeweils Datenbits D[j1-k], D[j2-k], ....
2. Die Paritätsgleichungen für jede Zeile der Matrix H werden gebildet, indem das identifizierte Prüfbit C[i-1] auf der linken Seite genommen und mit der Modulo-2 (XOR)-Summe der identifizierten Datenbits D[j1-k], D[j2-k], ... gleichgesetzt wird.

The first 4 × 4 identity sub-matrix in H corresponds to the four check bits C [0] to C [3]. The following 4 × 11 submatrix corresponds to the data inputs D [0] to D [10]. The check bit equations are canonically derived from the parity check matrix as follows:

1. In each row of the matrix H, the first nonzero bit at point i identifies the check bit C [i-1], and each subsequent nonzero bit j1, j2, .... identifies data bits D [j1-k], respectively. , D [j2-k], ....
2. The parity equations for each row of the matrix H are formed by taking the identified check bit C [i-1] on the left and using the modulo 2 (XOR) sum of the identified data bits D [j1-k], D [j2-k], ... is equated.

Im Anschluss an den obigen Prozess erhalten wir die in Tabelle 2 gezeigten Paritätsgleichungen für den (15, 4) Code. Hier bezeichnet‚+‘ die Modulo-2-Summierung. Tabelle 2 C[0] = D[0] + D[3] + D[4] + D[5] + D[7] + D[8] + D[10] C[1] = D[0] + D[1] + D[4] + D[6] + D[8] + D[9] + D[10] C[2] = D[0] + D[1] + D[2] + D[5] + D[7] + D[9] + D[10] C[3] = D[1] + D[2] + D[3] + D[5] + D[6] + D[8] + D[10] Following the above process we obtain the parity equations for the (15, 4) code shown in Table 2. Here, + denotes the modulo-2 summation. Table 2 C [0] = D [0] + D [3] + D [4] + D [5] + D [7] + D [8] + D [10] C [1] = D [0] + D [1] + D [4] + D [6] + D [8] + D [9] + D [10] C [2] = D [0] + D [1] + D [2] + D [5] + D [7] + D [9] + D [10] C [3] = D [1] + D [2] + D [3] + D [5] + D [6] + D [8] + D [10]

Im Stand der Technik würden ECC-Logik-Encoder gemeinsame Unterausdrücke in den Paritätsgleichungen gemeinsam benutzen. Zum Beispiel ist D[0] + D[10] ein gemeinsamer Unterausdruck in Gleichungen für C[0], C[1] bzw. C[2], welche durch die gemeinsame Benutzung einer XOR- (mit Eingaben D[0] und D[10]) -Gate-Ausgabe mit den Logikstrukturen, die Ausgaben C[0], C[1] und C[2] erzeugen, implementiert werden können.In the prior art, ECC logic encoders would share common sub-expressions in the parity equations. For example, D [0] + D [10] is a common sub-expression in equations for C [0], C [1], and C [2], respectively, obtained by sharing an XOR (with inputs D [0] and D [10]) gate output can be implemented with the logic structures that produce outputs C [0], C [1], and C [2].

Wenn die störungsfreien Daten D[0...10] = 11'b00000000000 sind, dann werden bei Abwesenheit von Fehlern die Prüfbits C[0...3] = 4'b0000. Mit einer Festhängauf-1-Störung am Ausgangslaststiel-Knoten des XOR-Gates mit Eingaben D[0] und D[10] berechnen die Prüfbits jedoch zu C[0...3] = 4'b0110. Wenn dies decodiert wird (der decodierte Wert würde Einzelbit-Fehlerkorrektur (CE) im Datenfeld anzeigen), wird der Datenwert falsch korrigiert, da D[0...10] = 11'b00000000010. Obwohl der Prüfbit-Encoder selbstprüfend (d. h. die Störung wird vom Decoder erkannt) in Bezug auf diese Störung ist, ist er nicht störungssicher, insofern als der erkannte Fehler stille Datenbeschädigung (SDC) verursacht, da der SEC-Code keinen nicht korrigierbaren Fehler (UE) signalisiert und zu Verletzung eines Sicherheitsziels führen kann.If the interference-free data D [0 ... 10] = 11'b00000000000, then in the absence of errors, the check bits C [0 ... 3] = 4'b0000. However, with a stall 1 disturb at the output load node of the XOR gate with inputs D [0] and D [10], the check bits calculate at C [0 ... 3] = 4'b0110. When this is decoded (the decoded value would indicate single-bit error correction (CE) in the data field), the data value is incorrectly corrected because D [0 ... 10] = 11'b00000000010. Although the check bit encoder is self-checking (ie, the fault is detected by the decoder) with respect to this fault, it is not fail-safe insofar as the detected fault causes silent data corruption (SDC) because the SEC code does not contain an uncorrectable error (UE ) and may lead to violation of a security objective.

Gemäß der obigen Beschreibung resultiert durch Beschränkung der ECC-Logik, wenn sich eine Einzel-Festhäng-auf-1-Störung auf den C[0] Teil der Encoder-Logik auswirkt, ein Datenwert D[0...10] = 11'b00000000000 in Prüfbits zu C[0...3] = 4'b1000. Nach Decodierung und Korrektur der Prüfbits wären die ausgelesenen Prüfbit- und Datenbit-Werte {C[0..3] | D[0...10]} = {4'b000000| 11'b00000000000}.According to the above description, by limiting the ECC logic, if a single stuck-to-1 fault affects the C [0] part of the encoder logic, a data value D [0 ... 10] = 11 'results. b00000000000 in check bits at C [0 ... 3] = 4'b1000. After decoding and correction of the check bits, the read check bit and data bit values would be {C [0..3] | D [0 ... 10]} = {4'b000000 | 11'b00000000000}.

Ausführungsform 2 - SEC-DED ECC-Logik-Beschränkung für EncoderEmbodiment 2 - SEC-DED ECC logic limitation for encoder

Für ECC-Logik, die einen SEC-DED-Code erzeugt, kann die ECC-Logik in Bezug auf alle Einzel-Festhäng-Störungen störungssicher gemacht werden, wenn die ECC-Logik so beschränkt wird, dass es keine gemeinsame Benutzung von mehr als zwei gemeinsamen Unterausdrücken im Encoder 210 für jeweilige Prüfbit-Ausgaben gibt: C[0], C[1], ..., C[k - 1]. Obwohl diese Beschränkung des Encoders 210 die Flächen-Gemeinkosten erhöht, garantiert sie, dass irgendeine Einzel-Festhäng-Störung im Encoder 210 höchstens zwei Prüfbit-Ausgaben beschädigt und dass irgendeine Decodierung dieses beschädigten Ergebnisses (d. h. höchstens zwei Prüfbit-Fehler) entweder denselben beschädigten Prüfbit-Wert korrigiert oder den Fehler als nicht korrigierbar decodiert (UE).For ECC logic that generates a SEC-DED code, the ECC logic can be rendered fail-safe with respect to all single-hardship interference when the ECC logic is constrained to not share more than two common sub-expressions in the encoder 210 for respective check bit outputs: C [0], C [1], ..., C [k-1]. Although this limitation of the encoder 210 Increasing the area overheads, it guarantees that any single hard-hangs interference in the encoder 210 at most two check bit outputs are corrupted and that any decoding of this corrupted result (ie, at most two check bit errors) either corrects the same corrupted check bit value or decodes the error as uncorrectable (UE).

Ausführungsform 2 - BeispielEmbodiment 2 - Example

Für einen von einem (11, 4) SEC-Code unter Verwendung eines zusätzlichen Prüfbits vergrößerten (11, 5) SEC-DED-Code sind die Paritätsprüfungsmatrix H und die entsprechenden Prüfbit-Gleichungen für diesen SEC-DED-Code in Tabelle 3 unten angegeben. Tabelle 3 $Paritätsprüfungsmatrix H = [\begin{matrix} C [0 \dots 4] D [0 \dots 10] \\ 1000010011101101 \\ 0100011001010111 \\ 0010011100101011 \\ 0001001110110101 \\ 0000100111011011 \end{matrix}]$

C[0] = D[0] + D[3] + D[4] + D[5] + D[7] + D[8] + D[10] C[1] = D[0] + D[1] + D[4] + D[6] + D[8] + D[9] + D[10] C[2] = D[0] + D[1] + D[2] + D[5] + D[7] + D[9] + D[10] C[3] = D[1] + D[2] + D[3] + D[5] + D[6] + D[8] + D[10] C[4] = D[2] + D[3] + D[4] + D[6] + D[7] + D[9] + D[10] For one (11, 4) SEC code using an additional check bit (11, 5) SEC-DED code enlarged, the parity check matrix H and corresponding check bit equations for that SEC-DED code are given in Table 3 below , Table 3

Parity check matrix H = [\begin{matrix} C [0 ... 4] D [0 ... 10] \\ 1000010011101101 \\ 0100011001010111 \\ 0010011100101011 \\ 0001001110110101 \\ 0000100111011011 \end{matrix}]

C [0] = D [0] + D [3] + D [4] + D [5] + D [7] + D [8] + D [10] C [1] = D [0] + D [1] + D [4] + D [6] + D [8] + D [9] + D [10] C [2] = D [0] + D [1] + D [2] + D [5] + D [7] + D [9] + D [10] C [3] = D [1] + D [2] + D [3] + D [5] + D [6] + D [8] + D [10] C [4] = D [2] + D [3] + D [4] + D [6] + D [7] + D [9] + D [10]

Im Stand der Technik würden ECC-Logik-Encoder gemeinsame Unterausdrücke in den Paritätsgleichungen gemeinsam benutzen. Zum Beispiel ist D[0] + D[10] ein gemeinsamer Unterausdruck in Gleichungen für C[0], C[1] bzw. C[2] durch die gemeinsame Benutzung einer XOR- (mit Eingaben D[0] und D[10]) -Gate-Ausgabe mit den Logikstrukturen, die Ausgaben C[0], C[1] und C[2] erzeugen.In the prior art, ECC logic encoders would share common sub-expressions in the parity equations. For example, D [0] + D [10] is a common subexpression in equations for C [0], C [1], and C [2] by sharing an XOR (with inputs D [0] and D [ 10]) gate output with the logic structures producing outputs C [0], C [1] and C [2].

Wenn die störungsfreien Daten D[0...10] = 11'b00000000000 sind, dann werden bei Abwesenheit von Störungen die Prüfbits C[0...3] = 4'b0000. Mit einer Einzel-Festhäng-auf-1-Störung am Ausgang des XOR-Gates mit Eingaben D[0] und D[10] berechnen die Prüfbits jedoch zu C[0...3] = 4'b11100. Wenn dies decodiert wird (der decodierte Wert würde Einzelbit-Fehlerkorrektur im Datenfeld anzeigen), wird der Datenwert falsch korrigiert, da D[0...10] = 11'b10000000000. Wenn wir jedoch davon ausgehen, dass eine Ausgangslaststiel-Störung wie in dem oben beschriebenen SEC ECC-Logik-Design nur C[1] und C[2] beschädigt, dann signalisiert der Decoder einen nicht korrigierbaren Fehler (UE) und verursacht keine Reststörungen.If the interference-free data D [0 ... 10] = 11'b00000000000, then in the absence of interference, the check bits C [0 ... 3] = 4'b0000. However, with a single stuck-on-1 fault at the output of the XOR gate with inputs D [0] and D [10], the check bits calculate at C [0 ... 3] = 4'b11100. If this is decoded (the decoded value would indicate single-bit error correction in the data field), the data value will be incorrectly corrected since D [0 ... 10] = 11'b10000000000. However, assuming that an output load stem disturbance, as in the SEC ECC logic design described above, only damages C [1] and C [2], then the decoder signals an uncorrectable error (UE) and does not cause residual noise.

Gemäß der obigen Beschreibung resultiert durch Beschränkung der ECC-Logik, wenn sich eine Einzel-Festhäng-auf-1-Störung auf den C[0] Teil der Encoder-Logik auswirkt, ein Datenwert D[0...10] = 11'b00000000000 in Prüfbits zu C[0...4] = 5'b1000. Nach Decodierung und Korrektur der Prüfbits wären die ausgelesenen Prüfbit- und Daten-Werte {C[0..3] | D[0...10]} = {5'b000001 11'bb00000000000}. Und wenn sich eine Einzel-Festhäng-Störung auf den C[0] & C[1] Teil der Encoder-Logik auswirkt, resultiert ein Datenwert D[0...10] = 11'b00000000000 in Prüfbits zu C[0...3] = 5'b11000. Der Decoder signalisiert dann diesen Fall als nicht korrigierbaren Doppelbitfehler (UE).According to the above description, by limiting the ECC logic, if a single stuck-to-1 fault affects the C [0] part of the encoder logic, a data value D [0 ... 10] = 11 'results. b00000000000 in check bits to C [0 ... 4] = 5'b1000. After decoding and correction of the check bits, the read check bit and data values would be {C [0..3] | D [0 ... 10]} = {5'b000001 11'bb00000000000}. And if a single stuck-on fault affects the C [0] & C [1] part of the encoder logic, a data value D [0 ... 10] = 11'b00000000000 results in check bits of C [0 .. .3] = 5'b11000. The decoder then signals this case as a non-correctable double bit error (UE).

Ausführungsform 3 - Paritätsbit ECC-LogikEmbodiment 3 - Parity bit ECC logic

Paritätsbasierte Encoder geben SED-Codes aus und sind per Definition störungssicher, insofern sie nur ein Prüfbit C[0] erzeugen. Irgendeine Störung im Encoder führt entweder zu einer Beschädigung von C[0] oder nicht. In beiden Fällen signalisiert der Decoder einen nicht korrigierbaren Fehler oder signalisiert keinen Fehler. Der einzige Nachteil dabei ist, dass es zu einer falsch-positiven Situation kommen kann und die Verfügbarkeit beeinträchtigen kann.Parity-based encoders output SED codes and are by definition fail-safe insofar as they only generate one check bit C [0]. Any disturbance in the encoder will either damage C [0] or not. In both cases, the decoder signals an uncorrectable error or signals no error. The only downside is that it can lead to a false-positive situation and can affect the availability.

Ausführungsform 4 - ECC-Logik-Beschränkung für DecoderEmbodiment 4 - ECC Logic Limitation for Decoder

Für interne Einzel-Festhäng-Störungen im Decoder 216 ist, wenn Richtlinien wie dem Design des Encoders 210 gefolgt wird, die Syndrom-Logik störungssicher in Bezug auf interne Festhäng-Störungen. Insbesondere wird das SEC-Decoder-Design dem in 1D gezeigten entsprechen, mit der Ausnahme, dass es keine Decodierungslogik für nicht korrigierbare Fehler (UE) gibt. In Bezug auf Sicherheitseigenschaft von Einzel-Festhäng-Störungen kann die Logik des Decoders 216 also ähnlichen Design-Richtlinien folgen wie die Logik des Encoders 210.For internal single-fixed-hang-disturbances in the decoder 216 is when guidelines like the design of the encoder 210 is followed, the syndrome logic fail-safe with respect to internal hang-glitches. In particular, the SEC decoder design is the same as in 1D with the exception that there is no decoding logic for uncorrectable errors (UE). In terms of security property of single-hard-hangs interference may be the logic of the decoder 216 So follow similar design guidelines as the logic of the encoder 210 ,

Für einen Einzelbit-Paritätsdecoder ist der Decoder 216 ein Einzelausgabe-Paritätsbaum, und die Null-Fehler-Ausgabe (NE) entspricht ebenfalls der Ausgabe des Paritätsbaums.For a single bit parity decoder, the decoder is 216 a single output parity tree, and the zero error output (NE) also corresponds to the output of the parity tree.

Ausführungsform 5 - modifizierter Algorithmus für ECC-LogikEmbodiment 5 - Modified Algorithm for ECC Logic

In der vorliegenden Ausführungsform werden ECC-Code-Designtechniken beschrieben, die die Störungssicherheits-Eigenschaft des ECC verbessern können, ohne irgendeine Hilfe von in den obigen Ausführungsformen beschriebenen ECC-Logik-Design-Beschränkungen zu benötigen.In the present embodiment, ECC code design techniques are described that can improve the anti-jamming property of the ECC without the need for any of the ECC logic design limitations described in the above embodiments.

Um die Code-Design-Techniken zu erläutern, die die Störungssicherheits-Eigenschaften verbessern, lassen Sie uns zunächst einen Blick auf die Ursachen von Rest-Störungen in einem regulären SEC-DED-Design werfen. Der Ausgangspunkt für alle ECC-Designs ist die Paritätsprüfungsmatrix. Dies wurde in den vorangegangenen Abschnitten durch Konstruieren der Encoder- und Decodergleichungen aus der Paritätsprüfungsmatrix, die (11,4) bzw. (11,5) ECC-Codes definiert, gezeigt. 2A zeigt eine Konstruktion der Paritätsprüfungsmatrix eines Standard (32,7) Hamming ECC-Codes, wie in „Error-Control Coding for Computer Systems“ von T. R. N. Rao & E. Fujiwara, Prentice Hall Series in Computer Engineering, Prof. Edward J. McCluskey Series Editor, 1989, New Jersey, beschrieben. Die 6x6 Identitäts-Submatrix zu Beginn dieser Paritätsprüfungsmatrix repräsentiert die Bits C[0] bis C[5]. Die übrigen 32 Spaltenvektoren mit Länge 6 für Datenbits D[0] bis D[31] sind mit zunehmenden Werten ungleich Null und durch Überspringen von Gewicht-1-Spalten ausgefüllt, die schon für Prüfbits in der 6×6-Identitäts-Submatrix ausgewählt wurden. Zum Beispiel beginnt der Spaltenvektor [0 0 0 0 1 1]^T mit dem Dezimalwert 3 für D[0] (Überspringen der schon für C[5] und C[2] ausgewählten Werte 1 und 2) und dann der Spaltenvektor [0 0 0 1 0 1]^T mit dem Dezimalwert 5 für D[1] (Sprungwert 4 schon für C[3] ausgewählt). Diese Konstruktion ergibt ein (32,6) SEC-Code-Design mit Prüfbits C[0] bis C[5]. Um ein SEC-DED-Code-Design zu erhalten, wird ein zusätzliches Prüfbit C[6] hinzugefügt, das durch den Spaltenvektor [0 0 0 0 0 1]^T repräsentiert wird. Dieses Prüfbit C[6] ist die Gesamtparität der Prüfbits C[0] bis C[5] und Datenbits D[0] bis D[31].To explain the code design techniques that enhance the anti-jamming performance, first let's take a look at the causes of residual noise in a regular SEC-DED design. The starting point for all ECC designs is the parity check matrix. This was demonstrated in the previous sections by constructing the encoder and decoder equations from the parity check matrix defining (11,4) and (11,5) ECC codes, respectively. 2A Figure 12 shows a construction of the parity check matrix of a standard (32.7) Hamming ECC code as described in TRN Rao & E. Fujiwara's "Error-Control Coding for Computer Systems", Prentice Hall Series in Computer Engineering, Prof. Edward J. McCluskey Series Editor, 1989, New Jersey. The 6x6 Identity Submatrix at the beginning of this Parity check matrix represents bits C [0] to C [5]. The remaining 32 column vectors of length 6 for data bits D [0] to D [31] are filled with increasing nonzero values and skipped weight 1 columns already selected for check bits in the 6x6 identity submatrix , For example, the column vector [0 0 0 0 1 1] ^T begins with the decimal value 3 for D [0] (skipping the values 1 and 2 already selected for C [5] and C [2]) and then the column vector [0 0 0 1 0 1] ^T with the decimal value 5 for D [1] (jump value 4 already selected for C [3]). This design yields a (32.6) SEC code design with check bits C [0] to C [5]. In order to obtain a SEC-DED code design, an additional check bit C [6] is added, represented by the column vector [0 0 0 0 0 1] ^T. This check bit C [6] is the overall parity of check bits C [0] to C [5] and data bits D [0] to D [31].

Diese Paritätsprüfungsmatrix wird in eine systematische Form transformiert, wobei die Prüfbit-C[6]-Gleichung umgestaltet wird, um nur als eine Funktion der Datenbit-Teilmenge in D[0] bis D[31] zu zeigen. Der Trick, um die letzte Zeile Zeile[6] in der Paritätsprüfungsmatrix von 2E zu erhalten, besteht darin, die folgende Bit-für-Bit-Operation durchzuführen: Zeile[6] (in 7) = Bit für Bit XOR der Zeilen Zeile[0] bis Zeile[6] in 6.This parity check matrix is transformed into a systematic form, where the check bit C [6] equation is reconstructed to show only as a function of the data bit subset in D [0] to D [31]. The trick to get the last line row [6] in the parity check matrix of 2E is to perform the following bit-by-bit operation: line [6] (in 7 ) = Bit for bit XOR of lines line [0] to line [6] in 6 ,

Eine interessante Konsequenz einer systematischen (n,k)-SEC-DED-Konstruktion ist, dass alle Spalten in der Paritätsprüfungsmatrix ungerades Gewicht haben. Aus der Paritätsprüfungsmatrix-Struktur ist es auch möglich, vorherzusagen, welche Kombination von drei von mehreren Prüfbit-Gleichungen gemeinsame XOR-Unterausdrücke von Datenbits gemeinsam benutzt. Dies ist einfach durch bitweises UND-Verknüpfen der Zeilen entsprechend den Prüfbit-Positionen zu erreichen. Der resultierende Zeilenvektor mit entsprechenden Zeilen an Datenbit-Stellen zeigt auf den gemeinsamen Unterausdruck. 2B zeigt zum Beispiel den gemeinsamen Unterausdruck für Prüfbits 3, 4, 6 im systematischen (32,7) SEC-DED-Code.An interesting consequence of a systematic (n, k) SEC-DED construction is that all columns in the parity check matrix are of odd weight. From the parity check matrix structure, it is also possible to predict which combination of three common XOR sub-expressions of data bits shared by multiple check bit equations. This is easily achieved by bitwise ANDing the rows according to the check bit positions. The resulting row vector with corresponding rows of data bit locations points to the common sub-expression. 2 B shows, for example, the common sub-expression for check bits 3, 4, 6 in the systematic (32.7) SEC-DED code.

Durch Aufzählen aller möglichen Szenarien für gemeinsame Benutzung können wir annähernd schätzen, dass es von insgesamt 448 Störungen im SEC-DED-Encoder ungefähr 40 Rest-Störungen gibt. Dies sind ungefähr 8,9%. Da der SECDED-Decoder ein ähnliches Design gemeinsam benutzt, können wir eine ähnliche Gesamtzahl von Rest-Störungen erwarten. Die lokale DC-Abdeckung ist noch größer als 91 %; jedoch könnte die gesamte Diagnose-Abdeckung des Sicherheitsmechanismus unter 90% fallen (wenn wir Störungen im Zeilenadressendecoder und den MUX-Einheiten einschließen).By enumerating all possible sharing scenarios, we can roughly estimate that out of a total of 448 failures in the SEC-DED encoder, there are approximately 40 residual faults. This is about 8.9%. Since the SECDED decoder shares a similar design, we can expect a similar total number of residual perturbations. The local DC coverage is still greater than 91%; however, the overall diagnostic coverage of the security mechanism could fall below 90% (if we include faults in the row address decoder and the MUX units).

Eine Hauptquelle des gemeinsamen Unterausdrucks ist das Auftreten von Ungerades-Gewicht-Spalten mit einem Gewicht größer als 3. Sechs von 32 Datenbit-Spalten in der Paritätsprüfungsmatrix von 2C haben Gewicht 5.A major source of common sub-expression is the occurrence of odd-weighted columns greater than 3 in weight. Six out of 32 data-bit columns in the parity-check matrix of 2C have weight 5.

Es ist möglich, SEC-DED-Paritätsprüfungs-Matrizen mit einer systematischen Auswahl von Spalten mit niedrigstem ungeraden Gewicht zu konstruieren. Dies ist die Grundlage der von Hsiao populär gemachten Codekonstruktionsalgorithmen, wie sie in „Error-Control Coding for Computer Systems“ von T. R. N. Rao & E. Fujiwara, Prentice Hall Series in Computer Engineering, Prof. Edward J. McCluskey Series Editor, 1989 , New Jersey, beschrieben sind. Die Motivation dafür ist, die Anzahl der XOR-Gatter (und damit die Anzahl der Logikpegel) in den Encoder- und Decoderschaltungen zu minimieren. Es ist unsere jüngste Erkenntnis, dass das Sammeln von Spalten mit niedrigstem ungeraden Gewicht auch dazu beiträgt, die gemeinsame Benutzung von gemeinsamen Unterausdrücken in der Encoder- und Decoder-Logik zu minimieren. So können zum Beispiel die meisten der (n,k)-SEC-DED-Codes durch nur Verwendung von Gewicht-3-Spalten erzeugt werden. 2D zeigt einen solchen (32,7) SECDED-Code.It is possible to construct SEC-DED parity check matrices with a systematic selection of lowest odd-weight columns. This is the basis of Hsiao's popularized code construction algorithms as described in "Error-Control Coding for Computer Systems" by TRN Rao & E. Fujiwara, Prentice Hall Series in Computer Engineering, Professor Edward J. McCluskey Series Editor, 1989 , New Jersey. The motivation for this is to minimize the number of XOR gates (and hence the number of logic levels) in the encoder and decoder circuits. It is our recent discovery that collecting least-odd-column columns also helps minimize the sharing of common sub-expressions in the encoder and decoder logic. For example, most of the (n, k) SEC DED codes can be generated by using only weight 3 columns. 2D shows such a (32,7) SECDED code.

Wenn es nur Gewicht-3-Spalten gibt, stellt sich heraus, dass es bei drei oder mehr Prüfbit- oder Syndrom-Ausgaben keine gemeinsame Benutzung von irgendeinem Unterausdruck geben kann. Zum Beispiel zeigt 2E, dass nur das Datenbit D[24] zwischen den Prüfbits C[3], C[4] und C[6] gemeinsam ist, und keine gemeinsamen XOR-Unterausdrücke.If there are only weight 3 columns, it turns out that if there are three or more check bit or syndrome issues, there can be no sharing of any subexpression. For example, shows 2E in that only the data bit D [24] is common between the check bits C [3], C [4] and C [6], and no common XOR sub-expressions.

Dies führt zu null Rest-Störungen von insgesamt 448 Störungen im Encoder. Dadurch wird eine 100%ige lokale Diagnoseabdeckung in Bezug auf Einzel-Festhäng-Störungen in Encodern und Decodern von ECC-Logik-Designs erreicht.This leads to zero residual interference of 448 errors in the encoder. This achieves 100% local diagnostic coverage for single-squared disturbances in encoders and decoders of ECC logic designs.

Als nächstes zeigen wir ein formales Verfahren zum Erzeugen einer SEC-DED-Paritätsprüfungsmatrix unter Verwendung einer modifizierten Version des Hsiao-Algorithmus.

1. Bei gegebener Datenbreite n Bits lege Prüfbitlänge k so fest, dass: $(2^{k - 1} - 1) \geq (n + k - 1) \land (2 | k - 2 - 1) < (n + k - 2) .$
2. Erzeuge kxk Identitätsmatrix für die Prüfbits.
3. Setze ungerades Gewicht w = 3, Codelänge c = n
4. Iteriere getrennte Gewicht-w-Spalten bis zu min von c und $(\begin{matrix} k \\ w \end{matrix}) .$
5. Wenn $(\begin{matrix} k \\ w \end{matrix}) \geq c,$
dann sind alle Paritätsmatrixspalten erzeugt. Gehe nach 7.
6. Setze $c = c - (\begin{array}{l} k \\ w \end{array}) und w = w + 2.$
Gehe nach 4.
7. Alle Paritätsprüfungsmatrixspalten erzeugt. Stopp.

Next, we show a formal method for generating a SEC-DED parity check matrix using a modified version of the Hsiao algorithm.

1. For a given data width n bits set the check bit length k so that: $(2^{k - 1} - 1) \geq (n + k - 1) \land (2 | k - 2 - 1) < (n + k - 2),$
2. Create kxk identity matrix for the check bits.
3. Set odd weight w = 3, code length c = n
4. Iterate separate weight w columns up to min of c and $(\begin{matrix} k \\ w \end{matrix}),$
5. If $(\begin{matrix} k \\ w \end{matrix}) \geq c .$
then all parity matrix columns are generated. Go to 7.
6. Set $c = c - (\begin{array}{l} k \\ w \end{array}) and w = w + Second$
Go to 4.
7. Generates all parity check matrix columns. Stop.

Während einige der SEC-DED-Codes (wie z. B. (32,7)) durch eine Gewicht-3-Paritätsprüfungsmatrix realisiert werden können, wird es Szenarien geben, in denen ungerade Gewichte größer als 3 verwendet werden. So bestimmt zum Beispiel für n=256 Schritt 1 k=10. Binominal 10 wähle 3 = 120 < 256, so dass restliche 136 Gewicht-5-Spalten verwendet werden. Um dieses Problem zu entschärfen, kann man entweder die oben beschriebenen ECC-Logikbeschränkungen verwenden, oder man erhöhe den Wert von k, um die Paritätsprüfungsmatrix mit nur Gewicht-3-Spalten zu realisieren. Zum Beispiel, wenn k=13, dann ist es möglich, (256,13) SEC-DED-Code mit nur Gewicht-3-Spalten in der Paritätsprüfungsmatrix zu haben.While some of the SEC-DED codes (such as (32,7)) may be implemented by a weight-3 parity check matrix, there will be scenarios in which odd weights greater than 3 are used. For example, for n = 256, step 1 determines k = 10. Binominal 10 choose 3 = 120 <256, so that the remaining 136 weight 5 columns are used. To mitigate this problem, one can either use the ECC logic limitations described above or increase the value of k to implement the parity check matrix with only weight 3 columns. For example, if k = 13, then it is possible to have (256,13) SEC-DED code with only weight-3 columns in the parity check matrix.

Die oben beschriebenen Ausführungsformen zur Sicherung des ECC gegen Fehler umfassen verschiedene störungssichere ECC-Logik-Designs, die die Gesamtzuverlässigkeit eines elektronischen Systems mit ECC-Logik im Vergleich zu herkömmlichen ECC-Designs verbessern. Sobald die ECC-Logik eines elektronischen Systems zuverlässiger und störungsresistenter gemacht ist, kann der ECC-Logik mehr vertraut werden, dass sie ihre beabsichtigte Funktion der Erkennung und Korrektur von Fehlern in Daten erfüllt.The embodiments for securing the ECC against faults described above include various fail-safe ECC logic designs that improve the overall reliability of an electronic system with ECC logic compared to conventional ECC designs. Once the ECC logic of an electronic system is made more reliable and more resistant to interference, the ECC logic can become more confident that it will perform its intended function of detecting and correcting errors in data.

Somit können die störungssicheren ECC-Logik-Designs in Speicherstrukturen, in Datenübertragungssystemen, in Prozessoren und in anderen Systemen eingesetzt werden, bei denen eine höhere Resistenz gegen Datenfehler erwünscht ist. Solche Systeme umfassen zum Beispiel autonome und teilautonome Fahrzeuge wie z. B. Automobile, Flugzeuge, Boote, U-Boote, autonome und teilautonome Drohnen, Sicherheitssysteme, Roboter und andere elektronische Systeme, einschließlich solcher, die externen Elementen oder extremen Bedingungen ausgesetzt sind, die Hardware-Störungen verursachen können.Thus, fail-safe ECC logic designs can be used in memory structures, in data transfer systems, in processors, and in other systems where higher resistance to data errors is desired. Such systems include, for example, autonomous and semi-autonomous vehicles such. Automobiles, aircraft, boats, submarines, autonomous and semi-autonomous drones, security systems, robots and other electronic systems, including those exposed to external elements or extreme conditions that can cause hardware interference.

Die störungssicheren ECC-Logik-Designs können auch in Systemen eingesetzt werden, die künstliche Intelligenz („KI“) einbeziehen, wenn größere Resistenz gegenüber Daten-(Bit)-Fehlern gewünscht wird. Solche Systeme umfassen zum Beispiel KI-betriebene Personenkraftwagen, KI-betriebene Roboter in der Medizin, Fertigung und Industrie, KI-betriebene Drohnen, die in städtischen Situationen wie z. B. bei Paketzustellung eingesetzt werden, und KI-betriebene Sicherheitssysteme.The fail-safe ECC logic designs can also be used in systems incorporating Artificial Intelligence ("AI") where greater resistance to data (bit) errors is desired. Such systems include, for example, AI-powered passenger cars, AI-operated robots in medicine, manufacturing and industry, AI-powered drones that are used in urban situations, such as mobile homes. For example, for parcel delivery, and AI-operated security systems.

Zum Beispiel kann ein Kraftfahrzeugsystem für autonome oder teilautonome Fahrzeuge tiefe neuronale Netze („DNNs“, Deep Neural Networks) für eine Vielzahl von Funktionen verwenden, einschließlich der Identifizierung von Fahrspuren, Objekten, Hindernissen, Fußgängern und sogar Insassen des Fahrzeugs. Abhängig von ihren Funktionen kann die Ausführung solcher DNNs durch einen Prozessor am Fahrzeug eine höhere Resistenz gegen Fehler (einschließlich vorübergehender Fehler) erfordern, um die allgemeinen Sicherheitsanforderungen des Fahrzeugs zu erfüllen. Da ein störungssicheres ECC-Design fehlerresistenter ist als herkömmliche ECC-Designs, wird der Ersatz herkömmlicher ECC-Designs durch störungssichere ECC-Designs in Prozessor(en), Speicherstruktur(en) und Datenübertragungssystem(en) des Fahrzeugs die im Fahrzeug verwendeten Daten besser schützen. Zusätzlich können den Prozessor(en), Speicherstruktur(en) und Datenübertragungssystem(en) des Fahrzeugs störungssichere ECC-Designs hinzugefügt werden, um Daten zu schützen, die zuvor nicht durch ECC geschützt waren, um die Resistenz solcher Daten im Fahrzeug zu erhöhen. Folglich wird die Einbeziehung von störungssicheren ECC-Designs in solche Fahrzeuge das allgemeine Zuverlässigkeitsniveau der Daten (einschließlich jener, die auf ihre DNNs anwendbar sind) erhöhen, womit diese Fahrzeuge bestimmte Sicherheitsanforderungen erfüllen können, einschließlich zum Beispiel einer ASIL (Automotive Safety Integrity Level) Sicherheitsmetrik der Norm ISO 26262. Darüber hinaus wird die Einbeziehung von störungssicheren ECC-Designs in die anderen oben genannten Kl- und nicht KI-basierten Systeme die Zuverlässigkeit der in solchen Systemen verwendeten Daten und damit die allgemeine Resistenz solcher Systeme ebenfalls verbessern.For example, an automotive system for autonomous or semi-autonomous vehicles may use deep neural networks ("DNNs") for a variety of functions, including identification of lanes, objects, obstacles, pedestrians, and even occupants of the vehicle. Depending on their functions, the execution of such DNNs by a processor on the vehicle may require greater resistance to failure (including transient faults) to meet the general safety requirements of the vehicle. Because a fail-safe ECC design is more fail-safe than traditional ECC designs, replacing ECC designs with fail-safe ECC designs in the processor (s), memory structure (s), and vehicle data transfer system (s) will better protect the data used in the vehicle , In addition, the processor (s), memory structure (s) and data transmission system (s) of the vehicle may be supplemented with fail-safe ECC designs to protect data that was not previously protected by ECC to increase the resistance of such data in the vehicle. Consequently, the inclusion of fail-safe ECC designs in such vehicles will increase the overall reliability level of the data (including those applicable to their DNNs), thus, these vehicles can meet certain safety requirements, including, for example, an ASIL (Automotive Safety Integrity Level) safety standard of ISO 26262. In addition, the inclusion of fail-safe ECC designs in the other Kl and non-AI based systems mentioned above becomes the reliability also improve the data used in such systems and thus the overall resistance of such systems.

ParallelverarbeitungsarchitekturParallel processing architecture

3 veranschaulicht eine Parallelverarbeitungseinheit (PPU) 300 gemäß einer Ausführungsform. In einer Ausführungsform ist die PPU 300 ein Multi-Thread-Prozessor, der auf einer oder mehreren integrierten Schaltungen implementiert ist. Die PPU 300 ist eine Latenz verbergende Architektur (Latency Hiding Architecture), die darauf ausgelegt ist, viele Threads parallel zu verarbeiten. Ein Thread (d. h. ein Thread einer Ausführung) ist eine Instanziierung eines Satzes von Befehlen, die so konfiguriert sind, dass sie von der PPU 300 ausgeführt werden. In einer Ausführungsform ist die PPU 300 eine Grafikverarbeitungseinheit (GPU), die so konfiguriert ist, dass sie eine Grafik-Rendering-Pipeline für Verarbeitung von dreidimensionalen (3D) Grafikdaten implementiert, um zweidimensionale (2D) Bilddaten für Anzeige auf einem Display-Gerät wie z. B. einem Flüssigkristalldisplay-Gerät (LCD-Gerät) zu erzeugen. In anderen Ausführungsformen kann die PPU 300 zur Durchführung von Mehrzweckberechnungen verwendet werden. Obwohl hierin zur Veranschaulichung ein Beispiel-Parallelprozessor vorgesehen ist, sei ausdrücklich darauf hingewiesen, dass dieser Prozessor nur zu veranschaulichenden Zwecken angegeben ist und dass irgendein Prozessor eingesetzt werden kann, um diesen zu ergänzen und/oder zu ersetzen. 3 illustrates a parallel processing unit (PPU) 300 according to one embodiment. In one embodiment, the PPU 300 a multi-threaded processor implemented on one or more integrated circuits. The PPU 300 is a latency hiding architecture designed to handle many threads in parallel. A thread (ie, a thread of execution) is an instantiation of a set of commands configured to be from the PPU 300 be executed. In one embodiment, the PPU 300 a graphics processing unit (GPU) configured to implement a graphics rendering pipeline for processing three-dimensional (3D) graphics data to produce two-dimensional (2D) image data for display on a display device, such as a display device; B. to produce a liquid crystal display device (LCD device). In other embodiments, the PPU 300 be used to perform multipurpose calculations. Although illustrative of an example parallel processor is provided herein, it should be understood that this processor is provided for illustrative purposes only and any processor may be used to supplement and / or replace it.

Eine oder mehrere PPUs 300 können so konfiguriert sein, dass sie Tausende von Hochleistungsrechnern (HPC, High Performance Computing), ein Rechenzentrum und Anwendungen für maschinelles Lernen beschleunigen. Die PPU 300 kann so konfiguriert sein, dass sie zahlreiche Systeme und Anwendungen für Deep Learning (tiefgehendes Lernen) beschleunigt, darunter autonome Fahrzeugplattformen, Deep Learning, hochpräzise Sprach-, Bild- und Texterkennungssysteme, intelligente Videoanalytik, molekulare Simulationen, Medikamentenentdeckung, Krankheitsdiagnose, Wettervorhersage, Big Data Analytik, Astronomie, Molekulardynamiksimulation, Finanzmodellierung, Robotik, Fabrikautomatisierung, Echtzeit-Sprachübersetzung, Online-Suchoptimierungen und personalisierte Benutzerempfehlungen und dergleichen.One or more PPUs 300 can be configured to accelerate thousands of high-performance computing (HPC), data center, and machine learning applications. The PPU 300 can be configured to accelerate many systems and applications for deep learning, including autonomous vehicle platforms, deep learning, high-precision speech, image and text recognition systems, intelligent video analytics, molecular simulations, drug discovery, disease diagnosis, weather forecast, big data Analytics, astronomy, molecular dynamics simulation, financial modeling, robotics, factory automation, real-time language translation, online search optimizations and personalized user recommendations, and the like.

Wie in 3 gezeigt, enthält die PPU 300 eine Eingabe/Ausgabe-(I/O)-Einheit 305, eine Vorverarbeitungseinheit 315, eine Scheduler-Einheit 320, eine Arbeitsverteilungseinheit 325, einen Hub 335, ein Koppelfeld (Xbar, crossbar) 370, einen oder mehrere Allgemeinverarbeitungscluster (GPCs) 350 und eine oder mehrere Partitionseinheiten 380. Die PPU 300 kann über eine oder mehrere Hochgeschwindigkeits-NVLink-310-Verbindungen mit einem Host-Prozessor oder anderen PPUs 300 verbunden sein. Die PPU 300 kann über eine Verbindung 302 mit einem Host-Prozessor oder anderen Peripheriegeräten verbunden sein. Die PPU 300 kann auch mit einem lokalen Speicher verbunden sein, der eine Anzahl von Speichergeräten 304 umfasst. In einer Ausführungsform kann der lokale Speicher eine Anzahl von DRAM-(Dynamic Random Access Memory, Speicher mit dynamischem Direktzugriff)-Geräten umfassen. Die DRAM-Geräte können als ein HBM-(High-Bandwidth Memory)-Subsystem konfiguriert sein, wobei mehrere DRAM-Dies (Waferstücke) in jedem Gerät gestapelt sind.As in 3 shown contains the PPU 300 an input / output (I / O) unit 305, a preprocessing unit 315 , a scheduler unit 320 , a work distribution unit 325 , a hub 335 , a coupling field (Xbar, crossbar) 370 , one or more General Processing Clusters (GPCs) 350 and one or more partition units 380 , The PPU 300 can use one or more high-speed NVLink 310 Connections to a host processor or other PPUs 300 be connected. The PPU 300 can have a connection 302 be connected to a host processor or other peripherals. The PPU 300 can also be connected to a local storage, which has a number of storage devices 304 includes. In one embodiment, the local storage may include a number of DRAM (Dynamic Random Access Memory) devices. The DRAM devices may be configured as an HBM (High-Bandwidth Memory) subsystem with multiple DRAM dies stacked in each device.

Die NVLink 310 Verbindung ermöglicht es Systemen, eine oder mehrere PPUs 300 in Kombination mit einer oder mehreren CPUs zu skalieren und zu integrieren, unterstützt Cache-Kohärenz zwischen den PPUs 300 und CPUs sowie CPU-Mastering. Daten und/oder Befehle können vom NVLink 310 über den Hub 330 zu/von anderen Einheiten der PPU 300 übertragen werden, wie z. B. einer oder mehreren Kopier-Engines, einem Video-Encoder, einem Video-Decoder, einer Leistungsmanagement-Einheit usw. (nicht explizit gezeigt). Der NVLink 310 wird in Verbindung mit 5B näher beschrieben.The NVLink 310 connection allows systems to have one or more PPUs 300 Scale and integrate with one or more CPUs to support cache coherency between the PPUs 300 and CPUs as well as CPU mastering. Data and / or commands can be obtained from NVLink 310 over the hub 330 to / from other units of the PPU 300 be transferred, such. One or more copy engines, a video encoder, a video decoder, a power management unit, etc. (not explicitly shown). The NVLink 310 will be used in conjunction with 5B described in more detail.

Die I/O-Einheit 305 ist so konfiguriert, dass sie über die Verbindung 302 Kommunikation (d. h. Befehle, Daten, usw.) von einem Host-Prozessor (nicht gezeigt) sendet und empfängt. Die I/O-Einheit 305 kann mit dem Host-Prozessor direkt über die Verbindung 302 oder über ein oder mehrere Zwischen-Geräte wie z.B. eine Speicherbrücke kommunizieren. In einer Ausführungsform kann die I/O-Einheit 305 über die Verbindung 302 mit einem oder mehreren anderen Prozessoren kommunizieren, wie z. B. einer oder mehreren der PPUs 300. In einer Ausführungsform implementiert die I/O-Einheit 305 eine PCIe-(Peripheral Component Interconnect Express)-Schnittstelle für Kommunikation über einen PCIe-Bus, und die Verbindung 302 ist ein PCIe-Bus. In alternativen Ausführungsformen kann die I/O-Einheit 305 andere Arten von bekannten Schnittstellen für Kommunikation mit externen Geräten implementieren.The I / O unit 305 is configured to over the connection 302 Communications (ie, commands, data, etc.) are sent and received by a host processor (not shown). The I / O unit 305 can work with the host processor directly over the connection 302 or communicate via one or more intermediate devices such as a memory bridge. In one embodiment, the I / O unit 305 about the connection 302 communicate with one or more other processors, such as One or more of the PPUs 300 , In one embodiment, the I / O unit implements 305 a PCIe (Peripheral Component Interconnect Express) interface for communication over a PCIe bus, and the connection 302 is a PCIe bus. In alternative embodiments, the I / O unit 305 implement other types of known interfaces for communication with external devices.

Die I/O-Einheit 305 decodiert Pakete, die über die Verbindung 302 empfangen wurden. In einer Ausführungsform repräsentieren die Pakete Befehle, die so konfiguriert sind, dass sie die PPU 300 verschiedene Operationen durchführen lassen. Die I/O-Einheit 305 überträgt die decodierten Befehle an verschiedene andere Einheiten der PPU 300, wie es die Befehle spezifizieren können. So können zum Beispiel manche Befehle an die Vorverarbeitungseinheit 315 übertragen werden. Andere Befehle können an den Hub 330 oder andere Einheiten der PPU 300 übertragen werden, wie z. B. eine oder mehrere Kopier-Engines, einen Video-Encoder, einen Video-Decoder, eine Leistungsmanagement-Einheit usw. (nicht explizit gezeigt). Mit anderen Worten, die I/O-Einheit 305 ist so konfiguriert, dass sie die Kommunikation zwischen und unter den verschiedenen logischen Einheiten der PPU 300 weiterleitet. The I / O unit 305 decodes packets over the connection 302 were received. In one embodiment, the packets represent commands that are configured to be the PPU 300 perform various operations. The I / O unit 305 transmits the decoded instructions to various other units of the PPU 300 as the commands can specify. For example, some commands may be sent to the preprocessing unit 315 be transmitted. Other commands can be sent to the hub 330 or other units of the PPU 300 be transferred, such. One or more copy engines, a video encoder, a video decoder, a power management unit, etc. (not explicitly shown). In other words, the I / O unit 305 is configured to communicate between and among the various logical units of the PPU 300 forwards.

In einer Ausführungsform codiert ein vom Host-Prozessor ausgeführtes Programm einen Befehlsstrom in einem Puffer, der der PPU 300 Arbeit (Workload) zur Verarbeitung liefert. Ein Workload kann mehrere Anweisungen sowie Daten, die von diesen Anweisungen verarbeitet werden sollen, umfassen. Der Puffer ist ein Bereich in einem Speicher, auf den sowohl der Host-Prozessor als auch die PPU 300 zugreifen (d. h. lesen/schreiben) können. Zum Beispiel kann die I/O-Einheit 305 so konfiguriert sein, dass sie über Speicheranforderungen, die über die Verbindung 302 übertragen werden, auf den Puffer in einem Systemspeicher zugreift, der mit der Verbindung 302 verbunden ist. In einer Ausführungsform schreibt der Host-Prozessor den Befehlsstrom in den Puffer und sendet dann einen Zeiger auf den Anfang des Befehlsstroms an die PPU 300. Die Vorverarbeitungseinheit 315 empfängt Zeiger auf einen oder mehrere Befehlsströme. Die Vorverarbeitungseinheit 315 verwaltet einen oder mehrere Ströme, liest Befehle aus den Strömen und leitet Befehle an die verschiedenen Einheiten der PPU 300 weiter.In one embodiment, a program executed by the host processor encodes a command stream in a buffer belonging to the PPU 300 Work (workload) for processing supplies. A workload can include multiple statements as well as data to be processed by these statements. The buffer is an area in a memory on which both the host processor and the PPU 300 access (ie read / write) can. For example, the I / O unit 305 may be configured to have memory requests over the connection 302 The buffer in a system memory accesses the connection 302 connected is. In one embodiment, the host processor writes the instruction stream into the buffer and then sends a pointer to the beginning of the instruction stream to the PPU 300 , The preprocessing unit 315 receives pointers to one or more instruction streams. The preprocessing unit 315 manages one or more streams, reads commands from the streams, and forwards commands to the various units of the PPU 300 further.

Die Vorverarbeitungseinheit 315 ist mit einer Scheduler-Einheit 320 gekoppelt, die die verschiedenen GPCs 350 so konfiguriert, dass sie Aufgaben bzw. Tasks bearbeiten, die durch die ein oder mehreren Ströme definiert sind. Die Scheduler-Einheit 320 ist so konfiguriert, dass sie Zustandsinformationen zu den verschiedenen Aufgaben verfolgt, die von der Scheduler-Einheit 320 verwaltet werden. Der Zustand kann angeben, welchem GPC 350 eine Aufgabe zugewiesen ist, ob die Aufgabe aktiv oder inaktiv ist, einen der Aufgabe zugewiesenen Prioritätsgrad und so weiter. Die Scheduler-Einheit 320 verwaltet die Ausführung einer Vielzahl von Aufgaben auf den ein oder mehreren GPCs 350.The preprocessing unit 315 is with a scheduler unit 320 Coupled with the various GPCs 350 configured to handle tasks defined by the one or more streams. The scheduler unit 320 is configured to track state information about the various tasks performed by the scheduler unit 320 to get managed. The state may indicate which GPC 350 a task is assigned, whether the task is active or inactive, a priority level assigned to the task, and so on. The scheduler unit 320 manages the execution of a variety of tasks on the one or more GPCs 350 ,

Die Scheduler-Einheit 320 ist mit einer Arbeitsverteilungseinheit 325 gekoppelt, die so konfiguriert ist, dass sie Aufgaben zur Ausführung auf den GPCs 350 abfertigt. Die Arbeitsverteilungseinheit 325 kann eine Reihe von geplanten Aufgaben verfolgen, die von der Scheduler-Einheit 320 empfangen wurden. In einer Ausführungsform verwaltet die Arbeitsverteilungseinheit 325 für jeden der GPCs 350 einen Pool von anstehenden Aufgaben und einen Pool von aktiven Aufgaben. Der Pool von anstehenden Aufgaben kann eine Anzahl von Slots (z. B. 32 Slots) umfassen, die Aufgaben enthalten, die von einem bestimmten GPC 350 zu bearbeiten sind. Der Pool von aktiven Aufgaben kann eine Anzahl von Slots (z. B. 4 Slots) für Aufgaben umfassen, die gerade von den GPCs 350 aktiv bearbeitet werden. Wenn ein GPC 350 die Ausführung einer Aufgabe beendet, wird diese Aufgabe aus dem Pool von aktiven Aufgaben für den GPC 350 entfernt, und es wird eine der anderen Aufgaben aus dem Pool von anstehenden Aufgaben ausgewählt und für Ausführung auf dem GPC 350 eingeplant. Wenn eine aktive Aufgabe auf dem GPC 350 untätig war, z. B. während des Wartens auf Auflösung einer Datenabhängigkeit, kann die aktive Aufgabe aus dem GPC 350 entfernt und an den Pool von anstehenden Aufgaben zurückgegeben werden, während eine andere Aufgabe im Pool von anstehenden Aufgaben ausgewählt und für Ausführung auf dem GPC 350 eingeplant wird.The scheduler unit 320 is with a work distribution unit 325 coupled, which is configured to perform tasks on the GPCs 350 dispatches. The work distribution unit 325 can track a number of scheduled tasks by the scheduler unit 320 were received. In one embodiment, the work distribution unit manages 325 for each of the GPCs 350 a pool of pending tasks and a pool of active tasks. The pool of pending tasks may include a number of slots (e.g., 32 slots) that contain tasks performed by a particular GPC 350 to edit. The pool of active tasks may include a number of slots (eg, 4 slots) for tasks that are currently being performed by the GPCs 350 be actively worked on. If a GPC 350 When the task completes, this task is taken from the pool of active tasks for the GPC 350 and one of the other tasks from the pool of pending tasks is selected and run on the GPC 350 planned. If an active task on the GPC 350 was inactive, z. For example, while waiting for resolution of a data dependency, the active task may be from the GPC 350 while returning to the pool of pending tasks while another task is selected in the pool of pending tasks and running on the GPC 350 is scheduled.

Die Arbeitsverteilungseinheit 325 kommuniziert über das XBar 370 mit einem oder mehreren GPCs 350. Das XBar 370 ist ein Verbindungsnetz, das viele Einheiten der PPU 300 mit anderen Einheiten der PPU 300 koppelt. Zum Beispiel kann das XBar 370 so konfiguriert sein, dass es die Arbeitsverteilungseinheit 325 mit einem bestimmten GPC 350 koppelt. Obwohl nicht explizit gezeigt, können eine oder mehrere andere Einheiten der PPU 300 auch über den Hub mit dem XBar 370 verbunden sein.The work distribution unit 325 communicates with one or more GPCs via the XBar 370 350 , The XBar 370 is a connection network that has many units of PPU 300 with other units of PPU 300 coupled. For example, the XBar 370 Be configured to be the work distribution unit 325 with a particular GPC 350 coupled. Although not explicitly shown, one or more other units of the PPU 300 also be connected via the hub with the XBar 370.

Die Aufgaben werden von der Scheduler-Einheit 320 verwaltet und von der Arbeitsverteilungseinheit 325 an ein GPC 350 abgefertigt. Der GPC 350 ist so konfiguriert, dass er die Aufgabe bearbeitet und Ergebnisse erzeugt. Die Ergebnisse können von anderen Aufgaben innerhalb des GPC 350 aufgenommen, über das XBar 370 an einen anderen GPC 350 weitergeleitet oder im Speicher 304 gespeichert werden. Die Ergebnisse können über die Partitionseinheiten 380, die eine Speicherschnittstelle zum Lesen und Schreiben von Daten in den bzw. aus dem Speicher 304 implementieren, in den Speicher 304 geschrieben werden. Die Ergebnisse können über den NVLink 310 an eine andere PPU 304 oder CPU übertragen werden. In einer Ausführungsform enthält die PPU 300 eine Anzahl U von Partitionseinheiten 380, die der Anzahl von separaten und getrennten Speichergeräten 304 entspricht, die mit der PPU 300 gekoppelt sind. Eine Partitionseinheit 380 wird im Folgenden in Verbindung mit 4B näher beschrieben.The tasks are handled by the scheduler unit 320 managed and distributed by the work distribution unit 325 to a GPC 350 handled. The GPC 350 is configured to process the task and generate results. The results may differ from other tasks within the GPC 350 taken over the XBar 370 to another GPC 350 forwarded or in memory 304 get saved. The results can be about the partition units 380 which provides a memory interface for reading and writing data to and from memory 304 implement in memory 304 to be written. The results can be obtained through the NVLink 310 to another PPU 304 or CPU. In one embodiment, the PPU includes 300 a number U of partition units 380 that is the number of separate and separate storage devices 304 matches that with the PPU 300 are coupled. A partition unit 380 will be in connection with 4B described in more detail.

In einer Ausführungsform führt ein Host-Prozessor einen Treiber-Kernel aus, der eine Anwendungsprogrammierschnittstelle (API) implementiert, die es einer oder mehreren auf dem Host-Prozessor ausgeführten Anwendungen ermöglicht, Operationen für Ausführung auf der PPU 300 zu planen. In einer Ausführungsform werden mehrere Rechenanwendungen gleichzeitig von der PPU 300 ausgeführt, und die PPU 300 bietet Isolation, Dienstgüte (QoS, Quality of Service) und unabhängige Adressräume für die mehreren Rechenanwendungen. Eine Anwendung kann Anweisungen (d. h. API-Aufrufe) generieren, die den Treiber-Kernel veranlassen, eine oder mehrere Aufgaben für Ausführung durch die PPU 300 zu generieren. Der Treiber-Kernel gibt Aufgaben an einen oder mehrere Ströme aus, die von der PPU 300 bearbeitet werden. Jede Aufgabe kann eine oder mehrere Gruppen von verwandten Threads umfassen, die hier als ein Warp bezeichnet werden. In einer Ausführungsform umfasst ein Warp 32 in Bezug stehende Threads, die parallel ausgeführt werden können. Kooperierende Threads können sich auf eine Vielzahl von Threads beziehen, einschließlich Anweisungen zur Durchführung der Aufgabe und dass Daten über Gemeinschaftsspeicher ausgetauscht werden können. Threads und kooperierende Threads werden in Verbindung mit 5A näher beschrieben.In one embodiment, a host processor executes a driver kernel that implements an application programming interface (API) that allows one or more applications running on the host processor to perform operations on the PPU 300 to plan. In one embodiment, multiple computing applications simultaneously from the PPU 300 executed, and the PPU 300 provides isolation, quality of service (QoS), and independent address spaces for multiple computing applications. An application may generate statements (ie, API calls) that cause the driver kernel to perform one or more tasks for execution by the PPU 300 to generate. The driver kernel issues tasks to one or more streams from the PPU 300 to be edited. Each task may include one or more groups of related threads, referred to herein as a warp. In one embodiment, a warp 32 related threads that can be executed in parallel. Cooperating threads can refer to a variety of threads, including instructions for completing the task and sharing data through shared memory. Threads and cooperating threads are associated with 5A described in more detail.

4A veranschaulicht ein GPC 350 der PPU 300 von 3 gemäß einer Ausführungsform. Wie in 4A gezeigt, enthält jeder GPC 350 eine Reihe von Hardware-Einheiten zur Bearbeitung von Aufgaben. In einer Ausführungsform enthält jeder GPC 350 einen Pipeline-Manager 410, eine Pre-Rasteroperationseinheit (PROP) 415, eine Raster-Engine 425, ein Arbeitsverteilungs-Koppelfeld (WDX) 480, eine Speicherverwaltungs-Einheit (MMU) 490 und einen oder mehrere Datenverarbeitungs-Cluster (DPCs) 420. Man beachte, dass der GPC 350 von 4A anstelle der oder zusätzlich zu den in 4A gezeigten Einheiten andere Hardware-Einheiten enthalten kann. 4A illustrates a GPC 350 the PPU 300 from 3 according to one embodiment. As in 4A shown, each contains GPC 350 a set of hardware units to handle tasks. In one embodiment, each contains GPC 350 a pipeline manager 410 , a pre-raster operation unit (PROP) 415 , a raster engine 425 , a work distribution switch (WDX) 480 , a storage management unit (MMU) 490 and one or more data processing clusters (DPCs) 420 , Note that the GPC 350 from 4A instead of or in addition to the in 4A units shown may contain other hardware units.

In einer Ausführungsform wird der Betrieb des GPC 350 durch den Pipeline-Manager 410 gesteuert. Der Pipeline-Manager 410 verwaltet die Konfiguration der ein oder mehreren DPCs 420 für Bearbeitung von Aufgaben, die dem GPC 350 zugewiesen sind. In einer Ausführungsform kann der Pipeline-Manager 410 mindestens einen der ein oder mehreren DPCs 420 so konfigurieren, dass er mindestens einen Teil einer Grafik-Rendering-Pipeline implementiert. Zum Beispiel kann ein DPC 420 so konfiguriert sein, dass er ein Vertex-Shader-Programm auf dem programmierbaren Streaming-Multiprozessor (SM) 440 ausführt. Der Pipeline-Manager 410 kann auch so konfiguriert sein, dass er von der Arbeitsverteilungseinheit 325 empfangene Pakete an die entsprechenden logischen Einheiten innerhalb des GPC 350 weiterleitet. Zum Beispiel können manche Pakete an Hardware-Einheiten mit fester Funktion in der PROP 415 und/oder der Raster-Engine 425 weitergeleitet werden, während andere Pakete an die DPCs 420 zur Verarbeitung durch die Primitiv-Engine 435 oder den SM 440 weitergeleitet werden können. In einer Ausführungsform kann der Pipeline-Manager 410 mindestens einen der ein oder mehreren DPCs 420 so konfigurieren, dass er ein Modell für ein neuronales Netz und/oder eine Rechen-Pipeline implementiert.In one embodiment, the operation of the GPC 350 through the pipeline manager 410 controlled. The pipeline manager 410 manages the configuration of one or more DPCs 420 for editing tasks related to the GPC 350 are assigned. In one embodiment, the pipeline manager 410 at least one of the one or more DPCs 420 configure to implement at least part of a graphics rendering pipeline. For example, a DPC 420 be configured to run a vertex shader program on the programmable streaming multiprocessor (SM) 440 performs. The pipeline manager 410 can also be configured to work from the work distribution unit 325 received packets to the corresponding logical units within the GPC 350 forwards. For example, some packages may be attached to hard-function hardware units in the PROP 415 and / or the raster engine 425 be forwarded while other packets to the DPCs 420 for processing by the primitive engine 435 or the SM 440 can be forwarded. In one embodiment, the pipeline manager 410 at least one of the one or more DPCs 420 configure to implement a model for a neural network and / or a compute pipeline.

Die PROP-Einheit 415 ist so konfiguriert, dass sie von der Raster-Engine 425 und den DPCs 420 erzeugte Daten an eine Rasteroperations-(ROP)-Einheit weiterleitet, die in Verbindung mit 4B näher beschrieben wird. Die PROP-Einheit 415 kann auch so konfiguriert sein, dass sie Optimierungen für Farbmischung durchführt, Pixeldaten organisiert, Adressenübersetzungen durchführt und dergleichen.The PROP unit 415 is configured by the raster engine 425 and the DPCs 420 Generates generated data to a raster operation (ROP) unit used in conjunction with 4B will be described in more detail. The PROP unit 415 may also be configured to perform optimizations for color mixing, organize pixel data, perform address translations, and the like.

Die Raster-Engine 425 enthält eine Reihe von Hardware-Einheiten mit fester Funktion, die so konfiguriert sind, dass sie verschiedene Rasteroperationen durchführen können. In einer Ausführungsform enthält die Raster-Engine 425 eine Setup-Engine, eine Grobraster-Engine, eine Culling-Engine, eine Clipping-Engine, eine Feinraster-Engine und eine Kachel-Coalescing-Engine. Die Setup-Engine empfängt transformierte Vertices und generiert Ebenengleichungen, die dem geometrischen Primitiv zugeordnet sind, das durch die Vertices definiert ist. Die Ebenengleichungen werden an die Grobraster-Engine übertragen, um Abdeckungsinformationen (z. B. eine x,y-Abdeckungsmaske für eine Kachel) für das Primitiv zu generieren. Die Ausgabe der Grobraster-Engine wird zu der Culling-Engine übertragen, wo Fragmente, die dem Primitiv zugeordnet sind, dass einen Z-Test nicht besteht, einem Culling (Auslesen) unterzogen werden, und zu einer Clipping-Engine übertragen, wo Fragmente, die außerhalb eines Betrachtungsstumpfs liegen, einem Clipping (Abschneiden) unterzogen werden. Diejenigen Fragmente, die das Clipping und Culling überleben, können an die Feinraster-Engine übergeben werden, um Attribute für die Pixelfragmente auf Basis der von der Setup-Engine generierten Ebenengleichungen zu generieren. Die Ausgabe der Raster-Engine 425 umfasst Fragmente, die zum Beispiel von einem Fragment-Shader zu verarbeiten sind, der innerhalb eines DPC 420 implementiert ist.The raster engine 425 Contains a number of fixed-function hardware units configured to perform various raster operations. In one embodiment, the raster engine includes 425 a setup engine, a Grobraster engine, a culling engine, a clipping engine, a fine grid engine, and a tile coalescing engine. The setup engine receives transformed vertices and generates plane equations associated with the geometric primitive defined by the vertices. The plane equations are passed to the Grobraster engine to generate coverage information (eg, an x, y coverage mask for a tile) for the primitive. The output of the Grobraster engine is transferred to the culling engine, where fragments associated with the primitive that do not pass a Z-test undergo culling and are transferred to a clipping engine where fragments, which are outside a viewing stub, are clipped. Those fragments that survive clipping and culling can be passed to the fine grid engine to generate attributes for the pixel fragments based on the level equations generated by the setup engine. The output of the raster engine 425 includes fragments to be processed by, for example, a fragment shader within a DPC 420 is implemented.

Jeder in dem GPC 350 enthaltene DPC 420 enthält einen M-Pipe-Controller (MPC) 430, eine Primitiv-Engine 435 und einen oder mehrere SMs 440. Der MPC 430 steuert den Betrieb des DPC 420 und leitet die vom Pipeline-Manager 410 empfangenen Pakete an die entsprechenden Einheiten im DPC 420 weiter. Zum Beispiel können Pakete, die einem Vertex zugeordnet sind, an die Primitiv-Engine 435 weitergeleitet werden, die so konfiguriert ist, dass sie Vertex-Attribute, die dem Vertex zugeordnet sind, aus dem Speicher 304 holt. Im Gegensatz dazu können Pakete, die einem Shader-Programm zugeordnet sind, an den SM 440 übertragen werden. Everyone in the GPC 350 included DPC 420 contains an M-pipe controller (MPC) 430 , a primitive engine 435 and one or more SMs 440 , The MPC 430 controls the operation of the DPC 420 and directs those from the pipeline manager 410 received packets to the appropriate units in the DPC 420 further. For example, packets associated with a vertex may be sent to the primitive engine 435 configured to extract vertex attributes associated with the vertex from memory 304 get. In contrast, packets associated with a shader program may be sent to the SM 440 be transmitted.

Der SM 440 umfasst einen programmierbaren Streaming-Prozessor, der so konfiguriert ist, dass er Aufgaben verarbeitet, die durch eine Reihe von Threads repräsentiert werden. Jeder SM 440 ist multi-threaded (mehrprozessfähig) und so konfiguriert, dass er eine Vielzahl von Threads (z. B. 32 Threads) aus einer bestimmten Gruppe von Threads gleichzeitig ausführen kann. In einer Ausführungsform implementiert der SM 440 eine SIMD-(Single-Instruction, Multiple-Data)-Architektur, bei der jeder Thread in einer Gruppe von Threads (z. B. einem Warp) so konfiguriert ist, dass er einen anderen Datensatz auf Basis desselben Befehlssatzes verarbeitet. Alle Threads in der Gruppe der Threads führen dieselben Anweisungen aus. In einer anderen Ausführungsform implementiert der SM 440 eine SIMT-(Single-Instruction, Multiple-Thread)-Architektur, bei der jeder Thread in einer Gruppe von Threads so konfiguriert ist, dass er einen anderen Datensatz auf Basis desselben Befehlssatzes verarbeitet, wobei jedoch einzelne Threads in der Gruppe von Threads während der Ausführung voneinander abweichen dürfen. In einer Ausführungsform werden für jeden Warp ein Programmzähler, ein Aufruf-Stapel und ein Ausführungszustand aufrechterhalten, was Gleichzeitigkeit zwischen Warps und serielle Ausführung innerhalb von Warps ermöglicht, wenn Threads innerhalb des Warps voneinander abweichen. In einer weiteren Ausführungsform werden für jeden einzelnen Thread ein Programmzähler, ein Aufruf-Stapel und ein Ausführungszustand aufrechterhalten, was gleiche Gleichzeitigkeit zwischen allen Threads, innerhalb und zwischen Warps, ermöglicht. Wenn der Ausführungszustand für jeden einzelnen Thread aufrechterhalten wird, können Threads, die dieselben Anweisungen ausführen, konvergiert und parallel ausgeführt werden, um maximale Effizienz zu erreichen. Der SM 440 wird im Folgenden in Verbindung mit 5A näher beschrieben.The SM 440 includes a programmable streaming processor that is configured to process tasks represented by a series of threads. Every SM 440 is multi-threaded and configured to concurrently execute a variety of threads (eg, 32 threads) from a given set of threads. In one embodiment, the SM implements 440 a single-instruction, multiple data (SIMD) architecture in which each thread in a group of threads (eg, a warp) is configured to process another record based on the same instruction set. All threads in the set of threads execute the same statements. In another embodiment, the SM implements 440 a SIMT (Single-Instruction, Multiple-Thread) architecture in which each thread in a group of threads is configured to process another record based on the same set of instructions, but individual threads in the group of threads during the Execution may differ from each other. In one embodiment, a program counter, a call stack, and an execution state are maintained for each warp, allowing concurrency between warps and serial execution within warps when threads within the warp diverge. In another embodiment, a program counter, a call stack, and an execution state are maintained for each individual thread, allowing for equal concurrency between all threads, within and between warps. When the execution state is maintained for each thread, threads that execute the same instructions can be converged and executed in parallel for maximum efficiency. The SM 440 will be in connection with 5A described in more detail.

Die MMU 490 stellt eine Schnittstelle zwischen dem GPC 350 und der PartitionsEinheit 380 bereit. Die MMU 490 kann Übersetzung von virtuellen Adressen in physische Adressen, Speicherschutz und Arbitrierung von Speicheranforderungen ermöglichen. In einer Ausführungsform stellt die MMU 490 einen oder mehrere Übersetzungspuffer (TLBs, Translation Lookaside Buffers) bereit, um Übersetzung von virtuellen Adressen in physische Adressen im Speicher 304 durchzuführen.The MMU 490 provides an interface between the GPC 350 and the partition unit 380 ready. The MMU 490 can enable translation of virtual addresses into physical addresses, memory protection and arbitration of memory requests. In one embodiment, the MMU 490 One or more translation buffers (TLBs, Translation Lookaside Buffers) ready to translate virtual addresses into physical addresses in memory 304 perform.

4B veranschaulicht eine Speicherpartitionseinheit 380 der PPU 300 von 3 gemäß einer Ausführungsform. Wie in 4B gezeigt, enthält die Speicherpartitionseinheit 380 eine Rasteroperations-(ROP)-Einheit 450, einen Level-2-Cache (L2-Cache) 460 und eine Speicherschnittstelle 470. Die Speicherschnittstelle 470 ist mit dem Speicher 304 gekoppelt. Die Speicherschnittstelle 470 kann 32, 64, 128, 1024-Bit-Datenbusse oder dergleichen für Hochgeschwindigkeits-Datenübertragung implementieren. In einer Ausführungsform enthält die PPU 300 U Speicherschnittstellen 470, eine Speicherschnittstelle 470 pro Paar Partitionseinheiten 380, wobei jedes Paar Partitionseinheiten 380 mit einem entsprechenden Speichergerät 304 verbunden ist. Zum Beispiel kann die PPU 300 an bis zu Y Speichergeräte 304 angeschlossen werden, wie z. B. Speicherstapel mit hoher Bandbreite oder Grafik mit Doppel-Datenrate, Version 5, Speicher mit synchronem dynamischen Direktzugriff oder andere Arten von persistentem Speicher. 4B illustrates a storage partition unit 380 the PPU 300 from 3 according to one embodiment. As in 4B shown contains the storage partition unit 380 a raster operation (ROP) unit 450, a level 2 cache (L2 cache) 460, and a memory interface 470 , The storage interface 470 is with the store 304 coupled. The storage interface 470 can implement 32, 64, 128, 1024-bit data buses or the like for high-speed data transmission. In one embodiment, the PPU includes 300 U memory interfaces 470 , a storage interface 470 per pair of partition units 380 where each pair is partition units 380 with an appropriate storage device 304 connected is. For example, the PPU 300 up to Y storage devices 304 be connected, such. For example, high-bandwidth or multi-rate graphics, version 5 , Dynamic random access memory or other types of persistent storage.

In einer Ausführungsform implementiert die Speicherschnittstelle 470 eine HBM2-Speicherschnittstelle und entspricht Y einem halben U. In einer Ausführungsform befinden sich die HBM2-Speicherstapel auf demselben physischen Gehäuse wie die PPU 300, was im Vergleich zu herkömmlichen GDDR5-SDRAM-Systemen zu erheblichen Leistungs- und Flächeneinsparungen führt. In einer Ausführungsform enthält jeder HBM2-Stapel vier Speicher-Dies und ist Y gleich 4, wobei der HBM2-Stapel zwei 128-Bit-Kanäle pro Die für insgesamt 8 Kanäle sowie eine Datenbusbreite von 1024 Bits aufweist.In one embodiment, the memory interface implements 470 an HBM2 memory interface and corresponds to Y half a U. In one embodiment, the HBM2 memory stacks reside on the same physical enclosure as the PPU 300 , resulting in significant performance and space savings over traditional GDDR5 SDRAM systems. In one embodiment, each HBM2 stack contains four memory dies and Y equals 4, the HBM2 stack having two 128-bit channels per die for a total of 8 channels and a data bus width of 1024 bits.

In einer Ausführungsform unterstützt der Speicher 304 Einzelfehler korrigierenden und Doppelfehler erkennenden (SECDED) Fehlerkorrekturcode (ECC) zum Schutz von Daten. ECC bietet höhere Zuverlässigkeit für Rechenanwendungen, die empfindlich auf Datenbeschädigung reagieren. Zuverlässigkeit ist besonders wichtig in großen Cluster-Computerumgebungen, in denen PPUs 300 sehr große Datensätze verarbeiten und/oder Anwendungen über längere Zeiträume laufen.In one embodiment, the memory supports 304 Single Error Corrective and Double Error Detecting (SECDED) Error Correction Code (ECC) to protect data. ECC provides greater reliability for computing applications that are sensitive to data corruption. Reliability is especially important in large clustered computer environments where PPUs are used 300 process very large data sets and / or run applications for longer periods of time.

In einer Ausführungsform implementiert die PPU 300 eine mehrstufige Speicherhierarchie. In einer Ausführungsform unterstützt die Speicherpartitionseinheit 380 einen vereinheitlichten Speicher, um einen einzigen vereinheitlichten virtuellen Adressraum für Speicher der CPU und PPU 300 bereitzustellen, der das Teilen von Daten zwischen virtuellen Speichersystemen ermöglicht. In einer Ausführungsform wird die Häufigkeit der Zugriffe einer PPU 300 auf Speicher verfolgt, der sich auf anderen Prozessoren befindet, um sicherzustellen, dass Speicherseiten in den physischen Speicher derjenigen PPU 300 verschoben werden, die häufiger auf die Seiten zugreift. In einer Ausführungsform unterstützt der NVLink 310 Adressenübersetzungsdienste, die es der PPU 300 ermöglichen, direkt auf Seitentabellen einer CPU zuzugreifen, und vollen Zugriff auf CPU-Speicher durch die PPU 300 ermöglichen.In one embodiment, the PPU implements 300 a multilevel storage hierarchy. In one embodiment, the storage partition unit supports 380 a unified memory to a single unified virtual address space for memory of the CPU and PPU 300 to provide that Sharing data between virtual storage systems. In one embodiment, the frequency of accesses to a PPU 300 tracked on memory, which resides on other processors, to ensure that memory pages in the physical memory of those PPU 300 moving more frequently to the pages. In one embodiment, the NVLink supports 310 Address translation services that make it the PPU 300 allow access directly to page tables of a CPU, and full access to CPU memory through the PPU 300 enable.

In einer Ausführungsform übertragen Kopier-Engines Daten zwischen mehreren PPUs 300 oder zwischen PPUs 300 und CPUs. Die Kopier-Engines können Seitenstörungen für Adressen erzeugen, die nicht in die Seitentabellen eingetragen sind. Die Speicherpartitionseinheit 380 kann dann die Seitenstörungen bedienen und die Adressen in die Seitentabelle eintragen, woraufhin die Kopier-Engine die Übertragung durchführen kann. In einem herkömmlichen System ist Speicher für Mehrfach-Kopier-Engine-Operationen zwischen mehreren Prozessoren festgeheftet (d. h. nicht auslagerbar), was den verfügbaren Speicher erheblich reduziert. Bei Hardware-Seitenstörung können Adressen an die Kopier-Engines weitergegeben werden, ohne sich Sorgen zu machen, ob die Speicherseiten resident sind, und die Kopier-Operation ist transparent.In one embodiment, copy engines transmit data between multiple PPUs 300 or between PPUs 300 and CPUs. The copy engines can create page faults for addresses that are not listed in the page tables. The storage partition unit 380 can then handle the page faults and enter the addresses in the page table, whereupon the copy engine can perform the transfer. In a conventional system, memory for multiple copy engine operations is pinned (ie, not swappable) between multiple processors, which significantly reduces available memory. With hardware page faults, addresses can be passed to the copy engines without worrying if the pages are resident, and the copy operation is transparent.

Daten aus dem Speicher 304 oder einem anderen Systemspeicher können von der Speicherpartitionseinheit 380 abgerufen und im L2-Cache 460, der On-Chip (auf dem Chip) angesiedelt ist und zwischen den verschiedenen GPCs 350 geteilt wird, gespeichert werden. Wie gezeigt, enthält jede Speicherpartitionseinheit 380 einen Teil des L2-Cache 460, der einem entsprechenden Speichergerät 304 zugeordnet ist. Untergeordnete Caches können dann in verschiedenen Einheiten innerhalb der GPCs 350 implementiert werden. Zum Beispiel kann jeder der SMs 440 einen Level-One-Cache (L1-Cache) implementieren. Der L1-Cache ist privater Speicher, der einem bestimmten SM 440 zugeordnet ist. Daten aus dem L2-Cache 460 können abgerufen und in jedem der L1-Caches zur Verarbeitung in den Funktionseinheiten der SMs 440 gespeichert werden. Der L2-Cache 460 ist mit der Speicherschnittstelle 470 und dem XBar 370 gekoppelt.Data from the memory 304 or any other system memory may be from the storage partition unit 380 retrieved and in L2 cache 460 , which is located on-chip (on-chip) and between the various GPCs 350 is shared, saved. As shown, each storage partition unit contains 380 a part of the L2 cache 460 , the corresponding storage device 304 assigned. Subordinate caches can then be in different units within the GPCs 350 be implemented. For example, each of the SMs 440 implement a level one cache (L1 cache). The L1 cache is private memory dedicated to a particular SM 440 assigned. Data from the L2 cache 460 can be retrieved and stored in each of the L1 caches for processing in the functional units of the SMs 440 get saved. The L2 cache 460 is with the memory interface 470 and the XBar 370 coupled.

Die ROP-Einheit 450 führt grafische Rasteroperationen in Bezug auf Pixelfarbe durch, wie z. B. Farbkompression, Pixel-Blending und dergleichen. Die ROP-Einheit 450 führt auch Tiefenprüfungen in Verbindung mit der Raster-Engine 425 durch und empfängt eine Tiefe für eine Abtast-Position, die einem Pixelfragment zugeordnet ist, von der Culling-Engine der Raster-Engine 425. Die Tiefe wird gegen eine entsprechende Tiefe in einem Tiefenpuffer für eine dem Fragment zugeordnete Abtast-Position getestet. Wenn das Fragment den Tiefentest für die Abtast-Position besteht, aktualisiert die ROP-Einheit 450 den Tiefenpuffer und sendet ein Ergebnis des Tiefentests an die Raster-Engine 425. Man beachte, dass die Anzahl der Partitionseinheiten 380 von der Anzahl der GPCs 350 abweichen kann und daher jede ROP-Einheit 450 mit jeder der GPCs 350 gekoppelt sein kann. Die ROP-Einheit 450 verfolgt die von den verschiedenen GPCs 350 empfangenen Pakete und bestimmt, zu welchem GPC 350 ein von der ROP-Einheit 450 erzeugtes Ergebnis durch das Xbar 370 geleitet wird. Obwohl die ROP-Einheit 450 in 4B innerhalb der Speicherpartitionseinheit 380 enthalten ist, kann sich die ROP-Einheit 450 in einer anderen Ausführungsform außerhalb der Speicherpartitionseinheit 380 befinden. Zum Beispiel kann sich die ROP-Einheit 450 im GPC 350 oder einer anderen Einheit befinden.The ROP unit 450 performs graphical raster operations related to pixel color, such as: As color compression, pixel blending and the like. The ROP unit 450 also performs depth checks in conjunction with the raster engine 425 and receives a depth for a sample position associated with a pixel fragment from the raster engine culling engine 425 , The depth is tested against a corresponding depth in a depth buffer for a sample position associated with the fragment. If the fragment passes the scan position depth test, the ROP unit updates 450 the depth buffer and sends a result of the depth test to the raster engine 425 , Note that the number of partition units 380 from the number of GPCs 350 can deviate and therefore every ROP unit 450 with each of the GPCs 350 can be coupled. The ROP unit 450 keeps track of those from the various GPCs 350 received packets and determines to which GPC 350 one from the ROP unit 450 generated result by the Xbar 370 is directed. Although the ROP unit 450 in 4B within the storage partition unit 380 included is the ROP unit 450 in another embodiment, outside the storage partition unit 380 are located. For example, the ROP unit may be 450 in the GPC 350 or another unit.

5A veranschaulicht den Streaming-Multiprozessor 440 von 4A gemäß einer Ausführungsform. Wie in 5A gezeigt, enthält der SM 440 einen Anweisungs-Cache 505, eine oder mehrere Scheduler-Einheiten 510, eine Registerdatei 520, einen oder mehrere Verarbeitungs-Rechenkerne 550, eine oder mehrere Spezial-Funktionseinheiten (SFUs) 552, eine oder mehrere Lade-/Speicher-Einheiten (LSUs) 554, ein Verbindungsnetz 580 und einen Gemeinschaftsspeicher/L1-Cache 570. 5A illustrates the streaming multiprocessor 440 from 4A according to one embodiment. As in 5A shown, the SM contains 440 an instruction cache 505 , one or more scheduler units 510 , a register file 520 , one or more processing cores 550 , one or more specialized functional units (SFUs) 552 , one or more load / store units (LSUs) 554 , a connection network 580 and a shared memory / L1 cache 570.

Wie oben beschrieben, fertigt die Arbeitsverteilungseinheit 325 Aufgaben zur Ausführung auf den GPCs 350 der PPU 300 ab. Die Aufgaben sind einem bestimmten DPC 420 innerhalb eines GPC 350 zugewiesen, und wenn die Aufgabe einem Shader-Programm zugeordnet ist, kann die Aufgabe einem SM 440 zugewiesen werden. Die Scheduler-Einheit 510 empfängt die Aufgaben von der Arbeitsverteilungseinheit 325 und verwaltet die Anweisungsplanung für einen oder mehrere Thread-Blöcke, die der SM 440 zugeordnet sind. Die Scheduler-Einheit 510 plant Thread-Blöcke zur Ausführung als Warps von parallelen Threads ein, wobei jedem Thread-Block mindestens ein Warp zugewiesen ist. In einer Ausführungsform führt jeder Warp 32 Threads aus. Die Scheduler-Einheit 510 kann eine Vielzahl verschiedener Thread-Blöcke verwalten, die Warps den verschiedenen Thread-Blöcken zuweisen und dann während jedes Taktzyklus Anweisungen von der Vielzahl von verschiedenen kooperativen Gruppen an die verschiedenen Funktionseinheiten (d. h. Rechenkerne 550, SFUs 552 und LSUs 554) abfertigen.As described above, the work distribution unit manufactures 325 Tasks to execute on the GPCs 350 the PPU 300 from. The tasks are for a particular DPC 420 within a GPC 350 and if the task is assigned to a shader program, the task can be assigned to a SM 440 be assigned to. The scheduler unit 510 receives the tasks from the work distribution unit 325 and manages the instruction scheduling for one or more thread blocks that the SM 440 assigned. The scheduler unit 510 schedules thread blocks to execute as warps from parallel threads, with each thread block assigned at least one warp. In one embodiment, each warp performs 32 Threads off. The scheduler unit 510 It may manage a plurality of different thread blocks that assign warps to the various thread blocks and then, during each clock cycle, instructions from the plurality of different cooperative groups to the various functional units (ie, cores 550 , SFUs 552 and LSUs 554 ).

Cooperative Groups ist ein Programmiermodell für die Organisation von Gruppen kommunizierender Threads, das es Entwicklern ermöglicht, die Granularität auszudrücken, mit der Threads kommunizieren, was den Ausdruck reichhaltigerer, effizienterer paralleler Zerlegungen ermöglicht. Kooperative Start-APIs unterstützen Synchronisation zwischen Thread-Blöcken für die Ausführung paralleler Algorithmen. Herkömmliche Programmiermodelle bieten ein einziges, einfaches Konstrukt zur Synchronisation kooperierender Threads: eine Barriere über alle Threads eines Thread-Blocks hinweg (d. h. die Funktion syncthreads()). Programmierer möchten jedoch oft Gruppen von Threads mit kleinerer Granularität als Thread-Blöcke definieren und innerhalb der definierten Gruppen synchronisieren, um mehr Leistung, Designflexibilität und Softwarewiederverwendung in Form von gemeinsamen gruppenweiten Funktionsschnittstellen zu ermöglichen.Cooperative Groups is a programming model for organizing groups of communicating threads that allows developers to express the granularity with which threads communicate enables the expression of richer, more efficient parallel decompositions. Cooperative launch APIs support synchronization between thread blocks to execute parallel algorithms. Traditional programming models provide a single, simple construct to synchronize cooperating threads: a barrier across all threads in a thread block (ie, the syncthreads () function). However, programmers often want to define groups of threads with smaller granularity than thread blocks and synchronize them within the defined groups to allow for more performance, design flexibility, and software reuse in the form of shared, group-wide functional interfaces.

Cooperative Groups ermöglicht es Programmierern, Gruppen von Threads explizit am Unterblock (d. h. so klein wie ein einzelner Thread) und Multiblock-Granularitäten zu definieren und kollektive Operationen wie z. B. Synchronisation der Threads in einer kooperativen Gruppe durchzuführen. Das Programmiermodell unterstützt saubere Zusammensetzung über Softwaregrenzen hinweg, so dass Bibliotheken und Utility-Funktionen in ihrem lokalen Kontext sicher synchronisieren können, ohne Annahmen über Konvergenz treffen zu müssen. Cooperative Groups Primitive ermöglichen neue Muster kooperativer Parallelität, einschließlich Produzenten-Verbraucher-Parallelität, opportunistischer Parallelität und globaler Synchronisation über ein ganzes Netz von Thread-Blöcken hinweg.Cooperative Groups allows programmers to explicitly define sets of threads at the subblock (i.e., as small as a single thread) and multiblock granularities, and to perform collective operations such as subroutine operations. B. Synchronization of the threads in a cooperative group. The programming model supports clean composition across software boundaries so that libraries and utility functions can securely synchronize in their local context without having to make assumptions about convergence. Cooperative Groups Primitives enable new patterns of cooperative concurrency, including producer-consumer parallelism, opportunistic parallelism, and global synchronization across a whole network of thread blocks.

Eine Abfertigungs-Einheit 515 ist so konfiguriert, das sie Anweisungen an eine oder mehrere der Funktionseinheiten senden kann. In der Ausführungsform enthält die Scheduler-Einheit 510 zwei Abfertigungs-Einheiten 515, die es ermöglichen, während jedes Taktzyklus zwei verschiedene Anweisungen von derselben Warp zu senden. In alternativen Ausführungsformen kann jede Scheduler-Einheit 510 eine einzige Abfertigungs-Einheit 515 oder zusätzliche Abfertigungs-Einheiten 515 enthalten.A check-in unit 515 is configured to send instructions to one or more of the functional units. In the embodiment, the scheduler unit includes 510 two dispatch units 515 which allow to send two different instructions from the same warp during each clock cycle. In alternative embodiments, each scheduler unit 510 a single check-in unit 515 or additional check-in units 515 contain.

Jeder SM 440 enthält eine Registerdatei 520, die einen Satz Register für die Funktionseinheiten der SM 440 bereitstellt. In einer Ausführungsform ist die Registerdatei 520 zwischen den einzelnen Funktionseinheiten aufgeteilt, so dass jeder Funktionseinheit ein bestimmter Teil der Registerdatei 520 zugeordnet ist. In einer anderen Ausführungsform ist die Registerdatei 520 zwischen den verschiedenen Warps aufgeteilt, die von dem SM 440 ausgeführt werden. Die Registerdatei 520 stellt temporären Speicher für Operanden bereit, die mit den Datenpfaden der Funktionseinheiten verbunden sind.Every SM 440 contains a register file 520 containing a set of registers for the functional units of the SM 440 provides. In one embodiment, the register file is 520 divided between each functional units, so that each functional unit a specific part of the register file 520 assigned. In another embodiment, the register file is 520 split between the different warps, that of the SM 440 be executed. The register file 520 provides temporary memory for operands associated with the data paths of the functional units.

Jeder SM 440 umfasst L Verarbeitungs-Rechenkerne 550. In einer Ausführungsform enthält der SM 440 eine große Anzahl (z. B. 128, usw.) von getrennten Verarbeitungs-Rechenkernen 550. Jeder Rechenkern 550 kann eine Verarbeitungseinheit mit vollständiger Pipeline, einfacher Genauigkeit, Einfachpräzision, Doppelpräzision und/oder gemischter Präzision enthalten, die eine Gleitkomma-Arithmetik-Logikeinheit und eine Ganzzahl-Arithmetik-Logikeinheit enthält. In einer Ausführungsform implementieren die Gleitkomma-Arithmetik-Logikeinheiten die Norm IEEE 754 -2008 für Gleitkomma-Arithmetik. In einer Ausführungsform enthalten die Rechenkerne 550 64 Einfachpräzision-(32-Bit)-Gleitkomma-Rechenkerne, 64 Ganzzahl-Rechenkerne, 32 Doppelpräzision-(64-Bit)-Gleitkomma-Rechenkerne und 8 Tensor-Rechenkerne.Every SM 440 L includes processing cores 550 , In one embodiment, the SM includes 440 a large number (e.g., 128, etc.) of separate processing cores 550 , Every calculation kernel 550 may include a full pipeline, single precision, single precision, double precision, and / or mixed precision processing unit that includes a floating point arithmetic logic unit and an integer arithmetic logic unit. In one embodiment, the floating point arithmetic logic units implement the IEEE standard 754 - 2008 for floating-point arithmetic. In one embodiment, the cores contain 550 64 Einfachpräzision- ( 32 -Bit) floating point calculation cores, 64 integer calculation cores, 32 dual precision (64-bit) floating point calculation cores and 8 tensor calculation cores.

Tensor-Rechenkerne sind dafür konfiguriert, Matrixoperationen durchzuführen, und in einer Ausführungsform sind ein oder mehrere Tensor-Rechenkerne in den Rechenkernen 550 enthalten. Insbesondere sind die Tensor-Rechenkerne so konfiguriert, dass sie Deep-Learning-Matrixarithmetik durchführen können, wie z. B. Faltungsoperationen für Training und Inferenzierung neuronaler Netze. In einer Ausführungsform arbeitet jeder Tensor-Rechenkern auf einer 4x4-Matrix und führt eine Matrix-Multiplikations- und Akkumulationsoperation D=AxB+C durch, worin A, B, C und D 4x4-Matrizen sind.Tensor arithmetic cores are configured to perform matrix operations, and in one embodiment, one or more tensor arithmetic cores are in the cores 550 contain. In particular, the tensor calculation kernels are configured to perform deep learning matrix arithmetic such as: B. Folding operations for training and inferencing of neural networks. In one embodiment, each tensor calculator operates on a 4x4 matrix and performs a matrix multiply and accumulate operation D = AxB + C, where A, B, C, and D are 4x4 matrices.

In einer Ausführungsform sind die Matrixmultiplikations-Eingaben A und B 16-Bit-Gleitkomma-Matrizen, während die Akkumulations-Matrizen C und D 16-Bit-Gleitkomma- oder 32-Bit-Gleitkomma-Matrizen sein können. Tensor-Rechenkerne arbeiten an 16-Bit-Gleitkomma-Eingabedaten mit 32-Bit-Gleitkomma-Akkumulation. Die 16-Bit-Gleitkomma-Multiplikation erfordert 64 Operationen und führt zu einem hochpräzisen Produkt, das dann unter Verwendung von 32-Bit-Gleitkomma-Addition mit den anderen Zwischenprodukten für eine 4x4x4-Matrix-Multiplikation akkumuliert wird. In der Praxis werden Tensor-Rechenkerne verwendet, um viel größere zweidimensionale oder höherdimensionale Matrixoperationen durchzuführen, die sich aus diesen kleineren Elementen zusammensetzen. Eine API, wie z. B. die CUDA 9 C++ API, stellt spezielle Matrixlast, Matrix-Multiplikation und -Akkumulation sowie Matrix-Speicheroperationen zur Verfügung, um Tensor-Rechenkerne von einem CUDA-C++-Programm effizient zu nutzen. Auf der CUDA-Ebene setzt die Schnittstelle auf Warp-Ebene Matrizen der Größe 16x16 voraus, die alle 32 Threads des Warps überspannen.In one embodiment, matrix multiplication inputs A and B are 16-bit floating point arrays, while accumulation arrays C and D may be 16-bit floating point or 32-bit floating point arrays. Tensor calculation kernels work on 16-bit floating-point input data with 32-bit floating-point accumulation. The 16-bit floating-point multiplication requires 64 operations and results in a high-precision product which is then accumulated using 32-bit floating-point addition with the other intermediates for 4x4x4 matrix multiplication. In practice, tensor arithmetic cores are used to perform much larger two-dimensional or higher-dimensional matrix operations composed of these smaller elements. An API, such as For example, the CUDA 9 C ++ API provides special matrix load, matrix multiplication and accumulation, and matrix memory operations to efficiently use tensor cores from a CUDA C ++ program. At the CUDA level, the warp-level interface requires matrices of size 16x16, which span all 32 threads of the warp.

Jeder SM 440 enthält auch M SFUs 552, die spezielle Funktionen ausführen (z. B. Attributbewertung, reziproke Quadratwurzel und dergleichen). In einer Ausführungsform können die SFUs 552 eine Baumdurchlaufeinheit enthalten, die so konfiguriert ist, dass eine hierarchische Baumdatenstruktur durchlaufen wird. In einer Ausführungsform können die SFUs 552 eine Textureinheit enthalten, die so konfiguriert ist, dass sie Texturabbildungs-Filteroperationen durchführt. In einer Ausführungsform sind die Textureinheiten so konfiguriert, dass sie Texturabbildungen (z. B. ein zweidimensionales Array von Texeln) aus dem Speicher 304 laden und die Texturabbildungen abtasten, um abgetastete Texturwerte zur Verwendung in Shader-Programmen zu erzeugen, die vom SM 440 ausgeführt werden. In einer Ausführungsform werden die Texturabbildungen im Gemeinschaftsspeicher/L1-Cache 470 gespeichert. Die Textureinheiten implementieren Textur-Operationen wie z. B. Filteroperationen mit Hilfe von Mip-Maps (d. h. Texturabbildungen mit unterschiedlichem Detaillierungsgrad). In einer Ausführungsform enthält jeder SM 340 zwei Textureinheiten.Every SM 440 also contains M SFUs 552 performing special functions (eg attribute evaluation, reciprocal square root and the like). In one embodiment, the SFUs 552 a Includes a tree sweep configured to traverse a hierarchical tree data structure. In one embodiment, the SFUs 552 include a texture unit configured to perform texture map filtering operations. In one embodiment, the texture units are configured to extract texture maps (eg, a two-dimensional array of texels) from the memory 304 and sample the texture maps to produce sampled texture values for use in shader programs written by the SM 440 be executed. In one embodiment, the texture maps are stored in the shared memory / L1 cache 470. The texture units implement texture operations such as. B. Filter operations using mip maps (ie texture maps with varying degrees of detail). In one embodiment, each SM contains 340 two texture units.

Jeder SM 440 umfasst auch N LSUs 554, die Lade- und Speicheroperationen zwischen dem Gemeinschaftsspeicher/L1-Cache 570 und der Registerdatei 520 implementieren. Jeder SM 440 enthält ein Verbindungsnetz 580, das jede der Funktionseinheiten mit der Registerdatei 520 und die LSU 554 mit der Registerdatei 520, Gemeinschaftsspeicher/ L1 Cache 570 verbindet. In einer Ausführungsform ist das Verbindungsnetz 580 ein Koppelfeld, das so konfiguriert sein kann, dass es irgendeine der Funktionseinheiten mit irgendeinem der Register in der Registerdatei 520 verbindet und die LSUs 554 mit der Registerdatei und Speicherstellen im Gemeinschaftsspeicher/L1-Cache 570 verbindet.Every SM 440 also includes N LSUs 554 , the load and store operations between the shared memory / L1 cache 570 and the register file 520 to implement. Every SM 440 contains a connection network 580 containing each of the functional units with the register file 520 and the LSU 554 with the register file 520 , Shared memory / L1 cache 570 combines. In one embodiment, the connection network is 580 a switch fabric that may be configured to connect any of the functional units to any of the registers in the register file 520 connects and the LSUs 554 with the register file and memory locations in the shared memory / L1 cache 570 combines.

Der Gemeinschaftsspeicher/L1 Cache 570 ist ein Array von On-Chip-Speicher, das Datenspeicherung und Kommunikation zwischen dem SM 440 und der Primitiv-Engine 435 sowie zwischen Threads im SM 440 ermöglicht. In einer Ausführungsform umfasst der Gemeinschaftsspeicher/L1-Cache 570 128KB Speicherkapazität und befindet sich in dem Pfad vom SM 440 zur Partitionseinheit 380. Mit dem Gemeinschaftsspeicher/L1-Cache 570 können Lese- und Schreibzugriffe zwischengespeichert werden. Einer oder mehrere von dem Gemeinschaftsspeicher/L1-Cache 570, L2-Cache 460 und Speicher 304 sind Backup-Speicher.The shared memory / L1 cache 570 is an array of on-chip memory, data storage and communication between the SM 440 and the primitive engine 435 as well as between threads in the SM 440 allows. In one embodiment, the shared memory includes / L1 cache 570 128KB storage capacity and is located in the path from the SM 440 to the partition unit 380 , With the shared memory / L1 cache 570 Read and write accesses can be cached. One or more of the shared memory / L1 cache 570 , L2 cache 460 and memory 304 are backup storage.

Die Kombination von Daten-Cache und Gemeinschaftsspeicher-Funktionalität in einem einzigen Speicherblock bietet die beste Gesamtleistung für beide Arten von Speicherzugriffen. Die Kapazität ist als ein Cache von Programmen nutzbar, die keinen Gemeinschaftsspeicher verwenden. Wenn zum Beispiel Gemeinschaftsspeicher so konfiguriert ist, dass die Hälfte der Kapazität genutzt werden kann, können Textur- und Lade-/Speicher-Operationen die verbleibende Kapazität nutzen. Integration in den Gemeinschaftsspeicher/L1-Cache 570 ermöglicht es dem Gemeinschaftsspeicher/L1-Cache 570, als Hochdurchsatz-Leitung für das Streaming von Daten zu fungieren und zugleich Zugriff mit hoher Bandbreite und niedriger Latenz auf häufig wiederverwendete Daten zu ermöglichen.The combination of data cache and shared memory functionality in a single block of memory provides the best overall performance for both types of memory accesses. The capacity is usable as a cache of programs that do not use shared memory. For example, if shared storage is configured to use half the capacity, texture and load / store operations can use the remaining capacity. Integration into the shared memory / L1 cache 570 allows the shared memory / L1 cache 570 to act as a high-throughput data streaming stream while providing high-bandwidth, low-latency access to frequently reused data.

Bei Konfiguration für Universal-Parallelberechnung kann eine einfachere Konfiguration im Vergleich zu Grafikverarbeitung verwendet werden. Insbesondere werden die in 3 gezeigten Grafikverarbeitungseinheiten mit fester Funktion umgangen, wodurch ein viel einfacheres Programmiermodell entsteht. In der Universal-Parallelberechnungs-Konfiguration weist die Arbeitsverteilungseinheit 325 Thread-Blöcke direkt den DPCs 420 zu und verteilt sie darauf. Die Threads in einem Block führen das gleiche Programm aus, wobei eine eindeutige Thread-ID bei der Berechnung verwendet wird, um sicherzustellen, dass jeder Thread eindeutige Ergebnisse erzeugt, wobei der SM 440 verwendet wird, um das Programm auszuführen und Berechnungen durchzuführen, der Gemeinschaftsspeicher/L1-Cache 570, um zwischen Threads zu kommunizieren, und die LSU 554, um über den Gemeinschaftsspeicher/L1-Cache 570 und die Speicherpartitionseinheit 380 globalen Speicher zu lesen und darin zu schreiben. Wenn für Universal-Parallelberechnung konfiguriert, kann der SM 440 auch Befehle schreiben, mit denen die Scheduler-Einheit 320 neue Arbeit auf den DPCs 420 starten kann.In Universal Parallel Calculation configuration, a simpler configuration can be used compared to graphics processing. In particular, the in 3 bypassed fixed-function graphics processing units, resulting in a much simpler programming model. In the Universal Parallel Calculation configuration, the work distribution unit points 325 Thread blocks directly to the DPCs 420 and distribute it on it. The threads in a block execute the same program, using a unique thread ID in the calculation to ensure that each thread produces unique results, with the SM 440 is used to execute the program and perform calculations, the shared memory / L1 cache 570 to communicate between threads and the LSU 554 to go through the shared memory / L1 cache 570 and the storage partition unit 380 to read and write to global memory. If configured for Universal Parallel Calculation, the SM 440 also write commands with which the scheduler unit 320 new work on the DPCs 420 can start.

Die PPU 300 kann in einem Desktop-Computer, einem Laptop-Computer, einem Tablet-Computer, Servern, Supercomputern, einem Smartphone (z. B. einem drahtlosen, tragbaren Gerät), einem Personal Digital Assistant (PDA), einer Digitalkamera, einem Fahrzeug, einem am Kopf befestigten Display, einem tragbaren elektronischen Gerät und dergleichen enthalten sein. In einer Ausführungsform ist die PPU 300 auf einem einzelnen Halbleitersubstrat ausgebildet. In einer anderen Ausführungsform ist die PPU 300 zusammen mit einem oder mehreren anderen Geräten, wie z. B. zusätzlichen PPUs 300, dem Speicher 204, einer CPU für Computer mit reduziertem Befehlssatz (RISC), einer Speicherverwaltungseinheit (MMU), einem Digital-Analog-Wandler (DAC) und dergleichen in einem SoC (System-on-a-Chip, System auf einem Chip) enthalten.The PPU 300 can be used in a desktop computer, a laptop computer, a tablet computer, servers, supercomputers, a smartphone (such as a wireless, portable device), a personal digital assistant (PDA), a digital camera, a vehicle, a computer Head-mounted display, a portable electronic device and the like may be included. In one embodiment, the PPU 300 formed on a single semiconductor substrate. In another embodiment, the PPU 300 together with one or more other devices, such as B. additional PPUs 300 the store 204 , a reduced instruction set computer (RISC), a memory management unit (MMU), a digital-to-analog converter (DAC), and the like in a system-on-a-chip (on-chip) system.

In einer Ausführungsform kann die PPU 300 auf einer Grafikkarte enthalten sein, die ein oder mehrere Speichergeräte 304 enthält. Die Grafikkarte kann so konfiguriert sein, dass sie eine Schnittstellenverbindung mit einem PCIe-Steckplatz auf einem Motherboard eines Desktop-Computers herstellt. In noch einer Ausführungsform kann die PPU 300 eine integrierte Grafikverarbeitungseinheit (iGPU) oder ein Parallelprozessor sein, die bzw. der im Chipsatz des Motherboards enthalten ist.In one embodiment, the PPU 300 to be included on a video card containing one or more storage devices 304 contains. The graphics card may be configured to interface with a PCIe slot on a motherboard of a desktop computer. In yet another embodiment, the PPU 300 an integrated graphics processing unit (iGPU) or a parallel processor included in the chipset of the motherboard.

Beispiel-Rechensystem Example computing system

Systeme mit mehreren GPUs und CPUs werden in mannigfachen Branchen eingesetzt, da Entwickler mehr Parallelität bei Anwendungen wie z. B. künstlicher Intelligenz enthüllen und nutzen. Leistungsstarke GPU-beschleunigte Systeme mit Zehntausenden von Rechenknoten werden in Rechenzentren, Forschungseinrichtungen und Supercomputern eingesetzt, um immer größere Probleme zu lösen. Mit zunehmender Anzahl von Verarbeitungsgeräten innerhalb der Hochleistungssysteme müssen die Kommunikations- und Datenübertragungsmechanismen skaliert werden, um die erhöhte Bandbreite zu unterstützen.Systems with multiple GPUs and CPUs are used in multiple industries because developers are more concurrent with applications such as: B. reveal and use artificial intelligence. Powerful GPU-accelerated systems with tens of thousands of compute nodes are being used in data centers, research facilities, and supercomputers to solve more and more problems. As the number of processing devices within the high performance systems increases, the communication and data transfer mechanisms must be scaled to support the increased bandwidth.

5B ist ein konzeptionelles Diagramm eines unter Verwendung der PPU 300 von 3 implementierten Verarbeitungssystems 500 gemäß einer Ausführungsform. Das Beispiel-System 565 kann so konfiguriert sein, dass es das in 1A gezeigte Verfahren 100 implementiert. Das Verarbeitungssystem 500 enthält eine CPU 530, einen Switch 510 und jeweils mehrere PPUs 300 und entsprechende Speicher 304. Der NVLink 310 stellt Hochgeschwindigkeits-Kommunikationsverbindungen zwischen jeder der PPUs 300 bereit. Obwohl in 5B eine bestimmte Anzahl von Verbindungen mittels NVLink 310 und Verbindung 302 gezeigt ist, kann die Anzahl der Verbindungen zu jeder PPU 300 und der CPU 530 variieren. Der Switch 510 bildet eine Schnittstelle zwischen der Verbindung 302 und der CPU 530. Die PPUs 300, der Speicher 304 und die NVLinks 310 können sich auf einer einzelnen Halbleiterplattform befinden, um ein Parallelverarbeitungsmodul 525 zu bilden. In einer Ausführungsform unterstützt der Switch 510 zwei oder mehr Protokolle zur Schnittstellenbildung zwischen verschiedenen unterschiedlichen Verbindungen und/oder Links. 5B is a conceptual diagram of one using the PPU 300 from 3 implemented processing system 500 according to one embodiment. The example system 565 can be configured to use the in 1A shown method 100 implemented. The processing system 500 contains a CPU 530 , a switch 510 and in each case several PPUs 300 and corresponding memory 304 , The NVLink 310 Provides high-speed communication links between each of the PPUs 300 ready. Although in 5B a certain number of connections using NVLink 310 and connection 302 can be shown, the number of connections to each PPU 300 and the CPU 530 vary. The switch 510 forms an interface between the connection 302 and the CPU 530 , The PPUs 300 , the memory 304 and the NVLinks 310 can reside on a single semiconductor platform to a parallel processing module 525 to build. In one embodiment, the switch supports 510 two or more protocols for interfacing between different different links and / or links.

In einer weiteren Ausführungsform (nicht gezeigt) stellt der NVLink 310 eine oder mehrere Hochgeschwindigkeits-Kommunikationsverbindungen zwischen jeder der PPUs 300 und der CPU 530 bereit, und der Switch 510 bildet Schnittstellen zwischen der Verbindung 302 und jeder der PPUs 300. Die PPUs 300, die Speicher 304 und die Verbindung 302 können sich auf einer einzelnen Halbleiterplattform befinden, um ein Parallelverarbeitungsmodul 525 zu bilden. In noch einer Ausführungsform (nicht gezeigt) stellt die Verbindung 302 eine oder mehrere Kommunikationsverbindungen zwischen jeder der PPUs 300 und der CPU 530 bereit, und der Switch 510 bildet Schnittstellen zwischen jeder der PPUs 300 unter Verwendung des NVLinks 310, um eine oder mehrere Hochgeschwindigkeits-Kommunikationsverbindungen zwischen den PPUs 300 bereitzustellen. In noch einer Ausführungsform (nicht gezeigt) stellt der NVLink 310 eine oder mehrere Hochgeschwindigkeits-Kommunikationsverbindungen zwischen den PPUs 300 und der CPU 530 über den Switch 510 bereit. In noch einer Ausführungsform (nicht gezeigt) stellt die Verbindung 302 eine oder mehrere Kommunikationsverbindungen zwischen jeder der PPUs 300 direkt bereit. Eine oder mehrere der Hochgeschwindigkeits-Kommunikationsverbindungen NVLink 310 können als physische NVLink-Verbindung oder als On-Chip- oder On-Die-Verbindung unter Verwendung des gleichen Protokolls wie der NVLink 310 implementiert werden.In another embodiment (not shown), the NVLink provides 310 one or more high-speed communication links between each of the PPUs 300 and the CPU 530 ready, and the switch 510 forms interfaces between the connection 302 and each of the PPUs 300 , The PPUs 300 , the memory 304 and the connection 302 can reside on a single semiconductor platform to a parallel processing module 525 to build. In yet another embodiment (not shown), the compound provides 302 one or more communication links between each of the PPUs 300 and the CPU 530 ready, and the switch 510 forms interfaces between each of the PPUs 300 using the NVLink 310 to one or more high-speed communication links between the PPUs 300 provide. In yet another embodiment (not shown), the NVLink 310 provides one or more high-speed communication links between the PPUs 300 and the CPU 530 over the switch 510 ready. In yet another embodiment (not shown), the compound provides 302 one or more communication links between each of the PPUs 300 ready to go. One or more of the NVLink 310 high speed communication links may be used as a physical NVLink connection or as an on-chip or on-die connection using the same protocol as the NVLink 310 be implemented.

Im Kontext der vorliegenden Beschreibung kann sich eine einzelne Halbleiterplattform auf eine einzige einheitliche halbleiterbasierte integrierte Schaltung beziehen, die auf einem Die oder Chip hergestellt wird. Man beachte, dass sich der Begriff einzelne Halbleiterplattform auch auf Multichip-Module mit erhöhter Konnektivität beziehen kann, die On-Chip-Betrieb simulieren und wesentliche Verbesserungen gegenüber herkömmlicher Bus-Implementierung vornehmen. Natürlich können die verschiedenen Schaltungen oder Geräte nach den Wünschen des Benutzers auch getrennt oder in verschiedenen Kombinationen von Halbleiterplattformen angeordnet sein. Alternativ kann das Parallelverarbeitungsmodul 525 als ein Leiterplattensubstrat implementiert sein und kann jede(r) der PPUs 300 und/oder Speicher 304 als verpacktes Gerät ausgeführt sein. In einer Ausführungsform befinden sich die CPU 530, der Switch 510 und das Parallelverarbeitungsmodul 525 auf einer einzelnen Halbleiterplattform.In the context of the present description, a single semiconductor platform may refer to a single unitary semiconductor-based integrated circuit fabricated on a die or chip. Note that the term single semiconductor platform may also refer to multichip modules with increased connectivity that simulate on-chip operation and make significant improvements over conventional bus implementation. Of course, the various circuits or devices may also be separate or arranged in various combinations of semiconductor platforms as desired by the user. Alternatively, the parallel processing module 525 may be implemented as a printed circuit board substrate and may be any of the PPUs 300 and / or memory 304 be designed as a packaged device. In one embodiment, the CPU is located 530 , the switch 510 and the parallel processing module 525 on a single semiconductor platform.

In einer Ausführungsform beträgt die Signalübertragungsrate jedes NVLink 310 20 bis 25 Gigabit/Sekunde und enthält jede PPU 300 sechs NVLink 310 Schnittstellen (wie in 5B gezeigt, sind fünf NVLink 310 Schnittstellen für jede PPU 300 enthalten). Jeder NVLink 310 bietet eine Datenübertragungsrate von 25 Gigabyte/Sekunde in jede Richtung, wobei sechs Links 300 Gigabyte/Sekunde liefern. Die NVLinks 310 werden möglicherweise ausschließlich für PPU-zu-PPU-Kommunikation verwendet, wie in 5B gezeigt, oder für irgendeine Kombination von PPU-zu-PPU und PPU-zu-CPU, wenn die CPU 530 ebenfalls eine oder mehrere NVLink 310 Schnittstellen enthält.In one embodiment, the signal transmission rate is each NVLink 310 20 to 25 gigabits / second and contains every PPU 300 six NVLink 310 Interfaces (as in 5B shown are five NVLink 310 Interfaces for each PPU 300 contain). Every NVLink 310 provides a data transfer rate of 25 gigabytes / second in each direction, with six links 300 Deliver gigabytes / second. The NVLinks 310 may be used exclusively for PPU-to-PPU communication, as in 5B shown, or for any combination of PPU-to-PPU and PPU-to-CPU, if the CPU 530 also contains one or more NVLink 310 interfaces.

In einer Ausführungsform ermöglicht der NVLink 310 direkten Lade-/Speicher-/atomischen Zugriff von der CPU 530 auf den Speicher 304 jeder PPU 300. In einer Ausführungsform unterstützt der NVLink 310 Kohärenz-Operationen, so dass aus den Speichern 304 gelesene Daten in der Cache-Hierarchie der CPU 530 gespeichert werden können, was die Cache-Zugriffslatenz für die CPU 530 reduziert. In einer Ausführungsform enthält der NVLink 310 Unterstützung für Adressenübersetzungsdienste (ATS), so dass die PPU 300 direkt auf Seitentabellen innerhalb der CPU 530 zugreifen kann. Einer oder mehrere der NVLinks 310 können auch für Betrieb in einem Niedrigverbrauchsmodus konfiguriert sein.In one embodiment, the NVLink allows 310 direct load / memory / atomic access from the CPU 530 on the memory 304 every PPU 300 , In one embodiment, the NVLink supports 310 Coherence operations, so that from the stores 304 read data in the cache hierarchy of the CPU 530 can be stored, which is the cache access latency for the CPU 530 reduced. In one embodiment, the NVLink includes 310 Support for Address Translation Services (ATS), allowing the PPU 300 directly on page tables within the CPU 530 can access. One or more of the NVLinks 310 may also be configured for operation in a low-power mode.

5C veranschaulicht ein Beispiel-System 565, in dem die verschiedene Architektur und/oder Funktionalität der verschiedenen früheren Ausführungsformen implementiert sein kann. Das Beispiel-System 565 kann so konfiguriert sein, dass es das in 1A gezeigte Verfahren 100 implementiert. 5C illustrates an example system 565 in which the various architecture and / or functionality of the various previous embodiments may be implemented. The example system 565 can be configured to use the in 1A shown method 100 implemented.

Wie gezeigt, ist ein System 565 vorgesehen, das mindestens eine Zentralverarbeitungseinheit 530 enthält, die mit einem Kommunikationsbus 575 verbunden ist. Der Kommunikationsbus 575 kann unter Verwendung irgendeines geeigneten Protokolls implementiert werden, wie z. B. PCI (Peripheral Component Interconnect), PCI-Express, AGP (Accelerated Graphics Port), HyperTransport oder irgendeinem anderen Bus oder Punkt-zu-Punkt-Kommunikationsprotokoll(en). Das System 565 enthält auch einen Hauptspeicher 540. Steuerlogik (Software) und Daten werden im Hauptspeicher 540 gespeichert, der als Direktzugriffsspeicher (RAM) ausgeführt sein kann.As shown, is a system 565 provided, the at least one central processing unit 530 Contains that with a communication bus 575 connected is. The communication bus 575 can be implemented using any suitable protocol, e.g. PCI (Peripheral Component Interconnect), PCI Express, Accelerated Graphics Port (AGP), HyperTransport or any other bus or point-to-point communication protocol (s). The system 565 also contains a main memory 540 , Control logic (software) and data are stored in main memory 540 which may be implemented as random access memory (RAM).

Das System 565 enthält auch Eingabegeräte 560, das Parallelverarbeitungssystem 525 und Display-Geräte 545, d. h. eine herkömmliche CRT (Kathodenstrahlröhre), ein LCD (Flüssigkristall-Display), eine LED (Leuchtdiode), ein Plasma-Display oder dergleichen. Benutzereingaben können von den Eingabegeräten 560 empfangen werden, z. B. einer Tastatur, einer Maus, einem Touchpad, einem Mikrofon und dergleichen. Jedes der vorgenannten Module und/oder Geräte kann sich sogar auf einer einzelnen Halbleiterplattform befinden, um das System 565 zu bilden. Alternativ können die verschiedenen Module auch getrennt oder in verschiedenen Kombinationen von Halbleiterplattformen nach den Wünschen des Anwenders angeordnet werden.The system 565 also contains input devices 560 , the parallel processing system 525 and display devices 545 that is, a conventional CRT (Cathode Ray Tube), an LCD (Liquid Crystal Display), an LED (Light Emitting Diode), a plasma display, or the like. User input can be from the input devices 560 be received, for. As a keyboard, a mouse, a touchpad, a microphone and the like. Each of the aforementioned modules and / or devices may even reside on a single semiconductor platform to the system 565 to build. Alternatively, the various modules may also be arranged separately or in various combinations of semiconductor platforms according to the wishes of the user.

Weiterhin kann das System 565 zu Kommunikationszwecken über eine Netzschnittstelle 535 mit einem Netz (z. B. einem Telekommunikationsnetz, Lokalen Netz (LAN), Drahtlosnetz, Weitverkehrsnetz (WAN) wie z. B. das Internet, Peer-to-Peer-Netz, Kabelnetz oder dergleichen) gekoppelt sein.Furthermore, the system can 565 for communication via a network interface 535 be coupled to a network (e.g., a telecommunications network, local area network (LAN), wireless network, wide area network (WAN) such as the Internet, peer-to-peer network, cable network, or the like).

Das System 565 kann auch einen Sekundärspeicher enthalten (nicht gezeigt). Der Sekundärspeicher 610 enthält zum Beispiel ein Festplattenlaufwerk und/oder ein Wechselspeicherlaufwerk, das ein Diskettenlaufwerk, ein Magnetbandlaufwerk, ein CD-Laufwerk, ein DVD-Laufwerk, ein Aufzeichnungsgerät oder einen USB-Flashspeicher repräsentiert. Das Wechselspeicherlaufwerk liest und/oder schreibt in einer bekannten Weise von einer bzw. auf eine Wechselspeicher-Einheit.The system 565 may also contain a secondary memory (not shown). The secondary storage 610 includes, for example, a hard disk drive and / or a removable storage drive that represents a floppy disk drive, a magnetic tape drive, a CD drive, a DVD drive, a recording device or a USB flash memory. The removable storage drive reads and / or writes in a known manner from or to a removable storage device.

Computerprogramme oder Computer-Steuerlogikalgorithmen können in dem Hauptspeicher 540 und/oder dem Sekundärspeicher gespeichert werden. Solche Computerprogramme ermöglichen es dem System 565, verschiedene Funktionen durchzuführen, wenn sie ausgeführt werden. Der Speicher 540, der Sekundärspeicher und/oder irgendwelche anderen Speicher sind mögliche Beispiele von computerlesbaren Medien.Computer programs or computer control logic algorithms may reside in main memory 540 and / or the secondary storage. Such computer programs make it possible for the system 565 to perform various functions when they are executed. The memory 540 , the secondary storage and / or any other storage are possible examples of computer-readable media.

Die Architektur und/oder Funktionalität der verschiedenen vorhergehenden Figuren kann im Kontext eines allgemeinen Computersystems, eines Platinensystems, eines Spielkonsolensystems für Unterhaltungszwecke, eines anwendungsspezifischen Systems und/oder irgendeines anderen gewünschten Systems implementiert werden. Das System 565 kann zum Beispiel die Form eines Desktop-Computers, eines Laptop-Computers, eines Tablet-Computers, von Servern, Supercomputern, eines Smartphones (z. B. eines drahtlosen, tragbaren Geräts), eines persönlichen digitalen Assistenten (PDA), einer Digitalkamera, eines Fahrzeugs, eines kopfmontierten Displays, eines tragbaren elektronischen Geräts, eines Mobiltelefongeräts, eines Fernsehgeräts, einer Workstation, einer Spielkonsole, eines eingebetteten Systems und/oder eines anderen Typs von Logik annehmen.The architecture and / or functionality of the various preceding figures may be implemented in the context of a general computer system, a circuit board system, an entertainment gaming console system, an application specific system, and / or any other desired system. The system 565 For example, it may take the form of a desktop computer, a laptop computer, a tablet computer, servers, supercomputers, a smartphone (eg, a wireless, wearable device), a personal digital assistant (PDA), a digital camera, a vehicle, a head-mounted display, a portable electronic device, a mobile telephone device, a television, a workstation, a game console, an embedded system, and / or another type of logic.

Obwohl verschiedene Ausführungsformen vorstehend beschrieben worden sind, versteht es sich, dass sie nur als Beispiel und nicht als Einschränkung präsentiert worden sind. Daher sind die Breite und der Schutzumfang einer bevorzugten Ausführungsform nicht durch irgendwelche der oben beschriebenen Ausführungsbeispiele einzuschränken, sondern nur in Übereinstimmung mit den folgenden Ansprüchen und ihren Äquivalenten zu definieren.Although various embodiments have been described above, it will be understood that they have been presented by way of example only, and not limitation. Therefore, the breadth and scope of a preferred embodiment should not be limited by any of the above-described embodiments, but should be defined only in accordance with the following claims and their equivalents.

Grafikverarbeitungs-PipelineGraphics processing pipeline

In einer Ausführungsform umfasst die PPU 300 eine Grafikverarbeitungseinheit (GPU). Die PPU 300 ist so konfiguriert, dass sie Befehle empfängt, die Shader-Programme zur Verarbeitung von Grafikdaten spezifizieren. Grafikdaten können als eine Menge von Primitiven definiert sein, wie z. B. Punkte, Linien, Dreiecke, Vierecke, Dreiecksstreifen und dergleichen. Typischerweise enthält ein Primitiv Daten, die eine Anzahl von Vertices bzw. Eckpunkten für das Primitiv spezifizieren (z. B. in einem Modell-Raum-Koordinatensystem), sowie Attribute, die einem jedem Vertex des Primitivs zugeordnet sind. Die PPU 300 kann so konfiguriert sein, dass sie die Grafik-Primitive verarbeitet, um einen Bildpuffer zu erzeugen (d. h. Pixeldaten für jedes Pixel des Displays).In one embodiment, the PPU includes 300 a graphics processing unit (GPU). The PPU 300 is configured to receive commands that specify shader programs for processing graphics data. Graphics data may be defined as a set of primitives, such as: For example, points, lines, triangles, squares, triangular stripes, and the like. Typically, a primitive contains data that is a number of Specify vertices or vertices for the primitive (eg, in a model-space coordinate system), as well as attributes associated with each vertex of the primitive. The PPU 300 may be configured to process the graphics primitive to generate a frame buffer (ie, pixel data for each pixel of the display).

Eine Anwendung schreibt Modelldaten für eine Szene (d. h. eine Sammlung von Vertices und Attributen) in einen Speicher, wie z. B. einen Systemspeicher oder Speicher 304. Die Modelldaten definieren jedes der Objekte, die auf einem Display sichtbar sein können. Die Anwendung führt dann einen API-Aufruf an den Treiber-Kernel durch, der anfordert, dass die Modelldaten gerendert und angezeigt werden. Der Treiber-Kernel liest die Modelldaten und schreibt Befehle an die ein oder mehreren Ströme, um Operationen zur Verarbeitung der Modelldaten durchzuführen. Die Befehle können sich auf verschiedene Shader-Programme beziehen, die auf den SMs 440 der PPU 300 implementiert werden sollen, einschließlich eines oder mehrerer Vertex-Shader, Hull-Shader, Domain-Shader, Geometrie-Shader und Pixel-Shader. Beispielsweise kann ein oder können mehrere SMs 440 so konfiguriert sein, dass sie ein Vertex-Shader-Programm ausführen, das eine Anzahl von Vertices verarbeitet, die durch die Modelldaten definiert sind. In einer Ausführungsform können die verschiedenen SMs 440 so konfiguriert sein, dass sie verschiedene Shader-Programme gleichzeitig ausführen. Zum Beispiel kann eine erste Teilmenge von SMs 440 so konfiguriert sein, dass sie ein Vertex-Shader-Programm ausführt, während eine zweite Teilmenge von SMs 440 so konfiguriert sein kann, dass sie ein Pixel-Shader-Programm ausführt. Die erste Teilmenge von SMs 440 verarbeitet Vertexdaten zu verarbeiteten Vertexdaten und schreibt die verarbeiteten Vertexdaten in den L2-Cache 460 und/oder den Speicher 304. Nachdem die verarbeiteten Vertexdaten gerastert (d. h. von dreidimensionalen Daten in zweidimensionale Daten im Bildschirmraum transformiert) wurden, um Fragmentdaten zu erzeugen, führt die zweite Teilmenge von SMs 440 einen Pixel-Shader aus, um verarbeitete Fragmentdaten zu erzeugen, die dann mit anderen verarbeiteten Fragmentdaten gemischt und in den Bildpuffer im Speicher 304 geschrieben werden. Das Vertex-Shader-Programm und das Pixel-Shader-Programm können gleichzeitig ausgeführt werden, wobei unterschiedliche Daten derselben Szene gemäß einem Pipeline-Vorgehen verarbeitet werden, bis alle Modelldaten für die Szene in den Bildpuffer gerendert worden sind. Anschließend wird der Inhalt des Bildpuffers an eine Display-Steuerung zur Anzeige auf einem Display-Gerät übertragen.An application writes model data for a scene (ie, a collection of vertices and attributes) to a memory, such as memory. For example, a system memory or memory 304 , The model data defines each of the objects that may be visible on a display. The application then makes an API call to the driver kernel requesting that the model data be rendered and displayed. The driver kernel reads the model data and writes commands to the one or more streams to perform operations to process the model data. The commands may refer to different shader programs running on the SMs 440 the PPU 300 including one or more vertex shaders, hull shaders, domain shaders, geometry shaders, and pixel shaders. For example, one or more SMs 440 be configured to execute a vertex shader program that processes a number of vertices defined by the model data. In one embodiment, the various SMs 440 be configured to run different shader programs simultaneously. For example, a first subset of SMs 440 be configured to execute a vertex shader program while a second subset of SMs 440 can be configured to run a pixel shader program. The first subset of SMs 440 processes vertex data into processed vertex data and writes the processed vertex data into L2 cache 460 and / or memory 304 , After the processed vertex data has been rasterized (ie, transformed from three-dimensional data into two-dimensional data in screen space) to generate fragment data, the second subset of SMs results 440 a pixel shader to generate processed fragment data which is then mixed with other processed fragment data and stored in the frame buffer 304 to be written. The vertex shader program and the pixel shader program may be executed concurrently, processing different data of the same scene in a pipelined manner until all model data for the scene has been rendered into the frame buffer. Subsequently, the content of the image buffer is transmitted to a display controller for display on a display device.

6 ist ein konzeptionelles Diagramm einer von der PPU von 3 implementierten Grafikverarbeitungs-Pipeline gemäß einer Ausführungsform. Die Grafikverarbeitungs-Pipeline 600 ist ein abstraktes Flussdiagramm der zur Erzeugung von 2D-Computerbildern aus 3D-Geometriedaten implementierten Verarbeitungsschritte. Wie bekannt, können Pipeline-Architekturen Operationen mit langer Latenz effizienter durchführen, indem sie die Operation in eine Vielzahl von Stufen aufteilen, wobei der Ausgang jeder Stufe mit dem Eingang der nächstfolgenden Stufe gekoppelt ist. Somit empfängt die Grafikverarbeitungs-Pipeline 600 Eingabedaten 601, die von einer Stufe zur nächsten Stufe der Grafikverarbeitungs-Pipeline 600 übertragen werden, um Ausgabedaten 602 zu erzeugen. In einer Ausführungsform kann die Grafikverarbeitungs-Pipeline 600 eine durch die OpenGL^®-API definierte Grafikverarbeitungs-Pipeline repräsentieren. Optional kann die Grafikverarbeitungs-Pipeline 600 im Kontext der Funktionalität und Architektur der vorherigen Figuren und/oder irgendwelcher nachfolgenden Figur(en) implementiert werden. 6 is a conceptual diagram of one of the PPU of 3 implemented graphics processing pipeline according to one embodiment. The graphics processing pipeline 600 Figure 4 is an abstract flowchart of the processing steps implemented to generate 2D computer images from 3D geometry data. As is known, pipeline architectures can more efficiently perform long latency operations by dividing the operation into a plurality of stages with the output of each stage coupled to the input of the next succeeding stage. Thus, the graphics processing pipeline receives 600 input data 601 Moving from one level to the next level of the graphics processing pipeline 600 be transferred to output data 602 to create. In one embodiment, the graphics processing pipeline 600 a defined by the OpenGL ^® API graphics processing pipeline represent. Optionally, the graphics processing pipeline 600 in the context of the functionality and architecture of the previous figures and / or any subsequent figure (s).

Wie in 6 gezeigt, weist die Grafikverarbeitungs-Pipeline 600 eine Pipeline-Architektur auf, die mehrere Stufen umfasst. Die Stufen umfassen, sind aber nicht beschränkt auf, eine Datenaufbaustufe 610, eine Vertex-Shading-Stufe 620, eine Primitiv-Aufbaustufe 630, eine Geometrie-Shading-Stufe 640, eine Viewport-Skala, eine Cull- und Clip-(VSCC)-Stufe 650, eine Rasterungsstufe 660, eine Fragment-Shading-Stufe 670 und eine Rasteroperationen-Stufe 680. Die Eingabedaten 601 umfassen in einer Ausführungsform Befehle, die die Verarbeitungseinheiten so konfigurieren, dass die Stufen der Grafikverarbeitungs-Pipeline 600 und geometrische Primitive (z. B. Punkte, Linien, Dreiecke, Quadrate, Dreieckstreifen oder Fächer usw.), die von den Stufen zu verarbeiten sind, implementiert werden. Die Ausgabedaten 602 können Pixeldaten (d. h. Farbdaten) umfassen, die in einen Bildpuffer oder eine andere Art von Oberflächendatenstruktur in einem Speicher kopiert werden.As in 6 shown points the graphics processing pipeline 600 a pipeline architecture that includes multiple stages. The stages include, but are not limited to, a data build stage 610 , a vertex shading level 620 , a primitive advanced level 630 , a geometry shading level 640 , a viewport scale, a cull and clip (VSCC) level 650 , a screening level 660 , a fragment shading level 670 and a raster operations level 680 , The input data 601 In one embodiment, instructions include instructions that configure the processing units to control the stages of the graphics processing pipeline 600 and implementing geometric primitives (eg, points, lines, triangles, squares, triangular stripes or fans, etc.) to be processed by the stages. The output data 602 may include pixel data (ie, color data) that is copied to a frame buffer or other type of surface data structure in a memory.

Die Datenaufbaustufe 610 empfängt die Eingabedaten 601, die Vertexdaten für Oberflächen höherer Ordnung, Primitive oder dergleichen spezifizieren. Die Datenaufbaustufe 610 sammelt die Vertexdaten in einem temporären Speicher oder einer Warteschlange, wie z. B. durch Empfangen eines Befehls vom Host-Prozessor, der einen Zeiger auf einen Puffer im Speicher enthält, und Lesen der Vertexdaten aus dem Puffer. Die Vertexdaten werden dann zur Verarbeitung an die Vertex-Shading-Stufe 620 übertragen.The data construction stage 610 receives the input data 601 which specify vertex data for higher-order surfaces, primitives, or the like. The data construction stage 610 collects the vertex data in a temporary memory or queue, such as By receiving a command from the host processor containing a pointer to a buffer in memory and reading the vertex data from the buffer. The vertex data is then sent to the vertex shading stage for processing 620 transfer.

Die Vertex-Shading-Stufe 620 verarbeitet Vertexdaten, indem sie eine Reihe von Operationen (d. h. einen Vertex-Shader oder ein Programm) einmal für jeden der Vertices ausführt. Vertices können z. B. als ein 4-Koordinaten-Vektor (d. h. <x, y, z, w>) angegeben werden, der einem oder mehreren Vertex-Attributen zugeordnet ist (z. B. Farbe, Texturkoordinaten, Flächennormale, usw.). Die Vertex-Shading-Stufe 620 kann einzelne Vertex-Attribute wie z. B. Position, Farbe, Texturkoordinaten und dergleichen handhaben. Mit anderen Worten führt die Vertex-Shading-Stufe 620 Operationen an den Vertex-Koordinaten oder anderen Vertex-Attributen durch, die einem Vertex zugeordnet sind. Solche Operationen umfassen gewöhnlich Ausleuchtungsoperationen (d. h. Modifizieren von Farbattributen für einen Vertex) und Transformationsoperationen (d. h. Modifizieren des Koordinatenraums für einen Vertex). Zum Beispiel können Vertices mit Hilfe von Koordinaten in einem Objekt-Koordinatenraum spezifiziert werden, welche durch Multiplikation der Koordinaten mit einer Matrix transformiert werden, die die Koordinaten aus dem Objekt-Koordinatenraum in einen World-Space oder einen NCD-Raum (Raum mit normierten Gerätekoordinaten) übersetzt. Die Vertex-Shading-Stufe 620 erzeugt transformierte Vertexdaten, die an die Primitiv-Aufbaustufe 630 übertragen werden.The vertex shading level 620 Processes vertex data by performing a series of operations (ie, a vertex shader or a program) once for each of the vertices. Vertices can be z. B. as a 4-coordinate vector (ie, <x, y, z, w>) associated with one or more vertex attributes (eg, color, texture coordinates, surface normals, etc.). The vertex shading level 620 can single vertex attributes such. Position, color, texture coordinates, and the like. In other words, the vertex shading level performs 620 Perform operations on the vertex coordinates or other vertex attributes associated with a vertex. Such operations usually include illumination operations (ie, modifying color attributes for a vertex) and transformation operations (ie, modifying coordinate space for a vertex). For example, vertices may be specified using coordinates in an object coordinate space, which are transformed by multiplying the coordinates by a matrix that converts the coordinates from the object coordinate space to a world space or NCD space (space with normalized device coordinates ) translated. The vertex shading level 620 generates transformed vertex data that corresponds to the primitive build level 630 be transmitted.

Die Primitiv-Aufbaustufe 630 sammelt Vertices, die von der Vertex-Shading-Stufe 620 ausgegeben werden, und gruppiert die Vertices zu geometrischen Primitiven für Verarbeitung durch die Geometrie-Shading-Stufe 640. Zum Beispiel kann die Primitiv-Aufbaustufe 630 so konfiguriert sein, dass sie immer drei aufeinanderfolgende Vertices als ein geometrisches Primitiv (d. h. ein Dreieck) für Übertragung an die Geometrie-Shading-Stufe 640 gruppiert. In manchen Ausführungsformen können bestimmte Vertices für aufeinanderfolgende geometrische Primitive wiederverwendet werden (z. B. können zwei aufeinanderfolgende Dreiecke in einem Dreieckstreifen zwei Vertices gemeinsam benutzen). Die Primitiv-Aufbaustufe 630 überträgt geometrische Primitive (d. h. eine Sammlung von zugehörigen Vertices) an die Geometrie-Shading-Stufe 640.The primitive advanced level 630 collects vertices coming from the vertex shading level 620 and groups the vertices into geometric primitives for processing by the geometry shading stage 640 , For example, the primitive build level 630 be configured to always have three consecutive vertices as a geometric primitive (ie, a triangle) for transmission to the geometry shading stage 640 grouped. In some embodiments, certain vertices may be reused for successive geometric primitives (eg, two consecutive triangles in a triangular strip may share two vertices). The primitive advanced level 630 transfers geometric primitives (ie a collection of associated vertices) to the geometry shading stage 640 ,

Die Geometrie-Shading-Stufe 640 verarbeitet geometrische Primitive, indem sie eine Reihe von Operationen (d. h. einen Geometrie-Shader oder ein Programm) an den geometrischen Primitiven ausführt. Tesselierungs-Operationen können aus jedem geometrischen Primitiv ein oder mehrere geometrische Primitive erzeugen. Mit anderen Worten kann die Geometrie-Shading-Stufe 640 jedes geometrische Primitiv in ein feineres Geflecht aus zwei oder mehr geometrischen Primitiven für Verarbeitung durch den Rest der Grafikverarbeitungs-Pipeline 600 unterteilen. Die Geometrie-Shading-Stufe 640 überträgt geometrische Primitive an die Viewport SCC Stufe 650.The geometry shading level 640 processes geometric primitives by performing a series of operations (that is, a geometry shader or a program) on the geometric primitives. Tessellation operations can generate one or more geometric primitives from each geometric primitive. In other words, the geometry shading level 640 each geometric primitive into a finer mesh of two or more geometric primitives for processing by the remainder of the graphics processing pipeline 600 divide. The geometry shading level 640 transfers geometric primitives to the Viewport SCC stage 650 ,

In einer Ausführungsform kann die Grafikverarbeitungs-Pipeline 600 innerhalb eines Streaming-Multiprozessors arbeiten, und die Vertex-Shading-Stufe 620, die Primitiv-Aufbaustufe 630, die Geometrie-Shading-Stufe 640, die Fragment-Shading-Stufe 670 und/oder damit verbundene Hard- bzw. Software können sequentiell Verarbeitungsoperationen durchführen. Sobald die sequentiellen Verarbeitungsoperationen abgeschlossen sind, kann in einer Ausführungsform die Viewport SCC Stufe 650 die Daten verwenden. In einer Ausführungsform können von einer oder mehreren Stufen der Grafikverarbeitungs-Pipeline 600 verarbeitete Primitiv-Daten in einen Cache geschrieben werden (z. B. L1-Cache, einen Vertex-Cache, usw.). In diesem Fall kann die Viewport SCC Stufe 650 in einer Ausführungsform auf die Daten im Cache zugreifen. In einer Ausführungsform sind die Viewport SCC Stufe 650 und die Rasterungsstufe 660 als Schaltungen mit festgelegter Funktion implementiert.In one embodiment, the graphics processing pipeline 600 within a streaming multiprocessor, and the vertex shading level 620 , the primitive advanced level 630 , the geometry shading level 640 , the fragment shading level 670 and / or related hardware may sequentially perform processing operations. Once the sequential processing operations are completed, in one embodiment, the viewport may be SCC stage 650 to use the data. In one embodiment, one or more stages of the graphics processing pipeline 600 processed primitive data is written to a cache (e.g., L1 cache, a vertex cache, etc.). In this case, the Viewport SCC level 650 in one embodiment, accessing the data in the cache. In one embodiment, the viewports are SCC level 650 and the screening level 660 implemented as circuits with a fixed function.

Die Viewport SCC Stufe 650 führt die Skalierung, das Culling und das Clipping der geometrischen Primitive durch. Jeder Oberfläche, die gerendert wird, ist eine abstrakte Kameraposition zugeordnet. Die Kameraposition stellt den Standort eines Betrachters dar, der auf die Szene schaut, und definiert einen Betrachtungsstumpf, der die Objekte der Szene umschließt. Der Betrachtungsstumpf kann eine Betrachtungsebene, eine hintere Ebene und vier Clipping-Ebenen umfassen. Jedes geometrische Primitiv, das sich vollständig außerhalb des Betrachtungsstumpfs befindet, kann einem Culling unterzogen (d. h. verworfen) werden, da das geometrische Primitiv nicht zu der endgültigen gerenderten Szene beiträgt. Irgendein geometrisches Primitiv, das sich teils innerhalb des Betrachtungsstumpfs und teils außerhalb des Betrachtungsstumpfs befindet, kann abgeschnitten werden (d. h. in ein neues geometrisches Primitiv umgewandelt werden, das innerhalb des Betrachtungsstumpfs eingeschlossen ist). Darüber hinaus können geometrische Primitive jeweils auf Basis einer Tiefe des Betrachtungsstumpfs skaliert werden. Alle potentiell sichtbaren geometrischen Primitive werden dann in die Rasterungsstufe 660 übertragen.The Viewport SCC stage 650 performs the scaling, culling and clipping of the geometric primitive. Each surface that is rendered has an abstract camera position associated with it. The camera position represents the location of a viewer looking at the scene and defines a viewing stub that encloses the objects of the scene. The viewing stub may include a viewing plane, a posterior plane, and four clipping planes. Any geometric primitive that is completely out of the view stub can be culled (ie discarded) because the geometric primitive does not contribute to the final rendered scene. Any geometrical primitive that is partly within the viewing stub and partly outside the viewing stub can be truncated (ie, transformed into a new geometric primitive that is included within the viewing stump). In addition, geometric primitives may each be scaled based on a depth of the viewing stub. All potentially visible geometric primitives are then placed in the screening stage 660 transfer.

Die Rasterungsstufe 660 wandelt die geometrischen 3D-Primitive in 2D-Fragmente um (z. B. für Anzeige usw. verwendbar). Die Rasterungsstufe 660 kann so konfiguriert sein, dass sie die Vertices der geometrischen Primitive verwendet, um einen Satz von Ebenengleichungen zu erstellen, aus denen verschiedene Attribute interpoliert werden können. Die Rasterungsstufe 660 kann auch eine Abdeckungsmaske für eine Vielzahl von Pixeln berechnen, die angibt, ob eine oder mehrere Abtast-Positionen für das Pixel das geometrische Primitiv abschneiden. In einer Ausführungsform kann auch Z-Testen durchgeführt werden, um zu bestimmen, ob das geometrische Primitiv von anderen geometrischen Primitiven, die bereits gerastert wurden, verdeckt wird. Die Rasterungsstufe 660 erzeugt Fragmentdaten (d. h. interpolierte Vertex-Attribute, die einer bestimmten Abtast-Position für jedes abgedeckte Pixel zugeordnet sind), die an die Fragment-Shading-Stufe 670 übertragen werden.The screening level 660 converts the geometric 3D primitives into 2D fragments (eg for display etc.). The screening level 660 can be configured to use the geometrical primitive vertices to create a set of plane equations from which various attributes can be interpolated. The screening level 660 may also compute a coverage mask for a plurality of pixels indicating whether one or more scan positions for the pixel are truncating the geometric primitive. In one embodiment, Z-testing may also be performed to determine if the geometric primitive is different from other geometric primitives already rasterized. is covered. The screening level 660 generates fragment data (ie, interpolated vertex attributes associated with a particular sample position for each covered pixel) sent to the fragment shading stage 670 be transmitted.

Die Fragment-Shading-Stufe 670 verarbeitet Fragmentdaten, indem sie eine Reihe von Operationen (z. B. einen Fragment-Shader oder ein Programm) an jedem der Fragmente durchführt. Die Fragment-Shading-Stufe 670 kann Pixeldaten (d. h. Farbwerte) für das Fragment erzeugen, z. B. indem sie Ausleuchtungs-Operationen oder Abtasten von Texturabbildungen unter Verwendung interpolierter Texturkoordinaten für das Fragment durchführt. Die Fragment-Shading-Stufe 670 erzeugt Pixeldaten, die an die Rasteroperationen-Stufe 680 übertragen werden.The fragment shading level 670 Processes fragment data by performing a series of operations (eg, a fragment shader or a program) on each of the fragments. The fragment shading level 670 can generate pixel data (ie, color values) for the fragment, e.g. By performing illumination operations or sampling texture maps using interpolated texture coordinates for the fragment. The fragment shading level 670 generates pixel data that corresponds to the raster operations level 680 be transmitted.

Die Rasteroperationen-Stufe 680 kann verschiedene Operationen an den Pixeldaten durchführen, wie z. B. Alpha-Tests, Schablonentests und Mischen der Pixeldaten mit anderen Pixeldaten, die anderen Fragmenten entsprechen, die dem Pixel zugeordnet sind. Wenn die Rasteroperationen-Stufe 680 die Verarbeitung der Pixeldaten (d. h. der Ausgabedaten 602) abgeschlossen hat, können die Pixeldaten in ein Renderziel wie z. B. einen Bildpuffer, einen Farbpuffer oder dergleichen geschrieben werden.The raster operations level 680 can perform various operations on the pixel data, such as Alpha tests, template tests and blending the pixel data with other pixel data corresponding to other fragments associated with the pixel. When the raster operations level 680 the processing of the pixel data (ie the output data 602 ), the pixel data can be converted to a render target such as A picture buffer, a color buffer or the like.

Man beachte, dass eine oder mehrere zusätzliche Stufen zusätzlich zu oder anstelle einer oder mehreren der oben beschriebenen Stufen in die Grafikverarbeitungs-Pipeline 600 aufgenommen werden können. Verschiedene Implementierungen der abstrakten Grafikverarbeitungs-Pipeline können unterschiedliche Stufen implementieren. Darüber hinaus können in manchen Ausführungsformen eine oder mehrere der oben beschriebenen Stufen (wie z. B. die Geometrie-Shading-Stufe 640) von der Grafikverarbeitungs-Pipeline ausgeschlossen sein. Andere Arten von Grafikverarbeitungs-Pipelines werden als im Schutzumfang der vorliegenden Offenbarung liegend betrachtet. Darüber hinaus kann jede der Stufen der Grafikverarbeitungs-Pipeline 600 von einer oder mehreren dedizierten Hardware-Einheiten innerhalb eines Grafikprozessors wie z. B. der PPU 300 implementiert werden. Andere Stufen der Grafikverarbeitungs-Pipeline 600 können durch programmierbare Hardware-Einheiten wie z. B. den SM 440 der PPU 300 implementiert werden.Note that one or more additional stages in addition to or instead of one or more of the above-described stages in the graphics processing pipeline 600 can be included. Different implementations of the abstract graphics processing pipeline may implement different stages. In addition, in some embodiments, one or more of the above described stages (such as the geometry shading stage 640 ) be excluded from the graphics processing pipeline. Other types of graphics processing pipelines are contemplated as being within the scope of the present disclosure. In addition, each of the stages of the graphics processing pipeline 600 of one or more dedicated hardware units within a graphics processor, such as B. the PPU 300 be implemented. Other stages of the graphics processing pipeline 600 can be controlled by programmable hardware units such. B. the SM 440 the PPU 300 be implemented.

Die Grafikverarbeitungs-Pipeline 600 kann über eine Anwendung implementiert werden, die von einem Host-Prozessor ausgeführt wird, wie z. B. einer CPU. In einer Ausführungsform kann ein Gerätetreiber eine Anwendungsprogrammierschnittstelle (API) implementieren, welche verschiedene Funktionen definiert, die von einer Anwendung genutzt werden können, um grafische Daten für Anzeige zu generieren. Der Gerätetreiber ist ein Softwareprogramm, das eine Vielzahl von Anweisungen enthält, die den Betrieb der PPU 300 steuern. Die API bietet eine Abstraktion für einen Programmierer, die es einem Programmierer ermöglicht, spezielle Grafikhardware wie z. B. die PPU 300 zu verwenden, um die grafischen Daten zu erzeugen, ohne dass der Programmierer den spezifischen Befehlssatz für die PPU 300 verwenden muss. Die Anwendung kann einen API-Aufruf enthalten, der an den Gerätetreiber für die PPU 300 weitergeleitet wird. Der Gerätetreiber interpretiert den API-Aufruf und führt verschiedene Operationen durch, um auf den API-Aufruf zu reagieren. In manchen Fällen kann der Gerätetreiber Operationen durchführen, indem er Anweisungen auf der CPU 501 ausführt. In anderen Fällen kann der Gerätetreiber zumindest teilweise Operationen durchführen, indem er Operationen auf der PPU 300 über eine Eingabe/Ausgabe-Schnittstelle zwischen der CPU und der PPU 300 startet. In einer Ausführungsform ist der Gerätetreiber so konfiguriert, dass er die Grafikverarbeitungs-Pipeline 600 unter Verwendung der Hardware der PPU 300 implementiert.The graphics processing pipeline 600 can be implemented via an application that is executed by a host processor, such as B. a CPU. In one embodiment, a device driver may implement an application programming interface (API) that defines various functions that may be used by an application to generate graphical data for display. The device driver is a software program that contains a variety of instructions that govern the operation of the PPU 300 Taxes. The API provides an abstraction for a programmer that allows a programmer to use specialized graphics hardware, such as a computer programmer. B. the PPU 300 to generate the graphical data without the programmer having the specific instruction set for the PPU 300 must use. The application may include an API call to the device driver for the PPU 300 is forwarded. The device driver interprets the API call and performs various operations to respond to the API call. In some cases, the device driver may perform operations by giving instructions on the CPU 501 performs. In other cases, the device driver may at least partially perform operations by performing operations on the PPU 300 via an input / output interface between the CPU and the PPU 300 starts. In one embodiment, the device driver is configured to open the graphics processing pipeline 600 using the hardware of the PPU 300 implemented.

Innerhalb der PPU 300 können verschiedene Programme ausgeführt werden, um die verschiedenen Stufen der Grafikverarbeitungs-Pipeline 600 zu implementieren. Zum Beispiel kann der Gerätetreiber einen Kernel auf der PPU 300 starten, um die Vertex-Shading-Stufe 620 auf einem SM 440 (oder mehreren SMs 440) durchzuführen. Der Gerätetreiber (oder der von der PPU 400 ausgeführte anfängliche Kernel) kann auch andere Kernel auf der PPU 400 starten, um andere Stufen der Grafikverarbeitungs-Pipeline 600 auszuführen, wie z. B. die Geometrie-Shading-Stufe 640 und die Fragment-Shading-Stufe 670. Darüber hinaus können einige der Stufen der Grafikverarbeitungs-Pipeline 600 auf Festeinheiten-Hardware implementiert werden, wie z. B. einem Rasterer oder einem Datenassembler, der in der PPU 300 implementiert ist. Man beachte, dass Ergebnisse aus einem Kernel von einer oder mehreren dazwischenliegenden Hardware-Einheiten mit fester Funktion verarbeitet werden können, bevor sie von einem nachfolgenden Kernel auf einem SM 440 verarbeitet werden.Within the PPU 300 Different programs can be run to the different stages of the graphics processing pipeline 600 to implement. For example, the device driver may have a kernel on the PPU 300 start at the vertex shading level 620 on a SM 440 (or multiple SMs 440 ). The device driver (or the one from the PPU 400 running initial kernel) may also have other kernels on the PPU 400 start to other stages of the graphics processing pipeline 600 execute, such. For example, the geometry shading stage 640 and the fragment shading level 670 , In addition, some of the stages of the graphics processing pipeline 600 be implemented on fixed-device hardware, such as As a rasterizer or a data assembler, in the PPU 300 is implemented. Note that results from a kernel may be processed by one or more intermediate hard-function hardware units before being taken from a subsequent kernel on an SM 440 are processed.

Maschinelles LernenMachine learning

Tiefe neuronale Netze (DNNs), die auf Prozessoren wie z. B. der PPU 300 entwickelt wurden, hat man für verschiedene Anwendungsfälle eingesetzt, von selbstfahrenden Automobilen bis hin zu schnellerer Medikamentenentwicklung, von automatischer Bilderfassung in Online-Bilddatenbanken bis hin zur intelligenter Echtzeit-Sprachübersetzung in Video-Chat-Anwendungen. Deep Learning ist eine Technik, die den neuronalen Lernprozess des menschlichen Gehirns modelliert, kontinuierlich lernt, kontinuierlich intelligenter wird und im Laufe der Zeit schneller genauere Ergebnisse liefert. Ein Kind wird zunächst von einem Erwachsenen gelehrt, verschiedene Formen richtig zu identifizieren und zu klassifizieren, um schließlich ohne Nachhilfe Formen identifizieren zu können. Ähnlich muss ein System für Deep Learning oder neuronales Lernen in Objekterkennung und -klassifizierung trainiert werden, damit es intelligenter und effizienter wird, grundlegende Objekte, verdeckte Objekte usw. zu identifizieren und den Objekten auch Kontext zuzuweisen.Deep neural networks (DNNs) that rely on processors such as B. the PPU 300 have been developed, have been used for various applications, from self-propelled automobiles to faster Drug development, from automatic image capture in online image databases to intelligent real-time language translation in video chat applications. Deep learning is a technique that models the neuronal learning process of the human brain, continuously learning, becoming smarter, and delivering more accurate results over time. A child is first taught by an adult to correctly identify and classify various forms in order to identify forms without tuition. Similarly, a system for deep learning or neural learning needs to be trained in object recognition and classification to make it more intelligent and efficient to identify basic objects, obscured objects, etc., and also assign context to the objects.

Auf der einfachsten Ebene betrachten Neuronen im menschlichen Gehirn verschiedene Eingaben, die empfangen werden, jedem dieser Inputs werden Wichtigkeitsstufen zugewiesen, und Ausgaben werden an andere Neuronen weitergeleitet, um darauf zu reagieren. Ein künstliches Neuron oder Perzeptron ist das grundlegendste Modell eines neuronalen Netzes. In einem Beispiel kann ein Perzeptron eine oder mehrere Eingaben empfangen, die verschiedene Merkmale eines Objekts repräsentieren, für die das Perzeptron trainiert wird, sie zu erkennen und zu klassifizieren, und jedem dieser Merkmale wird ein bestimmtes Gewicht zugewiesen, das auf der Wichtigkeit dieses Merkmals für die Definition der Form eines Objekts basiert.At the simplest level, neurons in the human brain look at various inputs that are received, each of these inputs is assigned importance levels, and outputs are routed to other neurons to respond. An artificial neuron or perceptron is the most basic model of a neural network. In one example, a perceptron may receive one or more inputs that represent various features of an object for which the perceptron is trained to recognize and classify them, and each of these features is assigned a particular weight based on the importance of that feature to the definition of the shape of an object is based.

Ein DNN-Modell enthält mehrere Schichten vieler verbundener Perzeptronen (z. B. Knoten), die mit enormen Mengen Eingabedaten trainiert werden können, um komplexe Probleme schnell und mit hoher Genauigkeit zu lösen. In einem Beispiel zerlegt eine erste Schicht des DLL-Modells ein Eingabebild eines Automobils in verschiedene Teile und sucht nach Grundmustern wie z. B. Linien und Winkeln. Die zweite Schicht setzt die Linien zusammen, um nach Mustern höherer Ebenen wie z. B. Rädern, Windschutzscheiben und Spiegeln zu suchen. Die nächste Schicht identifiziert den Fahrzeugtyp, und die letzten paar Schichten erzeugen ein Etikett für das Eingabebild, welches das Modell einer bestimmten Fahrzeugmarke identifiziert.A DNN model contains multiple layers of many connected perceptrons (eg, nodes) that can be trained with enormous amounts of input data to solve complex problems quickly and with high accuracy. In one example, a first layer of the DLL model decomposes an input image of an automobile into different parts and looks for basic patterns such as a car. Eg lines and angles. The second layer assembles the lines to look for higher-level patterns, such as, for example. As wheels, windscreens and mirrors to look for. The next layer identifies the vehicle type, and the last few layers create a label for the input image that identifies the model of a particular vehicle brand.

Sobald das DNN trainiert ist, kann das DNN eingesetzt und verwendet werden, um Objekte oder Muster in einem als Schlussfolgerung bekannten Prozess zu identifizieren und zu klassifizieren. Beispiele für eine Schlussfolgerung (den Prozess, durch den ein DNN nützliche Informationen aus einer gegebenen Eingabe extrahiert) umfassen das Identifizieren von handschriftlichen Zahlen auf in Geldautomaten gelegten Schecks, das Identifizieren von Bildern von Freunden auf Fotos, das Liefern von Filmempfehlungen an über fünfzig Millionen Benutzer, das Identifizieren und Klassifizieren von verschiedenen Arten von Automobilen, Fußgängern und Straßengefahren in fahrerlosen Fahrzeugen oder das Übersetzen von menschlicher Sprache in Echtzeit.Once the DNN is trained, the DNN can be used and used to identify and classify objects or patterns in a process known as inference. Examples of inference (the process by which a DNN extracts useful information from a given input) include identifying handwritten numbers on checks placed in ATMs, identifying pictures of friends on photos, providing movie referrals to over fifty million users Identifying and classifying various types of automobiles, pedestrians and road hazards in driverless vehicles or translating human speech in real time.

Während des Trainings fließen die Daten in einer Vorwärtsfortpflanzungssphase durch das DNN, bis eine Vorhersage erzeugt wird, die ein der Eingabe entsprechendes Etikett anzeigt. Wenn das neuronale Netz die Eingabe nicht korrekt etikettiert, werden Fehler zwischen dem korrekten Etikett und dem vorhergesagten Etikett analysiert und werden die Gewichte für jedes Merkmal während einer Rückwärtsfortpflanzungssphase angepasst, bis der DNN die Eingabe und andere Eingaben in einem Trainingsdatensatz korrekt etikettiert. Das Training komplexer neuronaler Netze erfordert enorme Mengen an Parallelrechenleistung, einschließlich Gleitkomma-Multiplikationen und -Additionen, die von der PPU 300 unterstützt werden. Schlussfolgerung ist weniger rechenintensiv als Training, da es sich um einen latenzsensitiven Prozess handelt, bei dem ein trainiertes neuronales Netz auf neue Eingaben angewendet wird, die es vorher nicht gegeben hat, um Bilder zu klassifizieren, Sprache zu übersetzen und allgemein neue Informationen zu schlussfolgern.During training, the data flows through the DNN in a forward propagation phase until a prediction indicative of a label corresponding to the input is generated. If the neural network does not correctly label the input, errors between the correct label and the predicted label are analyzed and the weights for each feature are adjusted during a backward propagation phase until the DNN correctly labels the input and other inputs in a training data set. The training of complex neural networks requires enormous amounts of parallel computing power, including floating-point multiplications and additions, by the PPU 300 get supported. Conclusion is less computationally intensive than training because it is a latency-sensitive process in which a trained neural network is applied to new inputs that previously did not exist to classify images, translate language, and generally derive new information.

Neuronale Netze sind stark auf mathematische Matrix-Operationen angewiesen, und komplexe mehrschichtige Netze erfordern enorme Mengen an Gleitkommaleistung und Bandbreite für Effizienz und Geschwindigkeit. Mit Tausenden von Verarbeitungs-Rechenkernen, die für mathematische Matrix-Operationen optimiert sind und mehrere zehn bis Hunderte TFLOPS Leistung liefern, ist die PPU 300 eine Computerplattform, die in der Lage ist, die für tiefe neuronale netzbasierte künstliche Intelligenz und Anwendungen für maschinelles Lernen erforderliche Leistung zu liefern. des WarpNeural networks rely heavily on mathematical matrix operations, and complex multi-layered networks require massive amounts of floating point performance and bandwidth for efficiency and speed. With thousands of processing cores optimized for mathematical matrix operations and delivering tens to hundreds of TFLOPS of power, the PPU is 300 a computer platform capable of delivering the performance required for deep neural network-based artificial intelligence and machine learning applications. of the warp

ZITATE ENTHALTEN IN DER BESCHREIBUNG QUOTES INCLUDE IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant has been generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte Nicht-PatentliteraturCited non-patent literature

T.R.N. Rao & E. Fujiwara, Prentice Hall Series in Computer Engineering, Professor Edward J. McCluskey Series Editor, 1989 [0050]

Claims

Method, comprising: Accessing a code generated for data using error correction code (ECC) logic, wherein the code is stored in a first memory and the data is stored in a second memory; Detecting an error in the code caused by an error in the ECC logic; Determining if the error in the code is correctable; in response to determining that the error in the code is correctable: Correct the error in the code to form a corrected code, retrieve the data from the second memory, and Verifying the retrieved data using the corrected code.

Method according to Claim 1 where the ECC logic includes an encoder and a decoder.

Method according to Claim 2 where the error in the code is caused by an error in the encoder.

Method according to Claim 2 where the error in the code is caused by an error in the decoder.

A method according to any one of the preceding claims, wherein the code is generated to provide redundancy to the data.

Method according to one of the preceding claims, wherein the code is one of the following: single error detection (SED), single error correcting (SEC) or single error correcting and double error detecting (SEC-DED).

A method according to any one of the preceding claims, wherein the error in the ECC logic is a single stall problem.

The method of any preceding claim, wherein the ECC logic is SEC and an encoder of the ECC logic is constrained to avoid any sharing of common sub-expressions for check bit outputs forming the code.

Method according to Claim 8 in which, if the error is caused in the code by the encoder, the error will damage at most a single one of the check bit outputs, which is correctable by a decoder of the ECC logic.

The method of any preceding claim, wherein the ECC logic is SEC-DED and an encoder of the ECC logic is constrained to avoid sharing more than two common sub-expressions for check bit outputs forming the code.

Method according to Claim 10 in which, if the error is caused by the encoder in the code, the error will damage at most two of the check bit outputs which are either: correctable by a decoder of the ECC logic or decoded by the decoder of the ECC logic as being uncorrectable ,

The method of any preceding claim, wherein the ECC logic is SEC and a decoder of the ECC logic is constrained to avoid any sharing of common sub-expressions for bit outputs of the decoder.

Method according to Claim 12 in which, if the error is caused in the code by the decoder, the error will damage at most a single one of the bit outputs which is correctable by the decoder of the ECC logic.

The method of any preceding claim, wherein the ECC logic is SEC-DED and a decoder of the ECC logic is constrained to avoid sharing more than two common sub-expressions for bit outputs of the decoder.

Method according to Claim 14 where, if the error is caused by the encoder in the code, the error will damage at most two of the bit outputs, either: can be corrected by the decoder of the ECC logic, or decoded by the decoder of the ECC logic as non-correctable.

The method of any one of the preceding claims, wherein an algorithm used by the ECC logic is configured to select least odd-weight columns to minimize sharing of common sub-expressions in the ECC logic.

The method of any preceding claim, further comprising: in response to determining that the error in the code is uncorrectable, indicating that the error in the code is uncorrectable.

System comprising: an error correction code (ECC) circuit for: Accessing a code generated for data using the ECC circuit, the code being stored in a first memory and the data being stored in a second memory; Detecting an error in the code caused by an error in the ECC circuit; Determining if the error in the code is correctable; in response to determining that the error in the code is correctable: Correct the error in the code to form a corrected code Retrieve the data from the second memory, and Verifying the retrieved data using the corrected code.

System after Claim 18 wherein the ECC circuit includes an encoder and a decoder.

System after Claim 19 wherein the ECC circuit is SEC and the encoder of the ECC circuit is restricted to avoid any sharing of common sub-expressions for check bit outputs forming the code, or the ECC circuit is SEC-DED and the encoder the ECC circuit is limited to avoid sharing more than two common sub-expressions for check bit outputs that make up the code.

System after Claim 19 wherein the ECC circuit is SEC and the decoder of the ECC circuit is restricted to avoid any sharing of common sub-expressions for bit outputs of the decoder, or the ECC circuit is SEC-DED and the decoder is the ECC circuit is limited to avoid sharing more than two common sub-expressions for bit outputs of the decoder.

System according to one of Claims 18 to 21 wherein the ECC circuit further: in response to determining that the error is uncorrectable in the code, indicates that the error in the code is uncorrectable.

System according to one of Claims 18 to 22 , which is further configured to perform a procedure according to one of Claims 1 to 17 can perform.

Automotive system for autonomous or semi-autonomous vehicles, comprising: a memory that stores: deep neural networks for a variety of functions of the motor vehicle system, and Data used by the deep neural networks; and an error correction code (ECC) circuit for: Accessing a code generated for data using the ECC circuit, wherein the code is stored in a first part of the memory and the data is stored in a second part of the memory; Detecting an error in the code caused by an error in the ECC circuit; Determining if the error in the code is correctable; in response to determining that the error in the code is correctable: Correct the error in the code to form a corrected code, retrieve the data from the second part of the memory, and Verifying the retrieved data using the corrected code.

Motor vehicle system according to Claim 24 wherein the ECC circuit includes an encoder and a decoder.

Motor vehicle system according to Claim 25 wherein the ECC circuit is SEC and the encoder of the ECC circuit is restricted to avoid any sharing of common sub-expressions for check bit outputs forming the code, or the ECC circuit is SEC-DED and the encoder the ECC circuit is limited to avoid sharing more than two common sub-expressions for check bit outputs that make up the code.

Motor vehicle system according to Claim 25 wherein the ECC circuit is SEC and the decoder of the ECC circuit is restricted to avoid any sharing of common sub-expressions for bit outputs of the decoder, or the ECC circuit is SEC-DED and the decoder is the ECC circuit is limited to avoid sharing more than two common sub-expressions for bit outputs of the decoder.

Motor vehicle system according to one of Claims 24 to 27 where the ECC circuit serves as a safety mechanism in accordance with an ISO 26262 Automotive Safety Integrity Level (ASIL) safety metric.

Motor vehicle system according to one of Claims 24 to 28 wherein the ECC circuit further: in response to determining that the error is uncorrectable in the code, indicates that the error in the code is uncorrectable.