DE102020204840A1

DE102020204840A1 - Prozessierung von Mehrkanal-Bilddaten einer Bildaufnahmevorrichtung durch einen Bilddatenprozessor

Info

Publication number: DE102020204840A1
Application number: DE102020204840.1A
Authority: DE
Inventors: Mario Rometsch; Tobias Bund; Robert Thiel
Original assignee: Conti Temic Microelectronic GmbH
Current assignee: Continental Autonomous Mobility Germany GmbH
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2021-10-21

Abstract

Die Erfindung betrifft ein Verfahren und eine Bildauswertungsvorrichtung (10) zur Prozessierung von Bilddaten einer Bildaufnahmevorrichtung (1) durch einen Bilddatenprozessor (14) mit einem künstlichen Neuronalen Netzwerk (16), beispielsweise in einem kamerabasierten ADAS/AD-System für ein Fahrzeug.Die Bilddaten sind in mehrere Kanäle kodiert bzw. aufgeteilt. Ein erster Kanal (Y) weist eine höhere Auflösung in Form von größerer Höhe und/oder Breite an Pixeln als ein zweiter Kanal (U;V) auf. Die Pixel des ersten Kanals (Y) können durch m*n Teilbilder vollständig abgedeckt werden, wobei m und n natürliche Zahlen sind, für die m+n größer gleich 3 gilt. Hierbei weist jedes Teilbild die Höhe und Breite der Pixel des zweiten Kanals (U;V) auf. Das Verfahren umfasst die Schritte:a) Empfangen eines in mehreren Kanälen kodierten Eingangsbilds einer Bildaufnahmevorrichtung (1)b) Partitionierung (Pa) des ersten Kanals (Y) des Eingangsbilds in m*n Partitionen (Y_1, Y_2, ..., Y_m*n), wobei innerhalb jeder Partition die räumliche Beziehung der enthaltenen Pixel aufrechterhalten wird, undc) Ausgeben der m*n Partitionen des ersten Kanals (Y) und der Bilddaten des zweiten Kanals (U;V) an den Bilddatenprozessor (14) mit dem künstlichen neuronalen Netzwerk (16), damit das künstliche Neuronale Netzwerk (16) die Bilddaten auswerten kann.Das Verfahren ermöglicht eine effiziente Prozessierung der vollständigen Bilddaten mit wenigen Rechenzyklen.

Description

Die Erfindung betrifft ein Verfahren und eine Bildauswertungsvorrichtung zur Prozessierung von Bilddaten einer Bildaufnahmevorrichtung durch einen Bilddatenprozessor mit einem künstlichen Neuronalen Netzwerk, beispielsweise in einem kamerabasierten ADAS/AD-System für ein Fahrzeug.
CNN-basierte Technologien werden immer häufiger in kamerabasierten Fahrerassistenzsystemen verwendet, um die Straßenteilnehmer und die Szene besser zu erkennen, klassifizieren und zumindest teilweise verstehen zu können. Die neuronalen Netze haben dabei eindeutige Vorteile gegenüber klassischen Methoden, die eher handgefertigte Merkmale (Histogram of oriented Gradients, Local Binary Patterns, Gabor Filter usw.) mit angelernten Klassifikatoren wie Support Vector Machines oder AdaBoost verwenden. Bei (mehrstufigen) CNNs (Convolutional neural networks) wird die Merkmalextraktion algorithmisch durch maschinelles (tiefes) Lernen erzielt und dadurch wird die Dimensionalität und Tiefe des Merkmalsraum deutlich erhöht, was letztendlich zu einer deutlich besseren Performance z.B. in Form einer erhöhten Erkennungsrate führt.
EP 3309707 A1 zeigt eine gradientenbasierte Objekterkennung eines Eingangsbilds. Anhand der Orientierung von Gradienten in einem Eingangsbild können positive und negative Merkmalskarten generiert werden. Durch maschinelles Lernen (machine learning) können positive und negative Merkmalskarten zu einer Objektkarte kombiniert werden.
J. Redmon et al. zeigen in YOLO9000: Better, Faster, Stronger, 2016, arXiv:1612.08242 [cs.CV] einen verbesserten YOLO (You only look once) - Algorithmus für ein Echtzeit-Objekterkennungssystem, das 9000 Objektkategorien aus vollständigen Einzelbildern erkennen kann.
Die Auflösung von Fahrzeugkameras steigt stetig an, was jedoch zu hohen Datenvolumina führt, die zunächst übertragen und schließlich ausgewertet werden müssen.
EP 3442235 A1 zeigt eine Komprimierung von Farbbilddaten mit einer 12bit-Auflösung der einzelnen Pixel. Die Farbbilddaten können beispielsweise in einem YUV Format vorliegen.
Eine Aufgabe besteht darin, ein optimiertes Verfahren zur Prozessierung von Bilddaten anzugeben.
Ein Gegenstand der Erfindung betrifft ein Verfahren zur Prozessierung von Bilddaten einer Bildaufnahmevorrichtung auf einem Bilddatenprozessor mit einem (vortrainierten) künstlichen neuronalen Netzwerk. Das neuronale Netzwerk kann insbesondere ein CNN (auf Deutsch etwa faltungsbasiertes neuronales Netzwerk) oder ein anderes tiefes künstliches neuronales Netzwerk sein. Die Bilddaten sind in mehrere Kanäle kodiert bzw. aufgeteilt. Ein erster Kanal weist eine höhere Auflösung in Form von größerer Breite und/oder Höhe an Pixeln als ein zweiter Kanal auf. Die Pixel des ersten Kanals können durch n*m Teilbilder vollständig abgedeckt werden, wobei m und n natürliche Zahlen sind, für die m+n größer gleich 3 gilt. Hierbei weist jedes Teilbild die Höhe und Breite der Pixel des zweiten Kanals auf. Das Verfahren umfasst die Schritte:

a) Empfangen eines in mehreren Kanälen kodierten Eingangsbilds einer Bildaufnahmevorrichtung
b) Partitionierung des ersten Kanals des Eingangsbilds in m*n Partitionen, wobei innerhalb jeder Partition die räumliche Beziehung der enthaltenen Pixel aufrechterhalten wird, und
c) Ausgeben der m*n Partitionen des ersten Kanals und der (typischerweise unveränderten) Bilddaten des zweiten Kanals an den Bilddatenprozessor mit dem künstlichen neuronalen Netzwerk, damit das künstliche neuronale Netzwerk die Bilddaten auswerten kann.

Neben dem ersten und zweiten Kanal kann es weitere Kanäle geben, deren Auflösung der des ersten oder des zweiten Kanals entspricht oder deren Breite (oder Höhe) zwischen Breite (oder Höhe) des ersten und Breite (oder Höhe) des zweiten Kanals liegt. Für derartige „Zwischengrößen“ kann das vorgeschlagene Vorgehen in äquivalenter Weise angewendet werden. Hierauf wird vorliegend nicht näher eingegangen.
Das Verfahren ermöglicht eine effiziente Prozessierung der vollständigen Bilddaten mit wenigen Rechenzyklen. Das Verfahren kann beispielsweise dazu dienen, um aus einem Eingangsbild einer Fahrzeugkamera ADAS/AD relevante Informationen zu detektieren bzw. näher zu bestimmen. Relevante Informationen sind z.B. Objekte und/oder Umgebungsinformationen für ein ADAS/AD-System bzw. ein ADAS/AD-Steuergerät. ADAS steht für fortschrittliche Systeme zum assistierten Fahren und AD steht für automatisiertes Fahren (Englisch: Advanced Driver Assistance Systems bzw. Automated Driving). ADAS/AD-relevante Objekte und/oder Umgebungsinformationen sind z.B. Gegenstände, Markierungen, Verkehrsschilder oder Verkehrsteilnehmer, die für ADAS/AD-Systeme wichtige Eingangsgrößen darstellen. Beispiele für Funktionen zur Detektion relevanter Informationen sind eine Fahrspurerkennung, eine Objekterkennung, eine Tiefenerkennung (3D-Schätzung der Bildbestandteile), semantische Erkennung, Verkehrszeichenerkennung oder dergleichen mehr.
Eine Ausführungsform sieht vor, dass die Partitionen definiert sind durch jeweils eine von den anderen Partitionen unterschiedliche Startadresse eines Pixels aus einer Pixeladresse (1,1) bis (m,n) des ersten Kanals des Eingangsbilds und einer einheitlichen Schrittgröße (einem Pixelintervall, Englisch: „stride“) auf dem ersten Kanal des Eingangsbilds, welches in vertikaler Richtung m und in horizontaler Richtung n Pixel beträgt.
Gemäß einer Ausführungsform umfasst der Bilddatenprozessor der Bildauswertungsvorrichtung einen Hardware-Beschleuniger für das künstliche neuronale Netzwerk, der ein Auslesen der Partitionen durch eine Vorgabe von unterschiedlichen Startadressen und der Schrittgröße auf dem ersten Kanal des Eingangsbilds vorsieht bzw. beschleunigt. Gemeint ist, dass es genügt, dem Hardware-Beschleuniger die Startadressen und die Schrittgröße vorzugeben und dieser dann den ersten Kanal des Eingangsbilds direkt in die Mehrzahl von Partitionen ausliest. Dieses direkte Auslesen in Form von Partitionen ist von Vorteil, da sonst die Partitionen erst durch Kopieren erzeugt werden müssten, was wiederum mehr Overhead in der Berechnung bedeutet und die Effizienz des Ansatzes senkt.
In einer Ausführungsform umfasst der Bilddatenprozessor einen Hardware-Beschleuniger für das künstliche Neuronale Netzwerk, der einen Stapel (Englisch: stack) von mehreren Bildkanaldaten-„Paketen“ (Partitionen eines Kanals mit höherer Auflösung oder vollständige Daten eines Kanals mit geringerer Auflösung) während eines Taktzyklus bzw. Rechenzyklus (Englisch: clock cycle) weiterverarbeiten kann. Die Partitionen und die Daten des (oder der) zweiten Bildkanals (oder Bildkanäle) werden als gestapelte Bildkanaldatenpakete am Hardware-Beschleuniger eingespeist. Abhängig von der Anzahl an Bildkanaldaten (Stapelgröße), die der Hardware-Beschleuniger pro Clock-Cycle weiterverarbeiten kann, können alle Pakete zusammen gestapelt werden (ein Stapel) oder auf eine möglichst geringe Anzahl mehrerer Stapel aufgeteilt werden.
Bei einer Ausführungsform ist es vorgesehen, dass der Hardware-Beschleuniger die Eingangsbilddaten direkt in Bildkanaldatenpakte ausliest bzw. abtastet und diese anschließend als Stapel für das künstliche neuronale Netzwerk weiterverarbeitet.
In einer Ausführungsform weisen die Eingangsbilddaten einen ersten Kanal einer n-fachen Breite der Breite mindestens eines zweiten Kanals und einer m-fachen Höhe der Höhe (mindestens) eines zweiten Kanals auf. Die Breite und/oder Höhe des ersten Kanals entspricht also einem ganzzahligen Vielfachen derjenigen des zweiten Kanals. Im einfachsten Fall ist der erste Kanal doppelt so hoch und/oder breit wie der zweite Kanal.
Eine Ausführungsform sieht vor, dass der erste Kanal Helligkeitsinformation und (mindestens) ein zweiter Kanal Farbinformationen zum Inhalt hat bzw. beinhaltet.
Nach einem Ausführungsbeispiel liegen die Bilddaten des Eingangsbilds in einem YUV-Format vor, wobei der erste Kanal der Y-Kanal (Luminanz) ist mit Helligkeitsinformationen in höherer Auflösung und zwei zweite Kanäle (der U- und der V-Kanal, Chrominanz) Farbinformationen zum Inhalt haben. U- und V-Kanal haben typischerweise dieselbe Auflösung.
Gemäß einer anderen Ausführungsform trägt bzw. beinhaltet der erste Kanal Helligkeitsinformationen und (mindestens) ein zweiter Kanal Tiefeninformationen. Tiefeninformationen meint hierbei Abstandsinformationen, die beispielsweise bei einer Stereokamera für Bildinhalte mittels Triangulation bestimmt werden können. Mit Abstand ist der Abstand der Bildaufnahmevorrichtung zu Objekten gemeint. Die Bildaufnahmevorrichtung kann in diesem Fall eine 3D-Kamera oder auch ein hochauflösender Lidar-Sensor oder Laserscanner sein, der eine Vielzahl von Pixeln aufweist und räumliche Entfernungen für einzelne Pixel oder eine Gruppe benachbarter Pixel misst.
In einer Ausführungsform ist m gleich n und m = 2^s (s ist eine natürliche Zahl). D.h. die Höhe und Breite des ersten Kanals entspricht einer ganzzahligen Zweierpotenz der Höhe und Breite des zweiten Kanals.
Ein weiterer Aspekt der Erfindung betrifft eine Bildauswertungsvorrichtung, die zur Prozessierung von Bilddaten einer Bildaufnahmevorrichtung konfiguriert ist. Die Bildauswertungsvorrichtung umfasst eine Eingangsschnittstelle, einen Bilddatenprozessor mit einem künstlichen neuronalen Netzwerk und eine Ausgabeschnittstelle. Die Eingangsschnittstelle ist dazu konfiguriert, Bilddaten der Bildaufnahmevorrichtung zu empfangen. Die Bilddaten sind in mehrere Kanäle kodiert, wobei ein erster Kanal eine höhere Auflösung in Form von größerer Breite und/oder Höhe an Pixeln als ein zweiter Kanal aufweist. Hierbei werden die Pixel des ersten Kanals durch n*m Teilbilder vollständig abgedeckt, wobei m und n natürliche Zahlen sind, für die m+n größer oder gleich 3 gilt. Jedes Teilbild weist die Höhe und Breite der Pixel des zweiten Kanals auf.
Der Bilddatenprozessor ist dazu konfiguriert, die von der Eingangsschnittstelle empfangenen Bilddaten des ersten Kanals in m*n Partitionen zu partitionieren. Innerhalb jeder Partition wird die räumliche Beziehung der enthaltenen Pixel aufrechterhalten. Die Bilddaten der Partitionen des ersten Kanals und die (unveränderten) Bilddaten des zweiten Kanals werden an das künstliche neuronale Netzwerk übermittelt. Das künstliche neuronale Netzwerk ist dazu konfiguriert, die übermittelten Bilddaten auszuwerten. Dazu wurde das künstliche neuronale Netzwerk im Vorfeld mit einem Verfahren des maschinellen Lernens trainiert. Das vortrainierte künstliche neuronale Netzwerk kann somit die erhaltenen Bilddaten effizient, d.h. innerhalb weniger Taktzyklen bzw. mit einem geringen Rechenzeitaufwand auswerten. Die Bildauswertungsvorrichtung kann dazu verwendet werden, um ADAS/AD-relevante Informationen aus dem Eingangsbild einer Fahrzeugkamera zu detektieren bzw. zu bestimmen.
Im Folgenden werden Ausführungsbeispiele und Figuren beschrieben. Dabei zeigen:

1 eine schematische Darstellung einer Vorrichtung, die zur Prozessierung von Bilddaten einer Kamera auf einer prozessierenden Einheit konfiguriert ist;
2 ein Ablaufdiagramm eines Verfahrens zur Prozessierung von YUV kodierten Bilddaten;
3 eine Darstellung einer ersten Partitionierung eines ersten Kanals eines Eingangsbilds in vier Partitionen Y_I, ..., Y_IV; und
4 eine Darstellung einer zweiten Partitionierung eines ersten Kanals eines Eingangsbilds in vier Partitionen Y1, ..., Y4.

1 zeigt schematisch eine Bildauswertungsvorrichtung 10, die mit einer Bildaufnahmevorrichtung 1 und einer ADAS/AD-Steuereinheit 20 elektrisch verbunden ist. Die Bildaufnahmevorrichtung 1 kann eine Frontkamera eines Fahrzeugs sein. Die Frontkamera dient als Umfeldsensor der Erfassung der Umgebung, die vor dem Fahrzeug liegt. Basierend auf den Signalen bzw. Bilddaten der Frontkamera können mehrere ADAS- oder AD-Funktionen durch die ADAS/AD-Steuereinheit 20 bereitgestellt werden, z.B. eine Fahrspurerkennung, Spurhalteunterstützung, Verkehrszeichenerkennung, Tempolimit-Assistenz, Verkehrsteilnehmererkennung, Kollisionswarnung, Notbremsassistenz, Abstandsfolgeregelung, Baustellenassistenz, ein Autobahnpilot, eine Cruising-Chauffeurfunktion und/oder ein Autopilot.
Die Bildaufnahmevorrichtung 1 umfasst eine Optik bzw. ein Objektiv und einen Bildaufnahmesensor, z.B. einen CMOS-Sensor.
Die vom Bildaufnahmesensor 1 erfassten Bilddaten bzw. -signale werden an eine Eingangsschnittstelle 12 der Bildauswertungsvorrichtung 10 übertragen. Die Bilddaten werden in der Bildauswertungsvorrichtung 10 von einem Bilddatenprozessor 14 prozessiert. Der Bilddatenprozessor 14 umfasst ein künstliches neuronales Netzwerk 16, beispielsweise ein CNN. Damit das künstliche neuronale Netzwerk 16 die Bilddaten beispielsweise auf einem Kamerasteuergerät in einem Fahrzeug in Echtzeit prozessieren kann, kann die Bildauswertungsvorrichtung 10 oder der Bilddatenprozessor 14 einen Hardwarebeschleuniger für das künstliche neuronale Netzwerk 16 umfassen. Derartige Hardwarebausteine können das im Wesentlichen softwareimplementierte neuronale Netzwerk 16 dediziert beschleunigen, so dass ein Echtzeitbetrieb des neuronalen Netzwerks 16 möglich ist. Die Bildauswertungsvorrichtung 10 kann einen Bildsignalvorverabeitungsprozessor (ISP, Image Signaling Processor) umfassen. Aufgabe des Bildsignalvorverarbeitungsprozessors ist die Aufbereitung (Preprocessing) von Rohsignalen der Bildaufnahmevorrichtung 1, z.B. in Form von De-mosaicking, Tone Mapping und/oder Entrauschen.
Der Bilddatenprozessor 14 kann die Bilddaten in einem „gestapelten“ Format verarbeiten, ist also in der Lage einen Stapel (Stack) von mehreren Eingangskanälen innerhalb eines Rechenzyklus (clock cycle) einzulesen und zu verarbeiten. In einem konkreten Beispiel ist es einem Bilddatenprozessor 14 möglich, vier Bildkanäle einer Auflösung von 576 x 320 Pixeln einzulesen.
Eine Herausforderung stellen Bilddaten dar, die in einem mehrkanaligen Format, beispielsweise einem YUV-Format mit unterschiedlichen Auflösungen kodiert vorliegen. Diese können nicht ohne Weiteres in Echtzeit verarbeitet werden oder die Verarbeitung ist ineffizient und benötigt enorm viele Ressourcen oder es wird bei der Verarbeitung Auflösung verschenkt. Falls die Bilddaten von der Bildaufnahmevorrichtung 1 in einem YUV Format bereitgestellt werden, in dem der Luminanzkkanal Y (als erster Kanal) eine Auflösung von 1156 x 640 Pixeln und die beiden Chrominanzkanäle U und V (als zweiter und dritter Kanal) jeweils eine Auflösung von 576 x 320 haben, stellt sich die Frage, wie diese Daten möglichst effizient vom Bilddatenprozessor 14 verarbeitet werden können. Ein Ansatz ist das geschickte Auslesen der YUV-Eingangsdaten. Der höher aufgelöste Y-Kanal kann hierbei in einer Weise „abgetastet“ werden, z.B. durch die Vorgabe von unterschiedlichen Startadressen und Schrittgrößen, dass bereits beim Auslesen der Eingangsdaten geeignete Partitionen Y_1, Y_2, ..., Y_m*n implizit erstellt werden. Verschiedene Varianten hierzu werden nachfolgend näher erläutert, insbesondere im Zusammenhang mit der Beschreibung der 3 und 4. Das Auslesen bzw. Abtasten findet typischerweise im (Haupt-) Bilddatenprozessor 14 statt. Vorteilhaft kann der Bilddatenprozessor 14 einen Hardware-Beschleuniger für das künstliche Neuronale Netzwerk 16 umfassen, der ein Auslesen der Partitionen Y_1, Y_2, ..., Y_m*n durch eine Vorgabe von unterschiedlichen Startadressen und der Schrittgröße auf dem Y-Kanal des Eingangsbilds vorsieht.
Durch eine Auswertung der Bilddaten können vom Bilddatenprozessor 14 mittels des künstlichen neuronalen Netzwerks 16 beispielsweise relevante Objekte detektiert und Ihre Lage in Bezug auf das Fahrzeug modelliert werden. Detektierte ADAS-relevante Objekte und Umgebungsinformationen können über eine Ausgabeschnittstelle 18 an eine ADAS/AD-Steuereinheit 20 ausgegeben werden. Die Bildauswertungsvorrichtung 10 kann eine eigenständige Recheneinheit, beispielsweise in Form einer zentralen Recheneinheit in einem Fahrzeug sein. Dadurch ist die Bildaufnahmevorrichtung 1 kompakt realisierbar und thermisch entkoppelbar von der Bildauswertungsvorrichtung 10. Die Bildauswertungsvorrichtung 10 kann auf einem SoC (System on Chip) implementiert sein.
Alternativ zu der in 1 dargestellten modularen Architektur, bei der die Bildauswertungsvorrichtung 10 ein eigenständiges Modul darstellt, kann die Bildauswertungsvorrichtung 10 in ein Gehäuse einer Bildaufnahmevorrichtung 1 integriert sein. Diese Kamera mit integrierter Bildauswertung kann als intelligente Kamera oder Smart-Kamera bezeichnet werden. Eine derartige „One-Box“ Lösung bietet den Vorteil, dass die Kamera insgesamt kompakt und mit kurzen Übertragungswegen innerhalb eines Gehäuses realisierbar ist.
2 zeigt ein Ablaufdiagramm eines Verfahrens zur Prozessierung von YUV kodierten Bilddaten.
Der erste Schritt S1 betrifft das Empfangen von mehrkanaligen Bilddaten von einer Bildaufnahmevorrichtung 1 seitens einer Eingangsschnittstelle 12 einer Bildauswertungsvorrichtung 10.
Im zweiten Schritt S2 werden m und n festgelegt. Diese ergeben sich aus dem Verhältnis von Höhe und Breite der Pixel des ersten Kanals Y zu Höhe und Breite der Pixel des weiteren Kanals bzw. der weiteren Kanäle U,V. Als einfaches Beispiel sei m = 2 und n = 2 festgelegt.
Beim dritten Schritt S3 werden auf der Grundlage von m und n Startadressen y₁₁ bis y_mn und Schrittgrößen Sv = m und Sh = n für die zu bildenden Partitionen Y_1, Y_2, ..., Y_(m*n) definiert.
Im vierten Schritt S4 werden die Partitionen des Y-Kanals aus den Eingangsdaten des Y-Kanals anhand der definierten Startadressen y₁₁ bis y_mn und Schrittgrößen Sv und Sh ausgelesen (S4).
Im fünften Schritt S5 werden die Partitionen des Y-Kanals und die unveränderten Daten des U- und das V-Kanals in Stapel (Stacks) aufgeteilt. Dies kann als Ausgeben der Bilddaten der Partitionen Y_1, Y2, ..., Y_(m*n) des ersten Kanals und der Bilddaten des zweiten Kanals an den Bilddatenprozessor 14 bezeichnet werden. Bietet ein CNN Beschleuniger beispielsweise die Möglichkeit vier Stapel von der Dimension des U-Kanals während eines Rechenzyklus zu verarbeiten, können die vier Partitionen des Y-Kanals für den ersten Rechenzyklus gestapelt werden. Für den zweiten Rechenzyklus können die Daten des U- und des V-Kanals ebenfalls gestapelt werden.
Im sechsten Schritt S6 werden die Stapel durch den CNN Beschleuniger eingelesen.
Die Schritte S4 bis S6 können in einem Vorgang erfolgen: ein CNN-Beschleuniger tastet das Eingangsbild ab, bildet dabei die Partitionen des Y-Kanals, und stellt diese sowie die Daten der UV-Kanäle für das CNN bereit.
Anschließend werden die eingelesenen Stapel im siebten Schritt S7 durch das CNN (bzw. künstliche neuronale Netzwerk 16) des Bilddatenprozessors 14 prozessiert.
Der achte Schritt S8 besteht im Ausgeben des Ergebnisses der Prozessierung an ein ADAS/AD-Steuergerät 20 über eine Ausgabeschnittstelle 18 der Bildauswertungsvorrichtung 10.
Aktuell einsetzbare Beschleuniger für künstliche neuronale Netzwerke nutzen ihre volle Rechenleistung, indem ein Stapel von Kanälen auf einmal (während eines Taktzyklus) prozessiert wird. Als ein Beispiel prozessiert ein kommerziell erhältliches System vier Eingangskanäle innerhalb von einem Taktzyklus.
YUV enkodierte Eingangs-Kamerabilddaten können eine höhere Auflösung des Y-Kanals (Luminanz) gegenüber den beiden niedriger aufgelösten U- und V-Kanälen (Chrominanz) aufweisen, z.B. eine doppelte Breite und Höhe der Pixel.
Das macht es ziemlich ineffizient einen Y-Kanal mit höherer Auflösung gemeinsam mit den U- und V-Kanälen in separaten Schichten zu prozessieren. Auf der anderen Seite machen es die Unterschiede in den Auflösungen der Kanäle unmöglich, diese als einen Eingang zu stapeln.
Es existieren drei Ansätze, wie man solche Mehrkanal-Bilddaten mit unterschiedlicher Auflösung weiterverarbeiten kann:

a) man kann den Y-Kanal herunterskalieren
b) man kann die UV-Kanäle hochskalieren
c) man kann den Y-Kanal aufsplitten in mehrere, zum Beispiel in vier Bilder mit reduzierter Breite und Höhe.

Der Rechenaufwand in Zahlen von MAC Operationen (Multiply-accumulate, also der Multiplikation zweier Faktoren und anschließender Addition des Produkts zu einem Akkumulator, d.h. zu einer fortlaufenden Summe) für eine konventionelle Konvolutionsschicht (convolutional layer) bei einem kommerziell erhältlichen System (Renesas R-Car V3M/V3H) ist definiert als $M A C - 4 [\frac{c h_{i n}}{1}] \cdot w i d t h \cdot h e i g h t \cdot k^{2} \cdot c h_{o u t}$
wobei k die Kernelgröße angibt, die bei dem erhältlichen System bei k = 5 fixiert ist. ch_in ist die Anzahl der Eingangskanäle, width ist die Breite, height die Höhe des Bildes und ch_out die Anzahl der Filter bzw. Ausgangskanäle.
Für Variante a) beträgt der Rechenaufwand $M A C_{a} = 4 \cdot w i d t h_{u v} \cdot h e i g h t_{u v} \cdot k^{2} \cdot c h_{o u t}$
wobei width_uv und height_uv die Breite und Höhe des U-Kanals sind (die jeweils identisch ist mit der des V-Kanals ist). Der Nachteil von Variante a) ist ein Verlust an Genauigkeit aufgrund der geringen Auflösung des Y-Kanals.
Für Variante b) ergibt sich dagegen ein unnötig hoher Rechenaufwand $\begin{array}{l} M A C_{b} - 4 \cdot w i d t h_{y} \cdot h e i g h t_{y} \cdot k^{2} \cdot c h_{o u t} \\ = 4 \cdot 2 \cdot w i d t h_{u v} \cdot 2 \cdot h e i g h t_{u v} \cdot k^{2} \cdot c h_{o u t} = 4 \cdot M A C_{a} \end{array}$
da die Höhe und Breite des Y-Kanals jeweils das Doppelte der des U-Kanals (oder des V-Kanals) betragen.
Ein Beispiel für Variante c) ist in 3 gezeigt. Der Y-Eingangskanal weist p*q Pixel auf (z.B. p = 640 als Höhe height und q = 1152 als Breite width). Die Pixel der ersten Zeilen können als y₁₁ , y₁₂ , y₁₃ , ..., y_1q adressiert werden. Die Pixel der ersten Spalte als y₁₁ , y₂₁ , y₃₁ , ..., y_p1 . Dann ist y_pq der letzte Pixel. In 3 sind die Pixel folgendermaßen symbolisiert: y₁₁ als x, y₁₂ als o, y₂₁ als □ und y₂₂ als Δ. Die Eingangskanäle U und V sind in 3 (wie auch in 4) nicht dargestellt. Der V-Kanal hat dieselbe Höhe und Breite wie der U-Kanal, nämlich jeweils die Hälfte der Höhe und die Hälfte der Breite des Y-Kanals.
Eine naive Aufsplittung des Y-Kanals in vier Teilbilder Y_I bis Y_IV (mit einer Höhe height_uv von p/2, z.B. 320 Pixel und einer Breite width_uv von q/2, z.B. 576 Pixeln) und einer die ist durch die beiden fetten Geraden auf der linken Seite von 3 symbolisiert. Der Y-Kanal wird in vier „Quadranten“ zerlegt, nämlich Y_I umfasst die Pixel y₁₁ bis y_p/2,q/2 , Y_II die Pixel y_p/2+1,1 bis y_p,q/2 usw. Die vier gestapelten Teilbilder Y_I bis Y_IV sind auf der rechten Seite von 3 schematisch dargestellt.
Diese Variante c) geht mit einem moderaten Rechenaufwand einher $M A C_{c} = 8 \cdot w i d t h_{u v} \cdot h e i g h t_{u v} \cdot k^{2} \cdot c h_{o u t} = 2 \cdot M A C_{a}$
also dem Doppelten der Variante a), wohingegen Variante b) den vierfachen Rechenaufwand von Variante a) erfordert.
Problematisch ist an Variante c), dass die räumliche Beziehung verloren geht. Pixel an denselben Positionen eines Teilbilds haben nicht mehr dieselbe räumliche Bedeutung, was eine grundlegende Annahme für CNNs verletzt.
Anhand von 4 soll ein Ausführungsbeispiel für das Auslesen bzw. Abtasten des Eingangsbildes veranschaulicht werden, das die Prozessierung des Y-Kanals mit der ursprünglichen (hohen) Auflösung ermöglicht, ohne die Rechenzeit zu benachteiligen. Dazu wird der CNN-Beschleuniger mit hoher Effizienz genutzt.
Ein erster Aspekt sieht eine Partitionierung Pa des Y-Eingangskanals vor, wobei innerhalb jeder der vier Partitionen Y_1 bis Y_4 die räumliche Beziehung der enthaltenen Pixel aufrechterhalten wird.
Eine Partition (Y_1, Y_2, Y_3, Y_4) umfasst hierbei zeilen- und spaltenweise jeweils jeden zweiten Pixel des Eingangsbilds, wobei der Startpixel jeweils ein unterschiedlicher aus der Menge y₁₁ , y₁₂ , y₂₁ und y₂₂ ist. Die vertikale Schrittgröße Sv beträgt m Pixel auf dem Eingangsbild, die horizontale Schrittgröße Sh beträgt n Pixel.
Die Partition Y_1 kann (mit m=n=2 für unseren speziellen Fall) im Allgemeinen wie folgt zusammengesetzt werden:

(erste Zeile): y₁₁, y_1,1+n, y_1,1+2n, ..., y_1,1+q-n

(zweite Zeile): y_1+m,1, y_1+m,1+n, ...y_1+m,1+q-n

...

(letzte Zeile): y_1+p-m,1, y_1+p-m,1+n, ..., y_1+p-m,1+q-n.
In 4 auf der rechten Seite entspricht die Partition Y_1 der oberen mit ausschließlich x-Pixeln (als Symbol). Diese x-Pixel weisen zueinander eine im Wesentlichen unveränderte räumliche Beziehung auf, in dem Sinne, dass z.B. y₁₁ oben links und y_i+p-_m,_i+q-_n unten rechts angeordnet ist - genau wie es bei den x-Pixeln im links dargestellten Eingangsbild des Y-Kanals der Fall ist.
Die Partition Y_2 wird folgendermaßen zusammengesetzt:

(erste Zeile): y₁₂, y_1,2+n, y_1,2+2n, ..., y_1,2+q-n

...

(letzte Zeile): y_1+p-m,2, y_1+p-m,2+n, ..., y_1+p-m,2+q-n.
Dies entspricht auf der rechten Seite der 4 der Partition mit ausschließlich o-Pixeln (als Symbol).
Die Partition Y_3 wird zusammengesetzt aus den folgenden Pixeln (□-Pixel in 4):

(erste Zeile): y₂₁, y_2,1+n, y_2,1+2n, ..., y_2,1+p-n

...

(letzte Zeile): y_2+q-m,1, y_2+q-m,1+n, ..., y_2+q-m,2+p-n.
Die Partition Y_4 wird zusammengesetzt aus den folgenden Pixeln (Δ-Pixel in 4):

(erste Zeile): y22, y_2,2+n, y_2,2+2n, ..., y_2,2+q-n

...

(letzte Zeile): y_2+p-m,2, y_2+p-m,2+n, ..., y_2+p-m,2+q-n.
Im (nicht dargestellten) Fall von m*n Partitionen wäre die Partition Y_(m*n) aus den folgenden Pixeln zusammengesetzt:

(erste Zeile): y_m,n, y_m,2n, y_m,3n, ..., y_m,q

(zweite Zeile): y_2m,n, y_2m,2n, y_2m,3n, ..., y_2m,q

...

(letzte Zeile): y_p,n, y_p,2n, ..., y_p,q.
Im allgemeinen Fall kann die Erstellung von Partitionen durch Auswahl einer partitionsspezifischen Startadresse und eines allgemeinen „Input-Stride“ (Schrittgröße Sv, Sh auf dem Eingangsbild Y) beschrieben werden. Die Startadresse sind für die erste Partition Y_1 der Pixel y₁₁ des Y-Eingangskanals, für die folgenden Partitionen jeweils Pixel im Bereich um y₁₁ bis y_m,_n , die in keiner der bereits erstellten Partitionen enthalten sind. Zur vollständigen Abdeckung des Y-Eingangskanals sind m*n Partitionen erforderlich. Der „Input-Stride“ beträgt (bei jeder Partition) jeweils vertikal m und horizontal n.
Im Beispiel der 4 gilt m = n = 2 und die Startadressen sind Pixel aus dem Bereich y₁₁ bis y₂₂ , z.B. Partition Y_1 hat als Startadresse den Pixel y₁₁ , Partition Y_2 die Startadresse y₁₂ , Partition Y_3 die Startadresse y₂₁ und Partition Y_4 die Startadresse y₂₂ .
Das Resultat der dargestellten Partitionierung sind drei Eingangsbilder mit 4, 1 und 1 Kanälen, die jeweils die gleiche Höhe und Breite haben. Im Gegensatz zum Aufsplitten gemäß Variante c) bleibt hierbei die räumliche Beziehung innerhalb einer Partition Y_1 bis Y_4 erhalten.
Ein zweiter Aspekt besteht darin, Merkmale des CNN-Beschleunigers direkt zu verwenden, um die Partitionen Y_1 bis Y_4 zu bilden. Die Möglichkeit eine Schrittgröße auf dem Eingangsbild bei geringfügig unterschiedlichen Startadressen für die unterschiedlichen Partitionen zu setzen erlaubt es, die Partitionierung Pa ohne einen nennenswerten Verlust an Laufzeit zu implementieren.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

EP 3309707 A1 [0003]
EP 3442235 A1 [0006]

Zitierte Nicht-Patentliteratur

J. Redmon et al. zeigen in YOLO9000: Better, Faster, Stronger, 2016 [0004]

Claims

Verfahren zur Prozessierung von Bilddaten einer Bildaufnahmevorrichtung (1) auf einem Bilddatenprozessor (14) mit einem künstlichen Neuronalen Netzwerk (16), wobei die Bilddaten in mehrere Kanäle kodiert sind, wobei ein erster Kanal (Y) eine höhere Auflösung in Form von größerer Höhe und/oder Breite an Pixeln als ein zweiter Kanal (U;V) aufweist, und wobei die Pixel des ersten Kanals (Y) durch m*n Teilbilder vollständig abgedeckt werden, wobei m und n natürliche Zahlen sind, für die m+n größer gleich 3 gilt, wobei jedes Teilbild die Höhe und Breite der Pixel des zweiten Kanals (U;V) aufweist, umfassend die Schritte: a) (S1) Empfangen eines in mehreren Kanälen kodierten Eingangsbilds einer Bildaufnahmevorrichtung (1) b) Partitionierung (Pa) des ersten Kanals (Y) des Eingangsbilds in m*n Partitionen (Y_1, Y_2, ..., Y_m*n), wobei innerhalb jeder Partition (Y_1, Y_2, ..., Y_m*n) die räumliche Beziehung der enthaltenen Pixel aufrechterhalten wird, und c) Ausgeben der Bilddaten der Partitionen (Y_1, Y_2, ..., Y_m*n) des ersten Kanals (Y) und der Bilddaten des zweiten Kanals (U;V) an den Bilddatenprozessor 14, damit das künstliche Neuronale Netzwerk (16) die Bilddaten auswerten kann.
Verfahren nach Anspruch 1, wobei die Partitionen (Y_1, Y_2, ..., Y_m*n) definiert sind durch jeweils eine von den anderen Partitionen unterschiedliche Startadresse eines Pixels aus einer Pixeladresse (1,1) bis (m,n) des ersten Kanals (Y) des Eingangsbilds und einer einheitlichen Schrittgröße (Sv, Sh) auf dem ersten Kanal (Y) des Eingangsbilds, welches in vertikaler Richtung m und in horizontaler Richtung n Pixel beträgt.
Verfahren nach Anspruch 2, wobei der Bilddatenprozessor (14) einen Hardware-Beschleuniger für das künstliche Neuronale Netzwerk (16) umfasst, der ein Auslesen der Partitionen (Y_1, Y_2, ..., Y_m*n) durch eine Vorgabe von unterschiedlichen Startadressen und der Schrittgröße auf dem ersten Kanal (Y) des Eingangsbilds vorsieht.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Bilddatenprozessor (14) einen Hardware-Beschleuniger für das künstliche Neuronale Netzwerk (16) umfasst, der einen Stapel von mehreren Bildkanaldaten-Paketen während eines Taktzyklus weiterverarbeiten kann, wobei die Partitionen (Y_1, Y_2, ..., Y_m*n) und die Daten des zweiten Bildkanals (U;V) als gestapelte Bildkanaldatenpakete vorliegen.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Eingangsbilddaten einen ersten Kanal (Y) einer m-fachen Höhe der Höhe des zweiten Kanals (U;V) und einer n-fachen Breite der Breite des zweiten Kanals (U;V) aufweisen.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der erste Kanal (Y) Helligkeitsinformation und mindestens ein zweiter Kanal (U;V) Farbinformationen zum Inhalt hat.
Verfahren nach Anspruch 6, wobei die Bilddaten des Eingangsbilds in einem YUV-Format vorliegen, wobei der erste Kanal der Y-Kanal ist und zwei zweite Kanäle der U- und der V-Kanal sind.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der erste Kanal (Y) Helligkeitsinformationen und ein zweiter Kanal (U;V) Tiefeninformationen zum Inhalt hat.
Verfahren nach einem der vorhergehenden Ansprüche, wobei m = n = 2^s ist, wobei s eine natürliche Zahl ist.
Bildauswertungsvorrichtung (10) konfiguriert zur Prozessierung von Bilddaten einer Bildaufnahmevorrichtung (1) umfassend eine Eingangsschnittstelle (12), einen Bilddatenprozessor (14) mit einem künstlichen neuronalen Netzwerk (16) und eine Ausgabeschnittstelle (18), wobei - die Eingangsschnittstelle (12) dazu konfiguriert ist, Bilddaten der Bildaufnahmevorrichtung (1) zu empfangen, wobei die Bilddaten in mehrere Kanäle kodiert sind, wobei ein erster Kanal (Y) eine höhere Auflösung in Form von größerer Höhe und/oder Breite an Pixeln als ein zweiter Kanal (U;V) aufweist, und wobei die Pixel des ersten Kanals (Y) durch m*n Teilbilder vollständig abgedeckt werden, wobei m und n natürliche Zahlen sind, für die m+n größer gleich 3 gilt, wobei jedes Teilbild die Höhe und Breite der Pixel des zweiten Kanals (U;V) aufweist, - der Bilddatenprozessor (14) dazu konfiguriert ist, die von der Eingangsschnittstelle (12) empfangenen Bilddaten des ersten Kanals (Y) in m*n Partitionen (Y_1, Y_2, ..., Y_m*n) zu partitionieren, wobei innerhalb jeder Partition (Y_1, Y_2, ..., Y_m*n) die räumliche Beziehung der enthaltenen Pixel aufrechterhalten wird, und die Bilddaten der Partitionen (Y_1, Y_2, ..., Y_m*n) des ersten Kanals (Y) und die Bilddaten des zweiten Kanals (U;V) an das künstliche neuronalen Netzwerk (16) zu übermitteln, und wobei das künstliche neuronale Netzwerk (16) dazu konfiguriert ist, die übermittelten Bilddaten auszuwerten.