DE102018217092A1

DE102018217092A1 - Verfahren, künstliches neuronales Netz, Vorrichtung, Computerprogramm und maschinenlesbares Speichermedium zur semantischen Segmentierung von Bilddaten

Info

Publication number: DE102018217092A1
Application number: DE102018217092.4A
Authority: DE
Inventors: Masato Takami; Uwe Brosch; Dimitrios Bariamis; Ferran Diego Andilla
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2018-10-05
Filing date: 2018-10-05
Publication date: 2020-04-09
Also published as: WO2020069964A1; US11908142B2; CN113168558A; US20210343019A1

Abstract

Verfahren (500) zur berechnungs- und speicherressourcenschonenden semantischen Segmentierung von Bilddaten (111, 211) eines bildgebenden Sensors mittels eines künstlichen neuronalen Netzes, insbesondere eines Convolutional Neural Networks, wobei das künstliche neuronale Netz einen Encoder-Pfad (110, 210, 380), einen Decoder-Pfad (120, 220, 340) aufweist, umfassend die Schritte:- Teilen (520) eines Input-Tensors (310) in Abhängigkeit von einer Teilungsfunktion (320, 420) in mindestens einen ersten Slice-Tensor (330) und mindestens einen zweiten Slice-Tensor (350), wobei der Input-Tensor (310) abhängig von den Bilddaten (111, 211) ist;- Ausgeben (530) des mindestens einen ersten Slice-Tensors (330) an den Decoder-Pfad (120, 220, 340) des neuronalen Netzes;- Verbinden (540) des mindestens einen ersten Slice-Tensors (330) mit dem mindestens einen zweiten Slice-Tensor (350) in Abhängigkeit von einer Verbindungsfunktion (360) um einen Output-Tensor (370) zu erhalten;- Ausgeben (550) des Output-Tensors (370) an den Encoder-Pfad (110, 210, 380) des neuronalen Netzes.

Description

Stand der Technik
„Evan Shelhamer, Jonathan Long, Trevor Darrell. Fully Convolutional Models for Semantic Segmentation. PAMI 2016.“ offenbart eine Weiterentwicklung von Convolutional Neural Networks. Convolutional Neural Networks sind starke künstliche neuronale Netze zur Verarbeitung von visuellen Daten, die eine semantische Merkmalshierachie der visuellen Daten hervorbringen können. Die Schrift offenbart den Ansatz ein „Fully Convolutional Network“ einzusetzen, das Eingangsdaten eines beliebigen Umfangs aufnehmen und eine in Größe korrespondiere Ausgabe mit effizienter Ableitung der Merkmale ausgeben kann.
„Olaf Ronneberger, Philipp Fischer, Thomas Brox. U-Net: Convolutional Networks for Biomedical Image Segmentation. Medical Image Computing and Computer-Assisted Intervention (MICCAI), Springer, LNCS, Vol.9351“ offenbart eine Architektur eines künstlichen neuronalen Netzes und eine Trainingsstrategie, für dieses Netz, die auf der Nutzung von erweiterten (augmented) Trainingsdaten basiert, um die vorhandenen annotierten Beispiele effizienter zu nutzen. Die Architektur des Netzes umfasst einen „Contracting Path“ (Encoder-Pfad) um den Kontext der Eingangsdaten zu erfassen und symmetrisch dazu einen „Expanding Path“ (Decoder-Pfad), der eine präzise Lokalisierung des erfassten Kontextes ermöglicht. Dieses künstliche neuronale Netz lässt sich mit einer vergleichbar geringen Anzahl an Trainingsdaten trainieren.
Offenbarung der Erfindung
Künstliche neuronale Netze, insbesondere sog. Convolutional Neural Networks (CNN), zur semantischen Segmentierung, insbesondere zur Lokalisierung und Klassifizierung von Merkmalen in Bilddaten weisen einen hohen Bedarf an Berechnungsressourcen auf. Durch das Hinzufügen einer Decoder- bzw. Upsampling-Komponente und einer Verbindungskomponente (Skip-Component), durch die nach der semantischen Analyse in der Encoder-Komponente, die Bilddaten bis zur ursprünglichen Auflösung wiederhergestellt werden, steigt der Bedarf an Berechnungsressource weiter stark an. In manchen Umsetzungen kann dies zu einem exponentiellen Anstieg der Berechnungsressourcen führen.
Zusätzlich zu dem Anstieg der Berechnungsressourcen benötigt eine semantische Segmentierung von Bilddaten auf Pixelbasis beim Einsatz von künstlichen neuronalen Netzen, insbesondere beim Einsatz von CNN, mehr Speicherressourcen, d.h. mehr Speicherbandbreite, Speicherzugriffe und Speicherplatz während der Trainingsphase und der Anwendung des Netzes.
Der Nachteil dieses zusätzlichen Bedarfs an Berechnungs- und Speicherressourcen verstärkt sich, sobald die Anwendung nicht auf speicherstarken und verteilt rechnenden Spezialrecheneinheiten, wie Graphical Processing Units Clustern (GPU-Clustern) erfolgt, sondern auf eingebetteten Recheneinheiten, wie embedded Hardware oder dergleichen laufen soll.
Vor diesem Hintergrund setzt die vorliegende Erfindung eines Verfahrens, eines künstlichen neuronalen Netzes, einer Vorrichtung, eines Computerprogramms und eines maschinenlesbaren Speichermediums zur semantischen Segmentierung von Bilddaten eines bildgebenden Sensors an.
Unter Bilddaten können vorliegend Daten eines bildgebenden Sensors verstanden werden. In erster Linie sind darunter die Daten eines Videosensors, mithin einer Kamera, zu verstehen. Aufgrund der Ähnlichkeit der Daten können ebenso Daten eines Radar-, Ultraschall-, Lidar-Sensor oder dergleichen als Bilddaten mittels der vorliegenden Erfindung verarbeitet werden. Somit können in Bezug auf die vorliegende Erfindung Radar-, Ultraschall-, Lidar-Sensoren oder dergleichen als bildgebende Sensoren verstanden werden.
Von besonderer Bedeutung für diese Erfindung sind dabei Bilddaten eines für den Einsatz in einem Fahrzeug geeigneten bildgebenden Sensors oder dergleichen, mithin ein Automotive Bildsensor.
Unter semantischer Segmentierung ist vorliegend die Bearbeitung von Bilddaten mit dem Ziel, sowohl die semantischen Klassen der in dem Bild enthaltenen Objekte als auch deren Lokalisierung in dem Bild zu ermitteln, zu verstehen. Dabei ist zu berücksichtigen, dass globale Informationen in dem Bild Rückschlüsse auf die semantische Klasse der Objekte erlauben, hingegen lokale Information in dem Bild Rückschlüsse auf die Lokalisierung der Objekte in dem Bild dem erlauben.
Ein Aspekt der Erfindung ist ein Verfahren zur semantischen Segmentierung von Bilddaten mittels eines künstlichen neuronalen Netzes, insbesondere eines Convolutional Neural Networks (CNN). Das künstliche neuronale Netz weist einen Encoder-Pfad zur Ermittlung der semantischen Klassen in den Bilddaten und einen Decoder-Pfad zur Lokalisierung der ermittelten Klassen in den Bilddaten auf. Das Verfahren umfasst die Schritte:

Teilen eines Input-Tensors in Abhängigkeit von einer Teilungsfunktion in mindestens einen ersten Slice-Tensor und mindestens einen zweiten Slice-Tensor, wobei der Input-Tensor abhängig von den Bilddaten ist;
Ausgeben des mindestens einen ersten Slice-Tensors an den Decoder-Pfad des künstlichen neuronalen Netzes;
Verbinden des mindestens einen ersten Slice-Tensors mit dem mindestens einen zweiten Slice-Tensor in Abhängigkeit von einer Verbindungsfunktion, um einen Output-Tensor zu erhalten;
Ausgeben des Output-Tensors an den Encoder-Pfad des künstlichen neuronalen Netzes.

Unter einem künstlichen neuronalen Netz ist vorliegend ein Netz aus künstlichen Neuronen zur Informationsverarbeitung, bspw. zur semantischen Segmentierung von Bilddaten, insbesondere zur Lokalisierung und Klassifizierung von Merkmalen in Bilddaten zu verstehen.
Unter einem Convolutional Neural Network (CNN) ist vorliegend eine Klasse von künstlichen neuronalen Netzen zu verstehen, die im Bereich der Klassifizierung als „State of the Art“ (Stand der Technik) gelten. Der grundsätzliche Aufbau eines CNN besteht aus einer beliebigen Abfolge aus Convolutional Layern und Pooling Layern, die von einem oder mehreren Fully-connected Layern abgeschlossen werden. Die jeweiligen Layers sind aus künstlichen Neuronen aufgebaut.
Unter einem Encoder-Pfad ist vorliegend der Pfad der Verarbeitung der Bilddaten bis zur Klassifizierung von Merkmalen, wie bspw. Objekten, in den Bilddaten zu verstehen.
Unter einem Decoder-Pfad ist vorliegend der Pfad zu verstehen, der sich an den Encoder-Pfad anschließt und ausgehend von der Klassifizierung die ursprünglichen Bilddaten zur Lokalisierung der klassifizierten Merkmale wiederherstellt.
Unter einer Verbindungskomponente ist vorliegend eine Architekturkomponente in einem semantisch segmentierenden künstlichen neuronalen Netz zu verstehen, die Informationen aus dem Encoder-Pfad einer korrespondierenden Stelle des Decoder-Pfads zur Verfügung stellt. Verbindungskomponenten treten als Skip-Connections oder als Skip-Module auf.
Unter einem Tensor ist vorliegend eine Datenrepräsentation während der Verarbeitung in einem künstlichen neuronalen Netz zu verstehen. Der Datensatz umfasst einen verarbeiteten Stand der Bilddaten und zugehörige Feature Maps. Ein Tensor des i-ten Schritts im künstlichen neuronalen Netzwerk wird typischer repräsentiert als x_i ∈ R^n×m×f mit n Zeilen, m Spalten und f Feature Maps.
Ein Input-Tensor ist eine Datenrepräsentation vor der Verarbeitung durch das Verfahren der vorliegenden Erfindung.
Ein Slice-Tensor ist eine Datenrepräsentation nach dem Schritt des Teilens gemäß dem Verfahren der vorliegenden Erfindung.
Ein Output-Tensor ist eine Datenrepräsentation zur weiteren Verarbeitung auf dem Encoder-Pfad des künstlichen neuronalen Netzes.
Unter einer Teilungsfunktion kann vorliegend jede Funktion verstanden werden, die dazu geeignet ist, aus dem Input Tensor und der Menge der zugehörigen Feature Maps eine geeignete Menge auszuwählen. Dies kann nach Teilungsfaktoren, nach Indizes oder dergleichen erfolgen.
Unter einer Verbindungsfunktion kann vorliegend jede Funktion verstanden werden, die dazu geeignet ist, den mindestens einen erste Slice-Tensor mit dem mindestens einen zweiten Slice-Tensor zu verbinden. Dies kann durch Konkatenation, Summation, Ersetzung, Reproduktion oder dergleichen erfolgen.
Der Vorteil des Verfahrens der vorliegenden Erfindung liegt in dem Schritt des Teilens. Durch diesen Schritt ist es möglich eine genaue semantische Segmentierung der Bilddaten zu erreichen und gleichzeitig die notwendigen Berechnungsressourcen und die notwendigen Speicherressourcen zu minimieren, indem die Berechnungen, die in dem Encoder-Pfad durchgeführt werden, optimal ausgenutzt werden.
Dies erlaubt die Durchführung des Verfahrens der vorliegenden Erfindung auf eingebetteten Recheneinheiten (sog. Embedded Hardware), wie typischerweise im Automotive Umfeld zum Einsatz kommen.
Nach einer Ausführungsform des Verfahrens der vorliegenden Erfindung ist die Teilungsfunktion im Schritt des Teilens derart ausgestaltet, dass nur eine Teilmenge der Feature Maps des Input-Tensors zur Bildung des mindestens einen ersten Slice-Tensors ausgewählt wird.
Unter einer Feature Map ist vorliegend die Ausgabe einer Schicht (Layer) eines künstlichen neuronalen Netzes zu verstehen. Bei einem CNN handelt es sich typischerweise um das Ergebnis der Verarbeitung durch ein Convolutional Layer gefolgt von dem zugehörigen Pooling Layer und kann als Eingangsdaten für die Folgeschicht (Layer) oder - falls vorgesehen - den Fully-connected Layer dienen.
Nach einer Ausführungsform des Verfahrens der vorliegenden Erfindung ist die Verbindungsfunktion (Merge) im Schritt des Verbindens derart ausgestaltet ist, dass die Dimension des Input-Tensors erhalten bleibt.
Diese Ausführungsform weist den Vorteil auf, dass man in Bezug auf die einzusetzenden Berechnungsressourcen mit weniger Ressourceneinsatz und damit günstiger Informationen aus verschiedenen Layern des künstlichen neuronalen Netzes, insbesondere des Convolutional Neural Networks (CNN) weiterverwenden kann.
Nach einer Ausführungsform des Verfahrens der vorliegenden Erfindung weist das Verfahren den vorhergehenden Schritt des Empfangens auf, wobei im Schritt des Empfangens der Input-Tensor und die Teilungsfunktion empfangen werden.
Diese Ausführungsform des Verfahrens weist den Vorteil auf, dass das künstliche neuronale Netz bei geringeren Kosten im Vergleich zu einer parallelen Ausführung eines konventionellen künstlichen neuronalen Netzes flexibler ist und feingranularer auf den jeweiligen Schichten (Layern) auf die jeweiligen Input-Tensoren reagieren kann.
Nach einer Ausführungsform des Verfahrens der vorliegenden Erfindung wird im Schritt des Teilens eine erste Funktion eines künstlichen neuronalen Netzes auf den mindestens einen ersten Slice-Tensor angewendet wird und eine zweite Funktion eines künstlichen neuronalen Netzes auf den mindestens einen zweiten Slice-Tensor angewendet wird.
Unter einer Funktion eines künstlichen neuronalen Netzes kann vorliegend eine beliebige Funktion einer Neuronenschicht eines künstlichen neuronalen Netzes verstanden werden. Dies kann Faltung (Convolution) - auch in der Ausprägung eines Convolutional Blocks - d.h. einer mehrfachen Anwendung von Faltungen, Depth-wise Convolution, Squeeze, Restwert (Residual), Dichte (Dense), Inception, Aktivierung (Activation, Act), Normalisierung, Sammlung (Pooling) oder dergleichen sein.
Unter Inception ist vorliegende eine Architekturvariation eines künstlichen neuronalen Netzes, insbesondere eines Convolutional Neural Networks, wie sie zuerst in Szegedy et al. Going deeper with convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, S. 1 - 9, 2015 beschrieben wurde, zu verstehen.
Nach einer Ausführungsform des Verfahrens der vorliegenden Erfindung ist die Teilungsfunktion im Schritt des Teilens derart gestaltet, dass die Teilungsfunktion die zu berechnende Anzahl an Feature Maps und den jeweiligen Funktionen eines künstlichen neuronalen Netzes bzw. Berechnungsgraphen zur Berechnung des mindestens einen ersten Slice-Tensors und des mindestens einen zweiten Slice-Tensors umfasst.
Diese Ausführungsform des Verfahrens der vorliegenden Erfindung weist den Vorteil auf, dass auf einfache Art und Weise auf den mindestens einen ersten Slice-Tensor und den mindestens einen zweiten Slice-Tensor unterschiedliche Funktionen eines künstlichen neuronalen Netzes angewendet werden können. Dadurch wird das künstliche neuronale Netz bei geringeren Kosten im Vergleich zu einer parallelen Ausführung eines konventionellen künstlichen neuronalen Netzes flexibler und das künstliche neuronale Netz kann feingranularer auf die jeweiligen Input-Tensoren reagieren.
Ein weiterer Aspekt der vorliegenden Erfindung ist ein künstliches neuronales Netz zur semantischen Segmentierung von Bilddaten, wobei das künstliche neuronale Netz einen Encoder-Pfad zur Klassifizierung der Bilddaten, einen Decoder-Pfad zur Lokalisierung der Bilddaten aufweist und derart eingerichtet ist, Schritte des Verfahren gemäß der vorliegenden Erfindung auszuführen.
Ein derart eingerichtetes künstliches neuronales Netz wird vorzugsweise in einem technischen System, insbesondere in einem Roboter, einem Fahrzeug, einem Werkzeug oder einer Werkmaschine eingesetzt, um abhängig von Eingangsgrößen Ausgangsgrößen zu bestimmen. Als Eingangsgrößen des künstlichen neuronalen Netzes kommen Sensordaten oder Größen, die von Sensordaten abhängig sind, in Frage. Die Sensordaten können von Sensoren des technischen Systems stammen oder von dem technischen System von extern empfangen werden. Abhängig von den Ausgangsgrößen des künstlichen neuronalen Netzes wird durch eine Steuereinrichtung des technischen Systems mindestens ein Aktor des technischen Systems mit einem Ansteuersignal angesteuert. So kann bspw. eine Bewegung eines Roboters oder Fahrzeugs gesteuert werden oder ein Werkzeug bzw. eine Werkmaschine angesteuert werden.
In einer Ausführungsform des künstlichen neuronalen Netzes gemäß der vorliegenden Erfindung kann das künstliche neuronale Netz als Convolutional Neural Network ausgestaltet sein.
Ein weiterer Aspekt der vorliegenden Erfindung ist eine Vorrichtung, die eingerichtet ist, Schritte des Verfahren gemäß der vorliegenden Erfindung auszuführen.
Ein weiterer Aspekt der vorliegenden Erfindung ist ein Computerprogramm, welches eingerichtet ist, Schritte des Verfahrens gemäß der vorliegenden Erfindung auszuführen.
Ein weiterer Aspekt der vorliegenden Erfindung ist ein maschinenlesbares Speichermedium, auf dem das künstliche neuronale Netz gemäß der vorliegenden Erfindung bzw. das Computerprogramm gemäß der vorliegenden Erfindung gespeichert ist.
Nachfolgend werden Einzelheiten und Ausführungsformen der Erfindung anhand mehrerer Figuren näher erläutert.
Es zeigen:

1 ein Blockdiagramm eines Fully Convolutional Network aus dem Stand der Technik;
2 ein Blockdiagramm der U-Net Architektur eines Convolutional Network aus dem Stand der Technik;
3 ein Blockdiagramm eines Teils eines Ausführungsform eines künstlichen neuronalen Netzwerks gemäß der vorliegenden Erfindung;
4 ein Blockdiagramm eines Teils eines weiteren Ausführungsform eines künstlichen neuronalen Netzwerks gemäß der vorliegenden Erfindung;
5 Ablaufdiagramm des Verfahrens gemäß der vorliegenden Erfindung.

1 zeigt ein Blockdiagramm eines Fully Convolutional Network aus „Evan Shelhamer, Jonathan Long, Trevor Darrell. Fully Convolutional Models for Semantic Segmentation. PAMI 2016.“
Die Abbildung fasst Teile des dargestellten Ablaufs in einem künstlichen neuronalen Netz in Blöcke zusammen.
In dem Block Encoder 110 sind die Verarbeitungsschritte ausgehend von Bilddaten als Eingabedaten 111 über mehrere Schichten (Layer) eines Convolutional Neural Networks (CNN) dargestellt. Der Abbildung sind deutlich die Convolutional Layer 112a und die Pooling Layer 112b zu entnehmen.
In dem Block Decoder 120 sind „entfaltete (deconvolutioned)“ Ergebnisse 121, 122, 123 des CNN dargestellt. Deconvolution kann dabei durch Umkehr der Convolutionsschritte erreicht werden. Dabei ist eine Abbildung des grobgranularen Klassifizierungsergebnisses auf die ursprünglichen Bilddaten möglich, um so eine Lokalisierung der klassifizierten Merkmale zu erreichen.
In dem Block Skip Module 130 sind Verbindungen höher-leveliger Klassifizierungszwischenergebnisse des CNN zu den „entfalteten (deconvolutioned)“ Ergebnissen dargestellt. So sind in Zeile 2 die Zwischenergebnisse des 4. Pools mit den Endergebnissen 122 verknüpft worden und in Zeile 3 die Zwischenergebnisse des 3. und des 4. Pools mit den Endergebnissen 123.
Der Vorteil dieser Verknüpfungen liegt in der Möglichkeit feinere Details zu bestimmen und gleichzeitig eine höher-levelige semantische Information zu erhalten.
2 zeigt ein Blockdiagramm der U-Net Architektur eines Convolutional Network aus „Olaf Ronneberger, Philipp Fischer, Thomas Brox. U-Net: Convolutional Networks for Biomedical Image Segmentation. Medical Image Computing and Computer-Assisted Intervention (MICCAI), Springer, LNCS, Vol.9351“
In dem Block Encoder 210 sind die Verarbeitungsschritte ausgehend von Bilddaten als Eingabedaten 211 über mehrere Schichten (Layer) eines Convolutional Neural Networks (CNN) zur Klassifizierung der Eingabedaten 211 dargestellt.
In dem Block Decoder 220 sind die „Entfaltungsschritte (Upconvolution)“ ausgehend von der tiefsten Klassifizierungsebene über eine korrespondierende Anzahl an Deconvolutional Schichten (Layer) hin zu einer semantisch segmentierten Karte 221 mit lokalisierten und klassifizierten Merkmalen der Eingabedaten 211 dargestellt.
In dem Block 230 sind Verbindungen (Skip Connections) zwischen den Schichten (Layern) des Blocks Encoder 210 und den korrespondierenden Schichten (Layern) des Blocks Decoder 220 dargestellt. Diese Verbindungen stellen den Informationsfluss in dem künstlichen neuronalen Netz zwischen der Klassifizierungsaufgabe und der Lokalisierungsaufgabe dar. Dadurch ist es möglich grobgranulare semantische Segmentierung mit einem höheren Grad der Wiederherstellung der Eingangsdaten in Übereinstimmung zu bringen.
3 zeigt ein Blockdiagramm eines Teils eines Ausführungsform eines künstlichen neuronalen Netzwerks gemäß der vorliegenden Erfindung. Nach dieser Ausführungsform wird das künstliche neuronale Netz bzw. das Verfahren gemäß der vorliegenden Erfindung im einem sog. „Tensor Mode“ betrieben.
Vorliegend ist ein Input Tensor x_i ∈ R^n×m×f 310 mit einer Anzahl Zeilen n, einer Anzahl Spalten m und einer Anzahl Feature Maps f im i-ten Schritt eines künstlichen neuronalen Netzes dargestellt. Ferner liegt eine Teilungsfunktion (Slice) 320 vor. Der Input-Tensor wird gemäß der Teilungsfunktion (Slice) 320 in mindestens einen ersten Slice-Tensor 330 und in mindestens einen zweiten Slice-Tensor 350 aufgeteilt. Die Aufteilung kann dabei nach einer beliebigen Teilungsfunktion (Slice) 320 erfolgen. Denkbar sind u. a. Teilung nach Teilungsfaktoren (splitting factor), nach Indizes oder dergleichen.
Der mindestens eine erste Slice-Tensor 330 ist dafür vorgesehen dem Decoder-Pfad 340 des künstlichen neuronalen Netzes zugeführt zu werden, um dort mit grober, abstrakter Merkmalsrepräsentationen verknüpft zu werden.
Der mindestens eine zweite Slice-Tensor 350 wird zusammen mit dem mindestens einen ersten Slice-Tensor 330 einer Verbindungsfunktion (Merge) 360 zugeführt, um einen Output-Tensor 370 zu generieren. Als Verbindungsfunktion (Merge) 360 kann jede Vorschrift angewendet werden, die dazu geeignet ist den ersten Slice-Tensor 320 mit dem zweiten Slice-Tensor 350 zu verbinden. Denkbar sind u. a. die Konkatenation, die Summation, die Ersetzung, die Replikation oder dergleichen. Der Output-Tensor 370 ist vorgesehen weiter entlang des Encoder-Pfads 380 durch das künstliche neuronale Netz verarbeitet zu werden.
4 zeigt ein Blockdiagramm eines Teils eines weiteren Ausführungsform eines künstlichen neuronalen Netzwerks gemäß der vorliegenden Erfindung. Nach dieser Ausführungsform wird das künstliche neuronale Netz bzw. das Verfahren gemäß der vorliegenden Erfindung im einem sog. „Function Mode“ 400 betrieben.
Die Eingabedaten des Function Mode 400 umfassen neben dem Input-Tensor 310 auch die Teilungsfunktion (Slice) 420. Die Teilungsfunktion (Slice) 420 wird auf den Input-Tensor 310 angewendet, um einen ersten Slice-Tensor 330 und einen zweiten Slice-Tensor 350 zu erhalten. Im Unterschied zum „Tensor Mode“ 300 wird zudem auf den ersten Slice-Tensor 330 und den zweiten Slice-Tensor 350 eine beliebige Funktion eines künstlichen neuronalen Netzes 421, 422 angewendet. Denkbar sind u. a. Faltung (Convolution), Restwert (Residual), Dichte (Dense), Inception, Aktivierung (Activation, Act), Normalisierung, Sammlung (Pooling) oder dergleichen. Auf den ersten Slice-Tensor 330 und den zweiten Slice-Tensor 350 können unterschiedliche Funktionen eines künstlichen neuronalen Netzes 421, 422 angewendet werden.
Nachfolgend wird der erste Slice-Tensor 330 dem Decoder-Pfad 340 des künstlichen neuronalen Netzes zugeführt, um dort mit grober, abstrakter Merkmalsrepräsentationen verknüpft zu werden.
Der mindestens eine zweite Slice-Tensor 350 wird zusammen mit dem mindestens einen ersten Slice-Tensor 330 einer Verbindungsfunktion (Merge) 360 zugeführt, um einen Output-Tensor 370 zu genieren. Als Verbindungsfunktion (Merge) 360 kann jede Vorschrift angewendet werden, die dazu geeignet ist den ersten Slice-Tensor 330 mit dem zweiten Slice-Tensor 350 zu verbinden. Denkbar sind u. a. die Konkatenation, die Summation, die Ersetzung, die Replikation oder dergleichen. Der Output-Tensor 370 ist vorgesehen weiter entlang des Encoder-Pfads 380 durch das künstliche neuronale Netz verarbeitet zu werden.
5 zeigt ein Ablaufdiagramm des Verfahrens gemäß der vorliegenden Erfindung.
Schritt 510 ist gestrichelt dargestellt. Dies gibt an, dass Schritt 510 als optionaler Schritt anzusehen ist. In Schritt 510 werden ein Input-Tensor 310 und eine Teilungsfunktion 320, 420 empfangen.
In Schritt 520 wird der Input-Tensor 310 in Abhängigkeit von der Teilungsfunktion 320, 420 in mindestens einen ersten Slice-Tensor 330 und mindestens einen zweiten Slice-Tensor ge350 teilt, wobei der Input-Tensor 310 abhängig von den Bilddaten 111, 211 ist.
Findet der optionale Schritt 510 nicht statt, ist die Teilungsfunktion 320, 430 vorgegeben und der Input-Tensor 310 liegt als Eingangsdatum des Verfahrens vor.
In Schritt 530 wir der mindestens eine erste Slice-Tensors 330 an den Decoder-Pfad 120, 220 des neuronalen Netzes ausgegeben. Im Decoder-Pfad 120, 220 kann der mindestens eine erste Slice-Tensor 330 mit einer groben, abstrakten Merkmalsrepräsentation verknüpft zu werden.
In Schritt 540 wird der mindestens einen ersten Slice-Tensors 320 mit dem mindestens einen zweiten Slice-Tensor 350 in Abhängigkeit von einer Verbindungsfunktion (Merge) 360 verbunden, um einen Output-Tensor 370 zu erhalten. Der Output-Tensor 370 ist dafür vorgesehen auf dem Encoder-Pfad 110, 210 des künstlichen neuronalen Netzes verarbeitet zu werden.
In Schritt 550 wird der Output-Tensors 370 an den Encoder-Pfad 110, 210 des neuronalen Netzes ausgegeben, um weitere durch das künstliche neuronale Netz verarbeitet zu werden.
Die vorliegende Erfindung eignet sich bevorzugt für den Einsatz in einem Automotive System, insbesondere im Zusammenhang mit Fahrerassistenzsystemen bis hin zum teil- bzw. vollautomatisierten Fahren.
Von besonderem Interesse ist dabei die Verarbeitung von Bilddaten bzw. Bildströmen, die das Umfeld eines Fahrzeugs repräsentieren.
Solche Bilddaten bzw. Bildströme können von bildgebenden Sensoren eines Fahrzeugs erfasst werden. Die Erfassung kann dabei mittels eines einzelnen Sensors erfolgen. Denkbar ist die Fusionierung von Bilddaten bzw. Bildströmen mehrerer Sensoren ggf. von mehreren Sensoren, mit unterschiedlichen Erfassungstechnologien, wie bspw. Video-, Radar, Ultraschall-, Lidar-Sensoren.
Dabei kommt der Ermittlung von freien Räumen (Free Space Detection) und der semantischen Unterscheidung von Vordergrund und Hintergrund in den Bilddaten bzw. Bildströmen eine besondere Bedeutung zu.
Diese Merkmale können durch die Verarbeitung von Bilddaten bzw. Bildströmen durch die Anwendung eines künstlichen neuronalen Netzes gemäß der vorliegenden Erfindung ermittelt werden. Basierend auf dieser Information kann das Steuerungssystem für die Fahrzeuglängs- bzw. -quersteuerung entsprechend angesteuert werden, sodass das Fahrzeug zu einer angemessenen Reaktion auf die Erfassung dieser Merkmale in den Bilddaten bzw. Bildströmen angesteuert werden kann.
Ein weiteres Anwendungsfeld der vorliegenden Erfindung kann darin gesehen werden für ein Kamera-basierte Fahrzeugsteuerungssystem eine genaue Vorbezeichnung (pre-Iabeling) von Bilddaten bzw. Bilddatenströmen durchzuführen.
Dabei stellen die zu vergebenden Bezeichner (Label) Objektklassen dar, die in Bilddaten bzw. Bildströmen erkannt werden sollen.
Die Erfindung ist ferner in allen Gebieten, bspw. Automotive, Robotik, Gesundheit, Überwachung, etc. einsetzbar, die eine genaue Pixel-basierte Objekteerkennung (pixel-wise prediction) mittels künstlichen neuronalen Netzen erfordern. Beispielhaft können dabei genannt werden: Optischer Fluss, Tiefe aus Monobilddaten, Zahlen, Grenzerkennung, Schlüsselkarten, Objektdetektion etc.

Claims

Verfahren (500) zur berechnungs- und speicherressourcenschonenden semantischen Segmentierung von Bilddaten (111, 211) eines bildgebenden Sensors mittels eines künstlichen neuronalen Netzes, insbesondere eines Convolutional Neural Networks, wobei das künstliche neuronale Netz einen Encoder-Pfad (110, 210, 380), einen Decoder-Pfad (120, 220, 340) aufweist, umfassend die Schritte: - Teilen (520) eines Input-Tensors (310) in Abhängigkeit von einer Teilungsfunktion (320, 420) in mindestens einen ersten Slice-Tensor (330) und mindestens einen zweiten Slice-Tensor (350), wobei der Input-Tensor (310) abhängig von den Bilddaten (111, 211) ist; - Ausgeben (530) des mindestens einen ersten Slice-Tensors (330) an den Decoder-Pfad (120, 220, 340) des neuronalen Netzes; - Verbinden (540) des mindestens einen ersten Slice-Tensors (330) mit dem mindestens einen zweiten Slice-Tensor (350) in Abhängigkeit von einer Verbindungsfunktion (360) um einen Output-Tensor (370) zu erhalten; - Ausgeben (550) des Output-Tensors (370) an den Encoder-Pfad (110, 210, 380) des neuronalen Netzes.
Verfahren (500) nach Anspruch 1, wobei im Schritt des Teilens die Teilungsfunktion (320, 430) derart ausgestaltet ist, dass nur eine Teilmenge der Feature Maps des Input-Tensors (310) zur Bildung des mindestens einen ersten Slice-Tensors (330) ausgewählt wird.
Verfahren (500) nach Anspruch 1 oder 2, wobei die Verbindungsfunktion (360) derart ausgestaltet ist, dass die Dimension des Input-Tensors (310) erhalten bleibt.
Verfahren (500) nach einem der vorhergehenden Ansprüche mit dem vorhergehenden Schritt des Empfangens (510), wobei im Schritt des Empfangens (510) der Input-Tensor (310) und die Teilungsfunktion (320, 420) empfangen werden.
Verfahren (500) nach einem der vorhergehenden Ansprüche, wobei im Schritt des Teilens (520) eine erste Funktion (421) eines neuronalen Netzes auf den mindestens einen ersten Slice-Tensor (330) angewendet wird und eine zweite Funktion (422) eines neuronalen Netzes auf den mindestens einen zweiten Slice-Tensor (350) angewendet wird.
Verfahren (500) nach Anspruch 5, wobei die Teilungsfunktion (420) derart gestaltet ist, dass sie die zu berechnende Anzahl an Feature Maps und die jeweiligen Funktionen (421, 422) eines künstlichen neuronalen Netzes zur Berechnung des mindestens einen ersten Slice-Tensors (330) und des mindestens einen zweiten Slice-Tensors (350) umfasst.
Künstliches neuronales Netz, insbesondere Convolutional Neural Network, zur semantischen Segmentierung von Bilddaten eines bildgebenden Sensors, wobei das künstliche neuronale Netz einen Encoder-Pfad (110, 210) zur Klassifizierung der Bilddaten (111, 211), einen Decoder-Pfad (120, 220) zur Lokalisierung der Bilddaten (111, 211) aufweist und derart eingerichtet ist, Schritte des Verfahrens (500) nach einem der Ansprüche 1 bis 6 auszuführen.
Vorrichtung, insbesondere aufweisend ein künstliches neuronales Netz gemäß Anspruch 7, die eingerichtet ist, Schritte des Verfahrens (500) nach einem der Ansprüche 1 bis 6 auszuführen.
Computerprogramm, welches eingerichtet ist, alle Schritte des Verfahrens (500) nach einem der Ansprüche 1 bis 6 auszuführen.
Maschinenlesbares Speichermedium, auf dem das künstliche neuronale Netz nach Anspruch 7 und/oder das Computerprogramm nach Anspruch 9 gespeichert ist.