DE102021213757B3

DE102021213757B3 - Verfahren zum Fusionieren von Bilddaten im Kontext eines künstlichen neuronalen Netzwerks

Info

Publication number: DE102021213757B3
Application number: DE102021213757.1A
Authority: DE
Inventors: Tobias Bund; Mario Rometsch; Robert Thiel
Original assignee: Continental Autonomous Mobility Germany GmbH
Current assignee: Continental Autonomous Mobility Germany GmbH
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2023-02-02
Anticipated expiration: 2041-12-04
Also published as: WO2023098956A1

Abstract

Die Erfindung betrifft ein Verfahren und ein System (10) zum Fusionieren von Bilddaten mindestens eines Bilderfassungssensors (1).Das Verfahren umfasst die Schritte:a) Empfangen von Eingangs-Bilddaten mittels einer Eingangsschnittstelle (12) der Datenverarbeitungseinheit (14) eines Fahrzeugs, wobei die Eingangs-Bilddaten umfassen:- ein erstes Bild (401, 701), welches einen ersten Bereich (101, 601) einer Szene umfasst, wobei der erste Bereich (101,601) ein Übersichtsbereich der Szene ist, und- ein zweites Bild (502, 702), welches einen zweiten Bereich (102, 602) der Szene umfasst, wobei der zweite Bereich (502,702) ein Teilbereich des Übersichtsbereichs der Szene ist; wobei der erste und zweite Bereich einander überlappen, aber nicht identisch sind (S1), und wobei das erste und zweite Bild jeweils eine zwei- oder dimensionale Repräsentation einer Szene sind, die von dem Bilderfassungssensor erfasst wird;b) Bestimmen einer ersten Feature Map (1301) mit einer ersten Höhe und Breite auf Basis des ersten Bildes (401, 701) (S2) und Bestimmen einer zweiten Feature Map (1302) mit einer zweiten Höhe und Breite auf Basis des zweiten Bildes (502, 702) (S3);c) Berechnen einer ersten Output Feature Map (1321) mittels einer ersten Convolution der ersten Feature Map (1301) (S4), und Berechnen einer zweiten Output Feature Map (1322) mittels einer zweiten Convolution der zweiten Feature Map (1302) (S5);d) Berechnen einer fusionierten Feature Map (1330) durch elementweises Addieren der ersten und der zweiten Output Feature Map (1321, 1322), wobei die Lage des ersten und des zweiten Bereichs zueinander berücksichtigt wird, so dass die Elemente im Überlappungsbereich addiert werden (S7), wobei die fusionierte Feature Map (1330) in einem Encoder eines künstlichen neuronalen Netzwerks erzeugt wird, welches zur Bestimmung von ADAS/AD relevanten Informationen eingerichtet ist, und welches künstliche neuronale Netzwerk mehrere Decoder für unterschiedliche ADAS/AD Detektionsfunktionen umfasst,e) Ausgeben der fusionierten Feature Map (1330) (S8), undf) Bestimmen von ADAS/AD relevanten Informationen anhand der fusionierten Feature Map (1330).Das Verfahren ist sehr laufzeiteffizient und kann zur Fusion von Bilddaten eines oder mehrerer Bilderfassungssensoren (1) für ein ADAS/AD-System eines Fahrzeugs eingesetzt werden.

Description

Die Erfindung betrifft ein Verfahren und ein System zum Fusionieren von Bilddaten, beispielsweise in einem umfeldsensorbasierten ADAS/AD-System für ein Fahrzeug im Kontext eines künstlichen neuronalen Netzwerks.
Bei bildgebenden Umfeldsensoren für ADAS/AD-Systeme (insbesondere Kamerasensoren) wird die Auflösung permanent gesteigert. Das erlaubt die Erkennung kleinerer Objekte, sowie die Erkennung von Unterobjekten und z.B. das Lesen von kleinem Text in großer Entfernung. Ein Nachteil der höheren Auflösung liegt in der erforderlichen deutlich höheren Rechenleistung für die Verarbeitung der entsprechend großen Bilddaten. Daher werden häufig verschiedene Auflösungsstufen von Bilddaten für die Verarbeitung benutzt. Große Reichweiten bzw. hohe Auflösungen werden z.B. häufig im Bildzentrum benötigt, am Randbereich dagegen nicht (ähnlich wie beim menschlichen Auge).
DE 102015208889 A1 zeigt eine Kameravorrichtung zum Abbilden eines Umfeldes für ein Kraftfahrzeug mit einer Bildsensoreinrichtung zur Aufnahme eines Pixelbildes und einer Prozessoreinrichtung, die dazu ausgelegt ist, benachbarte Pixel des Pixelbildes in einem angepassten Pixelbild zusammenzufassen. Unterschiedliche angepasste Pixelbilder können in unterschiedlichen Auflösungen generiert werden durch ein Zusammenfassen der Pixelwerte der benachbarten Pixel in Form einer 2-x-2 Bild-Pyramide oder einer n-x-n Bild-Pyramide.
US 10742907 B2 und US 10757330 B2 zeigen Fahrerassistenzsysteme mit einer Aufnahme von Bildern mit variablen Auflösungen.
US 10798319 B2 beschreibt eine Kameravorrichtung zur Erfassung eines Umgebungsbereichs eines eigenen Fahrzeugs mit einer Weitwinkeloptik und einem hochauflösenden Bildaufnahmesensor. Für ein Bild der Bildfolge kann ein mittels Pixelbinnings auflösungsreduziertes Bild des gesamten Erfassungsbereichs der oder ein Teilbereich des Erfassungsbereichs mit maximaler Auflösung erfasst werden.
Technologien, die künstliche neuronale Netzwerke einsetzen, werden immer häufiger in umfeldsensorbasierten ADAS/AD-Systemen verwendet, um die Straßenteilnehmer und die Szene besser zu erkennen, klassifizieren und zumindest teilweise verstehen zu können. Tiefe neuronalen Netze, wie z.B. ein CNN (Convolutional neural network, auf Deutsch etwa „faltungsbasiertes neuronales Netzwerk“ oder „Faltungsnetzwerk“), haben dabei eindeutige Vorteile gegenüber klassischen Methoden. Klassische Methoden verwenden eher handgefertigte Merkmale (Histogram of oriented Gradients, Local Binary Patterns, Gabor Filter usw.) mit angelernten Klassifikatoren wie Support Vector Machines oder AdaBoost. Bei (mehrstufigen) CNNs wird die Merkmalextraktion algorithmisch durch maschinelles (tiefes) Lernen erzielt und dadurch wird die Dimensionalität und Tiefe des Merkmalsraums deutlich erhöht, was letztendlich zu einer deutlich besseren Performance z.B. in Form einer erhöhten Erkennungsrate führt.
Eine Herausforderung stellt die Verarbeitung, insbesondere bei einer Zusammenführung von Sensordaten mit unterschiedlichem, auch überlappendem, Erfassungsbereich und unterschiedlicher Auflösung dar.
EP 3686798 A1 zeigt ein CNN-basiertes Verfahren zum Lernen von Parametern eines Objektdetektors. In einem Kamerabild werden Objektregionen geschätzt und aus unterschiedlichen Bildpyramidenstufen Ausschnitte dieser Regionen erzeugt. Die Ausschnitte weisen z.B. eine identische Höhe auf und werden mittels „Zero Padding“ (Nullbereichen) seitlich aufgefüllt und konkateniert (englisch: concatenated, miteinander verkettet). Diese Form der Konkatenierung kann salopp als eine Art Collage beschrieben werden: die Ausschnitte identischer Höhe werden „nebeneinander geklebt“. Das generierte synthetische Bild ist somit aus unterschiedlichen Auflösungsstufen von Bereichen desselben ursprünglichen Kamerabildes zusammengesetzt. Das CNN wird dahingehend trainiert, dass der Objektdetektor Objekte anhand des synthetischen Bildes detektiert und ist dadurch in der Lage auch weiter entfernte Objekte zu detektieren.
Ein Vorteil einer solchen Vorgehensweise gegenüber einer separaten Verarbeitung der einzelnen Bildbereiche mittels eines CNNs nacheinander ist, dass die Gewichte für das synthetische Bild nur einmal geladen werden müssen.
Nachteilig ist hierbei, dass die Bildbereiche im synthetischen Bild nebeneinander und insbesondere unabhängig voneinander durch das CNN mit dem Objektdetektor betrachtet werden. Im Überlappungsbereich befindliche Objekte, die in einem Bildbereich möglicherweise unvollständig enthalten sind, müssen in nichttrivialer Weise als zu ein und demselben Objekt gehörig identifiziert werden.
Aus „TDAN: Top-Down Attention Networks for Enhanced Feature Selectivity in CNNs“ von S. Jaiswal et al., in arxiV preprint arXiv:2111.13470, 2021 (https://arxiv.org/pdf/2111.13470,2021) ist ein lightweight top-down attention module bekannt worden, welches iterativ einen visuellen Suchscheinwerfer generiert, um eine top-down Kanal- und Raummodulation der Eingänge auszuführen. Dadurch werden selektivere Feature Aktivierungen in jedem Rechenschritt ausgegeben.
In „Co-learning feature fusion maps from PET-CT images of lung cancer“ von A. Kumar et al., in: IEEE Transactions on Medical Imaging, 2019, 39. Jg., Nr. 1, S. 204-217 (doi: 10.1109/TMI.2019.2923601) wird dagegen ein CNN beschrieben, welches multimodalitätsspezifische Features kodiert. Diese Features werden dann benutzt, um eine räumlich variierende Featuremap zu ermitteln, welche die relative Wichtigkeit von jedem Feature entlang unterschiedlicher räumlicher Bereiche quantifiziert.
Weitere Verfahren zum Fusionieren von Featuremaps sind beispielsweise aus CN111815690A oder aus „Efficient featurized image pyramid network for single shot detector“ von Y. Pang et al., in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019, S. 7336-7344 beschrieben worden.
Es ist eine Aufgabe der Erfindung, eine verbesserte Bilddatenfusionsmethode im Kontext eines künstlichen neuronalen Netzwerks bereitzustellen, die Eingangs-Bilddaten aus unterschiedlichen, teilweise überlappenden Erfassungsbereichen effizient fusioniert und für eine anschließende Prozessierung bereitstellt.
Ein Aspekt der Erfindung betrifft eine effiziente Umsetzung einer Objekterkennung auf Eingangsdaten mindestens eines Bilderfassungssensors, die

a) einen großen Bildbereich erfasst
b) relevante Bildberichte, wie beispielsweise entfernte Objekte in Zentrum des Bildes, hochaufgelöst erfasst.

Bei der Entwicklung der Lösung werden folgende Überlegungen vorangestellt.
Zur Verwendung mehrerer Stufen einer Bildpyramide in einem neuronalen Netz könnte eine separate Verarbeitung eines geringer aufgelösten Übersichtsbildes und eine höher aufgelösten zentralen Bildausschnitts durch zwei unabhängige Inferenzen (zwei jeweils dafür trainierte CNNs) erfolgen.
Dies bedeutet einen großen Rechen- /Laufzeitaufwand. Unter anderem müssen Gewichte der trainierten CNNs für die unterschiedlichen Bilder neu geladen werden. Features verschiedener Pyramidenstufen werden nicht kombiniert betrachtet.
Alternativ könnte die Prozessierung wie bei EP 3686798 A1 für ein aus verschiedenen Auflösungsstufen zusammengesetztes Bild erfolgen.
Es würde also ein zusammengesetztes Bild aus verschiedenen Teilbildern/Auflösungsstufen generieren und eine Inferenz bzw. ein trainiertes CNN drüber laufen gelassen. Das kann etwas effizienter sein, da jedes Gewicht nur einmal für alle Bilder geladen wird und nicht für jedes Teilbild neu. Die restlichen Nachteile wie die fehlender Kombination von Features unterschiedlicher Auflösungsstufen bleiben aber bestehen.
Das Verfahren zum Fusionieren von Bilddaten mindestens eines Bilderfassungssensors mittels einer Datenverarbeitungseinheit umfasst die Schritte:

a) Empfangen von Eingangs-Bilddaten mittels einer Eingangsschnittstelle der Datenverarbeitungseinheit eines Fahrzeugs, wobei die Eingangs-Bilddaten umfassen
- - ein erstes Bild (bzw. eine erste Repräsentation), welches einen ersten Bereich einer Szene umfasst bzw. enthält, wobei der erste Bereich ein Übersichtsbereich der Szene ist, und
- - ein zweites Bild, welches einen zweiten Bereich der Szene umfasst bzw. enthält, wobei der zweite Bereich ein Teilbereich des Übersichtsbereichs der Szene ist,
wobei der erste und zweite Bereich einander überlappen, jedoch nicht identisch sind, und wobei das erste und zweite Bild jeweils eine zwei- oder dimensionale Repräsentation einer Szene sind, die von dem Bilderfassungssensor erfasst wird;
b) Bestimmen einer ersten Feature Map mit einer ersten Höhe und Breite auf Basis des ersten Bildes und Bestimmen einer zweiten Feature Map mit einer zweiten Höhe und Breite auf Basis des zweiten Bildes.
c) Berechnen einer ersten Output Feature Map mittels einer ersten Convolution der ersten Feature Map, und Berechnen einer zweiten Output Feature Map mittels einer zweiten Convolution der zweiten Feature Map.
d) Berechnen einer fusionierten Feature Map durch elementweises Addieren der ersten und der zweiten Output Feature Map, wobei die Lage des ersten und des zweiten Bereichs zueinander berücksichtigt wird, so dass die Elemente (der ersten und zweiten Output Feature Map) im Überlappungsbereich addiert werden, wobei die fusionierte Feature Map (1330) in einem Encoder eines künstlichen neuronalen Netzwerks erzeugt wird, welches zur Bestimmung von ADAS/AD relevanten Informationen eingerichtet ist, und welches künstliche neuronale Netzwerk mehrere Decoder für unterschiedliche ADAS/AD Detektionsfunktionen umfasst,;
e) Ausgeben der fusionierten Feature Map, und
f) Bestimmen von ADAS/AD relevanten Informationen anhand der fusionierten Feature Map (1330).

Ein Bild kann beispielsweise eine zweidimensionale Repräsentation einer Szene sein, die von einem Bilderfassungssensor erfasst wird.
Eine Punktwolke oder eine Tiefenkarte sind Beispiele von dreidimensionalen Bildern bzw. Repräsentationen, die z.B. ein Lidarsensor oder eine Stereokamera als Bilderfassungssensor erfassen können. Eine dreidimensionale Repräsentation kann für viele Zwecke in ein zweidimensionales Bild überführt werden, z.B. durch einen ebenen Schnitt oder eine Projektion.
Eine Feature Map (Merkmalskarte) kann durch eine Convolution (Faltung) bzw. einen Convolutional Layer/Faltungslayer/Faltungskern/Faltungskernel aus einem Bild oder einer anderen (bereits existierenden) Feature Map bestimmt werden.
Die Höhe und Breite einer Feature Map hängt mit der Höhe und Breite des zugrundeliegenden Bildes (bzw. der eingehenden Feature Map) und der Operation zusammen.
Die Lage des ersten und zweiten Bereichs zueinander wird insbesondere berücksichtigt, um für die Fusion die passenden Elemente der ersten und zweiten Output Feature Map zu addieren. Die Lage des Überlappungsbereichs kann durch Startwerte (x_s, y_s) definiert werden, die beispielsweise die Lage der zweiten Output Feature Map in vertikaler und horizontaler Richtung innerhalb der fusionierten Feature Map angeben. Im Überlappungsbereich werden die Elemente der ersten und der zweiten Output Feature Map addiert. Außerhalb des Überlappungsbereichs können die Elemente der Output Feature Map in die fusionierte Feature Map übertragen werden, die diesen Bereich abdeckt. Sofern keine der beiden Output Feature Maps einen Bereich der fusionierten Feature Map abdeckt, kann dieser mit Null befüllt werden.
Das Verfahren wird z.B. im Kontext eines künstlichen neuronalen Netzwerks, vorzugsweise eines Convolutional Neural Networks (CNN) durchgeführt. Für ADAS/AD Funktionalitäten wird häufig (vor allem perzeptionsseitig) mindestens ein künstliches neuronales Netzwerk bzw. CNN eingesetzt, welches mittels einem maschinellen Lernverfahren dazu trainiert wird, Bild-Eingangsdaten für die ADAS/AD Funktionalität relevanten Ausgangsdaten zuzuordnen. ADAS steht für fortschrittliche Systeme zum assistierten Fahren und AD steht für automatisiertes Fahren (Englisch: Advanced Driver Assistance Systems bzw. Automated Driving). Das trainierte künstliche Neuronale Netzwerk kann auf einem Prozessor eines ADAS/AD Steuergeräts in einem Fahrzeug implementiert sein. Der Prozessor kann zur Auswertung von Bilddaten durch das trainierte künstliche neuronale Netzwerk (Inferenz) konfiguriert sein. Der Prozessor kann einen Hardware-Beschleuniger für das künstliche neuronale Netzwerk umfassen.
Der Prozessor bzw. die Inferenz kann beispielsweise dazu konfiguriert sein, um aus Eingangs-Bilddaten eines oder mehrerer Bilderfassungssensoren ADAS/AD relevante Informationen zu detektieren bzw. näher zu bestimmen. Relevante Informationen sind z.B. Objekte und/oder Umgebungsinformationen für ein ADAS/AD-System bzw. ein ADAS/AD-Steuergerät. ADAS/AD-relevante Objekte und/oder Umgebungsinformationen sind z.B. Gegenstände, Markierungen, Verkehrsschilder, Verkehrsteilnehmer sowie Abstände, Relativgeschwindigkeiten von Objekten etc., die für ADAS/AD-Systeme wichtige Eingangsgrößen darstellen. Beispiele für Funktionen zur Detektion relevanter Informationen sind eine Fahrspurerkennung, eine Objekterkennung, eine Tiefenerkennung (3D-Schätzung der Bildbestandteile), semantische Erkennung, Verkehrszeichenerkennung oder dergleichen mehr.
In einer Ausführungsform sind das erste und das zweite Bild von demselben Bilderfassungssensor erfasst worden sind. Dies kann auch ein vorgelagerter Schritt des Verfahrens sein. Insbesondere können das erste und das zweite Bild gleichzeitig vom Bilderfassungssensor erfasst worden sein oder unmittelbar hintereinander.
In einer Ausführungsform ist der (einzige) Bilderfassungssensor eine monokulare Kamera. Die erste Repräsentation (bzw. das erste Bild) kann einem weitwinklig erfassten Übersichtsbild mit reduzierter Auflösung und die zweite Repräsentation (bzw. das zweite Bild) einem Teilbild mit höherer Auflösung entsprechen.
Gemäß einem Ausführungsbeispiel entsprechen erstes und zweites Bild unterschiedlichen Bildpyramidenstufen eines von einem Bilderfassungssensor erfassten (Ursprungs-)Bildes.
Die Eingangs-Bilddaten können je nach Auflösung in mehrere Kanäle kodiert sein bzw. kodiert werden. Beispielsweise weist jeder Kanal dieselbe Höhe und Breite auf. Innerhalb jedes Kanals kann dabei die räumliche Beziehung der enthaltenen Pixel aufrechterhalten werden. Für Details hierzu wird auf die DE 102020204840 A1 verwiesen, deren Inhalt vollumfänglich in diese Anmeldung mit aufgenommen wird.

. Der Übersichtsbereich, der im ersten Bild enthalten ist, kann einem Gesamtbereich, also einem maximalen Erfassungsbereich des Bilderfassungssensors entsprechen.

Der Teilbereich der Szene, der im zweiten Bild enthalten ist, kann einer Region-of-interest (ROI) entsprechen, die auch im ersten Bild enthalten ist.
Gemäß einem Ausführungsbeispiel hat das erste Bild eine erste Auflösung und das zweite Bild eine zweite Auflösung. Die zweite Auflösung ist beispielsweise höher als die erste Auflösung. Die Auflösung des zweiten Bildes kann der maximalen Auflösung eines Bilderfassungssensors entsprechen. Beispielsweise kann die höhere Auflösung mehr Details über den Teilbereich bzw. die ROI bieten, welche(r) Inhalt des zweiten Bildes ist.
Die Auflösung eines Bildes kann einer Genauigkeit oder einer Datentiefe entsprechen, z.B. einem minimalen Abstand zwischen zwei benachbarten Bildpunkten (Pixeln) eines Bilderfassungssensors.
In einer Ausführungsform werden als Bilderfassungssensoren zwei monokulare Kameras mit überlappendem Erfassungsbereich eingesetzt. Die zwei monokularen Kameras können Bestandteil einer Stereokamera sein. Die zwei monokularen Kameras können unterschiedliche Öffnungswinkel und/oder Auflösungen aufweisen („hybride Stereokamera“). Die beiden monokularen Kameras können Satellitenkameras sein, die unabhängig voneinander am Fahrzeug befestigt sind.
Gemäß einem Ausführungsbeispiel werden als Bilderfassungssensoren mehrere Kameras eine Rundumsichtkamerasystems eingesetzt. Beispielsweise können vier monokulare Kameras mit Fischaugenoptik (Erfassungswinkel von z.B. 180° oder mehr), die Umgebung eines Fahrzeugs vollständig erfassen. Je zwei benachbarte Kameras weisen einen Überlappungsbereich von ca. 90° auf. Hier ist es möglich, aus den vier Einzelbildern (vier Repräsentationen) eine fusionierte Feature Map für die 360° Umgebung des Fahrzeugs zu erstellen.
In einer Ausführungsform weisen die erste und die zweite Output Feature Map im Überlappungsbereich dieselbe Höhe und Breite auf. Mit anderen Worten sind benachbarte Elemente im Überlappungsbereich der Output Feature Maps im realen Raum gleich weit voneinander entfernt. Dies kann deshalb der Fall sein, da bereits die erste und zweite Feature Map im Überlappungsbereich dieselbe Höhe und Breite aufweisen. Beispielsweise weisen (auch) der erste und zweite Bereich bzw. das erste und zweite Bild im Überlappungsbereich dieselbe Höhe und Breite auf.
Gemäß einem Ausführungsbeispiel sind Höhe und Breite der fusionierten Feature Map durch das Rechteck bestimmt sind, welches die erste und die zweite Output Feature Map umschließt (genau einschließt).
In einer Ausführungsform können, nachdem die Höhe und Breite der fusionierten Feature Map durch das Rechteck bestimmt worden sind, welches die erste und die zweite Output Feature Map umschließen (genau einschließen), die erste und/oder zweite Output Feature Map so vergrößert bzw. adaptiert werden, dass sie die Breite und Höhe der fusionierten Feature Map erlangen und die Lage von erster und zweiter Output Feature Map zueinander erhalten bleibt. Bei beiden adaptierten Output Feature Maps ist der Überlappungsbereich an derselben Position. Die durch die Vergrößerung neu hinzugekommenen Bereiche der jeweiligen (adaptierten) Output Feature Map werden mit Nullen aufgefüllt (Zero Padding). Die beiden adaptierten Output Feature Maps können anschließend elementweise addiert werden.
Gemäß einem Ausführungsbeispiel wird zunächst eine Template (Vorlage) Output Feature Map erstellt, deren Breite und Höhe sich aus der Höhe und Breite von erster und zweiter Output Feature Map und der Lage des Überlappungsbereichs ergibt (vgl. letzter Abschnitt, umschließendes Rechteck). Die Template Output Feature Map ist mit Nullen befüllt.
Für die adaptierte erste Output Feature Map werden die Elemente aus der ersten Output Feature Map in dem Bereich übernommen, den die erste Output Feature Map abdeckt. Dazu können Startwerte verwendet werden, die die Lage der ersten Output Feature Map in vertikaler und horizontaler Richtung innerhalb der Template Output Feature Map angeben. Entsprechend wird die adaptierte zweite Output Feature Map gebildet. Die beiden adaptierten Output Feature Maps können anschließend wiederum elementweise addiert werden.
In einer Ausführungsform für den Spezialfall, dass die zweite Output Feature Map den gesamten Überlappungsbereich enthält (also einen echten Teilbereich der ersten Output Feature Map, die einen Übersichtsbereich umfasst), kann eine Adaption der unterschiedlichen Höhe und Breite der zweiten Output Feature Map entfallen. In diesem Fall muss auch die erste Output Feature Map nicht adaptiert werden, denn die fusionierte Feature Map wird dieselbe Höhe und Breite wie die erste Output Feature Map aufweisen. In diesem Fall kann die elementweise Addition der zweiten Output Feature Map zur ersten Output Feature Map mittels geeigneter Startwerten nur im Überlappungsbereich durchgeführt werden. Die Startwerte geben innerhalb der ersten Output Feature Map vor, ab wo (nämlich im Überlappungsbereich) die Elemente der zweiten Output Feature Map zu den Elementen der ersten Output Feature Map addiert werden, um die fusionierte Feature Map zu erzeugen.
In einer Ausführungsform weisen die Feature Maps eine Tiefe auf, die von der Auflösung der (zugrundeliegenden) Bilder abhängen. Ein höher aufgelöstes Bild (z.B. Bildausschnitt) ergibt eine Feature Map mit größerer Tiefe, z.B. enthält die Feature Map mehr Kanäle.
Beispielsweise kann ein Prozessor einen Hardware-Beschleuniger für das künstliche Neuronale Netzwerk umfassen, der einen Stapel (Englisch: stack) von mehreren Bildkanaldaten-„Paketen“ während eines Taktzyklus bzw. Rechenzyklus (Englisch: clock cycle) weiterverarbeiten kann. Die Bilddaten bzw. Feature- (Map-) Schichten können als gestapelte Bildkanaldatenpakete am
Hardware-Beschleuniger eingespeist werden.
Gemäß einem Ausführungsbeispiel erfolgt eine Detektion von ADAS/AD relevanten Features anhand der fusionierten Feature Map.
In einer Ausführungsform wird das Verfahren in einem Hardware-Beschleuniger für ein künstliches neuronale Netzwerk bzw. CNN implementiert.
Ein weiterer Aspekt der Erfindung betrifft ein System bzw. eine Vorrichtung zum Fusionieren von Bilddaten mindestens eines Bilderfassungssensors. Die Vorrichtung umfasst eine Eingangsschnittstelle, eine Datenverarbeitungseinheit und eine Ausgabeschnittstelle.
Die Eingangsschnittstelle ist konfiguriert zum Empfangen von Eingangs-Bilddaten. Die Eingangs-Bilddaten umfassen ein erstes und ein zweites Bild. Das erste Bild umfasst bzw. enthält einen ersten Bereich einer Szene, wobei der erste Bereich ein Übersichtsbereich der Szene ist.
Das zweite Bild enthält einen zweiten Bereich der Szene, wobei der zweite Bereich ein Teilbereich des Übersichtsbereichs der Szene ist. Der erste und der zweite Bereich überlappen einander. Der erste und der zweite Bereich sind nicht identisch und das erste und zweite Bild sind jeweils eine zwei- oder dimensionale Repräsentation einer Szene, die von dem Bilderfassungssensor erfasst wird.
Die Datenverarbeitungseinheit ist zum Durchführen der folgenden Schritte b) bis d) konfiguriert:

b) Bestimmen einer ersten Feature Map mit einer ersten Höhe und Breite auf Basis des ersten Bildes und Bestimmen einer zweiten Feature Map mit einer zweiten Höhe und Breite auf Basis des zweiten Bildes.
c) Berechnen einer ersten Output Feature Map mittels einer ersten Convolution der ersten Feature Map, und Berechnen einer zweiten Output Feature Map mittels einer zweiten Convolution der zweiten Feature Map.
d) Berechnen einer fusionierten Feature Map durch elementweises Addieren der ersten und der zweiten Output Feature Map. Die Lage des ersten und des zweiten

Bereichs zueinander wird bei der elementweisen Addition berücksichtigt, so dass die Elemente (der ersten und zweiten Output Feature Map) im Überlappungsbereich addiert werden, wobei die fusionierte Feature Map in einem Encoder eines künstlichen neuronalen Netzwerks erzeugt wird, welches zur Bestimmung von ADAS/AD relevanten Informationen eingerichtet ist, und welches künstliche neuronale Netzwerk mehrere Decoder für unterschiedliche ADAS/AD Detektionsfunktionen umfasst.
Die Ausgabeschnittstelle ist konfiguriert zum Ausgeben der fusionierten Feature Map, wobei ADAS/AD relevante Informationen anhand der fusionierten Feature Map bestimmt werden.
Die Ausgabe kann an ein nachgeordnetes ADAS/AD-System erfolgen oder an nachgelagerte Schichten eines „großen“ ADAS/AD-CNN oder weiterer künstlicher neuronaler Netzwerke.
Gemäß einem Ausführungsbeispiel umfasst das System einen CNN-Hardwarebeschleuniger. Die Eingangsschnittstelle, die Datenverarbeitungseinheit und die Ausgabeschnittstelle sind in dem CNN-Hardwarebeschleuniger implementiert.
In einer Ausführungsform umfasst das System ein Convolutional Neural Network mit einem Encoder. Die Eingangsschnittstelle, die Datenverarbeitungseinheit und die Ausgabeschnittstelle sind im Encoder implementiert, so dass der Encoder dazu konfiguriert ist, die fusionierte Feature Map zu erzeugen.
Gemäß einem Ausführungsbeispiel umfasst das Convolutional Neural Network mehrere Decoder. Die Decoder sind dazu konfiguriert, unterschiedliche ADAS/AD-Detektionsfunktionen zumindest auf Basis der fusionierten Feature Map zu realisieren. Mehrere Decoder des CNN können sich also der durch einen gemeinsamen Encoder codierten Eingangs-Bilddaten bedienen. Unterschiedliche ADAS/AD-Detektionsfunktionen sind beispielsweise eine semantische Segmentierung der Bilder bzw. Bilddaten, eine Freiraumerkennung, eine Fahrspurdetektion, eine Objektdetektion oder eine Objektklassifikation.
In einer Ausführungsform umfasst das System ein ADAS/AD-Steuergerät, wobei das ADAD/AD-Steuergerät dazu konfiguriert ist, ADAS/AD-Funktionen zu realisieren zumindest auf Basis der Ergebnisse der ADAS/AD-Detektionsfunktionen.
Das System kann den mindestens einen Bilderfassungssensor umfassen. Als Bilderfassungssensor(en) dienen beispielsweise eine monokulare Kamera, insbesondere mit weitwinkligem Erfassungsbereich (z.B. mindestens 100°) und hoher maximaler Auflösung (z.B. mindestens 5 Megapixeln), eine Stereokamera, Satellitenkameras, Einzelkameras eines Rundumsichtsystems, Lidarsensoren, Laserscanner oder sonstige 3D-Kameras.
Ein weiterer Aspekt der Erfindung betrifft ein Fahrzeug mit mindestens einem Bilderfassungssensor und einem entsprechenden System zum Fusionieren der Bilddaten.
Das System bzw. die Datenverarbeitungseinheit kann insbesondere einen Mikrocontroller oder -prozessor, eine Zentrale Verarbeitungseinheit (CPU, central processing unit), eine Grafische Verarbeitungseinheit (GPU, graphics processing unit), eine Tensor-Verarbeitungseinheit (TPU, tensor processing unit), eine neuronale/KI- Verarbeitungseinheit (NPU, neural processing unit) einen Digital Signal Processor (DSP), einen ASIC (Application Specific Integrated Circuit), einen FPGA (Field Programmable Gate Array) und dergleichen mehr sowie Software zur Durchführung der entsprechenden Verfahrensschritte umfassen.
Gemäß einer Ausführungsform ist das System bzw. die Datenverarbeitungseinheit in eine hardwarebasierte Bilddatenvorverarbeitungsstufe (z.B. einen Bildsignalprozessor, Image Signal Processor, ISP) implementiert.
Die Erfindung betrifft weiterhin ein Computer Programmelement bzw. Programmprodukt, welches, wenn damit ein Prozessor eines Systems zur Bilddatenfusion programmiert wird, den Prozessor dazu anweist, ein entsprechendes Verfahren zur Fusion von Eingangs-Bilddaten durchzuführen.
Die Erfindung betrifft weiterhin ein Computerlesbares Speichermedium, auf dem ein solches Programmelement gespeichert ist.
Die vorliegende Erfindung kann somit in digitalen elektronischen Schaltkreisen, Computer-Hardware, Firmware oder Software implementiert sein.
Im Folgenden werden Ausführungsbeispiele und Figuren im Kontext der Erfindung beschrieben.
Dabei zeigen:

1 ein System zum Fusionieren von Bilddaten mindestens eines Bilderfassungssensors;
2 Ausdehnung und Lage eines ersten und zweiten Erfassungsbereichs eines Bilderfassungssensors oder zweier verschiedener Bilderfassungssensoren, aus denen ein erstes und zweites Bild einer Szene ermittelt werden kann;
3 ein Gesamtbild mit hoher Auflösung;
4 das Gesamtbild bzw. Übersichtsbild mit reduzierter Auflösung;
5 einen zentralen Bildausschnitt mit hoher Auflösung;
6 eine alternative Anordnung eines ersten (Übersichts-) Erfassungsbereichs und eines zweiten zentralen Erfassungsbereichs;
7 ein Beispiel, wie entsprechende digitale Bilder als Graustufenbild aussehen;
8 einen Weg, wie derartige Bilder grundsätzlich fusioniert werden können;
9 einen alternativen zweiten Weg zur Fusion;
10 einen vorteilhaften dritten Weg zur Fusion;
11 eine Konkatenierung zweier Feature Maps, die anschließend von einem Faltungskern verarbeitet (und dadurch fusioniert) werden;
12 einen alternativen Ablauf, bei dem zwei Feature Maps von zwei separaten Faltungskernen verarbeitet werden und anschließend eine elementweise Addition erfolgt;
13 einen Ablauf zur Fusion zweier Feature Maps unterschiedlicher Breite und Höhe; und
14 einen möglichen Verfahrensablauf.

1 zeigt schematisch ein System 10 zum Fusionieren von Daten mindestens eines Sensors 1 mit einer Eingangsschnittstelle 12, einer
Datenverarbeitungseinheit 14 mit einem Fusionsmodul 16 und einer Ausgabeschnittstelle 18 zum Ausgeben von fusionierten Daten an eine weitere Einheit 20.
Ein Beispiel eines Bilderfassungssensors 1 ist ein monokularer Kamerasensor mit einer Weitwinkeloptik und einem hochauflösenden Bilderfassungssensor, z.B. einem CCD oder CMOS-Sensor.
Häufig unterscheiden sich Auflösung und/oder Erfassungsbereiche der Bilddaten bzw. der Bilderfassungssensoren. Für eine Fusion ist eine
Bilddatenvorverarbeitung nützlich, die die Fusion von Merkmalen aus den Bilddaten des oder der Bilderfassungssensors/-en ermöglicht.
Ein Ausführungsbeispiel, auf das im Folgenden näher eingegangen wird, sind die Verarbeitung von einem ersten Bild eines Kamerasensors und einem zweiten Bild desselben Kamerasensors, wobei das zweite Bild (nur) einen Teilbereich des ersten Bildes aufweist und eine höhere Auflösung verglichen mit der Auflösung des ersten Bildes.
Basierend auf den Bilddaten des Kamerasensors können mehrere ADAS- oder AD-Funktionen durch ein ADAS/AD-Steuergerät als Beispiel für die weitere Einheit 20 bereitgestellt werden, z.B. eine Fahrspurerkennung, Spurhalteunterstützung, Verkehrszeichenerkennung, Tempolimit-Assistenz, Verkehrsteilnehmererkennung, Kollisionswarnung, Notbremsassistenz, Abstandsfolgeregelung, Baustellenassistenz, ein Autobahnpilot, eine Cruising-Chauffeurfunktion und/oder ein Autopilot.
Das Gesamtsystem 10, 20 kann ein künstliches neuronales Netzwerk umfassen, beispielsweise ein CNN. Damit das künstliche neuronale Netzwerk die Bilddaten beispielsweise in einem Fahrzeug in Echtzeit prozessieren kann, kann das Gesamtsystem 10, 20 einen Hardwarebeschleuniger für das künstliche neuronale Netzwerk umfassen. Derartige Hardwarebausteine können das im Wesentlichen softwareimplementierte neuronale Netzwerk dediziert beschleunigen, so dass ein Echtzeitbetrieb des neuronalen Netzwerks möglich ist.
Die Datenverarbeitungseinheit 14 kann die Bilddaten in einem „gestapelten“ Format verarbeiten, ist also in der Lage einen Stapel (Stack) von mehreren Eingangskanälen innerhalb eines Rechenzyklus (clock cycle) einzulesen und zu verarbeiten. In einem konkreten Beispiel ist es einer Datenverarbeitungseinheit 14 möglich, vier Bildkanäle einer Auflösung von 576 × 320 Pixeln einzulesen.
Eine Fusion von mindestens zwei Bildkanälen würde für eine spätere CNN-Detektion den Vorteil bieten, dass die Kanäle nicht einzeln durch entsprechende CNNs prozessiert werden müssen, sondern bereits fusionierte Kanalinformationen bzw. Feature Maps durch ein CNN prozessiert werden können. Eine solche Fusion kann durch ein Fusionsmodul 16 erfolgen. Die Details der Fusion werden anhand der nachfolgenden Figuren weiter unten näher erläutert.
Die Fusion kann im Encoder des CNN implementiert sein. Die fusionierten Daten können anschließend von einem oder mehreren Decodern des CNN prozessiert werden, woraus Detektionen oder sonstige ADAS/AD relevante Informationen gewonnen werden. Im Falle einer solchen Aufteilung wäre der Encoder in 1 durch den Block 10 repräsentiert, der bzw. die Decoder durch den Block 20. Das CNN würde die Blöcke 10 und 20 umfassen, daher die Bezeichnung „Gesamtsystem“.
2 zeigt schematisch Ausdehnung und Lage eines ersten 101 und zweiten 102 Erfassungsbereichs eines Bilderfassungssensors 1 oder zweier verschiedener Bilderfassungssensoren, aus denen ein erstes und zweites Bild einer Szene ermittelt werden kann. Aus dem ersten Bilderfassungsbereichs 101, kann ein Übersichts- oder Gesamtbild als erstes Bild erfasst werden kann und aus einem zweiten Bilderfassungsbereich 102, z.B. einem zentralen Bildbereich, ein zweites Bild, das einen Ausschnitt des ersten Bilderfassungsbereichs 101 enthält.
Die 3 bis 5 zeigen Beispiele, welche Bilder mit einem Bilderfassungs- (bzw. Kamera-) Sensor erfasst werden können.
3 zeigt schematisch ein Übersichts- bzw. Gesamtbild 300 mit hoher Auflösung. Erfasst ist eine Szene mit einem nahen und einem weiter entferntem Verkehrsteilnehmer (304 und 303) auf einer Straße 305 bzw. Fahrbahn, die an einem Haus 306 vorbeiführt. Der Kamerasensor ist in der Lage ein solches Gesamtbild mit maximaler Breite, Höhe und Auflösung (bzw. Pixelzahl) zu erfassen. Die Verarbeitung dieser hohen Datenmenge (z.B. im Bereich von 5 bis 10 Megapixeln) ist jedoch in Echtzeit in einem AD- oder ADAS System typischerweise nicht möglich, weshalb reduzierte Bilddaten weiterverarbeitet werden.
4 zeigt schematisch das Gesamtbild bzw. Übersichtsbild mit reduzierter Auflösung 401. Eine halbe Auflösung reduziert die Pixelzahl um einen Faktor vier. Das Übersichtsbild mit reduzierter Auflösung 401 wird im Folgenden als wfov- (wide field of view) Bild bezeichnet. Der nahe Verkehrsteilnehmer 404 (das Fahrzeug) kann auch bei reduzierter Auflösung aus dem wfov-Bild detektiert werden. Der entfernte Verkehrsteilnehmer 403 (der Fußgänger) ist jedoch aufgrund der begrenzten Auflösung aus diesem wfov-Bild nicht detektierbar.
5 zeigt schematisch einen zentralen Bildausschnitt mit hoher (bzw. maximaler) Auflösung 502. Der Bildausschnitt mit hoher Auflösung 502 wird im Folgenden als center-Bild bezeichnet.
Das center-Bild ermöglicht aufgrund der hohen Auflösung die Detektion des entfernten Fußgängers 503. Dagegen ist das nahegelegene Fahrzeug 504 nicht oder fast nicht (d.h. nur zu einem geringen Teil) im Erfassungsbereich des center-Bildes 502 enthalten.
6 zeigt eine alternative Anordnung eines ersten (Übersichts-) Erfassungsbereichs 601 und eines zentralen Erfassungsbereichs 602. Dieser zentrale Erfassungsbereich 602 liegt „unten“, d.h. vertikal beginnend auf derselben Höhe wie der Gesamterfassungsbereich 601. Durch Startwerte x₀, y₀ kann die Lage des zentralen Erfassungsbereichs 602 in horizontaler und vertikaler Richtung innerhalb des Gesamt- bzw. Übersichtserfassungsbereichs angeben werden.
7 zeigt ein Beispiel, wie entsprechende digitale Bilder als Graustufenbild aussehen könnten. Unten ist als erstes Bild ein wfov-Bild 701 zu sehen, das eine Frontkamera eines Fahrzeugs erfasst hat. Das Fahrzeug fährt auf eine Straßenkreuzung zu. Senkrecht zur Fahrtrichtung verläuft eine große, möglicherweise mehrspurige, Straße. Parallel zu der großen Straße verläuft ein Radweg. Eine Ampel regelt die Vorfahrtsberechtigung der Verkehrsteilnehmer. Gebäude und Bäume säumen die Straße und Bürgersteige. Der zentrale Bildausschnitt 702 ist im wfov-Bild 701 ausgebleicht dargestellt, um zu verdeutlichen, dass dieser Bildausschnitt als zweites Bild (center-Bild) 7020 mit höherer Auflösung genau diesem Bildausschnitt 702 des ersten Bildes 701 entspricht. Das zweite Bild 7020 ist oben dargestellt und hier ist für den menschlichen Betrachter leichter zu erkennen, dass die Ampel für das eigene Fahrzeug rot anzeigt, dass ein Bus die Kreuzung gerade von links nach rechts überquert hat, und weitere Details der erfassten Szene. Aufgrund der höheren Auflösung im zweiten Bild 7020 können auch weiter entfernte Objekte bzw. Verkehrsteilnehmer durch eine Bildverarbeitung robust detektiert werden. Die Bildpyramide könnte z.B. auf der höchsten Stufe für das zweite (center-) Bild 2304 × 1280 Pixel aufweisen, auf der zweiten Stufe 1152 × 640 Pixel, auf der dritten Stufe 576 × 320, auf der vierten Stufe 288 × 160, auf der fünften Stufe 144 × 80 Pixel, usw. Die Bildpyramide für das erste (wfov) Bild weist bei gleicher Auflösung (also auf derselben Stufe bezogen auf das center-Bild) natürlich mehr Pixel auf.
Da das wfov- und das center-Bild typischerweise aus unterschiedlichen Pyramidenstufen abgeleitet werden, wird das center-Bild durch auflösungsreduzierende Operationen an die Auflösung des wfov-Bildes angepasst. Dabei wird bei der Feature Map des center-Bilds typischerweise die Anzahl der Kanäle erhöht (höherer Informationsgehalt pro Pixel). Auflösungsreduzierende Operationen sind z.B. Striding oder Pooling. Beim Striding wird nur jeder zweite (oder vierte oder n-te) Pixel ausgelesen. Beim Pooling werden mehrere Pixel zu einem zusammengefasst, z.B. beim MaxPooling wird der maximale Wert eines Pixelpools (z.B. von zwei Pixeln oder 2x2 Pixeln) übernommen.
Angenommen, das Übersichtsbild der Stufe 5 weist 400 × 150 Pixel auf und das center-Bild der Stufe 5 liegt x₀ = 133 Pixel in horizontaler Richtung vom linken Rand des Übersichtsbildes und erstreckt sich y₀= 80 Pixel in vertikaler Richtung vom unteren Rand des Übersichtbildes. Angenommen jeder Pixel entspricht einem Element in einer Output Feature Map. Dann müssten zur Adaption der zweiten Output Feature Map links 133 Nullen pro Zeile (eine für jeden Pixel), oben 70 Nullen pro Spalte und rechts auch 133 Pixel pro Zeile hinzugefügt werden, damit die Kanäle der adaptierten zweiten Output Feature Map elementweise mit den Kanälen der ersten Output Feature Map addiert werden können. Die Startwerte x₀, y₀ werden aus der Lage des (zweiten) Bildes des Teilbereichs innerhalb des (ersten) Bildes des Übersichtsbereichs bestimmt. Sie geben die Verschiebung bzw. Erstreckung in horizontaler und vertikaler Richtung an.
8 zeigt schematisch einen Weg, wie derartige Bilder (z.B. das erste bzw. wfov-Bild 701 und das zweite bzw. center-Bild 7020 aus 7) grundsätzlich fusioniert werden können:

Das wfov-Bild wird als Eingangs-Bilddaten an einen ersten Faltungslayer c1 eines künstlichen neuronalen Netzwerks (z.B. CNN) übergeben.
Das center-Bild wird als Eingangs-Bilddaten an einen zweiten Faltungslayer c2 des CNN übergeben. Jeder Faltungslayer weist eine Aktivierungsfunktion und optional Pooling auf.
Das center-Bild wird unter Verwendung eines ,großen‘ Zero-Padding ZP Bereiches aufgefüllt, so dass Höhe und Breite mit der des wfov-Bildes übereinstimmen, wobei die räumliche Relation beibehalten wird. Anhand von 7 kann man sich das so vorstellen, dass der Bereich 701 ohne den zentralen Bildausschnitt 702 (d.h. in 7 unten der nicht ausgebleicht dargestellte - also dunkler dargestellte - Bereich aus dem wfov-Bild 701) für das center-Bild 7020 mit Nullen aufgefüllt wird. Die höhere Auflösung des center-Bilds 7020 führt zu einer höheren Tiefe der (zweiten) Feature Map, die der zweite Faltungslayer c2 erzeugt. Die Höhe und Breite der zweiten Feature Map entspricht der Höhe und Breite des zentralen Bildausschnitts 702 des wfov-Bildes 701. Eine Adaptierung der unterschiedlichen Höhe und Breite von erster und zweiter Feature Map findet hierbei durch das Zero-Padding ZP der zweiten Feature-Map statt.
Die Features von wfov- und center-Bild werden konkateniert cc.
Die konkatenierten Features werden an einen dritten Faltungslayer c3 übergeben, der die fusionierte Feature Map generiert.
Im Rahmen der Faltung mit der zweiten (mittels Zero-Padding ZP aufgefüllten) Feature Map sind viele Multiplikationen mit Null erforderlich. Diese Berechnungen von ,0'-Multiplikanden des Zero-Padding ZP Bereiches im Faltungslayer c3 sind unnötig und somit nicht von Vorteil. Ein Aussetzen dieser Bereiche ist jedoch nicht möglich, da z.B. bekannte CNN-Beschleuniger eine räumliche Steuerung des Anwendungsbereiches von Faltungskerneln nicht erlauben.
Vorteilhaft ist dagegen, dass die Tiefe der beiden Feature Maps unterschiedlich sein darf. Die Konkatenierung hängt beide Feature Maps „in der Tiefe aneinander“. Dies ist für den Fall, wo das center-Bild eine höhere Auflösung aufweist als das wfov-Bild, weshalb aus dem center-Bild mehr Informationen extrahiert werden können, von besonderem Vorteil. Insofern ist dieser Weg vergleichsweise flexibel.

9 zeigt schematisch einen alternativen zweiten Weg: Wfov- und center-Features werden über passende elementweise Addition (+) (anstatt
Konkatenation cc der beiden Feature Maps) zusammengeführt, wobei zuvor für das center-Bild nach Feature-Extraktion durch den zweiten Faltungslayer c2 wiederum Höhe und Breite angepasst werden mittels Zero-Padding ZP. Die Feature Map mit den elementweise addierten Features wird an den dritten Faltungslayer c3 übergeben.
Auch bei diesem Weg wird eine Performancedegradation in Kauf genommen, da durch die Addition Features unterschiedlicher semantischer Bedeutung zusammengefasst werden. Zudem ist es nicht von Vorteil, dass die Tensoren dieselbe Dimension aufweisen müssen.
Der Vorteil besteht darin, dass die Addition von Nullen (im Zero Padding ZP Bereich) wesentlich weniger Rechenzeit erfordert als die Multiplikationen mit Null.
Beide zuvor geschilderten Wege bieten jeweils Vor- und Nachteile. Erstrebenswert wäre ein Ausnutzen der jeweiligen Vorteile, was bei einer geschickten Kombination möglich ist.
10 zeigt schematisch einen vorteilhaften Weg: Ausgehend von der ersten Alternative, die in 8 dargestellt ist, also einer Zusammenführung von Features durch Konkatenieren, wird im Folgenden eine mathematische Zerlegung von c3 beschrieben, welche die verzichtbare Multiplikation der Nullen des Zero-Padding ZP Bereichs obsolet macht:

• Ein Faltungslayer C_n produziert einen 3-dimensionalen Tensor FM_n mit O_n Feature-Schichten (channels), n ist eine natürliche Zahl
• Für eine konventionelle 2D-Faltung gilt: $F M_{n}^{j} = \underset{i}{Σ} c_{n}^{i, j} (F M_{n - 1}^{i})$
wobei i, j natürliche Zahlen sind.
• Für den Faltungslayer c3 aus 8 gilt $F M_{3}^{j} = \underset{i}{Σ} c_{3}^{i, j} (c c (F M_{1}, F M_{2})) F M_{3}^{j} = \sum_{i = 0}^{o_{1} - 1} c_{3}^{i, j} (F M_{1}^{i}) + \sum_{i = 0}^{o_{2} - 1} c_{3}^{i + o_{1}, j} (F M_{2}^{i})$
da die Faltung für konkatenierte Eingangsdaten linear ist.

Eine Konkatenierung mit anschließendem Faltungslayer (vgl. 8) wird überführt in zwei reduzierte Faltungen C_3A und C_3B mit anschließender elementweisen Addition (+): $c_{3 A}^{i, j} = C_{3}^{i, j}, \forall i < o_{1}, j$
$c_{3 B}^{i, j} = c_{3}^{i + o_{1}, j}, \forall i < o_{2}, j .$
Die Anpassung der unterschiedlichen Höhe und Breite der aus den beiden reduzierten Faltungen C_3A und C_3B erzeugten Feature Maps erfolgt vor der elementweisen Addition (+).
Durch die Aufspaltung des Faltungskernels C₃ in C_3A und C_3B
wird die Faltung C_3B laufzeiteffizient auf die reduzierte Größe des Center-Bildes angewandt. Diese elementweise Addition (+) ist bei aktuell einsetzbaren Beschleunigern für künstliche neuronale Netzwerke laufzeitneutral.
Ein Zero-Padding ZP mit anschließender Addition ist äquivalent mit dem Aufsummieren der Center-Features an angepasster Startposition. Alternativ kann die Center-Feature-Map in einen größeren Bereich geschrieben werden, welcher zuvor mit Null initialisiert wurde. Das Zero-Padding ZP findet dann implizit statt.
Eine Aktivierungsfunktion / ein Pooling im Anschluss an c3 kann nicht aufgespalten werden und wird nach der Addition angewandt. Insbesondere werden keine Faltungsoperationen über große Füllbereiche, welche aus Nullen bestehen, gerechnet.
Insgesamt bietet diese Ausführungsform als besondere Vorteile:

a) eine integrierte Feature-Betrachtung verschiedener (Bild-) Pyramidenstufen für eine optimale Gesamtperformance bei einem großen Betrachtungswinkel / Erfassungsbereich des Bilderfassungssensors unter Ausnutzung hochaufgelöster ROIs z.B. für entfernte Objekte
b) bei gleichzeitig laufzeiteffizienter Umsetzung.

In den 11 bis 13 wird die Vorgehensweise noch einmal auf andere Weise bildlich dargestellt.
11 zeigt schematisch eine Konkatenierung zweier Feature Maps 1101, 1102, die von einem Faltungskern 1110 verarbeitet werden, woraus eine fusionierte Feature Map 1130 entsteht, die ausgegeben werden kann. Im Unterschied zu der ähnlichen Situation der 8, weisen hier beide Feature Maps 1101, 1102 eine identische Breite w und Höhe h auf. Beide sind vereinfacht als zwei rechteckige Flächen dargestellt. Die Konkatenierung bedeutet ein Hintereinanderhängen in der Tiefe und ist schematisch so dargestellt, dass die zweite Feature Map 1102 räumlich hinter der ersten Feature Map 1101 angeordnet ist.
Der Faltungskern 1110 ist hier in vergleichbarer Weise entgegengesetzt schraffiert dargestellt, wodurch veranschaulicht werden soll, dass ein erster Teil, d.h. ein dünn schraffiert dargestellter „erster Convolution 2d Kernel“ die erste Feature Map 1101 abtastet und ein zweiter (dick schraffiert dargestellter) Convolution 2d Kernel die zweite Feature Map 1102.
Das Ergebnis besteht in einer fusionierten Ausgabe Feature Map 1130. Die fusionierte Feature Map 1130 kann infolge der Faltung nicht mehr hinsichtlich erster und zweiter Feature Map 1101, 1102 aufgetrennt werden.
12 zeigt schematisch einen alternativen Ablauf zur Fusion zweier Feature Maps identischer Breite w, Höhe h und Tiefe d. Die Tiefe d einer Feature Map kann der Anzahl von Kanälen entsprechen bzw. von der Auflösung des zugrundeliegenden Bildes abhängen.
Vorliegend wird die erste Feature Map 1201 von einem ersten Convolution 2d Kernel 1211 abgetastet, was die erste Output Feature Map 1221 ergibt und die
zweite Feature Map 1202 von einem zweiten Convolution 2d Kernel 1212, was die zweite Output Feature Map 1222 ergibt. Ein Convolution 2d Kernel 1211; 1212 kann beispielsweise eine Dimension von 3 × 3 × „Anzahl der Eingangskanäle“ aufweisen und erzeugt einen Output Layer. Die Tiefe der Output Feature Maps kann durch die Anzahl an Convolution 2d Kerneln 1211; 1212 definiert werden.
Die fusionierte Feature Map 1230 kann aus den beiden Output Feature Maps 1221, 1222 durch elementweise Addition (+) berechnet werden.
Der Ablauf hier, also zwei separate Faltungen für je eine Feature Map durchzuführen und diese anschließend einfach zu addieren, ist äquivalent zum Ablauf gemäß 11, wo die zwei Feature Maps konkateniert werden und anschließend eine Faltung durchgeführt wird.
13 zeigt schematisch den Ablauf zur Fusion zweier Feature Maps unterschiedlicher Breite und Höhe - korrespondierend zu dem in 10 dargestellten Ablauf.
Die erste Feature Map 1301 (berechnet aus dem wfov-Bild) weist eine größere Breite w und Höhe h auf, dagegen ist die Tiefe d geringer. Wohingegen die zweite Feature Map 1302 (berechnet aus dem hochaufgelösten center-Bildausschnitt) eine geringere Breite w und Höhe h aufweist, jedoch eine größere Tiefe d.
Ein erster Convolution 2d Kernel 1311 tastet die erste Feature Map 1301 ab, woraus sich eine erste Output Feature Map 1321 ergibt mit einer vergrößerten Tiefe d. Die zweite Feature Map wird durch einen zweiten Convolution 2d Kernel 1312 abgetastet, woraus sich die zweite Output Feature Map 1322 (diagonal schraffierter quaderförmiger Bereich) ergibt. Die Tiefe d der zweiten Output Feature Map ist identisch mit der Tiefe der ersten Output Feature Map.
Um eine Fusion von erster und zweiter Output Feature Map 1321, 1322 durchzuführen, ist es zweckmäßig, die Lage des Teilbereichs innerhalb des Übersichtsbereichs zu berücksichtigen. Entsprechend wird die Höhe und Breite der zweiten Output Feature Map 1322 vergrößert, so dass sie der Höhe und Breite der ersten Output Feature Map 1321 entspricht. Startwerte in Breite und Höhe für die Adaptierung können beispielsweise aus 6 oder 7 bestimmt werden durch Angabe der Lage des zentralen Bereichs 602 bzw. 702 im gesamten Übersichtsbereich 601 bzw. 701, z.B. in Form von Startwerten x₀, y₀ oder daraus abgeleiteten Breiten- und Höhenstartwerten x_s, y_s der Feature Map.
Die bei der zweiten Output Feature Map 1322 fehlenden Bereiche (links, rechts und oben) werden mit Nullen aufgefüllt (Zero Padding). Die somit adaptierte zweite Output Feature Map kann nun mit der ersten Output Feature Map 1321 einfach durch elementweises Addieren fusioniert werden. Die derart fusionierte Feature Map 1330 ist in 13 unten dargestellt.
14 zeigt schematisch einen möglichen Verfahrensablauf.
In einem ersten Schritt S1 werden Eingangsdaten mindestens eines Bilderfassungssensors empfangen. Die Eingangs-Sensordaten können beispielsweise von zwei in Fahrtrichtung blickenden ADAS-Sensoren eines Fahrzeugs, z.B. einer Telekamera und einem Lidar mit teilweise überlappendem Erfassungsbereich, erzeugt worden sein. Der Lidar-Sensor könnte einen breiten Erfassungsbereich (z.B. größer 100° oder 120° Öffnungswinkel) aufweisen, woraus sich ein erstes Bild bzw. eine erste Repräsentation der Szene ergibt. Die Telekamera erfasst nur einen (zentralen) Teilbereich der Szene (z.B. kleiner 50° Erfassungswinkel), kann dafür aber weiter entfernte Objekte detektieren, woraus sich eine zweite Repräsentation der Szene ergibt. Um die Eingangsdaten von Lidar- und Telekamera-Sensor fusionieren zu können, können Sensorrohdaten gemappt werden auf Bilder, die eine Vogelperspektive auf die Fahrbahnebene vor dem Fahrzeug wiedergeben.
Im Überlappungsbereich existieren Lidar- und Telekamera-Daten, in den seitlichen Randbereichen nur Lidar-Daten und im weit entfernten vorderen Bereich nur Telekamera-Daten.
Im zweiten Schritt S2 wird eine erste Feature Map aus den Eingangsdaten bestimmt. Aus dem (ersten) Bild des Lidar-Sensors kann die erste Feature Map mit einer ersten Höhe und Breite (bzw. Fahrbahnebenentiefe und -breite in der Vogelperspektive) generiert werden.
Im dritten Schritt S3 wird eine zweite Feature Map aus den Eingangsdaten bestimmt. Aus dem (zweiten) Bild des Erfassungsbereichs der Telekamera kann eine zweite Feature Map mit einer zweiten Höhe und Breite generiert werden. Hierbei ist die Breite der zweiten Feature Map geringer als die der ersten Feature Map und die Höhe (Entfernung in Fahrtrichtung) der zweiten Feature Map größer als die der ersten Feature Map.
Im vierten Schritt S4 wird auf Grundlage der ersten Feature Map eine erste Output Feature Map bestimmt. Dabei erfolgt das Berechnen der ersten Output Feature Map mittels einer ersten Convolution der ersten Feature Map.
Im fünften Schritt S5 wird auf Grundlage der zweiten Feature Map eine zweite Output Feature Map bestimmt. Das Berechnen der zweiten Output Feature Map erfolgt mittels einer zweiten Convolution der zweiten Feature Map. Die zweite Convolution beschränkt sich in Höhe und Breite auf die Höhe und Breite der zweiten Feature Map.
In einem sechsten Schritt S6 wird eine Adaption der unterschiedlichen Dimensionen von erster und zweiten Output Feature Map durchgeführt, insbesondere eine Anpassung der Höhe und/oder Breite.
Dazu kann entsprechend einer ersten Variante die Höhe der ersten Output Feature Map so vergrößert werden, dass sie der Höhe der zweiten Output Feature Map entspricht. Die Breite der zweiten Output Feature Map wird so vergrößert, dass sie der Breite der ersten Output Feature Map entspricht. Die durch die Vergrößerung neu hinzugekommenen Bereiche der jeweiligen (adaptierten) Output Feature Map werden mit Nullen aufgefüllt (Zero Padding).
Entsprechend einer zweiten Variante wird zunächst eine Template Output Feature Map erstellt, deren Breite und Höhe sich aus der Höhe und Breite von erster und zweiter Output Feature Map und der Lage des Überlappungsbereichs ergibt. Die Template Output Feature Map ist mit Nullen befüllt. Im vorliegenden Fall hat die Template Output Feature Map die Breite der ersten Output Feature Map und die Höhe der zweiten Output Feature Map.
Für die adaptierte erste Output Feature Map werden die Elemente aus der ersten Output Feature Map in dem Bereich übernommen, den die erste Output Feature Map abdeckt. Dazu können Startwerte verwendet werden, die die Lage der ersten Output Feature Map in vertikaler und horizontaler Richtung innerhalb der Template Output Feature Map angeben. Die Lidar-Output Feature Map erstreckt sich z.B. über die gesamte Breite der Template Output Feature Map, jedoch ist ein Bereich großer Entfernungen leer. In vertikaler Richtung kann also ein Startwert y_s vorgegeben werden, ab dem die Template Output Feature Map „befüllt wird“.
In gleicher Weise wird ausgehend von der mit Nullen vorbefüllten Template Output Feature Map die adaptierte zweite Output Feature Map erzeugt: durch Einfügen der Elemente der zweiten Output Feature Map ab der geeigneten Startposition.
Die Radar-Output Feature Map wird beispielsweise erst ab einer horizontalen Startposition x_s übertragen und erstreckt sich in vertikaler Richtung über die gesamte Höhe.
Im siebten Schritt S7 werden die adaptierte erste und zweite Output Feature Map fusioniert durch elementweises Addieren. Durch die Adaption von Höhe und Breite ist das elementweise Addieren der beiden Output Feature Maps für typische CNN-Beschleuniger unmittelbar möglich. Das Ergebnis ist die fusionierte Feature Map.
Im Spezialfall, dass die zweite Output Feature Map den gesamten Überlappungsbereich enthält (also einen echten Teilbereich der ersten Output Feature Map, die einen Übersichtsbereich umfasst - vgl. 13) kann eine Adaption der unterschiedlichen Höhe und Breite der zweiten Output Feature Map entfallen, indem die elementweise Addition der zweiten Output Feature Map zur ersten Output Feature Map mittels geeigneten Startwerten x_s,y_s nur im Überlappungsbereich durchgeführt wird. Die Höhe und Breite der fusionierten Feature Map ist dann identisch mit der Höhe und Breite der ersten Output Feature Map (vgl. 13).
Im achten Schritt S8 wird die fusionierte Feature Map ausgegeben.
Bezugszeichenliste

1: Bilderfassungssensor
10: System
12: Eingangsschnittstelle
14: Datenverarbeitungseinheit
16: Fusionsmodul
18: Ausgabeschnittstelle
20: Steuereinheit
101: Übersichtsbereich
102: Teilbereich
300: Übersichtsbild mit hoher Auflösung
303: Fußgänger bzw. weiter entfernter Verkehrsteilnehmer
304: Fahrzeug bzw. naher Verkehrsteilnehmer
305: Straße bzw. Fahrbahn
306: Haus
401: Übersichtsbild mit reduzierter Auflösung
403: Fußgänger (nicht detektierbar)
404: Fahrzeug
502: zentralen Bildausschnitt mit hoher Auflösung
503: Fußgänger
504: Fahrzeug (nicht bzw. unvollständig detektierbar)
601: Übersichtsbereich
602: Teilbereich
701: Übersichtsbild mit reduzierter Auflösung
702: Erfassungsbereich für Bildausschnitt mit hoher Auflösung
7020: (zentraler) Bildausschnitt mit hoher Auflösung
1101: erste Feature Map
1102: zweite Feature Map
1110: Convolution Kernel
1130: fusionierte Feature Map
1201: erste Feature Map
1202: zweite Feature Map
1211: erster Convolution 2d Kernel
1212: zweiter Convolution 2d Kernel
1221: erste Output Feature Map
1222: zweite Output Feature Map
1230: fusionierte Feature Map
1301: erste Feature Map
1302: zweite Feature Map
1311: erster Convolution 2d Kernel
1312: zweiter Convolution 2d Kernel
1321: erste Output Feature Map
1322: zweite Output Feature Map
1330: fusionierte Feature Map
x0: Startwert in horizontaler Richtung
y0: Startwert bzw. Erstreckungswert in vertikaler Richtung
wfov: Übersichtsbild mit reduzierter Auflösung
center: (zentraler) Bildausschnitt mit hoher Auflösung
ck: Faltungslayer k; k ∈ ℕ (mit Aktivierungsfunktion und optionalem Pooling)
ZP: zero-Padding
cc: Konkatenierung
⊕: Elementweise Addition
w: Breite
h: Höhe
d: Tiefe

Claims

Verfahren zum Fusionieren von Bilddaten mindestens eines Bilderfassungssensors (1) mittels einer Datenverarbeitungseinheit (14), mit den Schritten a) Empfangen von Eingangs-Bilddaten mittels einer Eingangsschnittstelle (12) der Datenverarbeitungseinheit (14) eines Fahrzeugs, wobei die Eingangs-Bilddaten umfassen: - ein erstes Bild (401, 701), welches einen ersten Bereich (101, 601) einer Szene umfasst, wobei der erste Bereich (101,601) ein Übersichtsbereich der Szene ist, und - ein zweites Bild (502, 702), welches einen zweiten Bereich (102, 602) der Szene umfasst, wobei der zweite Bereich (502,702) ein Teilbereich des Übersichtsbereichs der Szene ist; wobei der erste und zweite Bereich einander überlappen, aber nicht identisch sind (S1), und wobei das erste und zweite Bild jeweils eine zwei- oder dimensionale Repräsentation einer Szene sind, die von dem Bilderfassungssensor erfasst wird; b) Bestimmen einer ersten Feature Map (1301) mit einer ersten Höhe und Breite auf Basis des ersten Bildes (401, 701) (S2) und Bestimmen einer zweiten Feature Map (1302) mit einer zweiten Höhe und Breite auf Basis des zweiten Bildes (502, 702) (S3); c) Berechnen einer ersten Output Feature Map (1321) mittels einer ersten Convolution der ersten Feature Map (1301) (S4), und Berechnen einer zweiten Output Feature Map (1322) mittels einer zweiten Convolution der zweiten Feature Map (1302) (S5); d) Berechnen einer fusionierten Feature Map (1330) durch elementweises Addieren der ersten und der zweiten Output Feature Map (1321, 1322), wobei die Lage des ersten und des zweiten Bereichs zueinander berücksichtigt wird, so dass die Elemente im Überlappungsbereich addiert werden (S7), wobei die fusionierte Feature Map (1330) in einem Encoder eines künstlichen neuronalen Netzwerks erzeugt wird, welches zur Bestimmung von ADAS/AD relevanten Informationen eingerichtet ist, und welches künstliche neuronale Netzwerk mehrere Decoder für unterschiedliche ADAS/AD Detektionsfunktionen umfasst, e) Ausgeben der fusionierten Feature Map (1330) (S8), und f) Bestimmen von ADAS/AD relevanten Informationen anhand der fusionierten Feature Map (1330).
Verfahren nach Anspruch 1, wobei das erste und das zweite Bild von demselben Bilderfassungssensor erfasst worden sind.
Verfahren nach Anspruch 1 oder 2, wobei das erste (401; 701) und zweite (502; 702) Bild unterschiedlichen Stufen von Bildpyramiden des Bilderfassungssensors entsprechen.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das erste Bild eine erste Auflösung und das zweite Bild eine zweite Auflösung haben, wobei die zweite Auflösung höher als die erste Auflösung ist.
Verfahren nach einem der Ansprüche 1 oder 4, wobei als Bilderfassungssensor zwei monokulare Kameras mit überlappendem Erfassungsbereich eingesetzt werden
Verfahren nach einem der Ansprüche 1 oder 4, wobei als Bilderfassungssensor mehrere Kameras eine Rundumsichtkamerasystems eingesetzt werden.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die erste und zweite Output Feature Map (1321, 1322) im Überlappungsbereich dieselbe Höhe und Breite aufweisen.
Verfahren nach einem der vorhergehenden Ansprüche, wobei Höhe und Breite der fusionierten Feature Map (1330) durch das Rechteck bestimmt sind, welches die erste und die zweite Output Feature Map (1321, 1322) umschließt.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Feature Maps (1301, 1302, 1321, 1322) jeweils eine Tiefe aufweisen, die von der Auflösung des Bildes (401; 502; 701; 702) abhängt.
System (10) zum Fusionieren von Bilddaten mindestens eines Bilderfassungssensors umfassend eine Eingangsschnittstelle (12), eine Datenverarbeitungseinheit (14) und eine Ausgabeschnittstelle (18), wobei a) die Eingangsschnittstelle (12) konfiguriert ist zum Empfangen von Eingangs-Bilddaten, wobei die Eingangs-Bilddaten umfassen - ein erstes Bild (401, 701), welche einen ersten Bereich (101, 601) einer Szene umfasst, wobei der erste Bereich (101,601) ein Übersichtsbereich der Szene ist, und - ein zweites Bild (502, 702), welche einen zweiten Bereich (102, 602) der Szene umfasst, wobei der zweite Bereich (502,702) ein Teilbereich des Übersichtsbereichs der Szene sind, wobei der erste und zweite Bereich einander überlappen, jedoch nicht identisch sind, und wobei das erste und zweite Bild jeweils eine zwei- oder dimensionale Repräsentation einer Szene ist, die von dem Bilderfassungssensor erfasst wird; die Datenverarbeitungseinheit (14) konfiguriert ist zum b) Bestimmen einer ersten Feature Map (1301) mit einer ersten Höhe und Breite auf Basis des ersten Bildes (401, 701) und Bestimmen einer zweiten Feature Map (1302) mit einer zweiten Höhe und Breite auf Basis des zweiten Bildes (502, 702); c) Berechnen einer ersten Output Feature Map (1321) mittels einer ersten Convolution der ersten Feature Map (1301), und Berechnen einer zweiten Output Feature Map (1322) mittels einer zweiten Convolution der zweiten Feature Map (1302); und d) Berechnen einer fusionierten Feature Map durch elementweises Addieren der ersten und der zweiten Output Feature Map (1321, 1322), wobei die Lage des ersten und des zweiten Bereichs zueinander berücksichtigt wird, so dass die Elemente im Überlappungsbereich addiert werden, wobei die fusionierte Feature Map (1330) in einem Encoder eines künstlichen neuronalen Netzwerks erzeugt wird, welches zur Bestimmung von ADAS/AD relevanten Informationen eingerichtet ist, und welches künstliche neuronale Netzwerk mehrere Decoder für unterschiedliche ADAS/AD Detektionsfunktionen umfasst; und e) die Ausgabeschnittstelle (18) konfiguriert ist zum Ausgeben der fusionierten Feature Map (1330), wobei ADAS/AD relevante Informationen anhand der fusionierten Feature Map (1330) bestimmt werden.
System nach Anspruch10, wobei das System (10) ein Convolutional Neural Network mit einem Encoder und mindestens einem Decoder umfasst und wobei die Eingangsschnittstelle (12), die Datenverarbeitungseinheit (14) und die Ausgabeschnittstelle (18) im Encoder implementiert sind, so dass der Encoder dazu konfiguriert ist, die fusionierte Feature Map zu erzeugen und wobei der mindestens eine Decoder dazu konfiguriert ist, eine ADAS/AD- Detektionsfunktionen zumindest auf Basis der fusionierten Feature Map zu realisieren.
Fahrzeug mit mindestens einem Bilderfassungssensor (1) und einem System (10) nach einem der Ansprüche 10 oder 11.