DE102022204623A1

DE102022204623A1 - Objekterkennung durch neuronales Netz mit Unsicherheitsmaß

Info

Publication number: DE102022204623A1
Application number: DE102022204623.4A
Authority: DE
Inventors: Frank Bonarens; Ahmed Mostafa Hammam
Original assignee: PSA Automobiles SA
Current assignee: Stellantis Auto Sas Fr
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2023-11-16

Abstract

Die Erfindung betrifft ein Verfahren zur Objekterkennung auf Basis von Bilddaten. Es erfolgt ein Erfassen (S1) einer Szenerie durch eine Kamera (7), ein Erzeugen (S2) einer semantischen Segmentierung durch Ausführen eines neuronalen Netzes mit Pixeln eines Szenenbilds, und mit i) einer Klassifizierung der Pixel und ii) einem Wahrscheinlichkeitsmaß jeder Klassifizierung als jeweilige Ausgangsgröße, sowie ein Erzeugen (S3) einer Instanz-Segmentierung durch Identifizieren von Objekten aus bestimmten Gruppen von Pixeln, und das Ausgeben eines Unsicherheitsmaßes der Identifizierung zusammen mit einer Ortsinformation. Für übrige Gruppen von Pixeln der jeweilig ausgewählten Klasse erfolgt ein Ausführen (S4) eines zweiten vortrainierten künstlichen neuronalen Netzes mit dem Ergebnis einer Ortsinformation über das jeweilige identifizierte Objekt.

Description

Die Erfindung betrifft ein Verfahren zur Durchführung einer automatischen Objekterkennung auf Basis von Bilddaten, sowie ein Fahrzeug mit einer Fahrsteuereinheit und einem Objekterkennungssystem.
Insbesondere im Bereich des automatisierten Fahrens von Fahrzeugen wie Personenkraftwagen oder Lastkraftwagen wird es zunehmend wichtig, maschinell die Umgebung des Fahrzeugs zu analysieren und Objekte wie Fußgänger in ihre entsprechende Klasse einzuordnen. Eine solche Objekterkennung wird typischerweise auf Basis von visuellen Daten, beispielsweise aus einer Kamera, ausgeführt, kann prinzipiell alternativ oder ergänzend dazu jedoch auch andere Sensorarten einschließen. Unabhängig von der konkret verwendeten Sensorart wird hierfür ein Datensatz über die Umgebung des Fahrzeugs mit einer gewissen Wiederhol-Frequenz aufgenommen. Zur Erkennung von Objekten in einem solchen jeweils aktuellen Datensatz kann ein vorab-trainiertes künstliches neuronales Netz zum Einsatz kommen, welches als Eingangsdaten Informationen aus dem oben erwähnten Datensatz erhält, und im Sinne von Ausgangsdaten eine Einordnung eines in den Bilddaten sichtbaren Objekts in eine von mehreren vordefinierten Klassen von Objekten angibt. Zum Trainieren eines solchen künstlichen neuronalen Netzes werden typischerweise Informationen über Objekte aus diesen Klassen für die Eingangsdaten verwendet, während die Vorgabe der jeweiligen Klasse des jeweiligen betrachteten Objekts die vorgegebenen Ausgangsdaten darstellen. Am Beispiel des für ein automatisiertes Fahrzeug verwendeten künstlichen neuronalen Netzes wären dies beispielsweise die Klassen: Straße, Verkehrsschild, Baum, Ampel, Bake, Pylon, Hund, Straßenmarkierung, Fußgänger, Radfahrer, Personenkraftwagen, Baustellenfahrzeug, etc.;
Wegen der hohen Komplexität eines künstlichen neuronalen Netzes, verursacht durch eine enorm hohe Zahl von für den Menschen intuitiv praktisch nicht nachvollziehbarer interner Parameter, sticht häufig der Black-Box Charakter des künstlichen neuronalen Netzes im Vergleich zu alternativen, intuitiv vom Menschen beobachtbaren Systemen, hervor. Dies gilt insbesondere für die künstlichen tiefen neuronalen Netze, die eine sehr große Anzahl von Ebenen, auch genannt Lagen (sog. „layer“) aufweisen. Mit zunehmendem Automatisierungsgrad eines Fahrzeugs bis hin zu einem vollautomatischen bzw. autonomen Fahrzeug, welches keinen manuellen Eingriff durch einen Fahrer mehr benötigt, steigt jedoch auch das erforderte Sicherheitsniveau, da eine gänzlich fehlende Erkennung eines Objekts oder ein Fehler in der Zuordnung des Objekts in eine bestimmte von vorgegebenen Klassen, kurz ausgedrückt als Scheitern der Objekterkennung, tendenziell auch gravierendere Auswirkungen auf die Sicherheit des eigenen Fahrzeugs oder andere Verkehrsteilnehmer hat, je größer die Autorität über die Steuerung des Fahrzeugs durch das automatische Fahrsteuersystem ist.
Eine häufig zu beobachtende Eigenschaft von künstlichen neuronalen Netzen ist jedoch, dass Abweichungen der aktuellen Eingangsdaten des künstlichen neuronalen Netzes in seinem Betrieb von den Eingangsdaten, die zu Trainingszwecken des künstlichen neuronalen Netzes verwendet wurden, zu gewissen und manchmal großen Abweichungen in den Ausgangsdaten des künstlichen neuronalen Netzes führen können.
Aufgabe der Erfindung ist es vor diesem Hintergrund, die Durchführung einer automatischen Objekterkennung durch ein vortrainiertes neuronales Netz sicherer zu gestalten.
Die Erfindung ergibt sich aus den Merkmalen der unabhängigen Ansprüche. Vorteilhafte Weiterbildungen und Ausgestaltungen sind Gegenstand der abhängigen Ansprüche.
Ein erster Aspekt der Erfindung betrifft ein Verfahren zur Durchführung einer automatischen Objekterkennung auf Basis von Bilddaten, aufweisend die Schritte:

- Erfassen einer Szenerie durch eine Kamera und Übermitteln von Bilddaten an eine Recheneinheit; ferner durch die Recheneinheit:
- Erzeugen einer semantischen Segmentierung durch Ausführen eines ersten vortrainierten künstlichen neuronalen Netzes mit Pixeln eines aus den Bilddaten abgeleiteten Szenenbilds als Eingangsgrößen, und mit i) einer Klassifizierung der Pixel durch Zuordnung zu jeweils einer aus einer Vielzahl von Klassen von Objekten und ii) einem Wahrscheinlichkeitsmaß jeder Klassifizierung als jeweilige Ausgangsgröße, wobei die Vielzahl der Klassen von Objekten vorgegeben ist und einer endlichen Menge möglicher Ausgangsgrößen entspricht,
- Für zumindest eine ausgewählte der vorgegebenen Klassen: Erzeugen einer Instanz-Segmentierung durch Identifizieren und Auflisten individueller Objekte aus denjenigen Gruppen von Pixeln einer jeweiligen Klasse, für die die jeweilige Identifizierung oberhalb einer vordefinierten Güteschwelle erfolgt, und Ausgeben eines Unsicherheitsmaßes des individuellen Objekts auf Basis der Wahrscheinlichkeitsmaße der Pixel im Bereich des identifizierten Objekts zusammen mit einer Ortsinformation über das jeweilige identifizierte Objekt bezüglich des Szenenbilds,
- für übrige Gruppen von Pixeln der jeweilig ausgewählten Klasse: Ausführen eines zweiten vortrainierten künstlichen neuronalen Netzes mit Pixeln der jeweiligen übrigen Gruppe oder mit Pixeln eines vorgegebenen Bereichs um die jeweilige übrige Gruppe als Eingangsgrößen, und wenn eine Zuordnung der Pixel zu einem Objekt einer vorgegebenen Klasse als mögliche Ausgangsgröße erfolgt, Ausgeben einer Ortsinformation über den Bereich der jeweiligen übrigen Gruppe bezüglich des Szenenbilds mit Klassenzuordnung.

Die Durchführung einer automatischen Objekterkennung auf Basis von Bilddaten bedeutet, dass Bilder aus einer Kamera maschinell interpretiert werden, indem die Pixel der Bilder klassifiziert werden, d. h. in diejenigen vorgegebenen Klassen eingeteilt werden, welche als vorgegebene Ausgangsgrößen für das künstliche neuronale Netz beim Trainieren verwendet wurden.
Die Eingangsdaten im Betrieb des ersten künstlichen neuronalen Netzes stammen dabei beispielsweise aus einer Kamera für Licht im sichtbaren Bereich, im Infrarotbereich oder im ultravioletten Bereich. Während die Kamera Bilddaten an die Recheneinheit übermittelt, werden als Eingangsdaten des ersten vortrainierten künstlichen neuronalen Netzes die Pixel eines Szenenbilds verwendet. Das Szenenbild kann einerseits das originale, unveränderte Bild der Kamera sein, sodass die originalen Bilddaten der Kamera unmittelbar das Szenenbild ausbilden. Bei Bedarf kann das Szenenbild aber auch durch Bildverarbeitungsalgorithmen erst aus den Bilddaten der Kamera durch Nachbearbeitung gewonnen werden, beispielsweise durch Auswahl nur eines Teilbildes der Kamera, oder auch durch Ändern von Helligkeit und Kontraststufen oder auch Anpassung von Farben.
Beim Trainieren werden typischerweise reale oder synthetische Testbilder als Eingangsdaten vorgegeben. Wird eine entsprechende Berechnung mittels der Übertragungsfunktion des künstlichen neuronalen Netzes mit diesen Eingangsdaten durchgeführt, wird mithilfe entsprechender Aktivierungsfunktionen eine von mehreren möglichen Ausgangsgrö-ßen, nämlich Klassen, erhalten. Solche Klassen für die Anwendung im Straßenverkehr können Straße, Verkehrsschild, Baum, Ampel, Bake, Pylon, Hund, Straßenmarkierung, Fußgänger, Radfahrer, Personenkraftwagen, Baustellenfahrzeug, und Ähnliches sein. Durch die Vorgabe des Ergebnisses kann durch die sogenannte „back propagation“ eine Optimierung der Parameter des künstlichen neuronalen Netzes erfolgen.
Ein solches bereits trainiertes künstliches neuronales Netz wird im Verfahren gemäß dem ersten Aspekt der Erfindung als erstes vortrainiertes künstliches neuronales Netz verwendet. Zwar ist das zweite vortrainierte künstliche neuronale Netz in diesem Sinne ebenfalls vortrainiert, es weist aber andere Eigenschaften als das erste auf und wird in einem anderen Zusammenhang verwendet. Zweck des ersten neuronalen Netzes ist insbesondere eine Klassifizierung aller Pixel des Szenenbilds. Hierbei wird jedes Pixel, wo möglich, genau einer von einer Vielzahl vorgegebener Klassen (die wie oben erläutert zum Trainieren verwendet wurden) zugeordnet. Während eine solche Klassifizierung beispielsweise bei Visualisierung der Klassen durch verschiedene Farben für das menschliche Auge bereits eigenständige Objekte erkennen lässt, ist damit jedoch lediglich eine semantische Segmentierung der Pixel vorgenommen, noch jedoch nicht eine Instanz-Segmentierung. Auf Basis der Klassifizierung wird lediglich die Grundlage dafür geschaffen, individuelle Objekte zu identifizieren, da die zu einem Objekt zugehörigen Pixel entsprechenden Klassen zugeordnet werden konnten, beispielsweise zur Klasse „Fußgänger“. Jedoch erst die darauf folgende Instanz-Segmentierung interpretiert die klassifizierten Pixel als individuelle einzelne Objekte und listet sie als entsprechende Instanzen auf, beispielsweise „Fußgänger 1“, „Fußgänger 2“, etc., und erlaubt durch die individuelle Identifizierung der Objekte eine Zuordnung einer Ortsinformation jedes Objekts bezüglich des Szenenbilds, beispielsweise durch die Angabe eines geometrischen Mittelpunkts jedes individuellen Objekts, sowie seiner Breite, Höhe, etc. - was typischerweise durch einen Begrenzungsrahmen angegeben wird, im Stand der Technik auch bekannt unter der „Bounding Box“ oder unter „2D Bounding Box“. Das Auflisten individueller Objekte beschreibt im Gegensatz zur reinen Klassifizierung der Pixel in diesem Sinne, dass Objekte der gleichen Klasse als individuelles Objekt unterschieden werden können und beispielsweise mit einem körperfest zugeordneten Begrenzungsrahmen, der sogenannten „Bounding Box“ markiert werden können.
Das im erfindungsgemäßen Verfahren verwendete erste vortrainiertes künstliche neuronale Netz muss jedoch für die weiteren Verfahrensschritte die spezielle Eigenschaft aufweisen, zusätzlich zu jeder Zuordnung eines Pixels in eine bestimmte Klasse eine Wahrscheinlichkeit für die Korrektheit dieser Zuordnung auszugeben, was beispielsweise (aber nicht nur) durch das weiter unten beschriebene künstliche neuronale Netz mit einer Zwischenschicht zur variationsgestützten Inferenz erreichbar ist.
Mithilfe dieses Wahrscheinlichkeitsmaßes jeder Klassifizierung, welches bevorzugt auf einer Skala von 0 % bis 100 % angegeben wird, kann die Klassifizierung selbst in Bezug auf Unsicherheiten quantifiziert werden. Dies erlaubt vorteilhaft eine entsprechend angepasste Verwendung des Ergebnisses der Ausführung des ersten künstlichen neuronalen Netzes beispielsweise in der Verwendung einer Fahrzeugsteuerung, beispielsweise zur Manöverplanung. Da jedoch eine solche Manöverplanung nicht auf Basis einzelner Wahrscheinlichkeiten korrekt zugeordneter Pixel agieren kann, wird für jedes Objekt ein Unsicherheitsmaß ermittelt. Dieses Unsicherheitsmaß wird bevorzugt durch arithmetisches Mitteln aller zu einem Objekt zugehörigen Wahrscheinlichkeiten ermittelt und kann als Maß dafür verstanden werden, mit welcher Zuverlässigkeit das individuelle Objekt erkannt wurde.
Auf Basis der Klassifizierung der einzelnen Pixel erfolgt wie oben erläutert anschließend der Versuch einer Instanz-Segmentierung von jeweiligen Gruppen in einem bestimmten Bereich zusammenliegender Pixel, die in eine gemeinsame Klasse durch die semantische Segmentierung eingeteilt wurden. Bereits hier können Instanzen (beispielsweise der individuelle Fußgänger Nummer 1 erkannt werden, wenn die Klassifizierung der zum tatsächlichen Fußgänger zugehörigen Pixel ausreichend gut durchgeführt werden konnte. Beispielsweise mithilfe entsprechender geschlossener Begrenzungslinien wie Begrenzungsrahmen kann dann die Instanz-Segmentierung dieses einzelnen Fußgängers erfolgreich durchgeführt werden und beispielsweise für eine Fahrsteuerung verwendet werden.
Nicht alle Klassifizierungen von Pixeln sind jedoch im Allgemeinen immer so erfolgreich, dass in diesem ersten Schritt bereits eine entsprechende Instanz erkannt werden kann, d.h. das individuelle Objekt wie oben erläutert identifiziert werden kann. Es kann vielmehr vorkommen, dass nur ein geringer Teil von zum echten Objekt zugehörigen Pixeln in die korrekt-zugehörige Klasse eingeteilt werden, sowie das andere Pixel anderer Objekte fälschlicherweise in dieselbe Klasse eingeteilt wird. Es ergibt sich damit das Problem, dass nur mit einer, mit einer gewissen Unschärfe vorgenommenen, Klassifizierung die Instanz-Segmentierung vorgenommen werden kann. Gruppen von Pixeln einer solchen Klasse werden daher einer genaueren Analyse des zweiten künstlichen neuronalen Netzes unterzogen, welches als Eingangsdaten zumindest die Pixel der zu dieser einen jeweiligen Klasse zugeordneten Gruppe von Pixeln erhält und speziell dafür gedacht ist, aus dieser einen oder mehreren möglicherweise zusammenhängenden Gruppen ein Objekt zu identifizieren, um entsprechend die korrekte Klasse zu finden.
Ein spezielles künstliches neuronales Netz zur Klassifizierung (ein sogenanntes „classification neural network“) produziert nur eine Klasseneinteilung ohne Segmentierung und ohne Lokalisierung. Es kann daher nur für Bilder mit einem dominierenden Objekt angewendet werden. Ein solches spezielles künstliches neuronales Netz zur Klassifizierung ist daher für die semantische Segmentierung durch das erste künstliche neuronale Netz ungeeignet, wohl aber zur Erkennung eines Objekts in Bezug auf eine bestimmte Klasse durch das zweite künstliche neuronale Netz. Bevorzugt wird deshalb für das zweite künstliche neuronale Netz ein solches spezielles künstliches neuronales Netz zur Klassifizierung verwendet. Das vollständige Szenenbild durch ein solches spezielles künstliches neuronales Netz zur Klassifizierung zu analysieren ist daher praktisch nicht möglich, da das spezielle künstliche neuronale Netz zur Klassifizierung einen Bilddatensatz benötigt, der im Wesentlichen nur ein einziges dominierendes Objekt enthält. Die Anwendung auf ein ganzes Szenenbild würde entsprechend schlechte Ergebnisse liefern und/oder sehr lange Zeit benötigen. Die Unsicherheitsschätzung würde damit ebenfalls fehlen, insbesondere für besonders schlecht identifizierbare Bereiche, die dann ohne zweiten Schritt der Objekterkennung verbleiben würde. Das zweite künstliche neuronale Netz führt in anderen Worten insbesondere keine Detektion durch, sondern liefert lediglich eine Klasseninformation.
Das zweite künstliche neuronale Netz weist daher im Gegensatz zum ersten künstlichen neuronalen Netz nicht primär den Zweck auf, alle Pixel eines vollständigen Szenenbilds zu klassifizieren um die Instanz-Segmentierung vorzubereiten, sondern vielmehr um in einem vorgegebenen Bildausschnitt des Szenenbilds zu versuchen, die bereits klassifizierten Pixel einem Objekt einer Klasse zuzuordnen und entsprechend zusammen mit der durch die semantische Segmentierung erhaltene Unsicherheitsinformation zur Korrektheit der Zuordnungen der einzelnen Pixel wiederum ein Unsicherheitsmaß zusammen mit dem identifizierten Objekt anzugeben, sodass beispielsweise für ein Fahrsteuerungssystem bekannt ist, mit welcher Unsicherheit die Identifikation des individuellen Objekts vorgenommen wurde.
Ist beispielsweise mit einer 50-prozentigen Wahrscheinlichkeit davon auszugehen, dass sich in dem aufgenommenen Szenenbild (das dem für die Fahraufgabe relevanten Bildausschnitt entspricht) eines Zeitschritts ein Fußgänger befindet, so kann das Fahrsteuersystem entsprechend reagieren und seine Geschwindigkeit verringern. Die Wahrscheinlichkeit einer Kollision kann dann bereits noch im Vorfeld verringert werden, noch bevor zuverlässigere Daten in darauf folgenden Zeitschritten, in denen das Verfahren erneut durchgeführt wird, wieder erhalten werden und die Annahme eines Fußgängers beispielsweise durch weitere Sensoren wie ein Lidar System bestätigt oder entkräftet werden kann.
Während von der Kamera die entsprechenden Bilddaten an die Recheneinheit geliefert werden, werden alle folgenden Schritte durch die Recheneinheit vollautomatisch ausgeführt, bevorzugt in schnell aufeinanderfolgenden Schritten, beispielsweise mit einer Frequenz von 20 Hz oder schneller. Bevorzugt werden sowohl das erste als auch das zweite künstliche neuronale Netz echtzeitfähig ausgeführt, sodass ihre Ergebnisse mit nur geringen Latenzen erhalten werden, besonders bevorzugt jedoch mit prädizierbarer Rechendauer, um einen spätesten Zeitpunkt nach Beginn der Berechnung bestimmen zu können, zu dem das Ergebnis der Ausführung des jeweiligen neuronalen Netzes vorliegt. Dies ist besonders wichtig für die Verwendung für ein automatisches Fahrsteuersystem zur Ausführung einer Fahrzeugführung.
Zusammen mit dem Ausgeben einer Ortsinformation über den Bereich der jeweiligen übrigen Gruppe mit Klassenzuordnung bezüglich des Szenenbilds nach dem Ausführen des zweiten künstlichen neuronalen Netzes wird bevorzugt die Liste der auf Basis der Instanz-Segmentierung identifizierten Objekte um ein entsprechendes Objekt der durch das zweite künstliche neuronale Netz erkannten Klasse erweitert.
Die vordefinierte Güteschwelle ist bevorzugt auf das Unsicherheitsmaß bezogen. Die jeweilige, zumindest eine, ausgewählte der vorgegebenen Klassen wird entsprechend der Anwendung bestimmt. Handelt es sich um eine Anwendung im Straßenverkehr, so ist beispielsweise die Klasse „Fußgänger“ von Interesse und wird als ausgewählte Klasse herangezogen, und führt zu bestimmten Kommandos in der Manöverplanung. Es können hierbei sämtliche Klassen berücksichtigt werden oder nur ein interessierender Teil aller vorgegebenen Klassen.
Es ist eine vorteilhafte Wirkung der Erfindung, dass die spezielle Zusammenstellung und Funktionsaufteilung zwischen dem ersten und dem zweiten künstlichen neuronalen Netz evidenzbasiert eine Zuverlässigkeit angibt, mit der die Objekterkennung erfolgt. Dies wäre bei der Verwendung eines konventionellen künstlichen neuronalen Netzes insbesondere dann nicht der Fall, wenn eine logistische Funktion wie die Softmax Funktion als Aktivierungsfunktion verwendet wird. Im letzteren Fall würde der evidenzbasierte Wert der Zuverlässigkeit für jedes Objekt fehlen. Ohne eine solche Unsicherheitsschätzung ist jedoch die Anwendung eines automatischen Fahrsteuerungssystems eines automatisierten Fahrzeugs, welches signifikant auf den Ergebnissen einer Objekterkennung mittels Bilddaten aufbaut, im Sinne eines sicherheitskritischen Systems nicht für den breiten Markt denkbar. Darüber hinaus ist dieser evidenzbasierte Ansatz so ausführbar, dass er in Echtzeit realisiert werden kann, um die Voraussetzungen zur Ausführung eines automatischen Fahrsteuerungssystems zu erfüllen. Wie oben erläutert, wäre ein spezielles künstliches neuronales Netz zur Klassifizierung der Pixel des gesamten Szenenbilds im Sinne einer semantischen Segmentierung auf das ganze Szenenbild praktisch nicht anwendbar. Vielmehr wird die Anwendung eines solchen speziellen neuronalen Netz zur Klassifizierung auf das zweite künstliche neuronale Netz beschränkt, welches als Eingangsdaten lediglich diejenigen Pixel der Bildbereiche erhält, die im Zuge der semantischen Segmentierung mithilfe des ersten künstlichen neuronalen Netzes als sehr unsicher bezüglich der Zuordnung der Pixel zu Objekten aus den Klassen erkannt wurden. Vorteilhaft wird damit die Anwendung eines speziellen künstlichen neuronalen Netzes auf gerade diese unsicheren Bereiche beschränkt; es werden somit dafür passende Eingangsdaten verwendet und zum anderen die unsicheren Bildbereiche einer tieferen Analyse unterzogen. Diese Unterscheidung der Bereiche des Szenenbilds wird vorteilhaft evidenzbasiert nach Zuordnungswahrscheinlichkeiten gegliedert, welche die Wahrscheinlichkeiten widerspiegeln, dass ein Bereich des Szenenbilds ein Objekt aus einer interessierenden Klasse enthält oder nicht. Diese Untergliederung wiederum leistet einen positiven Beitrag zur Minimierung der benötigten Rechenzeit zur Analyse des Szenenbilds.
Gemäß einer vorteilhaften Ausführungsform weist das erste vortrainierte künstliche neuronale Netz eine Zwischenschicht zur variationsgestützten Inferenz auf.
Ein derartiges künstliches neuronales Netz mit einer Zwischenschicht zur variationsgestützten Inferenz ist in der Publikation „Real-time Uncertainty Estimation Based On Intermediate Layer Variational Inference“ der Autoren Ahmed Hammam, Seyed Eghbal Ghobadi, Frank Bonarens und Christoph Stiller, CSCS '21, November 30, 2021, Ingolstadt, Germany, ACM ISBN 978-1-4503-9139-9/21/11 (verfügbar zum Zeitpunkt des Schreibens unter https://doi.org/10.1145/3488904.3493381) detailliert diskutiert. Diese Publikation wird hiermit durch Verweis einbezogen. Der dort gezeigte Ansatz nutzt eine zusätzliche Schicht gegenüber einem gängigen neuronalen Netz, welche dazu dient, durch Auslesen der Daten der zusätzlichen Schicht direkt eine Wahrscheinlichkeitsschätzung für die Zuordnung zu erhalten. Vorteilhaft kann es aufgrund dieser zusätzlichen Schicht vermieden werden, Daten des ganzen neuronalen Netzes erfassen zu müssen, was deutlich zeitintensiver im Vergleich zum Erfassen der Daten lediglich der zusätzlichen Schicht wäre. So wird vorteilhaft als zusätzliche Ausgangsgröße des ersten künstlichen neuronalen Netzes eine auf eine jeweilige Klasse bezogene Wahrscheinlichkeit je Pixel erhalten. Der Ansatz wird im Stand der Technik häufig auch „intermediate layer variational inference“, oder kurz ILVI genannt. Im Vergleich zu anderen im Stand der Technik bekannten Methoden zum Erhalten der gleichen bzw. ähnlichen Abschätzung, insbesondere der Methode „Monte Carlo Dropout“ oder der „Deep Ensembles“ Methode, ist der ILVI Ansatz deutlich weniger rechenaufwendig und damit deutlich weniger zeitintensiv. Dies würde einer Ausführung für Echtzeitsysteme entgegenstehen und nur mit sehr hohen Rechenkapazitäten lösbar sein. Vorteilhaft ergibt sich ferner das Wahrscheinlichkeitsmaß aus dem ersten künstlichen neuronalen Netz damit selbst, ohne zu diesem Zweck ein separates künstliches neuronales Netz implementieren zu müssen.
Der ILVI Ansatz sei im Folgenden kurz umrissen: Die zusätzliche Ebene des ersten künstlichen neuronalen Netzes, deren Daten ausgelesen werden, dient zur Modellierung der Unsicherheit für die Klassifizierung der Pixel. Im Rahmen dieser Ebene werden zwei Konstrukte verwendet, nämlich die Tensoren Mittel („Mean“) und Varianz („Variance"), wobei nicht eine Mittelung oder Varianzberechnung im eigentlichen Sinne durchgeführt wird; diese werden vielmehr unter anderem über Faltungsebenen entsprechend einer der Struktur des ersten künstlichen neuronalen Netzes ermittelt. Dies wird mit Hilfe der Zusatzebene erreicht, die nach einer 1x1-Convolutional-Transformation den Mittel-Tensor und parallel über eine zweite 1x1- Convolutional-Transformation den Varianz-Tensor generiert. In einem weiteren Schritt wird ein Auslesen der Daten der Zusatzebene durchgeführt, bei dem der Mean-Tensor zu dem über einen Zufallswert multiplizierten Varianz-Tensor addiert wird. Ziel des Trainings ist, mit Hilfe der Loss-Funktion alle Gewichte so zu trainieren, dass diese beiden Tensoren die Parameter einer Gaußschen Verteilung repräsentieren. Bei einer jeweiligen Inferenz wird dann für jedes Szenenbild die Umrechnung über die Ebenen des ersten künstlichen neuronalen Netzes mehrmals durchgeführt, bevorzugt im Bereich von 8- bis 16-mal. Bevorzugt durch Anwendung einer Logistik-Funktion wie der Softmax-Funktion werden dann in Höhe der Zahl der Klassen Konfidenz-Werte erhalten. Nach Durchführung einer Zahl n Inferenzwiederholungen werden für jede Klasse die n Konfidenz-Werte gemittelt. Jedem Pixel der Semantischen Segmentierung wird die Klasse mit dem höchsten Konfidenz-Wert zugeordnet. Bevorzugt wird für die Ermittlung des jeweiligen Wahrscheinlichkeitsmaßes für jedes Pixel über eine Standard-Entropie-Formel (dies entspricht der Gleichung (9) in der o.g. Publikation) die Unsicherheit für jedes Pixel und damit das jeweilige Wahrscheinlichkeitsmaß berechnet.
Gemäß einer weiteren vorteilhaften Ausführungsform erfolgt die Klassifizierung der Pixel mittels Zuordnung zu jeweils einer aus einer Vielzahl von Klassen von Objekten dadurch, dass für jedes Pixel eine Wahrscheinlichkeit einer korrekten Zuordnung bezüglich jeder der vorgegebenen Klassen ermittelt wird und diejenige Zuordnung mit der höchsten Wahrscheinlichkeit ausgewählt wird.
Die Unsicherheitsschätzung erfolgt insbesondere über den Sampling Prozess. Die sogenannte Cross-Entropy kann ferner als Basis einer sogenannten Loss Function dienen. Eine niedrige Entropie deutet dabei auf eine niedrige Unsicherheit hin, d. h. auf eine hohe Wahrscheinlichkeit einer korrekten Zuordnung. Der Begriff der Entropie wird hierbei im Zusammenhang der Informationstechnik verstanden. Diese Ausführungsform ist insbesondere im Zusammenhang mit dem oben genannten Ansatz des künstlichen neuronalen Netzes mit der Modifikation „ILVI“ zu verwenden.
Gemäß einer weiteren vorteilhaften Ausführungsform wird das Unsicherheitsmaß des jeweiligen oberhalb einer vordefinierten Güteschwelle identifizierten Objekts durch arithmetisches Mitteln aller Wahrscheinlichkeitsmaße der dem Objekt zugeordneten Pixel ermittelt.
Gemäß einer weiteren vorteilhaften Ausführungsform erfolgt die Ortsinformation über das jeweilige identifizierte Objekt bezüglich des Szenenbilds auf Basis der Ausgangsdaten des zweiten vortrainierten künstlichen neuronalen Netzes durch iterative Suche einer geschlossenen Begrenzungslinie, insbesondere eines Begrenzungsrahmens, wobei Ziel der iterativen Suche eine Eingrenzung einer Gruppe klassifizierter Pixel einer jeweiligen Klasse ist. Hierbei erfolgt insbesondere eine Vergrößerung des Begrenzungsrahmens, auch bekannt unter „Bounding Box“, in vier Schritten in alle vier Richtungen, bis für hintereinander folgende Pixel für jede Pixelzeile bzw. -spalte ein vorgegebener Unsicherheitsschwellwert unterschritten wird.
Die Instanz-Segmentierung kann hierbei durch die folgenden drei Möglichkeiten, erläutert in den nachfolgenden Ausführungsformen, erfolgen.
Gemäß einer weiteren vorteilhaften Ausführungsform wird das Identifizieren und Auflisten individueller Objekte aus Gruppen von Pixeln der ausgewählten Klasse, für die die jeweilige Identifizierung oberhalb der vordefinierten Güteschwelle erfolgt, vom ersten vortrainierten künstlichen neuronalen Netz ausgeführt. Gemäß dieser Ausführungsform wird die Instanz-Segmentierung vom ersten künstlichen neuronalen Netz selbst ausgeführt. Es werden somit Instanzen von Objekten erkannt und ausgegeben. Vorteilhaft liefert die Anwendung des ersten künstlichen neuronalen Netzes damit nicht nur die semantische Segmentierung, sondern auch gleichzeitig die Instanz-Segmentierung.
Gemäß einer weiteren vorteilhaften Ausführungsform erfolgt das Identifizieren und Auflisten individueller Objekte aus Gruppen von Pixeln der ausgewählten Klasse, für die die jeweilige Identifizierung oberhalb einer vordefinierten Güteschwelle erfolgt, durch Erzeugen einer Einhüllenden um die Objekte durch ein drittes künstliches neuronales Netz mit einer echten Teilmenge der Eingangsdaten des ersten künstlichen neuronalen Netzes als Eingangsdaten. Das dritte künstliche neuronale Netz ist bevorzugt gleichzeitig auch das erste künstliche neuronale Netz, sodass durch die Anwendung des ersten künstlichen neuronalen Netzes als „Nebenprodukt“ der jeweiligen geschlossenen Begrenzungslinien bzw. Begrenzungsrahmen erhalten wird.
Gemäß einer weiteren vorteilhaften Ausführungsform erfolgt das Identifizieren und Auflisten individueller Objekte aus Gruppen von Pixeln der ausgewählten Klasse, für die die jeweilige Identifizierung oberhalb einer vordefinierten Güteschwelle erfolgt, durch Erzeugen einer Einhüllenden um die Objekte mittels Bildverarbeitung.
Ein weiterer Aspekt der Erfindung betrifft ein Fahrzeug mit einer Fahrsteuereinheit und einem Objekterkennungssystem, welches eine Kamera und eine Recheneinheit aufweist, wobei die Kamera dazu ausgeführt ist, wiederholt eine jeweils aktuelle Szenerie in aufeinanderfolgenden Zeitschritten insbesondere vorgegebener Länge zu erfassen und Bilddaten an eine Recheneinheit zu übermitteln, wobei die Recheneinheit dazu ausgeführt ist, eine semantische Segmentierung zu erzeugen durch Ausführen eines ersten vortrainierten künstlichen neuronalen Netzes mit Pixeln eines aus den Bilddaten abgeleiteten Szenenbilds als Eingangsgrößen, und mit i) einer Klassifizierung der Pixel durch Zuordnung zu jeweils einer aus einer Vielzahl von Klassen von Objekten und ii) einem Wahrscheinlichkeitsmaß jeder Klassifizierung als jeweilige Ausgangsgröße, wobei die Vielzahl der Klassen von Objekten vorgegeben ist und einer endlichen Menge möglicher Ausgangsgrößen entspricht, und für zumindest eine ausgewählte der vorgegebenen Klassen eine Instanz-Segmentierung zu erzeugen durch Identifizieren und Auflisten individueller Objekte aus denjenigen Gruppen von Pixeln einer jeweiligen Klasse, für die die jeweilige Identifizierung oberhalb einer vordefinierten Güteschwelle erfolgt, und ein Unsicherheitsmaß des individuellen Objekts auf Basis der Wahrscheinlichkeitsmaße der Pixel im Bereich des identifizierten Objekts zusammen mit einer Ortsinformation über das jeweilige identifizierte Objekt bezüglich des Szenenbilds auszugeben, und für übrige Gruppen von Pixeln der jeweilig ausgewählten Klasse ein zweites vortrainiertes künstliches neuronales Netzes mit Pixeln der jeweiligen übrigen Gruppe oder mit Pixeln eines vorgegebenen Bereichs um die jeweilige übrige Gruppe als Eingangsgrößen auszuführen, und wenn eine Zuordnung der Pixel zu einem Objekt einer vorgegebenen Klasse als mögliche Ausgangsgröße erfolgt, eine Ortsinformation über das jeweilige identifizierte Objekt bezüglich des Szenenbilds auszugeben, wobei die Fahrsteuerungseinheit zum automatisierten Führen des Fahrzeugs auf Basis der von dem Objekterkennungssystem ermittelten Ortsinformationen der identifizierten Objekte und dem jeweiligen Unsicherheitsmaß ausgeführt ist.
Vorteile und bevorzugte Weiterbildungen des vorgeschlagenen Fahrzeugs ergeben sich durch eine analoge und sinngemäße Übertragung der im Zusammenhang mit dem vorgeschlagenen Verfahren vorstehend gemachten Ausführungen.
Weitere Vorteile, Merkmale und Einzelheiten ergeben sich aus der nachfolgenden Beschreibung, in der - gegebenenfalls unter Bezug auf die Zeichnung - zumindest ein Ausführungsbeispiel im Einzelnen beschrieben ist. Gleiche, ähnliche und/oder funktionsgleiche Teile sind mit gleichen Bezugszeichen versehen.
Es zeigen:

1: Ein Verfahren zur automatischen Objekterkennung auf Basis von Bilddaten gemäß einem Ausführungsbeispiel der Erfindung.
2: Beispielhafte Ausschnitte aus einem Szenenbild mit Fußgängern.
3: Eine typische Situation in einem Fahrzeug mit einer implementieren automatischen Objekterkennung.

Die Darstellungen in den Figuren sind schematisch und nicht maßstäblich.
1 zeigt ein Verfahren zur Durchführung einer automatischen Objekterkennung auf Basis von Bilddaten, aufweisend die Schritte:

- Erfassen S1 einer Szenerie durch eine Kamera 7 und Übermitteln von Bilddaten an eine Recheneinheit 9; ferner durch die Recheneinheit 9:
- Erzeugen S2 einer semantischen Segmentierung durch Ausführen eines ersten vortrainierten künstlichen neuronalen Netzes mit Pixeln eines aus den Bilddaten abgeleiteten Szenenbilds als Eingangsgrößen, und mit i) einer Klassifizierung der Pixel durch Zuordnung zu jeweils einer aus einer Vielzahl von Klassen von Objekten und ii) einem Wahrscheinlichkeitsmaß jeder Klassifizierung als jeweilige Ausgangsgröße, wobei die Vielzahl der Klassen von Objekten vorgegeben ist und einer endlichen Menge möglicher Ausgangsgrößen entspricht,
- Für zumindest eine ausgewählte der vorgegebenen Klassen: Erzeugen S3 einer Instanz-Segmentierung mittels des ersten neuronalen Netzes durch Identifizieren und Auflisten individueller Objekte aus denjenigen Gruppen von Pixeln einer jeweiligen Klasse, für die die jeweilige Identifizierung oberhalb einer vordefinierten Güteschwelle erfolgt, und Ausgeben eines Unsicherheitsmaßes des individuellen Objekts auf Basis der Wahrscheinlichkeitsmaße der Pixel im Bereich des identifizierten Objekts zusammen mit einer Ortsinformation über das jeweilige identifizierte Objekt bezüglich des Szenenbilds,
- für übrige Gruppen von Pixeln der jeweilig ausgewählten Klasse: Ausführen S4 eines zweiten vortrainierten künstlichen neuronalen Netzes mit Pixeln der jeweiligen übrigen Gruppe oder mit Pixeln eines vorgegebenen Bereichs um die jeweilige übrige Gruppe als Eingangsgrößen, und wenn eine Zuordnung der Pixel zu einem Objekt einer vorgegebenen Klasse als mögliche Ausgangsgröße erfolgt, Ausgeben einer Ortsinformation über das jeweilige identifizierte Objekt bezüglich des Szenenbilds. Ein Beispiel für eine Situation, in der sowohl das erste als auch das zweite künstliche neuronale Netz bestimmungsgemäß zur Anwendung kommen, ist in 2 gezeigt.

2 zeigt einen beispielhaften Ausschnitt eines Szenenbilds mit zwei Fußgängern als Objekte interessierender Klassen. Hierbei symbolisieren die Sternsymbole die klassifizierten Pixel, die der Klasse „Fußgänger“ während der semantischen Segmentierung mittels des ersten künstlichen neuronalen Netzes zugeordnet wurden. Die Fußgänger sind durch durchgezogene Konturen dargestellt, die jedoch so nur durch das menschliche Auge beim Betrachten der Bildszene interpretiert werden können, durch die semantische Segmentierung der Recheneinheit jedoch zunächst nicht sichtbar sind, vielmehr sind die Konturen der Fußgänger zu Vergleichszwecken in der 2 dargestellt. Dadurch, dass für den linken Fußgänger im Szenenbild ausreichend viele Pixel der Klasse „Fußgänger“ zugeordnet werden konnten, ist eine Identifizierung im Sinne der Instanz-Segmentierung leicht möglich und mit ausreichend hoher Wahrscheinlichkeit der linke Fußgänger als solcher identifiziert. Ihm wird ein Begrenzungsrahmen zugeordnet, der sich körperfest mit dem Fußgänger relativ zum Szenenbild mit jedem Zeitschritt mitbewegt. Durch Auswerten des Unsicherheitsmaßes für den rechten Fußgänger ergibt sich jedoch, dass die beiden Gruppen von Pixeln, die der Klasse Fußgänger zugeordnet wurden, auf einen Fußgänger hindeuten, dieser aber nicht in der Instanz-Segmentierung durch das erste künstliche neuronale Netz erkannt wurde. Daher wird der Bereich der beiden Gruppen der Pixel im Bereich des rechten Fußgängers, also dem Bereich mit entsprechend klassifizierten Pixeln ohne zunächst erfolgreich durchgeführte Instanz-Segmentierung, als Eingangsgröße dem zweiten künstlichen neuronalen Netz zugeführt, welches ein spezielles künstliches neuronales Netz zur Klassifikation ist. Mithilfe dessen wird mit einer Wahrscheinlichkeit von beispielsweise 30 % die Anwesenheit eines Fußgängers bestimmt und ein rechteckiger Begrenzungsrahmen dem möglichen Aufenthaltsort eines Fußgängers relativ zum Szenenbild zugeordnet. Ein automatisches Fahrsteuerungssystem eines Fahrzeugs 1 kann auf Grundlage dieser Information entsprechend vorsichtig reagieren. Dieses Verfahren liefert eine Lösung für den besonders kritischen Fall, dass in einem Bildausschnitt fehlerhaft ein Fußgänger überhaupt nicht erkannt bzw. dieser Bereich sogar als frei klassifiziert werden würde ohne die Anwendung des Klassifizierung-Netzes, welches hier das zweite künstliche neuronale Netz ist.
3 zeigt einen bevorzugten Anwendungsfall für die Objekterkennung. In einem automatisierten Fahrzeug 1 ist eine Kamera 7 installiert, welche einen in die Umgebung des Fahrzeugs 1 gerichteten Erfassungsbereich aufweist. Mit einer bestimmten Wiederholfrequenz nimmt diese Kamera 1 Bilder der Umgebung auf und übermittelt jedes diese Bilddaten an eine Recheneinheit 9 mit einem ersten und zweiten implementierten und bereits trainierten künstlichen neuronalen Netz als Teil eines Objekterkennungssystems 5. Während das jeweilige künstliche neuronale Netz mit realen oder synthetischen Kamerabildern trainiert wurde und im Rahmen des sogenannten „supervised learning“ mithilfe von Vorwärts- und Rückwärtsrechnungen die vorgegebenen Ergebnisse zur Objekterkennung wie in 1 beschrieben optimiert wurde, kann es im realen Betrieb des Fahrzeugs 1 durch die naturgemäße individuell bedingte Abweichung beispielsweise zwischen einem realen Fußgänger und der Vielzahl von Fußgängern, die zu Trainingszwecken verwendet wurden, zu fehlerhafter Objekterkennung führen, d. h. dass ein Fußgänger als solcher vom Objekterkennungssystem 5 nicht im ersten Anlauf der Instanz-Segmentierung erkannt wird. Werden jedoch entsprechende Objekte wie die Fußgänger vom Objekterkennungssystem 5 korrekt als zu einer vorgegebenen Kategorie gehörig erkannt, werden sie wie in 3 gezeigt üblicherweise mit einem anwendungsbezogenen Begrenzungsrahmen markiert, welcher körperfest dem jeweiligen Objekt zugeordnet ist. Im gezeigten Beispiel werden drei Fußgänger als solche erkannt und mit einem anwendungsbezogenen Begrenzungsrahmen markiert. Das Fahrzeug 1 weist zu diesen Zwecken eine Fahrsteuereinheit 3 und ein Objekterkennungssystem 5 auf, welches eine Kamera 7 und eine Recheneinheit 9 auf. Die Recheneinheit 9 erzeugt eine semantische Segmentierung durch Ausführen eines ersten vortrainierten künstlichen neuronalen Netzes mit Pixeln eines aus den Bilddaten abgeleiteten Szenenbilds als Eingangsgrößen, und mit i) einer Klassifizierung der Pixel durch Zuordnung zu jeweils einer aus einer Vielzahl von Klassen von Objekten und ii) einem Wahrscheinlichkeitsmaß jeder Klassifizierung als jeweilige Ausgangsgröße, wobei die Vielzahl der Klassen von Objekten vorgegeben ist und einer endlichen Menge möglicher Ausgangsgrößen entspricht. Für zumindest die Klasse „Fußgänger“ wird dann eine Instanz-Segmentierung durch Identifizieren und Auflisten individueller Objekte aus denjenigen Gruppen von Pixeln einer jeweiligen Klasse erzeugt, für die die jeweilige Identifizierung oberhalb einer vordefinierten Güteschwelle erfolgt, und ein Unsicherheitsmaß des individuellen Objekts auf Basis der Wahrscheinlichkeitsmaße der Pixel im Bereich des identifizierten Objekts zusammen mit einer Ortsinformation über das jeweilige identifizierte Objekt bezüglich des Szenenbilds ausgegeben. Für übrige Gruppen von Pixeln unterhalb der Güteschwelle der jeweilig ausgewählten Klasse wird ein zweites vortrainiertes künstliches neuronales Netz speziell zur Klassifizierung mit Pixeln der jeweiligen übrigen Gruppe oder mit Pixeln eines vorgegebenen Bereichs um die jeweilige übrige Gruppe als Eingangsgrößen ausgeführt. Wird so eine Zuordnung der Pixel zu einem Objekt einer vorgegebenen Klasse als mögliche Ausgangsgröße erhalten, wird eine Ortsinformation über das jeweilige identifizierte Objekt bezüglich des Szenenbilds ausgegeben. Die Fahrsteuereinheit 3 führt zum automatisierten Führen des Fahrzeugs 1 Manöverplanungen auf Basis der von dem Objekterkennungssystem 5 ermittelten Ortsinformationen der identifizierten Objekte und dem jeweiligen Unsicherheitsmaß aus.
Obwohl die Erfindung im Detail durch bevorzugte Ausführungsbeispiele näher illustriert und erläutert wurde, so ist die Erfindung nicht durch die offenbarten Beispiele eingeschränkt und andere Variationen können vom Fachmann hieraus abgeleitet werden, ohne den Schutzumfang der Erfindung zu verlassen. Es ist daher klar, dass eine Vielzahl von Variationsmöglichkeiten existiert. Es ist ebenfalls klar, dass beispielhaft genannte Ausführungsformen wirklich nur Beispiele darstellen, die nicht in irgendeiner Weise als Begrenzung etwa des Schutzbereichs, der Anwendungsmöglichkeiten oder der Konfiguration der Erfindung aufzufassen sind. Vielmehr versetzen die vorhergehende Beschreibung und die Figurenbeschreibung den Fachmann in die Lage, die beispielhaften Ausführungsformen konkret umzusetzen, wobei der Fachmann in Kenntnis des offenbarten Erfindungsgedankens vielfältige Änderungen, beispielsweise hinsichtlich der Funktion oder der Anordnung einzelner, in einer beispielhaften Ausführungsform genannter Elemente, vornehmen kann, ohne den Schutzbereich zu verlassen, der durch die Ansprüche und deren rechtliche Entsprechungen, wie etwa weitergehende Erläuterungen in der Beschreibung, definiert wird.
Bezugszeichenliste

1: Fahrzeug
3: Fahrsteuereinheit
5: Objekterkennungssystem
7: Kamera
9: Recheneinheit
S1: Erfassen
S2: Erzeugen
S3: Erzeugen
S4: Ausführen

Claims

Verfahren zur Durchführung einer automatischen Objekterkennung auf Basis von Bilddaten, aufweisend die Schritte: - Erfassen (S1) einer Szenerie durch eine Kamera (7) und Übermitteln von Bilddaten an eine Recheneinheit (9); ferner durch die Recheneinheit (9): - Erzeugen (S2) einer semantischen Segmentierung durch Ausführen eines ersten vortrainierten künstlichen neuronalen Netzes mit Pixeln eines aus den Bilddaten abgeleiteten Szenenbilds als Eingangsgrößen, und mit i) einer Klassifizierung der Pixel durch Zuordnung zu jeweils einer aus einer Vielzahl von Klassen von Objekten und ii) einem Wahrscheinlichkeitsmaß jeder Klassifizierung als jeweilige Ausgangsgrö-ße, wobei die Vielzahl der Klassen von Objekten vorgegeben ist und einer endlichen Menge möglicher Ausgangsgrößen entspricht, - für zumindest eine ausgewählte der vorgegebenen Klassen: Erzeugen (S3) einer Instanz-Segmentierung durch Identifizieren und Auflisten individueller Objekte aus denjenigen Gruppen von Pixeln einer jeweiligen Klasse, für die die jeweilige Identifizierung oberhalb einer vordefinierten Güteschwelle erfolgt, und Ausgeben eines Unsicherheitsmaßes des individuellen Objekts auf Basis der Wahrscheinlichkeitsmaße der Pixel im Bereich des identifizierten Objekts zusammen mit einer Ortsinformation über das jeweilige identifizierte Objekt bezüglich des Szenenbilds, - für übrige Gruppen von Pixeln der jeweilig ausgewählten Klasse: Ausführen (S4) eines zweiten vortrainierten künstlichen neuronalen Netzes mit Pixeln der jeweiligen übrigen Gruppe oder mit Pixeln eines vorgegebenen Bereichs um die jeweilige übrige Gruppe als Eingangsgrößen, und wenn eine Zuordnung zu einer vorgegebenen Klasse als mögliche Ausgangsgröße erfolgt, Ausgeben einer Ortsinformation über den Bereich der jeweiligen übrigen Gruppe bezüglich des Szenenbilds mit Klassenzuordnung.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das erste vortrainierte künstliche neuronale Netz eine Zwischenschicht zur variationsgestützten Inferenz aufweist.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Klassifizierung der Pixel mittels Zuordnung zu jeweils einer aus einer Vielzahl von Klassen von Objekten dadurch erfolgt, dass für jedes Pixel eine Wahrscheinlichkeit einer korrekten Zuordnung bezüglich jeder der vorgegebenen Klassen ermittelt wird und diejenige Zuordnung mit der höchsten Wahrscheinlichkeit ausgewählt wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Unsicherheitsmaß des jeweiligen oberhalb einer vordefinierten Güteschwelle identifizierten Objekts durch arithmetisches Mitteln aller Wahrscheinlichkeitsmaße der dem Objekt zugeordneten Pixel ermittelt wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Ortsinformation über das jeweilige identifizierte Objekt bezüglich des Szenenbilds auf Basis der Ausgangsdaten des zweiten vortrainierten künstlichen neuronalen Netzes durch iterative Suche einer geschlossenen Begrenzungslinie erfolgt, wobei Ziel der iterativen Suche eine Eingrenzung einer Gruppe klassifizierter Pixel einer jeweiligen Klasse ist.
Verfahren nach einem der Ansprüche 1 bis 5, wobei das Identifizieren und Auflisten individueller Objekte aus Gruppen von Pixeln der ausgewählten Klasse, für die die jeweilige Identifizierung oberhalb der vordefinierten Güteschwelle erfolgt, vom ersten vortrainierten künstlichen neuronalen Netz ausgeführt wird.
Verfahren nach einem der Ansprüche 1 bis 5, wobei das Identifizieren und Auflisten individueller Objekte aus Gruppen von Pixeln der ausgewählten Klasse, für die die jeweilige Identifizierung oberhalb einer vordefinierten Güteschwelle erfolgt, durch Erzeugen einer Einhüllenden um die Objekte durch ein drittes künstliches neuronales Netz mit einer echten Teilmenge der Eingangsdaten des ersten künstlichen neuronalen Netzes als Eingangsdaten erfolgt.
Verfahren nach einem der Ansprüche 1 bis 5, wobei das Identifizieren und Auflisten individueller Objekte aus Gruppen von Pixeln der ausgewählten Klasse, für die die jeweilige Identifizierung oberhalb einer vordefinierten Güteschwelle erfolgt, durch Erzeugen einer Einhüllenden um die Objekte mittels Bildverarbeitung erfolgt.
Fahrzeug (1) mit einer Fahrsteuereinheit (3) und einem Objekterkennungssystem (5), welches eine Kamera (7) und eine Recheneinheit (9) aufweist, wobei die Kamera (7) dazu ausgeführt ist, wiederholt eine jeweils aktuelle Szenerie in aufeinanderfolgenden Zeitschritten insbesondere vorgegebener Länge zu erfassen und Bilddaten an eine Recheneinheit (9) zu übermitteln, wobei die Recheneinheit (9) dazu ausgeführt ist, eine semantische Segmentierung zu erzeugen durch Ausführen eines ersten vortrainierten künstlichen neuronalen Netzes mit Pixeln eines aus den Bilddaten abgeleiteten Szenenbilds als Eingangsgrößen, und mit i) einer Klassifizierung der Pixel durch Zuordnung zu jeweils einer aus einer Vielzahl von Klassen von Objekten und ii) einem Wahrscheinlichkeitsmaß jeder Klassifizierung als jeweilige Ausgangsgröße, wobei die Vielzahl der Klassen von Objekten vorgegeben ist und einer endlichen Menge möglicher Ausgangsgrößen entspricht, und für zumindest eine ausgewählte der vorgegebenen Klassen eine Instanz-Segmentierung zu erzeugen durch Identifizieren und Auflisten individueller Objekte aus denjenigen Gruppen von Pixeln einer jeweiligen Klasse, für die die jeweilige Identifizierung oberhalb einer vordefinierten Güteschwelle erfolgt, und ein Unsicherheitsmaß des individuellen Objekts auf Basis der Wahrscheinlichkeitsmaße der Pixel im Bereich des identifizierten Objekts zusammen mit einer Ortsinformation über das jeweilige identifizierte Objekt bezüglich des Szenenbilds auszugeben, und für übrige Gruppen von Pixeln der jeweilig ausgewählten Klasse ein zweites vortrainiertes künstliches neuronales Netzes mit Pixeln der jeweiligen übrigen Gruppe oder mit Pixeln eines vorgegebenen Bereichs um die jeweilige übrige Gruppe als Eingangsgrößen auszuführen, und wenn eine Zuordnung der Pixel zu einem Objekt einer vorgegebenen Klasse als mögliche Ausgangsgröße erfolgt, eine Ortsinformation über das jeweilige identifizierte Objekt bezüglich des Szenenbilds auszugeben, wobei die Fahrsteuereinheit (3) zum automatisierten Führen des Fahrzeugs (1) auf Basis der von dem Objekterkennungssystem (5) ermittelten Ortsinformationen der identifizierten Objekte und dem jeweiligen Unsicherheitsmaß ausgeführt ist.