DE102023200110A1

DE102023200110A1 - Verfahren zum Evaluieren eines tiefen neuronalen Netzes

Info

Publication number: DE102023200110A1
Application number: DE102023200110.1
Authority: DE
Inventors: Frank Bonarens; Patrick Feifel
Original assignee: Stellantis Auto SAS
Current assignee: Stellantis Auto SAS
Filing date: 2023-01-10
Publication date: 2024-07-11

Abstract

Die vorliegende Offenbarung betrifft ein Verfahren zum Evaluieren eines tiefen neuronalen Netzes (10), das auf eine Objekterkennung in Bilddaten aus einem Fahrzeugumfeld trainiert worden ist, mit folgenden Schritten:
a) Bereitstellen (100) von neuen Bilddatensätzen (50), die jeweils Bilddaten eines neuen Bildes (30) und erzeugte Ground-Truth-Objektdaten (41-46) zusammenfassen;
b) Erzeugen (105) eines Ausgabedatensatzes (60) mit Objektdaten (62-66) über erkannte Objekte zu jedem neuen Bilddatensatz (50) mittels Inferenz durch das tiefe neuronale Netz;
c) Vergleichen (110) für jeden neuen Bilddatensatz (50) der erzeugten Objektdaten (62-66) mit den Ground-Truth-Objektdaten (41-46) und Bewerten (120) einer Objekterkennungsqualität basierend auf den Vergleichen und basierend auf ausgewählten Metriken;
d) Erweiterten (130) der Ground-Truth-Objektdaten (41-46) um ein Attribut (47) für alle die neuen Bilddatensätze (50), bei denen ein Schwellwert einer ersten Metrik nicht eingehalten wurde;
e) erneutes Vergleichen (135) für jeden neuen Bilddatensatz (50) der erzeugten Objektdaten (62-66) mit den Ground-Truth-Objektdaten (41-46; 41'-46'), und erneutes Bewerten (140) der Objekterkennungsqualität basierend auf den erneuten Vergleichen und basierend auf den ausgewählten Metriken und eingeflossenen Attributen (47), wobei das tiefe neuronale Netz (10) positiv evaluiert (150) wird, sofern von einer zweiten Metrik eine Anzahl zugeordneter Schwellwerte (LAPT, LAR) eingehalten worden sind.

Description

Technisches Gebiet
Die Erfindung betrifft ein Verfahren zum Evaluieren eines tiefen neuronalen Netzes, das auf eine Objekterkennung in Bilddaten aus einem Umfeld eines Kraftfahrzeuges trainiert worden ist.
Stand der Technik
Tiefe neuronale Netze zur Objekterkennung in Bilddaten, die für den Einsatz in fortgeschrittenen Fahrerassistenzsystemen (engl. advanced driver assistance systems, ADAS) oder in Systemen für das autonome bzw. automatisierte Fahren vorgesehen sind, werden als eine Komponente eine Objekterkennungseinrichtung zu einem bestimmten Zeitpunkt auf Basis vorhandener Bilddatensätze trainiert. Während eines nachfolgenden Entwicklungsprozesses entsprechender Assistenz- bzw. automatisierten Fahrfunktionen aber auch im späteren Serieneinsatz entsprechender Systeme können bei einer Erfassung eines Fahrzeugumfeldes mittels einer Fahrzeugkamera und Objekterkennung Eckfälle (engl. corner cases) auftreten, in denen Objekte einer Objektklasse, auf die das tiefe neuronale Netz ursprünglich trainiert worden ist, falsch oder nicht erkannt werden.
Während eines Entwicklungsprozesses oder auch während eines späteren Praxisbetriebes entsprechender Fahrzeugsysteme können Bilddaten von einer zugehörigen Fahrzeugkamera aufgezeichnet werden, so dass vorhandene Evaluierungs- und/oder Trainingsdatensätze, die zum Evaluieren oder Trainieren von tiefen neuronalen Netzen zur Objekterkennung dienen, um neue Bilddatensätze erweitert werden. Insbesondere können gezielt neue Bilddatensätze ausgewählt werden, die während kritischen Umgebungsbedingungen oder kritischen Verkehrsszenarien angefallen sind.
Eine übliche Vorgehensweise ist, die gewonnenen neuen Bilddatensätze für eine Evaluierung eines tiefen neuronalen Netzes heranzuziehen, um eine Objekterkennungsqualität eines trainierten neuronalen Netzes auch unter den neuen Corner-Case-Bedingungen zu Evaluieren. Als eine Metrik zur Bewertung der Objekterkennungsqualität kann beispielsweise eine protokollierte durchschnittliche Fehlerdetektionsrate (engl. Log-Average Miss Rate, LAMR) herangezogen werden, die bei einer Inferenzbildung zu einer Anzahl von neuen Bilddatensätze durch das tiefe neuronale Netz ermittelt wurden. Abhängig von einem Evaluierungsergebnis kann entscheiden werden, ob ein aktueller Trainingsstand zur Objekterkennung auch in Corner-Cases ausreicht oder nicht. Bei Identifizierung neuer kritischer Fälle besteht Handlungsbedarf, so dass gegebenenfalls ein Ergänzungstraining in Form eines Neutrainings oder eines gezielten Nachtrainings des tiefen neuronalen Netzes für entsprechende Eckfälle erforderlich werden kann.
Ein gezieltes Nachtrainieren eines tiefen neuronalen Netzes auf eine Erkennung von Objekten unter entsprechenden Corner-Case-Bedingungen birgt jedoch stets das Risiko einer Überanpassung (engl. overfitting), wobei bisher unter Basisbedingungen robust erkannte Objekte, die für eine von der Objekterkennung abhängige Assistenz- oder Fahrfunktion ebenso kritisch sind, nicht mehr zuverlässig detektiert werden können.
Kurzbeschreibung der Erfindung
Vor diesem Hintergrund liegt der Erfindung die Aufgabe zugrunde, ein verbessertes Verfahren zum Evaluieren eines auf eine Objekterkennung in Bilddaten trainierten tiefen neuronalen Netzes bereitzustellen.
Vorgeschlagen wird dementsprechend ein Verfahren gemäß dem Hauptanspruch sowie ein Computerprogramm und ein Computerprogrammprodukt gemäß den Nebenansprüchen. Weiterführende Ausgestaltungen sind Gegenstand der jeweils abhängigen Ansprüche.
Gemäß einem ersten Aspekt der Erfindung wird die Aufgabe gelöst durch ein Verfahren zum Evaluieren eines tiefen neuronalen Netzes, das auf eine Objekterkennung in Bilddaten aus einem Umfeld eines Kraftfahrzeuges trainiert worden ist.
In einem ersten Schritt werden Bilddaten wenigstens eines neuen Bildes bereitgestellt, wobei für jedes neue Bild Ground-Truth-Objektdaten über in dem Bild zu erkennende Objekte erzeugt werden und wobei die Bilddaten jedes Bildes mit den erzeugten Ground-Truth-Objektdaten zu einem neuen Bilddatensatz zusammengefasst werden.
Die neuen Bilder können beispielsweise während eines Fahrbetriebes von einer Fahrzeug-Frontkamera erfasst und als Bilddaten gespeichert worden sein. Die neuen Bilder können Bewegtbilder einer Verkehrssituation enthalten, die aus einer Fahrzeugperspektive unter realen Umgebungsbedingungen (z.B. Licht- und Sichtbedingungen) als Bilddaten aufgezeichnet worden sind. Die von dem tiefen neuronalen Netz zu erkennenden Objekte werden manuell oder mit automatisierten Werkzeugen in den neuen Bildern bzw. Bildsequenzen der Bilddaten markiert, indem beispielsweise ein zweidimensionaler Begrenzungsrahmen (engl. two-dimensional bounding-box, 2DBB) um eine Anzahl von Bildpunkten gezogen werden, die zu einem Objekt einer zuerkennenden Objektklassen gehören. Eine 2DBB kann ferner als Objekt einer entsprechenden Klasse annotiert werden.
In einem nachfolgenden zweiten Verfahrensschritt wird zu jedem neuen Bilddatensatz ein Ausgabedatensatz mit Objektdaten über erkannte Objekte mittels Inferenz durch das tiefe neuronale Netz gebildet.
In einem dritten Schritt werden die durch das tiefe neuronale Netz erzeugten Objektdaten mit den Ground-Truth-Objektdaten für jeden neuen Bilddatensatz verglichen. Einer Objekterkennungsqualität des neuronalen Netzes wird anschließend basierend auf den Vergleichen und basierend auf vorgegebenen Metriken bewertet.
Die Ground-Truth-Objektdaten werden in einem nachfolgenden vierten Schritt für alle die neuen Bilddatensätze, bei denen ein Schwellwert von einer ersten Metrik nicht eingehalten wurde, um ein Attribut erweitert.
In einem fünften Schritt werden für jeden neuen Bilddatensatz die, durch das tiefe neuronale Netz erzeugten Objektdaten erneut mit den Ground-Truth-Objektdaten verglichen. Anschließend wird die Objekterkennungsqualität des neuronalen Netzes basierend auf dem erneuten Vergleichen und basierend auf den vorgegebenen Metriken erneut bewertet, wobei vorhandene Attribute in die vorgegebenen Metriken einfließen.
Abschließend wird das tiefe neuronale Netz positiv evaluiert, sofern von einer zweiten Metrik eine Anzahl zugeordneter Schwellwerte eingehalten worden sind.
Eine positive Evaluierung bedeutet, dass die Objekterkennungsqualität des trainierten tiefen neuronalen Netzes zumindest den Anforderungen einer Applikation, d.h. eine jeweilige Assistenz bzw. Fahrfunktion, entspricht. Wird zumindest ein Schwellwert von der zweiten Metrik nicht eigehaltem, erfüllt die Objekterkennungsqualität die Anforderungen für eine jeweilige Zielapplikation nicht, so dass das tiefe neuronale Netz entsprechend negativ evaluiert wird.
Eine Idee hinter dem erfindungsgemäßen Verfahren ist, den Ground-Truth-Objektdaten zusätzlich um ein Attribut zu erweitern, mit dem eine Kritikalität jedes einzelnen aller relevanten Objekte in einem Bilddatensatz bewertet bzw. festgelegt werden kann. Ob ein einzelnes relevantes Objekt bei einer Objekterkennung kritisch oder weniger kritisch bzw. unkritisch ist, ist von einer jeweiligen nachgelagerten Applikation abhängig, die die jeweiligen Ausgabedatensätze mit Objektdaten über erkannte Objekte empfängt und als Eingangsparameter für eine Assistenz- bzw. automatisierte Fahrfunktion verarbeitet.
Das Attribut fließt über die Ground-Truth-Objektdaten in eine jeweilige Metrik zur Bewertung der Objekterkennungsqualität des tiefen neuronalen Netzes ein, so dass die als weniger bzw. unkritische festgelegten Objekte weniger stark bzw. nicht in eine Bewertung einfließen. Die Metriken bewerten die Ground-Truth-Objektdaten aller erweiterten Bilddatensätze, somit annotationsspezifisch.
Gemäß einer Weiterbildung des Verfahrens kann das tiefe neuronale Netz bereits nach dem dritten Schritt positiv evaluiert werden, sofern von der zweiten Metrik alle zugeordneten Schwellwerte eingehalten worden sind. Entsprechend können dann die Schritte vier bis fünf übersprungen werden.
Die Frage, ob ein einzelnes relevantes Objekt in einem neuen Bild kritisch oder weniger kritisch ist, beruht unter anderem auf Expertenwissen in Bezug auf die jeweilige Applikation, mit der die Ausgabedatensätze der Objekterkennung genutzt werden. Ein zusätzliches Annotieren der 2DBB mit einem entsprechenden Attribut erfolgt daher in der Regel manuell. Sind die Bedingungen für eine positive Evaluierung bereits erfüllt, kann eine zeitaufwendiges Annotieren kritischer Objekte in einzelnen Bilddatensätzen eingespart werden.
Gemäß einer Weiterbildung des Verfahrens können mittels der zweiten Metrik über alle neuen Bilddatensätze Werte für eine durchschnittliche Selektivität und/oder eine durchschnittliche Genauigkeit hinsichtlich einer Erkennung von Objekten in den Bilddatensätzen ermittelt werden. Ferner kann jeweils ein Schwellwert für die durchschnittliche Selektivität und/oder für die durchschnittliche Genauigkeit festgelegt werden.
Bei einer Objekterkennung in Bilddaten kommen hautsächlich zwei mögliche Fehlerkategorien in Betracht. Zum einem können in einem Bild vorhandene Objekte von dem tiefen neuronalen Netz in den Bilddaten nicht erkannt werden (Falsch-Negativ-Erkennung). Zum anderen können in den Bilddaten durch das tiefe neuronale Netz Objekte erkannt werden, die im Bild nicht vorhanden sind (Falsch-Positiv-Erkennung). Die Fehlerarten können auf eine nachgelagerte Applikation unterschiedliche Auswirkungen haben. Eine Bewertung mittels durchschnittlicher Selektivität und Genauigkeit kann applikationsspezifisch aussagekräftiger sein als eine Fehlerdetektionsrate pro Bild bzw. eine durchschnittliche Fehlerdetektionsrate über eine Anzahl neuer Bilder. Die entsprechenden Schwellwerte für die durchschnittliche Selektivität und/oder Genauigkeit basieren auf Expertenwissen und werden entsprechend festgelegt.
Gemäß einer Weiterbildung des Verfahrens kann mittels der ersten Metrik für jeden der neuen Bilddatensätze jeweils ein Wert für eine Selektivität und/oder eine Genauigkeit hinsichtlich einer Erkennung von Objekten in dem jeweiligen Bilddatensatz ermittelt werden. Ferner kann jeweils ein Schwellwert für die Selektivität und/oder für die Genauigkeit festgelegt werden.
Durch die Selektivität und/oder die Genauigkeit sowie durch die korrespondierenden Schwellwerte kann die Anzahl der Bilddaten gefiltert werden, die bei einem nachträglichen Annotieren mit dem zusätzlichen Attribut durch einen Experten berücksichtigt werden müssen. Verbleibenden Bilddaten brauchen hingegen nicht manuell begutachtet werden, so dass sich die Effizienz des Evaluierungsverfahrens erhöht.
Gemäß einer Weiterbildung des Verfahrens können in dem vierten Schritt ferner Objektdaten von falsch-erkannten Objekten eines Ausgabedatensatzes, die mittels Inferenz aus solchen neuen Bilddatensätzen durch das tiefe neuronale Netz erzeugt wurden, bei denen der Schwellwert der ersten Metrik nicht eingehalten wurde, um ein Attribut erweitert werden.
Werden in den Bilddaten durch das tiefe neuronale Netz Objekte erkannt, die im Bild nicht vor-handen sind (Falsch-Positiv-Erkennung), so enthält ein Ausgangsdatensatz entsprechend Objektdaten von falsch-erkannte Objekten. Bei dem Vergleich zwischen Bilddatensätzen und Ausgabedatensätzen können entsprechende falsch-erkannten Objekte identifiziert werden. Wurde für eine Bilddatensatz der Schwellwert für die erste Metrik nicht eingehalten, können die entsprechenden Objektdaten falsch-erkannter Objekte betreffender Ausgangsdatensätze mit dem Attribut versehen werden und als kritische und/oder weniger kritische Falscherkennungen bewertet werden.
Gemäß einer Weiterbildung des Verfahrens können die Attribute basierend auf einer dritten Metrik und einer Objektinformation aus den Ground-Truth-Objektdaten und/oder einer Objektinformation aus den Objektdaten bestimmt werden.
Damit kann eine automatisierte Kritikalitätsbewertung durch ein Computersystem von nicht-erkannten und/oder falsch erkannten Objektdaten ermöglicht werden, so dass eine Expertentätigkeit unterstütz oder ersetzt werden kann. Als eine Metrik könnte beispielsweise eine Zeit bis zu einer (möglichen) Kollision (engl. time to collision, TTC) dienen, wobei als Objektinformationen zum Beispiel Abstandsinformationen zwischen relevanten Objekten und einem Fahrzeug herangezogen werden können. Die Abstandsinformationen können zum Beispiel als Annotationen in den Ground-Truth-Objektdaten bzw. in den Objektdaten enthalten sein. Ferner könnte eine Fahrzeuggeschwindigkeit in den neuen Bilddatensätzen enthalten sein. Objekte, die innerhalb eines Bremsweges für das Fahrzeug bzw. eine TTC unter einen entsprechenden Schwellwert haben, werden als kritisch bewertet. Weiter entfernte Objekte können als weniger kritisch bzw. als unkritisch annotiert werden.
Nach einem weiteren Aspekt der Erfindung wird die Aufgabe gelöst durch ein Computerprogramm, das, wenn es auf einer Recheneinheit innerhalb eines Computersystems ausgeführt wird, die jeweilige Recheneinheit anleitet, das Verfahren auszuführen.
Nach einem weiteren Aspekt der Erfindung wird die Aufgabe gelöst durch ein Computerprogrammprodukt mit einem Programmcode zur Durchführung des Verfahrens, der auf einem von einem Computer lesbaren Medium gespeichert ist.
Kurze Beschreibung der Zeichnungsfiguren
Weitere Merkmale und Einzelheiten ergeben sich aus der nachfolgenden Beschreibung, in der - gegebenenfalls unter Bezug auf die Zeichnung - zumindest ein Ausführungsbeispiel im Einzelnen beschrieben ist. Beschriebene und/oder bildlich dargestellte Merkmale bilden für sich oder in beliebiger, sinnvoller Kombination den Gegenstand, gegebenenfalls auch unabhängig von den Ansprüchen, und können insbesondere zusätzlich auch Gegenstand einer oder mehrerer separater Anmeldungen sein. Gleiche, ähnliche und/oder funktionsgleiche Teile sind mit gleichen Bezugszeichen versehen. Dabei zeigen:

1 zeigt ein Blockdiagramm eines Systems zum Evaluieren und/oder trainieren eines tiefen neuronalen Netzes;
2 zeigt Flussdiagramm für ein erfindungsgemäßen Verfahrens zum Evaluieren eines tiefen neuronalen Netzes;
3 zeigt einen Bilddatensatz mit einem Bild einer Fahrzeugumgebung und Begrenzungsrahmen für zu erkennende Fußgänger;
4 zeigt einen Evaluierungsdatensatz mit dem Bild sowie mit Begrenzungsrahmen von erkannten und nicht-erkannten Fußgänger;
5 zeigt den Evaluierungsdatensatz nach einer Zuordnung von Attributen;
6 zeigt den Evaluierungsdatensatz mit Begrenzungsrahmen von erkannten Fußgängern und einem kritischen nicht-erkannten Fußgänger sowie einem unkritischen nicht-erkannten Fußgänger.

Beschreibung der Ausführungsarten
In der 1 ist ein Blockdiagramm eines tiefen neuronalen Netzes 10 (engl. deep neural network, DNN) enthalten, das auf eine Erkennung von Fußgänger, in kamerabasierten 2D-Bilddaten aus einem Fahrzeugumfeld trainiert worden ist. Das DNN 10 besitzt eine Anzahl von Merkmalsextrationsebenen 11 und eine Anzahl von Perzeptionsebenen 12. Die Merkmalsextrationsebenen 11 sind ausgebildet, für aktuelle Bilddaten an einem Eingang 13 des DNN 10 jeweils einen latenten Repräsentationsdatensatz Z zu erzeugen und an die Perzeptionsebenen 12 weiterzugeben.
Die Perzeptionsebenen 12 sind ausgebildet, latente Repräsentationen aus einem aktuellen latenten Repräsentationsdatensatz Z mit einer Anzahl von gelernten Prototypen für verschiedene Klassen von Objekten (hier: Fußgänger) auf Ähnlichkeit hin zu vergleichen, so dass darauf basierend Objekte in den 2D-Bilddaten erkannt, d.h. klassifiziert und lokalisiert werden können.
Das DNN 10 kann zum Beispiel als ein faltendes neuronales Netzwerk (engl. convolutional neural network, CNN) ausgebildet sein, dessen Architektur in den Merkmalsextrationsebenen 11 spezielle Faltungs- und Bündelungsebenen (engl. convolution and pooling layers) vorsieht.
Die Merkmalsextrationsebenen 11 bilden aktuelle Bilddaten eines Bildes an einem Eingang 13 des DNN 10, die eine im dreidimensionalen RGB-Fahrraum kodierte Anzahl von Bildpunkten (z.B. 2048 x 1024 Pixel) besitzen, in einen n-Dimensionalen latenten Raum (engl. latent space) ab. Jede latente Repräsentation kodiert in n Merkmalen (z.B. 256 Merkmale) semantische Beziehungen zwischen benachbarten Bildpunkten eines rezeptiven Feldes (engl. receptive field), das in die jeweilige latente Repräsentation eingeflossen ist. Wie jeweilige Bilddaten auf den latenten Repräsentationsdatensatz Z abgebildet werden, bestimmt sich einerseits durch die Netzarchitektur der Merkmalsextrationsebenen 11 des DNN 10, andererseits durch eine Anzahl zugehöriger Gewichtungsparameter, die mittels maschinellen Lernens anhand von Trainingsdaten gelernt worden sind.
Die Perzeptionsebenen 12 des DNN 10 besitzen eine Anzahl Prototypen, die durch einen Vektor in dem n-dimensionalen latenten Raum darstellbar sind. Somit können alle latenten Repräsentationen jeweils mit einer Anzahl von Prototypen verglichen werden. Auch die Prototypen sind mittels maschinellen Lernens anhand der Trainingsdaten gelernt worden. Aus dem Vergleich werden durch das DNN 10 Objektdaten erzeugt, die Klassen und Positionen von Objekten enthalten und die basierend auf den gelernten Prototypen erkannt worden sind. Die Objektdaten werden über einen Ausgang 14 des DNN 10 als Ausgangsdatensatz für eine nachgelagerte Applikation ausgegeben.
Das DNN 10 kann in einem Softwaremodul implementiert sein. Das Softwaremodul kann währen eines Fahrbetriebs in einem Fahrzeugsteuergerät eingebettet sein, dass weitere Hard- und Software für ein Objekterkennungssystems umfasst. Zu Trainings- oder Evaluierungszwecken kann das Softwaremodul auf einem Computersystem 2 ausgeführt werden, das einen Steueralgorithmus 20 umfasst. Mit dem Steueralgorithmus 20 können während eines Trainings des DNN 10 die Gewichtungsparameter und Prototypen durch eine Folge von Trainingsiterationsschritten und durch Minimieren einer internen Kostenfunktion schrittweise optimiert werden. Für jeden Trainingsiterationsschritt eines Trainings wird jeweils ein Trainingsdatensatz benötigt, der Bilddaten eines Bildes 30 mit zu erkennenden Objekten 31-36 sowie Ground-Truth-Objektdaten 41-46 umfasst, die Position und Klassifizierung der Objekte 31-36 enthalten. Ferner kann der Steueralgorithmus 20 ausgebildet sein, die von einem bereits trainierten DNN 10 mittels Inferenz erzeugten Ausgangsdatensäte 60 mit den zugehörigen Ground-Truth-Objektdaten 41-46 zu Vergleichen, so dass ein Vergleichsergebnis mittels vorbestimmter Metriken bewertet werden kann.
Die 2 zeigt ein Flussdiagramm für eine beispielhafte Ausgestaltung eines erfindungsgemäßen Evaluierungsverfahrens für ein tiefes neuronales Netz zur Objekterkennung dargestellt. Das DNN 10 ist gemäß dem dargestellten Beispiel auf die Erkennung von Fußgängern in 2D-Bilddaten eines Bildes aus einem vorderen Umfeld eines Fahrzeuges trainiert worden. In den 3 bis 6 sind ergänzend vergrößerte Darstellung des Bildes 30 gezeigt, das beispielsweise während eines Entwicklungsprozesses eines Fußgängerwarn- und Notbrems-Assistenzsystems mit einer Fahrzeugfrontkamera aufgenommen worden ist. Das Bild 30 ist noch nicht in eine Evaluierung oder in ein Training des DNN 10 eingeflossen und stellt somit ein neues Bild im Sinne des Verfahrens dar. Am unteren Rand des neuen Bildes 30 ist ein Fronthaube eines Fahrzeuges 1 angedeutet, mit dessen Frontkamera die dargestellte Verkehrsszene aufgenommen worden ist. Das Fahrzeug 1 fährt in einem Moment der Aufnahme eine Straße entlang, die mit einer Straßeneinmündung in eine vorfahrtsberechtigte Straße endet. Unmittelbar vor der Straßeneinmündung befindet sich ein Fußgängerüberweg, der durch entsprechende breite Linien auf der Fahrbahn markiert ist. In der dargestellten Szene ist eine Anzahl von Fußgängern 31-36 zu erkennen, die zumindest teilweise in einen vorausliegenden Fahrweg des Fahrzeuges eingetreten sind oder in diesen eintreten können. Eine kamerabasierte Fußgängererkennung soll zumindest alle die Fußgänger zuverlässig erkennen können, die erwartet oder unerwartet die Fahrbahn des Fahrzeugs 1 betreten bzw. einen vorausliegenden Fahrweg bzw. Fahrschlauch des Fahrzeugs queren könnten, so dass rechtzeitig eine Warnung und/oder ein Notbremsmanöver ausgelöst werden kann.
In einem ersten Schritt 100 des Verfahrens werden neue Bilddatensätze 50 erzeugt, mit den vorhandene Bilddatensätze zum Trainieren bzw. Evaluieren von Systemen zur Fußgängererkennung ergänzt werden. Dazu wird eine Anzahl neuer Bilddaten bereitgestellt, die neben dem skizzierten neuen Bild 30 viele weitere neue Bilder von unterschiedlichen Verkehrsszenen enthalten können. Für jedes neue Bild werden Ground-Truth-Objektdaten, über die im jeweiligen Bild zu erkennenden Fußgänger benötigt. Daher werden für jedes neue Bild alle Fußgänger jeweils mittels eines Begrenzungsrahmens, d.h. mit einer zweidimensionalen Bounding-Box markiert. Ferner wird jeder 2D-Bounding-Box eine Objektklasseninformation (hier: Fußgänger) und ggf. weitere Informationen beigefügt, die beispielsweise eine Abstandsinformation für eine Entfernung zwischen dem jeweiligen Fußgänger und dem Fahrzeug enthalten können.
Der 3 ist zu entnehmen, dass in dem neuen Bild 30 sechs Fußgänger 31-36 zu erkennen sind. Die 2D-Bounding-Boxen können manuell bzw. computerunterstütz um den jeweiligen Fußgänger 31-36 gezeichnet werden. Durch den Begrenzungsrahmen wird die Position eines Bildpunktes in den Bilddaten gekennzeichnet, der etwa mit einem Mittelpunkt eines im Bild abgebildeten Fußgängers übereinstimmt. Ferner werden die Dimensionen des Fußgängers in vertikaler und horizontaler Bildrichtung gekennzeichnet. Die 2D-Bounding-Boxen bilden zusammen mit den beigefügten Annotationen einen Ground-Truth-Datensatz 40, der sechs Ground-Truth-Objektdaten 41-46 für die in dem neuen Bild 30 sechs zu erkennenden Fußgänger 31-36 umfasst.
Für das neue Bild 30 und für jedes weitere neue Bild werden entsprechende Bilddaten und die zugehörigen Ground-Truth-Datensätze 40 zu einer entsprechenden Anzahl neuer Bilddatensätze 50 kombiniert.
In einem zweiten Schritt 105 werden die neuen Bilddatensätze 50 in einer Datenbank des Computersystems 2 bereitgestellt. Für jeden neuen Bilddatensatz 50 werden die Bilddaten auf einen Eingang 13 des DNN 10 gegeben, das mittels Inferenz, basierend auf seinem aktuellen Lern- bzw. Trainingsstandes, für jeden der Bilddatensätze 50 in der Datenbank des Computersystems 2 einen Ausgangsdatensatz 60 erzeugt.
Der Ausgangsdatensatz 60 für das neue Bild 30 enthält eine Anzahl von vier Objektdaten 62, 63, 65 und 66 mit vier Fußgängern 32, 33, 35 und 36, die vom DNN 10 erkannt worden sind.
Durch den Steueralgorithmus 20 wird in einem anschließenden dritten Schritt 110 der Ausgangsdatensatz 60 mit dem entsprechenden Ground-Truth-Datensatz 40 für jeden der neuen Bilddatensätze 50 verglichen. Bei einer Objekterkennung mittels eines vorliegenden DNN 10 gibt es im Wesentlichem zwei mögliche Fehlerarten. Zum einen können Fußgänger, die in einem neuen Bild zu erkennen sind und im Grund-Truth-Datensatz mittels einer annotierten Bounding-Box gekennzeichnet worden sind, von dem DNN 10 in den Bilddaten nicht erkannt werden (Falsch-Negativ-Erkennung). Andererseits können Fußgänger in Bilddaten von dem DNN 10 erkannt werden, die in dem Bild nicht vorhanden sind (Falsch-Positiv-Erkennung).
Für die Bewertung einer Objekterkennung eines DNN kann eine Sensitivität (engl. recall) und eine Genauigkeit (engl. precision) als Metrik herangezogen werden, die jeweils einen Schwellwert (engl. recall threshold, RT; precision threshold, PT) für positiven Evaluierung einhalten müssen.
Die Sensitivität bzw. Richtig-Positiv-Rate definiert sich aus der Anzahl von den in den Bilddaten gefundenen relevanten Objekte dividiert durch die Anzahl aller relevanter Objekte in dem Bild. Die Genauigkeit ist definiert durch die Anzahl der korrekt erkannten Objekte dividiert durch die Anzahl aller in den Bilddaten gefundenen Objekte.
In der 4 wird das Ergebnis aus dem Verglich der Ground-Truth-Objektdaten (41-46) des Ground-Truth-Datensatz 40 mit den Objektdaten 62, 63, 65 und 66 des Ausgangsdatensatz 60 für das neue Bild 30 dargestellt. Durch zwei Begrenzungsrahmen mit Punktlinien wird jeweils ein falsch-negativ, d.h. ein nicht erkannter Fußgänger 31 und 34 gekennzeichnet. Die vier Begrenzungsrahmen mit durchgehendem Linienzug kennzeichnen die durch das DNN 10 richtig-positiv erkannten Fußgänger 32, 33, 35 und 36. Das DNN 10 hat in dem vorliegenden Beispiel keinen Fußgänger falsch-positiv erkannt. Daraus ergibt sich eine Sensitivität von ⅔, d.h. R = 0,66, und eine Genauigkeit von 1, d.h. P = 1. Wurde für die Sensitivität ein unterer Schwellwert von z.B. RT = 0,70 vorgegeben, wird das DNN 10 für den neuen Bilddatensatz 50 des Bildes 30 negativ evaluiert. Das Ergebnis wird als ein Evaluierungsdatensatz 70 von dem Steueralgorithmus 20 ausgegeben und in der Datenbank des Computersystem 2 gespeichert.
Sobald der Vergleich in dem dritten Schritt 110 für alle neuen Bilddatensätze 50 abgeschlossen wurde, können aus den gespeicherten Evaluierungsdatensätzen 70 Durchschnittswerte für Sensitivität (engl. log average recall, LAR) und Genauigkeit (log average precision, LAP) ermittelt und mit einem zugehörigen Schwellwert (log average recall threshold und log average precision threshold, LART und LAPT) verglichen werden.
Wird in dem vierten Schritt 120 festgestellt, dass die Durchschnittswerte von Sensitivität LAR und Genauigkeit LAP der gespeicherten Evaluierungsdatensätze 70 ihre jeweiligen Schwellwerte einhalten (LAP ≥ LAPT ∧ LAR ≥ LART), wird das DNN 10 für die neuen Bilddatensätze 50 in dem Schritt 150 positiv evaluiert. Ein Neutraining oder Nach- bzw. Ergänzungstraining des DNN 10 ist nicht erforderlich.
Wird in dem vierten Schritt 120 hingegen festgestellt, dass die Durchschnittswerte von Sensitivität und/oder Genauigkeit ihre Schwellwerte nicht einhalten (LAP < LAPT v LAR < LART), werden in dem fünften Schritt 130 alle die Evaluierungsdatensätze 70 von dem Computersystem 2 ausgegeben, für die die Grenzwerte von Sensitivität und/oder Genauigkeit nicht eingehalten worden sind.
Die ausgegebenen Evaluierungsdatensätze 70 wenden von einem Experten geprüft. Auf Basis einer Experteneinschätzung wird den Ground-Truth-Objektdaten 41-46 eines jeweiligen Bilddatensatzes 50, d.h. zu jeder annotierten Bounding Box wird ein ergänzendes Attribut 47 zugeordnet, mit dem eine applikationsspezifische Kritikalität für einen zu erkennenden Fußgänger festgelegt wird.
Die 5 veranschaulicht eine Zuordnung von Attributen 47 zu den Ground-Truth-Objektdaten 41-46 eines von dem Computersystem 2 ausgegebenen Evaluierungsdatensatz 70 zu dem neuen Bild 30. Durch die gepunkteten Begrenzungsrahmen wird visualisiert, dass das die Objekterkennung durch das DNN 10 im zweiten Schritt 105 zwei Fußgänger 31 und 34 nicht erkannt hat (Falsch-Negativ-Erkennung). Für die verbleibenden Fußgänger 32, 33, 35 und 36 stimmt die Inferenz des DNN 10 mit den korrespondierenden Ground-Truth-Objektdaten 42, 43, 45 und 46 überein. Alle richtig erkannten Fußgänger werden in der Figur durch einen Begrenzungsrahmen mit durchgehendem Linienzug dargestellt.
Für ein Fußgängerwarn- und Notbrems-Assistenzsystem sind solche Fußgänger im Bild 30 kritisch, die sich in Fahrtrichtung innerhalb eines bestimmten Abstandes zum Fahrzeug 1 bewegen, der beispielsweise mit einem Bremsweg oder mit einer Zeit bis zu einer (möglichen) Kollision (engl. time to collision, TTC) korrelieren kann. Ein seitlicher Abstand für kritischer Fußgänger kann zum Beispiel anhand eines prognostizierten Fahrschlauchs für das Fahrzeuges 1 abgeschätzt werden.
Basierend auf einer Experteneinschätzung werden die Fußgänger 33 und 34, die sich auf einer gegenüberliegenden Straßenseite der Straßeneinmündung befinden, als unkritisch für die Applikation eines Fußgängerwarn- und Notbrems-Assistenzsystems eingeschätzt. Die zwei Fußgänger 33 und 34 erhalten somit ein Attribut 47 mit dem Wert „0“ für unkritisch. Die verbleibenden Fußgänger 31, 32, 35 und 36, die auf dem Fußgängerüberweg laufen oder sich in Fahrtrichtung des Fahrzeuges 1 vor dem Fußgängerüberweg bewegen, werden als kritisch eingestuft und erhalten folglich jeweils ein Attribut 47 mit dem Wert „1“. Die Kritikalität von den zu erkennenden Fußgängern wird im vorliegenden Beispiel also binär kodiert. Die zugewiesenen Attribute 47 können als erweiterte Grund-Truth-Objektdaten 41`-46` in erweiterten Ground-Truth-Datensätzen 40' zu jedem neuen Bild gespeichert werden.
Sobald die Ground-Truth-Objektdaten aller Evaluierungsdatensätzen 70, die von dem Computersystem 2 ausgewählt und ausgegebenen wurden, mit dem Attribut 47 ergänzt worden sind, werden in einem nachfolgenden sechsten Schritt 135 erneut die Ausgangsdatensätze 60 mit den entsprechenden erweiterten Ground-Truth-Datensätzen 40' entsprechend ergänzter Bilddatensätze 50` verglichen und bewertet, so dass die entsprechenden Evaluierungsdatensätze 70 durch ergänzte Evaluierungsdatensätze 70' in der Datenbank des Computersystems 2 ersetzt werden können.
Für die Bewertung der Objekterkennung wird erneut eine Sensitivität und eine Genauigkeit als Metrik mit den Schwellwerten herangezogen, wobei die in den Bilddaten gefundenen bzw. nicht gefundenen Fußgängerobjekte abhängig von dem jeweiligen Attribut der erweiterten Ground-Truth-Objektdaten nunmehr in eine annotationsspezifische Metrik einfließen.
Eine annotationsspezifische Sensitivität R' wird bestimmt basierend auf der Anzahl von den in den Bilddaten gefundenen kritisch relevanten Objekte dividiert durch die Anzahl aller kritisch relevanter Objekte in dem Bild.
In der 6 ist zu erkennen, dass der Fußgänger 31, der durch den Begrenzungsrahmen mit einer Punktlinie gekennzeichnet ist, als nicht-erkanntes kritisch relevantes Objekt gewertet wird. Der nicht-erkannte Fußgänger 34 wird als ein unkritisches nicht-erkanntes Objekt gewertet, der in der Figur durch einen Begrenzungsrahmen mit einer Strichpunktlinie gekennzeichnet ist. Der korrekt erkannte Fußgänger 33 ist durch einen Begrenzungsrahmen mit einer Strichlinie gekennzeichnet. Die korrekt erkannten und als kritisch relevante Objekte annotierten Fußgänger 32, 25 und 36 sind in der Figur durch einen Begrenzungsrahmens mit einer durchgehenden Linie gekennzeichnet.
Von insgesamt vier in dem Bild 30 als kritisch relevant annotierten Fußgänger 31, 32, 35 und 36 wurden von dem DNN 10 drei kritisch relevante Fußgänger 32, 35 und 36 in den Bilddaten mittels Inferenz gefunden. Die annotationsspezifische Sensitivität R' beträgt somit ¾ (R' = 0,75), die sich gegenüber der nicht-annotationsspezifische Sensitivität R = 0,66 für das neue Bild 30 erhöht hat.
In dem vorliegenden Beispiel sind keine falsch-positiv erkannte Objekte berücksichtigt worden. Grundsätzlich ist es aber auch hier möglich, ausgehend von entsprechend ausgegebenen Evaluierungsdatensätze 70 eine ergänzende Annotation vorzunehmen. Die Annotation mit einem ergänzenden Attribut kann beispielsweise dem jeweiligen Ausgangsdatensatz 60 hinzugefügt und für jeden Bilddatensatz 50 bzw. 50' gespeichert werden. Jedoch kann eine fehlende oder unzuverlässige Abstandinformation eines in den 2D-Bilddaten falsch erkannten Objektes für einen Experten bedeuten, dass eine Einteilung in kritische und unkritische Objekte im Einzelfall schwierig einzuschätzen ist.
In dem sechsten Schritt 135 wird ferner erneut aus allen, d.h. aus den nicht-ergänzten und den ergänzten gespeicherten Evaluierungsdatensätzen 70 und 70' Durchschnittswerte für eine annotationsspezifische Sensitivität LAR' und annotationsspezifische Genauigkeit LAP' ermittelt und mit dem entsprechenden Schwellwert LAPT und LART verglichen.
Wird anschließend in dem siebten Schritt 140 festgestellt, dass die annotationsspezifischen Metriken LAR' und LAP` ihre Schwellwerte LAPT und LART nun einhalten (LAP` ≥ LAPT ∧ LAR' ≥ LART), wird das DNN 10 für die neuen Bilddatensätze 50 bzw. 50' in dem Schritt 150 positiv evaluiert. Ein Neutraining oder Nach- bzw. Ergänzungstraining des DNN 10 ist nicht erforderlich.
Wird in dem sechsten Schritt 135 hingegen festgestellt, dass die annotationsspezifischen Metriken LAR' und/oder LAP' ihre Schwellwerte LAPT bzw. LART weiterhin nicht einhalten (LAP' < LAPT ∨ LAR' < LART), wird das DNN 10 für die neuen Bilddatensätze 50 bzw. 50' in dem Schritt 155 negativ evaluiert.
Ein negativ evaluiertes DNN 10 kann nachfolgend einem Erweiterungstraining unterzogen werden, in die ergänzten Bilddatensätze 50` mit den, um das Attribut 27 ergänzten Ground-Truth-Objektdaten 40' als neue Trainingsdatensätze einfließen können. Mit dem Steueralgorithmus 20 können dann basierend auf den Attributen 27 Bereiche in den Bilddaten eines Trainingsdatensatzes definiert werden, die von der internen Kostenfunktion zur Optimierung von Gewichtungsparameter und Prototypen ignoriert werden.
Obwohl der Gegenstand im Detail durch Ausführungsbeispiele näher illustriert und erläutert wurde, so ist die Erfindung nicht durch die offenbarten Beispiele eingeschränkt und andere Variationen können vom Fachmann hieraus abgeleitet werden. Es ist daher klar, dass eine Vielzahl von Variationsmöglichkeiten existiert. Es ist ebenfalls klar, dass beispielhaft genannte Ausführungsformen nur Beispiele darstellen, die nicht in irgendeiner Weise als Begrenzung etwa des Schutzbereichs, der Anwendungsmöglichkeiten oder der Konfiguration der Erfindung aufzufassen sind. Vielmehr versetzen die vorhergehende Beschreibung und die Figurenbeschreibung den Fachmann in die Lage, die beispielhaften Ausführungsformen konkret umzusetzen, wobei der Fachmann in Kenntnis des offenbarten Erfindungsgedankens vielfältige Änderungen beispielsweise hinsichtlich der Funktion oder der Anordnung einzelner, in einer beispielhaften Ausführungsform genannter Elemente vornehmen kann, ohne den Schutzbereich zu verlassen, der durch die Ansprüche und deren rechtliche Entsprechungen, wie etwa weitergehenden Erläuterungen in der Beschreibung, definiert wird.
Liste der Bezugszeichen

1: Fahrzeug
2: Computersystem
10: Tiefes neuronales Netz
11: Merkmalsextraktionsebenen
12: Perzeptionsebenen
13: Eingang
14: Ausgang
20: Steueralgorithmus
21: erster Eingang
22: zweiter Eingang
30: Bild
31: Fußgänger
40: Ground-Truth-Datensatz
41-46: Ground-Truth-Objektdaten
41'-46': erweiterte Grund-Truth-Objektdaten
50: Bilddatensatz
60: Ausgangsdatensatz
70: Evaluierungsdatensatz
100-155: Schritte
P: Genauigkeit
P': annotationsspezifische Genauigkeit
R: Sensitivität
R': annotationsspezifische Sensitivität
LAP: Durchschnittswerte für Genauigkeit
LAP`: Durchschnittswerte für annotationsspezifische Genauigkeit
LAR: Durchschnittswerte für Sensitivität
LAR': Durchschnittswerte für annotationsspezifische Sensitivität
LAPT: Schwellwert für durchschnittliche Genauigkeit
LART: Schwellwert für durchschnittliche Sensitivität

Claims

Verfahren zum Evaluieren eines tiefen neuronalen Netzes (10), das auf eine Objekterkennung in Bilddaten aus einem Umfeld eines Kraftfahrzeuges (1) trainiert worden ist, umfassen folgende Schritte: a) Bereitstellen (100) von Bilddaten wenigstens eines neuen Bildes (30), wobei für jedes neue Bild (30) Ground-Truth-Objektdaten (41-46) über in dem Bild (30) zu erkennende Objekte (31-36) erzeugt werden und wobei die Bilddaten jedes Bildes (30) mit den erzeugten Ground-Truth-Objektdaten (41-46) zu einem neuen Bilddatensatz (50) zusammengefasst werden; b) Erzeugen (105) eines Ausgabedatensatzes (60) mit Objektdaten (62-66) über erkannte Objekte zu jedem neuen Bilddatensatz (50) mittels Inferenz durch das tiefe neuronale Netz; c) Vergleichen (110) für jeden neuen Bilddatensatz (50) der durch das tiefe neuronale Netz (10) erzeugten Objektdaten (62-66) mit den Ground-Truth-Objektdaten (41-46) und Bewerten (120) einer Objekterkennungsqualität des neuronalen Netzes (10) basierend auf dem Vergleichen und basierend auf ausgewählten Metriken; d) Erweiterten (130) der Ground-Truth-Objektdaten (41-46) um ein Attribut (47) für alle die neuen Bilddatensätze (50), bei denen ein Schwellwert einer ersten Metrik nicht eingehalten wurde; e) erneutes Vergleichen (135) für jeden neuen Bilddatensatz (50) der durch das tiefe neuronale Netz (10) erzeugten Objektdaten (62-66) mit den Ground-Truth-Objektdaten (41-46; 41'-46'), und erneutes Bewerten (140) der Objekterkennungsqualität des neuronalen Netzes (10) basierend auf den erneuten Vergleichen und basierend auf den ausgewählten Metriken, wobei vorhandene Attribute (47) in die ausgewählten Metriken einfließen, wobei das tiefe neuronale Netz (10) positiv evaluiert (150) wird, sofern von einer zweiten Metrik eine Anzahl zugeordneter Schwellwerte (LAPT, LAR) eingehalten worden sind.
Verfahren gemäß vorstehendem Anspruch, wobei das tiefe neuronale Netz (10) bereits nach dem Schritt c) positiv Evaluiert (150) wird, sofern von der zweiten Metrik alle zugeordneten Schwellwerte (LAPT, LAR) eingehalten worden sind.
Verfahren gemäß einem der vorstehenden Ansprüche, wobei mittels der zweiten Metrik über alle neuen Bilddatensätze (50) Werte für eine durchschnittliche Selektivität (LAP; LAP') und/oder eine durchschnittliche Genauigkeit (LAR; LAR') hinsichtlich einer Erkennung von Objekten (31-36) in den Bilddatensätzen (50) ermittelt werden und wobei jeweils ein Schwellwert für die durchschnittliche Selektivität (LART) und/oder für die durchschnittliche Genauigkeit (LAPT) festgelegt wird.
Verfahren gemäß einem der vorstehenden Ansprüche, wobei mittels der ersten Metrik für jeden der neuen Bilddatensätze (50) jeweils ein Wert für eine Selektivität (P) und/oder eine Genauigkeit (P) hinsichtlich einer Erkennung von Objekten in dem jeweiligen Bilddatensatz (50) ermittelt werden und wobei jeweils ein Schwellwert für die Selektivität (RT) und/oder für die Genauigkeit (PT) festgelegt wird.
Verfahren gemäß einem der vorstehenden Ansprüche, wobei in dem Schritt d) ferner Objektdaten von falsch-erkannten Objekten eines Ausgabedatensatzes (60), die mittels Inferenz aus solchen neuen Bilddatensätzen (50) durch das tiefe neuronale Netz (10) erzeugt wurden, bei denen der Schwellwert der ersten Metrik nicht eingehalten wurde, um ein Attribut erweitert werden.
Verfahren gemäß einem der vorstehenden Ansprüche, wobei mit den Attributen (47) entsprechende Ground-Truth-Objektdaten (41-46) neuer Bilddatensätzen (50) und/oder entsprechende Objektdaten von Ausgabedatensätzen als kritische oder als unkritische Objekte annotiert werden.
Verfahren gemäß einem der vorstehenden Ansprüche, wobei die Attribute basierend auf einer dritten Metrik und einer Objektinformation aus den Ground-Truth-Objektdaten (41-46) und/oder einer Objektinformation aus den Objektdaten bestimmt wird.
Verfahren gemäß einem der vorstehenden Ansprüche, wobei alle die neuen Bilddatensätze (50), bei denen ein Schwellwert von der ersten Metrik nicht eingehalten wurde, für ein Erweiterungstraining des tiefen neuronalen Netzes (10) ausgegeben werden.
Computerprogramm, das, wenn es auf einer Recheneinheit innerhalb eines Computersystems (2) ausgeführt wird, die jeweilige Recheneinheit anleitet, ein Verfahren nach einem der vorstehenden Ansprüche 1 bis 8 auszuführen.
Computerprogrammprodukt mit einem Programmcode, der auf einem von einem Computer lesbaren Medium gespeichert ist zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 8.