DE102022209167A1

DE102022209167A1 - Training für Bildklassifikatoren bei möglicherweise verrauschten Labels

Info

Publication number: DE102022209167A1
Application number: DE102022209167.1A
Authority: DE
Inventors: Jan Mathias Koehler; William Harris Beluch; Suhas Pandhe
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2024-03-07

Abstract

Verfahren (100) zum Trainieren eines Bildklassifikators (1) mit den Schritten:• dem Bildklassifikator (1) werden Lern-Eingabe-Bilder (2a) zugeführt (110), wobei diese Lern-Eingabe-Bilder (2a), individuelle Pixel (2a*) der Lern-Eingabe-Bilder (2a) und/oder Objekte (2a**) in den Lern-Eingabe-Bildern (2a) mit Soll-Klassifikations-Scores (3a) gelabelt sind;• die Lern-Eingabe-Bilder (2a), individuelle Pixel (2a*) der Lern-Eingabe-Bilder (2a) und/oder Objekte (2a**) in den Lern-Eingabe-Bildern (2a) werden von dem Bildklassifikator (1) auf Ist-Klassifikations-Scores (3) abgebildet (120);• Abweichungen dieser Ist-Klassifikations-Scores (3) von den zugehörigen Soll-Klassifikations-Scores (3a) werden mit einer vorgegebenen Kostenfunktion (4) bewertet (130);• Parameter (1a), die das Verhalten des Bildklassifikators (1) charakterisieren, werden optimiert (180) mit dem Ziel, dass sich die Bewertung (4a) durch die Kostenfunktion (4) voraussichtlich verbessert,• die vom Bildklassifikator (1) ermittelten Ist-Klassifikations-Scores (3) werden jeweils anhand mindestens einer vorgegebenen Metrik (5, 5') bewertet (140);• unter Heranziehung der hierbei erhaltenen Bewertungen (5a) werden Lern-Eingabe-Bilder (2a), Pixel (2a*) der Lern-Eingabe-Bilder (2a) und/oder Objekte (2a**) in den Lern-Eingabe-Bildern (2a) als in zutreffend gelabelt (6a), unzutreffend gelabelt (6b) und schwer als zutreffend oder unzutreffend gelabelt zu beurteilend (6c) klassifiziert (160).

Description

Die vorliegende Erfindung betrifft das überwachte Training von Bildklassifikatoren mittels Lern-Eingabe-Bildern und zugehörenden Soll-Klassifikations-Scores, denen der Bildklassifikator Lern-Eingabe-Bilder, individuelle Pixel hiervon oder Objekte hieraus jeweils zuordnen soll.
Stand der Technik
Das Führen eines Fahrzeugs im öffentlichen Straßenverkehr ist eine komplexe Aufgabe, die eine kontinuierliche Erfassung des Fahrzeugumfelds und eine zeitnahe Reaktion auf das Auftauchen von Objekten, wie etwa Verkehrszeichen, sowie auf das Verhalten anderer Verkehrsteilnehmer erfordert. Voraussetzung für eine korrekte Reaktion ist, dass Objekte und andere Verkehrsteilnehmer korrekt klassifiziert werden, also beispielsweise ein Stoppschild immer als ein Stoppschild erkannt wird.
Für das zumindest teilweise automatisierte Führen von Fahrzeugen kommen Bildklassifikatoren zum Einsatz, die Bilder des Fahrzeugumfelds dahingehend analysieren, welche Objekte die Bilder zeigen. Diese Bildklassifikatoren werden in der Regel überwacht trainiert anhand von Lern-Eingabe-Bildern, zu denen die vom Bildklassifikator zu identifizierenden Objekte als „Labels“ vorab bekannt sind.
Das „Labeln“ von Lern-Eingabe-Bildern ist eine zumindest teilweise manuell durchzuführende Arbeit und daher fehleranfällig. Die DE 10 2019 204 139 A1 offenbart ein Trainingsverfahren, bei dem die Verlässlichkeit und/oder Qualität der Zuordnung von Labels zu Lern-Eingabe-Bildern beim überwachten Training in eine Gewichtung der Lern-Eingabe-Bilder untereinander eingeht.
Offenbarung der Erfindung
Im Rahmen der Erfindung wurde ein Verfahren zum Trainieren eines Bildklassifikators entwickelt. Dieser Bildklassifikator ordnet einem Eingabe-Bild, individuellen Pixeln eines Eingabe-Bildes und/oder Objekten im Eingabe-Bild Klassifikations-Scores in Bezug auf eine oder mehrere Klassen einer vorgegebenen Klassifikation zu. Der Begriff „Objekt“ umfasst insbesondere Objektinstanzen, d.h. Entitäten im Eingabe-Bild, die als eigenständiges Objekt erkennbar sind. Hierbei kann ein Eingabe-Bild durchaus auch mehrere Objektinstanzen des gleichen Objekttyps (etwa „PKW“) enthalten. Klassifikations-Scores, die sich auf individuelle Pixel des Eingabe-Bildes beziehen, können beispielsweise eine semantische Segmentierungskarte des Eingabe-Bildes bilden.
Der Bildklassifikator kann insbesondere beispielsweise trainierbar gemacht werden, indem er eine mit anpassbaren Parametern parametrisierte Funktion mit großer Kraft zur Verallgemeinerung enthält. Der Bildklassifikator kann insbesondere beispielsweise ein künstliches neuronales Netzwerk, KNN, beinhalten, und/oder er kann ein KNN sein.
Im Rahmen des Verfahrens werden dem Bildklassifikator Lern-Eingabe-Bilder zugeführt. Die Lern-Eingabe-Bilder, individuelle Pixel dieser Lern-Eingabe-Bilder und/oder Objekte in den Lern-Eingabe-Bildern sind mit Soll-Klassifikations-Scores gelabelt. Soll-Klassifikations-Scores für individuelle Pixel können insbesondere beispielsweise eine Soll-Segmentierungskarte bilden. Die Soll-Klassifikations-Scores werden dem Bildklassifikator nicht direkt zur Verfügung gestellt, dienen aber als Richtschnur für dessen Training.
Lern-Eingabe-Bilder, individuelle Pixel der Lern-Eingabe-Bilder und/oder Objekte in den Lern-Eingabe-Bildern werden von dem Bildklassifikator auf Ist-Klassifikations-Scores abgebildet. Abweichungen dieser Ist-Klassifikations-Scores von den zugehörigen Soll-Klassifikations-Scores werden mit einer vorgegebenen Kostenfunktion bewertet. Parameter, die das Verhalten des Bildklassifikators charakterisieren, werden optimiert mit dem Ziel, dass sich bei weiterer Verarbeitung von Lern-Eingabe-Bildern die Bewertung durch die Kostenfunktion voraussichtlich verbessert.
Begleitend zu diesem Training, und/oder auch nach diesem Training, werden die vom Bildklassifikator ermittelten Ist-Klassifikations-Scores jeweils anhand einer vorgegebenen Metrik bewertet. Unter Heranziehung der hierbei erhaltenen Bewertungen werden Lern-Eingabe-Bilder, Pixel der Lern-Eingabe-Bilder und/oder Objekte in den Lern-Eingabe-Bildern in zutreffend gelabelte, unzutreffend gelabelte und schwer als zutreffend oder unzutreffend gelabelt zu beurteilende Lern-Eingabe-Bilder, Pixel bzw. Objekte klassifiziert.
Hierbei kann insbesondere beispielsweise anhand der Bewertungen ein Kriterium für die Unterscheidung ermittelt werden, ob Lern-Eingabe-Bilder, Pixel der Lern-Eingabe-Bilder und/oder Objekte in den Lern-Eingabe-Bildern mit ihren jeweiligen Soll-Klassifikations-Scores zutreffend gelabelt sind, unzutreffend gelabelt sind oder schwer zu beurteilen sind. Mit diesem Kriterium können dann die Lern-Eingabe-Bilder, die Pixel bzw. die Objekte klassifiziert werden.
Es wurde erkannt, dass beim Labeln von Lern-Eingabe-Bildern ein stark nichtlinearer Zusammenhang zwischen der Genauigkeit des Labelns und dem hierfür notwendigen Aufwand besteht. So ist es beispielsweise vergleichsweise einfach und schnell möglich, eine „Bounding-Box“ um ein visuell im Bild erkanntes Fahrzeug oder anderes Objekt festzulegen, so dass der komplette Inhalt dieser Bounding-Box dann als zu diesem Fahrzeug bzw. anderen Objekt gehörend gelabelt werden kann. Dabei wird in Kauf genommen, dass es zwischen dem äußeren Rand des Objekts und dem Rand der Bounding-Box immer Pixel gibt, die schon nicht mehr zum Objekt gehören. Das Labeln dieser Pixel als zum Objekt gehörig ist also schon nicht mehr korrekt. Der Fehler lässt sich reduzieren, indem beim Labeln die Konturen des Objekts präzise nachgezeichnet werden. Dies dauert jedoch deutlich länger als lediglich zwei Eckpunkte für eine Bounding-Box festzulegen.
Auch der beim Labeln erzielbare quantitative Durchsatz ist mit der Fehlerrate korreliert. Wem eine gewisse Fehlerrate zugestanden wird, der kann deutlich schneller arbeiten, ohne etwa in schwer erkennbaren Zweifelsfällen zur Lupe greifen oder länger nachdenken zu müssen. Kommt es hingegen auf die Genauigkeit jedes einzelnen Labels kritisch an, ist möglicherweise sogar ein Vier-Augen-Prinzip nötig, bei dem zwei Personen unabhängig voneinander zu übereinstimmenden Ergebnissen kommen müssen.
Weiterhin ist es auch schwierig, überhaupt Eingabe-Bilder aufzunehmen, in denen sich alle Bildbereiche gleichermaßen gut Objekten zuordnen lassen. Schon zu Zeiten der professionellen analogen Fotografie war bekannt, dass Bilder, in denen es visuell nichts auszusetzen gibt und einfach „alles stimmt“, sehr selten sind. Eine Handvoll richtig gute Bilder auf einem 36 Bilder fassenden Kleinbildfilm war hier schon eine gute Quote, und bevor mit der Arbeit überhaupt begonnen wurde, wurden optimale Bedingungen beispielsweise in Bezug auf Wetter und/oder Licht abgewartet. Die Beobachtung eines Fahrzeugumfeldes und die Analyse der erhaltenen Bilder müssen jedoch auch unter den ungünstigsten für den Gebrauch des Fahrzeugs anzunehmenden Bedingungen funktionieren. Dabei ist es praktisch nicht verhinderbar, dass Bilder auch Bereiche mit schlechter erkennbaren Objekten enthalten, die möglicherweise falsch gelabelt werden. So kommt es gerade in Bildern von Verkehrssituationen immer wieder vor, dass Objekte teilweise durch andere Objekte verdeckt sind. Das klassische Beispiel hierfür ist ein Fußgänger, der durch eine Lücke zwischen zwei parkenden Autos auf die Fahrbahn tritt. Objekte können auch schlicht und einfach dadurch schwer erkennbar werden, dass sie vom verwendeten Sensor zu weit entfernt sind, so dass sie im aufgenommenen Bild zu klein erscheinen.
Indem nun zutreffend gelabelte von unzutreffend gelabelten Bildern, Pixeln und/oder Objekten unterschieden werden können, kann die in den zutreffend gelabelten Bildern, Pixeln und/oder Objekten enthaltene Information genutzt und gelernt werden, ohne dass diese Information durch die unzutreffend gelabelten Bilder, Pixel und/oder Objekte verwässert wird.
Es wurde weiterhin erkannt, dass die Einführung der Klasse der schwer als zutreffend oder unzutreffend gelabelt zu beurteilenden Bilder, Pixel und/oder Objekte die Qualität der Erkennung sowohl der zutreffend gelabelten als auch der unzutreffend gelabelten Bilder, Pixel und/oder Objekte verbessert. Insbesondere verbessern sich für diese beiden Klassen

• sowohl die Präzision (d.h., wie viele als zutreffend bzw. unzutreffend gelabelt klassifizierte Bilder, Pixel und/oder Objekte tatsächlich zutreffend bzw. unzutreffend gelabelt sind)
• als auch der Recall (d.h., welcher Anteil der tatsächlich zutreffend bzw. unzutreffend gelabelten Bilder, Pixel und/oder Objekte auch entsprechend klassifiziert wird).

Dies ist insbesondere für eine Weiterverarbeitung der klassifizierten Bilder, Pixel und/oder Objekte vorteilhaft. Wenn beispielsweise zutreffend gelabelte Bilder, Pixel und/oder Objekte fälschlicherweise als unzutreffend gelabelt klassifiziert werden und im Rahmen eines automatischen Nachlabelns umgelabelt werden, werden richtige Labels durch falsche Labels ersetzt. Wenn dann der Bildklassifikator auf der Basis dieser geänderten Labels trainiert wird, verschlechtert sich seine Leistung. Ein automatisches Nachlabeln oder ein anderer Eingriff in die Lern-Eingabe-Bilder ohne wirklich sichere Identifikation, dass der Eingriff an der beabsichtigten Stelle tatsächlich zu einer Verbesserung führt, hat also das Potential, das letztendlich erzielte Trainingsergebnis zu „verschlimmbessern“. Es ist in dieser Situation besser, Bilder, Pixel und/oder Objekte als „schwer als zutreffend oder unzutreffend gelabelt zu beurteilen“ zu klassifizieren.
Die vorgegebene Metrik kann jede Form von Anzeichen für möglicherweise nicht korrekte Soll-Klassifikations-Scores nutzen, die sich aus dem Training des Bildklassifikators ergibt. So kann es sich beispielsweise in einem erhöhten Beitrag des fraglichen Lern-Eingabe-Bildes, Pixels bzw. Objekts zur Kostenfunktion des Trainings manifestieren, wenn bezüglich eines bestimmten Pixels etwas „nicht passt“.
Ähnlich aussagekräftig ist der Abstand zwischen dem Ist-Klassifikations-Score des jeweiligen Lern-Eingabe-Bildes, Pixels und/oder Objekts, der sich auf die Soll-Klasse dieses Lern-Eingabe-Bildes, Pixels bzw. Objekts bezieht, und dem größten anderen Ist-Klassifikations-Score in Bezug auf dieses Lern-Eingabe-Bild, Pixel bzw. Objekt. Dieses Maß wird auch „Margin“ genannt. Als Ist-Klassifikations-Scores können in diesem Zusammenhang beispielsweise Logits verwendet werden, die der Bildklassifikator Lern-Eingabe-Bildern, Pixeln bzw. Objekten für bestimmte Klassen zuordnet. Es können aber auch beispielsweise Softmax-Scores verwendet werden, die aus diesen Logits gebildet werden. Die Soll-Klasse korrespondiert zu den Soll-Klassifikations-Scores. Meistens werden „harte“ Labels verwendet mit Soll-Klassifikations-Scores, die nur in der zur Soll-Klasse korrespondierenden Komponente von Null verschieden sind. Der Vektor der Soll-Klassifikations-Scores kann also beispielsweise ein „one-hot“-Vektor in Bezug auf die Soll-Klasse sein. Ist das Label inhaltlich zutreffend, ist der zur Soll-Klasse korrespondierende Klassifikations-Score in der Regel groß, und der nächstkleinere Klassifikations-Score folgt mit weitem Abstand. Ist das Label inhaltlich nicht zutreffend, kann hingegen beispielsweise der Klassifikations-Score in Bezug auf die „wahre“ Klasse größer sein als der Klassifikations-Score in Bezug auf die Soll-Klasse laut Label.
Die Metrik kann auch beispielsweise eine zusammenfassende Statistik des Beitrags des Lern-Eingabe-Bildes, Pixels bzw. Objekte zur Kostenfunktion, und/oder des „Margins“, beinhalten. So kann beispielsweise eine Standardabweichung des Beitrags, bzw. des „Margins“, über einen Zeithorizont gebildet werden, der sich eine vorgegebene Anzahl von Trainingsepochen zurückerstreckt. Beispielsweise kann dieser Zeithorizont fünf oder mehr Epochen lang sein.
Es kann auch beispielsweise ein Variationsverhältnis verwendet werden, um die Konstanz der Klassenzuordnung zu messen. Beispielsweise kann innerhalb einer um eine bestimmte Anzahl von Epochen zurückreichenden Historie ermittelt werden, welche Klasse in jeder Epoche jeweils den höchsten Klassifikations-Score (etwa Logit oder Softmax) hatte. Das Variationsverhältnis ist dann das Verhältnis des Anteils derjeniger Epochen, in denen die häufigste Klasse tatsächlich den höchsten Klassifikations-Score hatte, zur Gesamtzahl der untersuchten Epochen. Wenn beispielsweise 10 Epochen untersucht werden, dann bedeutet ein Variationsverhältnis von 3/10, dass sich der Bildklassifikator über das fragliche Lern-Eingabe-Bild, Pixel bzw. Objekt sehr unsicher ist. Ein Variationsverhältnis von 9/10 hingegen zeigt an, dass das Urteil des Bildklassifikators in Bezug auf das fragliche Lern-Eingabe-Bild, Pixel bzw. Objekt im Verlauf des Trainings sehr konstant ist. Die untersuchten Epochen müssen in der Historie nicht unmittelbar aufeinander folgen. Stattdessen kann in der Historie beispielsweise jede zweite, dritte oder sonst n-te Epoche untersucht werden, und/oder es können Stichproben aus der Historie genommen werden.
Alle diese Metriken können beispielsweise auf eine gemeinsame Skala normiert werden, um sie untereinander besser vergleichbar und somit auch einfacher zu einer Gesamt-Metrik kombinierbar zu machen. Mögliche Normierungen können beispielsweise

• einen Z-Score auf jeder Metrik,
• eine Minimum-Maximum-Normierung oder
• ein Verhältnis des Metrikwerts zur Breite eines Intervalls zwischen dem 95-%-Quantil und dem 5-%-Quantil

In einer besonders vorteilhaften Ausgestaltung wird die vorgegebene Metrik für ein Lern-Eingabe-Bild, Pixel und/oder Objekt in Abhängigkeit davon, welcher Klasse der Bildklassifikator dieses Lern-Eingabe-Bild, Pixel bzw. Objekt vorrangig zuordnet, ausgewählt und/oder abgewandelt werden. Hiermit kann es beispielsweise berücksichtigt werden, wenn unterschiedliche Typen von Objekten in einem Eingabe-Bild unterschiedlich schwer zu erkennen sind. So ist beispielsweise bei Nacht ein beleuchtetes Fahrzeug besser zu erkennen als ein unbeleuchteter Fußgänger.
Beispielsweise können für vorrangig unterschiedlichen Klassen zugeordnete Lern-Eingabe-Bilder, Pixel und/oder Objekte jeweils eine oder mehrere unterschiedliche Epochen ausgewählt werden, aus denen Ist-Klassifikations-Scores in die vorgegebene Metrik eingehen. Eine Motivation hierfür ist, dass Klassen, denen ein größerer Anteil der Lern-Eingabe-Bilder, bzw. der in diesen Lern-Eingabe-Bildern insgesamt enthaltenen Pixel und/oder Objekte, angehört (etwa Straße oder Gehweg), vom Bildklassifikator schneller gelernt werden als Klassen, denen nur ein wesentlich kleinerer Teil der Lern-Eingabe-Bilder, Pixel bzw. Objekte angehört (etwa Fußgänger, Hund oder Katze).
Die Epoche kann insbesondere beispielsweise anhand eines mittels Validierungs-Eingabe-Bildern gemessenen Leistungsstandes des Bildklassifikators ausgewählt werden. Die Validierungs-Eingabe-Bilder sind ebenfalls mit Soll-Klassifikations-Scores gelabelt und zugleich nicht Gegenstand des Trainings. Somit kann der Bildklassifikator die Validierungs-Eingabe-Bilder, im Gegensatz zu den Lern-Eingabe-Bildern, nicht vorab „auswendig lernen“, um sich eine gute Bewertung durch die Kostenfunktion zu „erschleichen“.
Beispielsweise kann die Menge derjenigen Lern-Eingabe-Bilder, Pixel bzw. Objekte, die laut Soll-Klassifikations-Scores der Soll-Klasse angehören soll, mit der Menge derjenigen Lern-Eingabe-Bilder, Pixel bzw. Objekte verglichen werden, die laut Ist-Klassifikations-Scores vorrangig der Soll-Klasse zugeordnet werden. Der Vergleich dieser Mengen kann beispielsweise über die „mean intersection over union“ (mloU, auch als Jaccard-Index bekannt) oder über den Dice-Koeffizienten (auch bekannt als F1-Score) erfolgen.
Alternativ oder auch in Kombination hierzu kann beispielsweise durch Vergleich mit den Labels der Validierungs-Eingabe-Bilder eine pixelbezogene Klassifikationsgenauigkeit des Bildklassifikators als dessen Leistungsstand ermittelt werden.
In einer weiteren vorteilhaften Ausgestaltung wird in Antwort darauf, dass der gemessene Leistungsstand in einer vorgegebenen Anzahl von Epochen nicht mindestens einen vorgegebenen absoluten oder relativen Fortschritt erzielt hat, diejenige Epoche mit dem bislang besten Leistungsstand ausgewählt. Auf diese Weise kann beispielsweise das Training vorzeitig abgebrochen werden („early stopping“), wenn sich der Leistungsstand nicht mehr wesentlich verbessert. Hiermit wird zum einen Rechenzeit eingespart und zum anderen eine Tendenz des Bildklassifikators zum „Auswendiglernen“ der Trainingsdaten (Overfitting) unterdrückt werden.
In einer weiteren besonders vorteilhaften Ausgestaltung wird anhand der mit der vorgegebenen Metrik erhaltenen Bewertungen der Ist-Klassifikations-Scores mindestens ein Wertebereich ermittelt. Lern-Eingabe-Bilder, Pixel von Lern-Eingabe-Bildern und/oder Objekte in den Lern-Eingabe-Bildern, deren Bewertung in dem Wertebereich liegt, werden als zutreffend gelabelt, unzutreffend gelabelt bzw. schwer zu beurteilen gewertet. Wertebereiche können insbesondere beispielsweise über Schwellwerte abgegrenzt sein.
Beispielsweise kann eine Kerndichteschätzung (KDE), und/oder ein Histogramm, der Bewertung durch die Metrik für die gemäß der Metrik möglichen Werte ermittelt werden. Hierin sind jeweils Wahrscheinlichkeitsdichten der möglichen Bewertungen über diesen Bewertungen aufgetragen, wobei ein Histogramm diskret und eine Kerneldichteschätzung kontinuierlich ist.
Als Schwellwert für die Abgrenzung von Wertebereichen kann dann beispielsweise ein Minimum zwischen zwei Maxima der KDE bzw. des Histogramms ermittelt werden. Die KDE, bzw. das Histogramm, kann aber auch beispielsweise mit einem geeigneten Modell, wie etwa einem Gaussian Mixture Model oder einem Expectation Maximization Algorithm, in eine erste Komponente, die sich auf zutreffend gelabelte Lern-Eingabe-Bilder bezieht, und eine zweite Komponente, die sich auf unzutreffend gelabelte Lern-Eingabe-Bilder bezieht, zerlegt werden. Der Schnittpunkt, bei dem beide Komponenten den gleichen Wert annehmen, kann dann als Schwellwert gewählt werden.
Die KDE, bzw. das Histogramm, kann weiterhin beispielsweise verwendet werden, um eine Epoche für die Unterscheidung zwischen zutreffend gelabelten Lern-Eingabe-Bilden, Pixeln bzw. Objekten, unzutreffend gelabelten Lern-Eingabe-Bildern, Pixeln bzw. Objekten und schwer zu beurteilenden Lern-Eingabe-Bildern, Pixeln bzw. Objekten zu finden. In jeder Epoche kann, getrennt nach Klassen oder auch für alle Klassen gemeinsam, die KDE bzw. das Histogramm für die vorgegebene Metrik aufgestellt werden. Es kann dann diejenige Epoche ausgewählt werden, in der zwei oder mehr Maxima der KDE, bzw. des Histogramms, am deutlichsten voneinander unterscheidbar sind.
Alternativ oder auch in Kombination hierzu können beispielsweise Lern-Eingabe-Bilder, Pixel von Lern-Eingabe-Bildern und/oder Objekte in den Lern-Eingabe-Bildern anhand ihrer mit der mindestens einen vorgegebenen Metrik erhaltenen Bewertungen geclustert werden. Lern-Eingabe-Bilder, Pixel bzw. Objekte, die zu mindestens einem ausgewählten Cluster gehören, können dann als unzutreffend gelabelt, als unzutreffend gewertet bzw. als schwer zu beurteilen gewertet werden. Mit diesem Ansatz können insbesondere mehrere Metriken gleichzeitig berücksichtigt werden. Es können also Cluster in einem mehrdimensionalen Raum ermittelt werden.
Das Clustern kann weiterhin beispielsweise verwendet werden, um eine Epoche für die Unterscheidung zwischen zutreffend gelabelten, unzutreffend gelabelten und schwer zu beurteilenden Lern-Eingabe-Bildern, Pixeln bzw. Objekten zu finden. In jeder Epoche können, getrennt nach Klassen oder auch für alle Klassen gemeinsam, mehrere vorgegebene Metriken geclustert werden. Es kann dann diejenige Epoche ausgewählt werden, in der zwei oder mehr Cluster am deutlichsten voneinander unterscheidbar sind.
Dieses Konzept lässt sich noch erweitern, indem in einer weiteren vorteilhaften Ausgestaltung Lern-Eingabe-Bilder, Pixel von Lern-Eingabe-Bildern und/oder Objekte in Lern-Eingabe-Bildern in einem Raum aufgetragen werden, der von mehreren Metriken aufgespannt wird. In diesem Raum können die Bewertungen

• zutreffend gelabelter Lern-Eingabe-Bilder, Pixel von Lern-Eingabe-Bildern und/oder Objekte,
• unzutreffend gelabelter Lern-Eingabe-Bilder, Pixel von Lern-Eingabe-Bildern und/oder Objekte sowie
• schwer zu beurteilender Lern-Eingabe-Bilder, Pixel von Lern-Eingabe-Bildern und/oder Objekte

Beispielsweise können in einer besonders vorteilhaften Ausgestaltung Lern-Eingabe-Bilder, Pixel von Lern-Eingabe-Bildern und/oder Objekte in Lern-Eingabe-Bildern bereitgestellt werden, für die bekannt ist, dass sie zutreffend gelabelt sind. Es wird dann ein erstes Teilgebiet im von den mehreren Metriken aufgespannten Raum ermittelt, das die Bewertungen dieser Lern-Eingabe-Bilder, Pixel bzw. Objekte einnehmen. Ein solches Teilgebiet lässt sich bereits anhand nur weniger Lern-Eingabe-Bilder, Pixel von Lern-Eingabe-Bildern und/oder Objekte in Lern-Eingabe-Bildern ermitteln. Es können beispielsweise schon etwa 25 Lern-Eingabe-Bilder ausreichen.
Anhand dieses ersten Teilgebiets wird ein zweites Teilgebiet abgeschätzt, das die Bewertungen von unzutreffend gelabelten Lern-Eingabe-Bildern, Pixeln bzw. Objekten einnehmen. Lern-Eingabe-Bilder, Pixel bzw. Objekte, deren Bewertungen in diesem zweiten Teilgebiet liegen, werden dann als unzutreffend gelabelt gewertet.
Wie von dem ersten Teilgebiet auf das zweite Teilgebiet geschlossen werden kann, hängt von der konkreten Ausgestaltung der mehreren Metriken ab, die den Raum aufspannen. Beispielsweise kann bezüglich einer oder mehrerer Metriken jeweils eine untere Schranke für die Bewertungen derjenigen Lern-Eingabe-Bilder, Pixel von Lern-Eingabe-Bildern und/oder Objekte in Lern-Eingabe-Bildern angegeben werden, die als zutreffend gelabelt bekannt sind. Das Teilgebiet des Raums, in dem alle Metriken mindestens die jeweilige untere Schranke erreichen, kann dann als das erste Teilgebiet gewertet werden. Der ganze restliche Raum kann dann als das zweite Teilgebiet gewertet werden. In einem durch zwei Metriken aufgespannten Raum definieren die beiden unteren Schranken für die beiden Metriken somit einen Quadranten als erstes Teilgebiet, und die übrigen drei Quadranten können als das zweite Teilgebiet gewertet werden.
Es können auch insbesondere beispielsweise das erste Teilgebiet und das zweite Teilgebiet als Quantile bezüglich einer oder mehrerer Metriken, die den Raum aufspannen, festgelegt werden. Beispielsweise kann das erste Teilgebiet ein oberstes Quantil (etwa oberste 5 % oder 10 %) und das zweite Teilgebiet ein hierzu korrespondierendes unterstes Quantil (etwa unterste 5 % oder unterste 10 %) bezüglich einer oder mehrerer der Metriken repräsentieren.
Eine mögliche Kombination von Metriken, die den Raum aufspannen können, umfasst einerseits den Beitrag des jeweiligen Lern-Eingabe-Bildes, Pixels und/oder Objekts zu der Kostenfunktion (Loss) und andererseits den Margin dieses Lern-Eingabe-Bildes, Pixels und/oder Objekts.
In einer weiteren vorteilhaften Ausgestaltung können die Lern-Eingabe-Bilder Indikator-Bilder enthalten, deren Pixel exklusiv mit Soll-Klassifikations-Scores in Bezug auf eine Indikator-Klasse gelabelt sind. Diese Indikator-Klasse tritt zu den zuvor genutzten Klassen der Klassifikation hinzu. Wenn es also beispielsweise bisher 19 Klassen gab, erhalten die Pixel der Indikator-Bilder das Label 20. Als Indikator-Bilder können beispielsweise Lern-Eingabe-Bilder verwendet werden, indem deren Pixel auf die Indikator-Klasse umgelabelt werden. Aus der Verteilung der einen oder mehreren verwendeten Metriken ist dann die Unterscheidung zwischen zutreffend und unzutreffend gelabelten Pixeln ersichtlich. Idealerweise sollten Lern-Eingabe-Bilder, die als Indikator-Bilder verwendet werden, nicht mehr im Training verwendet werden.
Es muss nicht unbedingt eine neue Indikator-Klasse eingeführt werden, um Indikator-Bilder einzuführen, deren Pixel als unzutreffend gelabelt angenommen werden können. Stattdessen können auch beispielsweise Pixel von Lern-Eingabe-Bildern auf jeweils semantisch völlig andere Klassen umgelabelt werden, um so Indikator-Bilder zu erhalten. Es kann beispielsweise aus einem Fußgänger ein Auto und aus einer Straße ein Fahrrad werden.
Die Erkenntnis, dass bestimmte Lern-Eingabe-Bilder, Pixel von Lern-Eingabe-Bildern oder Objekte in Lern-Eingabe-Bildern als unzutreffend gelabelt oder auch als schwer zu beurteilen zu werten sind, lässt sich in vielfältiger Weise nutzen, um das Training des Bildklassifikators zu verbessern und anzupassen.
Beispielsweise können die unzutreffend gelabelten Pixel und/oder Objekte, und/oder ein diese Pixel und/oder Objekte enthaltender Bildbereich des Lern-Eingabe-Bildes, bei der Auswertung der Kostenfunktion unberücksichtigt bleiben. Die in den zutreffend gelabelten Pixeln und/oder Objekten enthaltene Information lässt sich dann immer noch verwenden. Die unzutreffend gelabelten oder schwer zu beurteilenden Pixel und/oder Objekte, bzw. ein unzutreffend gelabeltes oder schwer zu beurteilendes Lern-Eingabe-Bild, können aber auch beispielsweise automatisch nachgelabelt werden, um die unzutreffenden Labels nicht bloß für den Moment zu ignorieren, sondern dauerhaft zu korrigieren. Es kann zu diesem Zweck aber auch beispielsweise ein Nachlabeln unzutreffend gelabelter oder schwer zu beurteilender Pixel, Objekte und/oder Lern-Eingabe-Bilder durch einen Benutzer, durch einen Experten oder ein weiteres trainiertes Modell angefordert werden.
Das Lern-Eingabe-Bild, das als unzutreffend gelabelt oder schwer zu beurteilen klassifiziert wurde oder entsprechend klassifizierte Pixel und/oder Objekte enthält, kann aber auch beispielsweise beim weiteren Training lediglich als ungelabeltes Lern-Eingabe-Bild verwendet werden oder vollständig unberücksichtigt bleiben. Eingriffe dieser Art können insbesondere beispielsweise in Antwort darauf stattfinden, dass ein vorgegebener Anteil der Pixel in einem Lern-Eingabe-Bild als unzutreffend gelabelt erkannt worden ist.
Ein automatisches Nachlabeln kann beispielsweise mit „Pseudo-Labels“ erfolgen. Hierbei wird die Ausgabe des Bildklassifikators als neues Label für das Lern-Eingabe-Bild, bzw. für die jeweils betroffenen Pixel oder Objekte darin, festgelegt. Wenn der Bildklassifikator ein binärer Klassifikator ist, der beispielsweise bei der Auswertung von Bildern im Rahmen der Qualitätskontrolle eingesetzt werden kann und nur die Klassen „OK“ sowie „nicht OK = NOK“ unterscheidet, muss ein unzutreffendes Label lediglich auf die andere verbleibende Alternative geändert werden.
In einer weiteren besonders vorteilhaften Ausgestaltung werden nur unzutreffend gelabelte Lern-Eingabe-Bilder, Pixel bzw. Objekte automatisch nachgelabelt. Auf diese Weise ist sichergestellt, dass das Nachlabeln das Training des Bildklassifikators nur verbessern, nicht aber verschlechtern kann. In der Klasse der als schwer zu beurteilen gewerteten Lern-Eingabe-Bilder, Pixel bzw. Objekte können sich hingegen auch solche Lern-Eingabe-Bilder, Pixel bzw. Objekte befinden, deren aktuelles Label in Wahrheit korrekt ist und durch ein automatisches Nachlabeln verfälscht würde. Derartige Zweifelsfälle können von dem Benutzer, Experten oder weiteren trainierten Modell überprüft werden, damit keine korrekten Labels verworfen werden. Hierbei ergibt sich der weitere Synergieeffekt, dass das automatische Nachlabeln für die klar als unzutreffend gelabelt erkannten Lern-Eingabe-Bilder, Pixel bzw. Objekte dem Benutzer bzw. Experten manuelle Arbeit abnimmt und dieser Benutzer bzw. Experte seine Ressourcen voll und ganz auf die wenigen noch verbliebenen Zweifelsfälle fokussieren kann.
Dass schwer zu beurteilen ist, ob ein Lern-Eingabe-Bild (bzw. darin enthaltene Pixel oder Objekte) richtig gelabelt ist oder nicht, muss nicht allein an diesem Lern-Eingabe-Bild selbst liegen. Vielmehr kann auch eine Rolle spielen, wie gut der Bildklassifikator überhaupt mit dem Lern-Eingabe-Bild klarkommt. Wenn der Bildklassifikator Schwierigkeiten hat, das Lern-Eingabe-Bild korrekt zu interpretieren, wird sich das auf die für dieses Lern-Eingabe-Bild erzeugten Ist-Klassifikations-Scores, und damit auch auf die Bewertung dieser Klassifikations-Scores durch die vorgegebene Metrik, auswirken.
In einer weiteren vorteilhaften Ausgestaltung werden daher gemeinsame Merkmale derjenigen Lern-Eingabe-Bilder identifiziert, die als schwer zu beurteilen gewertet wurden, bzw. als schwer zu beurteilen gewertete Pixel und/oder Objekte enthalten. Das Training des Bildklassifikators kann dann in Bezug auf diese Merkmale intensiviert werden, damit der Bildklassifikator hier sicherer wird.
Beispielsweise können sich die als schwer zu beurteilen gewerteten Lern-Eingabe-Bilder auf neuartige Objekte oder neu eingeführte Verkehrszeichen beziehen. Auch versuchen beispielsweise Autohersteller häufig, neue Fahrzeugmodelle gerade so zu designen, dass sie sich von bekannten Modellen optisch abheben. Was den Verkauf fördert, kann gleichzeitig dem Bildklassifikator die Arbeit erschweren.
Alternativ oder auch in Kombination hierzu kann die Menge der Lern-Eingabe-Bilder um neue Lern-Eingabe-Bilder erweitert werden, die zu denjenigen Lern-Eingabe-Bildern ähnlich sind, die als schwer zu beurteilen gewertet wurden, bzw. die als schwer zu beurteilen gewertete Pixel und/oder Objekte enthalten. Der Bildklassifikator bekommt dann gerade für diejenigen Bilder, die ihm möglicherweise Schwierigkeiten bereiten, zusätzliches Anschauungsmaterial.
Neue Lern-Eingabe-Bilder können beispielsweise durch das Abwandeln von Lern-Eingabe-Bildern, die als schwer zu beurteilen gewertet wurden, bzw. die als schwer zu beurteilen gewertete Pixel und/oder Objekte enthalten, erzeugt werden. Hierzu können beliebige Abwandlungsoperationen verwendet werden, die den semantischen Inhalt des Lern-Eingabe-Bildes nicht ändern.
Alternativ oder auch in Kombination hierzu können neue Lern-Eingabe-Bilder mit einem generativen Modell erzeugt werden, das auf Lern-Eingabe-Bildern, die als schwer zu beurteilen gewertet wurden, bzw. die als schwer zu beurteilen gewertete Pixel und/oder Objekte enthalten, trainiert oder weitertrainiert worden ist. Beispielsweise kann ein Generative Adversarial Network, GAN, als generatives Modell verwendet werden.
Grundsätzlich können auch zutreffend gelabelte Pixel von Lern-Eingabe-Bildern zunächst als unzutreffend gelabelt identifiziert werden. Daher werden in einer weiteren vorteilhaften Ausgestaltung in Antwort darauf, dass höchstens ein bestimmter Anteil der Pixel und/oder Objekte eines Lern-Eingabe-Bildes als unzutreffend gelabelt identifiziert wurde, alle Pixel und/oder Objekte dieses Lern-Eingabe-Bildes als zutreffend gelabelt gewertet. Dieser bestimmte Anteil kann beispielsweise vorab in Form eines festen Schwellwerts vorgegeben sein. Dieser Schwellwert kann aber auch individuell je nach Datenlage angepasst werden. Alternativ oder auch in Kombination hierzu kann der Anteil auch anhand der Anteile unzutreffend gelabelter Pixel und/oder Objekte in anderen Lern-Eingabe-Bildern festgelegt werden. Wenn beispielsweise im Vergleich mit anderen Lern-Eingabe-Bildern nur wenige Pixel und/oder Objekte als unzutreffend gelabelt identifiziert wurden, besteht eine gewisse Wahrscheinlichkeit dafür, dass es sich bei der Identifikation dieser Pixel und/oder Objekte um Ausreißer handelt.
Letztendliches Ziel der Erkennung unzutreffend gelabelter Pixel ist es, den Erfolg des Trainings des Bildklassifikators zu verbessern, damit der fertig trainierte Bildklassifikator auf ungesehenen Bildern mit einer besseren Genauigkeit arbeitet und auf die von ihm gelieferten Ergebnisse mehr Verlass ist.
Daher stellt die Erfindung auch ein weiteres Verfahren bereit. Dieses Verfahren beginnt damit, dass der Bildklassifikator wie zuvor beschrieben trainiert wird. Anschließend werden dem Bildklassifikator Eingabe-Bilder zugeführt, die mit mindestens einem Sensor aufgenommen wurden. Die Eingabe-Bilder, individuelle Pixel der Eingabe-Bilder, und/oder Objekte in den Eingabe-Bildern, werden von dem Bildklassifikator auf Klassifikations-Scores abgebildet. Aus diesen Klassifikations-Scores wird ein Ansteuersignal gebildet. Mit diesem Ansteuersignal wird ein Fahrzeug, ein System für die Überwachung von Bereichen, und/oder ein System für die Qualitätskontrolle von in Serie gefertigten Produkten, angesteuert.
Das zuvor beschriebene Trainingsverfahren hat in diesem Zusammenhang die Wirkung, dass die Aktion, die das jeweilige System in Antwort auf die Ansteuerung mit dem Ansteuersignal ausführt, mit einer höheren Wahrscheinlichkeit der mit dem Sensor erfassten Betriebssituation des Systems angemessen ist.
Die Verfahren können insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das beschriebenen Verfahren zum Trainieren des neuronalen Netzwerks auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen.
Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.
Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.
Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
Ausführungsbeispiele
Es zeigt:

1 Ausführungsbeispiel des Verfahrens 100 zum Trainieren des Bildklassifikators 1;
2 Beispielhafte Ermittlung eines Schwellwerts 5b für die Bewertung 5a der Ist-Klassifikations-Scores 3;
3 Beispielhaftes Clustern von Pixeln in Cluster 5c und 5d anhand zweier Bewertungen 5a und 5a' durch Metriken 5 und 5';
4 Veranschaulichung eines Trainings mit nur wenigen Bildern 2a, Pixeln 2a* bzw. Objekten 2a**, für die sicher bekannt ist, das sie zutreffend gelabelt sind 6a;
5 Ausführungsbeispiel des Verfahrens 200 mit vollständiger Wirkkette.

1 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100 zum Trainieren des Bildklassifikators 1.
In Schritt 110 werden dem Bildklassifikator 1 Lern-Eingabe-Bilder 2a zugeführt. Dabei sind die Lern-Eingabe-Bilder 2a, individuelle Pixel 2a* der Lern-Eingabe-Bilder 2a, und/oder Objekte 2a** in den Lern-Eingabe-Bildern 2a, mit Soll-Klassifikations-Scores 3a gelabelt.
In Schritt 120 werden die Lern-Eingabe-Bilder 2a, individuelle Pixel 2a* der Lern-Eingabe-Bilder 2a und/oder Objekte 2a** in den Lern-Eingabe-Bildern 2a von dem Bildklassifikator 1 auf Ist-Klassifikations-Scores 3 abgebildet, so dass etwa bei Verwendung der individuellen Pixel 2a* Segmentierungskarten der Lern-Eingabe-Bilder 2a entstehen.
In Schritt 130 werden Abweichungen der Ist-Klassifikations-Scores 3 von den zugehörigen Soll-Klassifikations-Scores 3a mit einer vorgegebenen Kostenfunktion 4 bewertet.
In Schritt 140 werden die vom Bildklassifikator 1 ermittelten Ist-Klassifikations-Scores 3 jeweils anhand mindestens einer vorgegebenen Metrik 5, 5' bewertet.
In Schritt 160 werden unter Heranziehung der hierbei erhaltenen Bewertungen 5a Lern-Eingabe-Bilder 2a, Pixel 2a* der Lern-Eingabe-Bilder 2a und/oder Objekte 2a** in den Lern-Eingabe-Bildern 2a in zutreffend gelabelte 6a, unzutreffend gelabelte 6b und schwer als zutreffend oder unzutreffend gelabelt zu beurteilende 6c Lern-Eingabe-Bilder 2a, Pixel 2a* bzw. Objekte 2a** klassifiziert.
In dem in 1 gezeigten Beispiel wird in einem vorgeschalteten Schritt 150 ein Kriterium 6 für die Unterscheidung ermittelt, ob Lern-Eingabe-Bilder 2a, Pixel 2a* der Lern-Eingabe-Bilder 2a und/oder Objekte 2a** in den Lern-Eingabe-Bildern 2a mit ihren jeweiligen Soll-Klassifikations-Scores 3a zutreffend gelabelt sind, unzutreffend gelabelt sind oder schwer zu beurteilen sind. Die Lern-Eingabe-Bilder 2a, Pixel 2a* der Lern-Eingabe-Bilder 2a und/oder Objekte 2a** in den Lern-Eingabe-Bildern 2a werden dann in Schritt 160 anhand dieses Kriteriums 6 klassifiziert.
In Schritt 170 wird in Antwort darauf, dass ein Lern-Eingabe-Bild 2a, oder aber ein oder mehrere Pixel 2a* eines Lern-Eingabe-Bildes 2a oder ein oder mehrere Objekte 2a** im Lern-Eingabe-Bild 2a als unzutreffend gelabelt oder schwer zu beurteilen gewertet wurden, das Training des Bildklassifikators 1 angepasst. Hierbei können beispielsweise von der Kostenfunktion 4 erhaltene Bewertungen 4a modifiziert werden.
In Schritt 180 werden Parameter 1a, die das Verhalten des Bildklassifikators 1 charakterisieren, optimiert mit dem Ziel, dass sich bei weiterer Verarbeitung von Lern-Eingabe-Bildern 2a die Bewertung 4a durch die Kostenfunktion 4 voraussichtlich verbessert. Der fertig trainierte Zustand der Parameter 1a ist mit dem Bezugszeichen 1a* bezeichnet.
Gemäß Block 141 kann die vorgegebene Metrik 5 für ein Lern-Eingabe-Bild 2a, für ein Pixel 2a*und/oder für ein Objekt 2a** in Abhängigkeit davon, welcher Klasse der Bildklassifikator 1 dieses Lern-Eingabe-Bild 2a, Pixel 2a* bzw. Objekt 2** vorrangig zuordnet, ausgewählt und/oder abgewandelt werden. Beispielsweise können gemäß Block 141a für vorrangig unterschiedlichen Klassen zugeordnete Lern-Eingabe-Bilder 2a, Pixel 2a* und/oder Objekte 2a** jeweils eine oder mehrere unterschiedliche Epochen ausgewählt werden, aus denen Ist-Klassifikations-Scores 3 in die vorgegebene Metrik 5 eingehen.
Gemäß Block 142 kann mindestens eine von der Metrik 5, 5' auszuwertende Epoche anhand eines mittels Validierungs-Eingabe-Bildern, die ebenfalls mit Soll-Klassifikations-Scores 3a gelabelt sind und die nicht Gegenstand des Trainings sind, gemessenen Leistungsstandes des Bildklassifikators 1 ausgewählt werden. Es kann dann gemäß Block 143 geprüft werden, ob der gemessene Leistungsstand in einer vorgegebenen Anzahl von Epochen mindestens einen vorgegebenen absoluten oder relativen Fortschritt erzielt. Ist dies nicht der Fall (Wahrheitswert 0), kann gemäß Block 144 diejenige Epoche mit dem bislang besten Leistungsstand ausgewählt werden.
Gemäß Block 151 kann anhand der mit der vorgegebenen Metrik 5 erhaltenen Bewertungen 5a der Ist-Klassifikations-Scores 3 mindestens ein Wertebereich 5b ermittelt werden. Gemäß Block 161 können dann Lern-Eingabe-Bilder 2a, Pixel 2a* und/oder Objekte 2a** von Lern-Eingabe-Bildern 2a, deren Bewertung 5a unterhalb dieses Schwellwerts 5b liegt, als unzutreffend gelabelt gewertet werden.
Gemäß Block 152 können Lern-Eingabe-Bilder 2a, Pixel 2a* von Lern-Eingabe-Bildern 2a und/oder Objekte 2a** anhand ihrer mit der mindestens einen vorgegebenen Metrik 5 erhaltenen Bewertungen 5a geclustert werden. Hierbei entstehen Cluster 5c, 5d, 5e. Gemäß Block 162 können dann Lern-Eingabe-Bilder 2a, Pixel 2a* der Lern-Eingabe-Bilder 2a, und/oder Objekte 2a** in den Lern-Eingabe-Bildern 2a, die zu mindestens einem ausgewählten Cluster 5c, 5d, 5e gehören, als unzutreffend gelabelt 6b, bzw. als schwer zu beurteilen 6c, gewertet werden.
Gemäß Block 163 kann geprüft werden, ob höchstens ein bestimmter Anteil der Pixel 2a* und/oder Objekte 2a** eines Lern-Eingabe-Bildes 2a als unzutreffend gelabelt identifiziert wurde. Wenn dies der Fall ist, können gemäß Block 164 alle Pixel 2a* und/oder Objekte 2a** dieses Lern-Eingabe-Bildes 2a als zutreffend gelabelt gewertet werden.
Gemäß Block 165 können Lern-Eingabe-Bilder 2a, Pixel 2a* von Lern-Eingabe-Bildern und/oder Objekte 2a** in Lern-Eingabe-Bildern 2a in einem Raum 5# aufgetragen werden, der von mehreren Metriken 5 aufgespannt wird.
Hierzu können beispielsweise gemäß Block 165a Lern-Eingabe-Bilder 2a, Pixel 2a* von Lern-Eingabe-Bildern 2a und/oder Objekte 2a** in Lern-Eingabe-Bildern 2a bereitgestellt werden, für die bekannt ist, dass sie zutreffend gelabelt sind. Es kann dann gemäß Block 165b ein erstes Teilgebiet 5+ im von den mehreren Metriken 5 aufgespannten Raum 5# ermittelt werden, das die Bewertungen 5a dieser Lern-Eingabe-Bilder 2a, Pixel 2a* bzw. Objekte 2a** einnehmen. Gemäß Block 165c kann anhand dieses ersten Teilgebiets 5+ ein zweites Teilgebiet 5-abgeschätzt werden, das die Bewertungen 5a von unzutreffend gelabelten Lern-Eingabe-Bildern 2a, Pixeln 2a* bzw. Objekten 2a** einnehmen. Lern-Eingabe-Bilder 2a, Pixel 2a* bzw. Objekte 2a**, deren Bewertungen (5a) in diesem zweiten Teilgebiet 5- liegen, können dann gemäß Block 165d als unzutreffend gelabelt 6b gewertet werden.
Um das Training des Bildklassifikators 1 an das Vorhandensein unzutreffend gelabelter 6b oder schwer zu beurteilender 6c Lern-Eingabe-Bilder 2a, Pixel 2a* bzw. Objekte 2a** anzupassen, können insbesondere beispielsweise

• gemäß Block 171 diese Pixel 2a* und/oder Objekte 2a**, und/oder ein diese Pixel 2a* und/oder Objekte 2a** enthaltender Bildbereich des Lern-Eingabe-Bildes 2a, bei der Auswertung der Kostenfunktion 4 unberücksichtigt bleiben; und/oder
• gemäß Block 172 unzutreffend gelabelte 6b oder schwer zu beurteilende 6c Pixel 2a*, Objekte 2a** und/oder Lern-Eingabe-Bilder 2a automatisch nachgelabelt werden; und/oder
• gemäß Block 173 ein Nachlabeln unzutreffend gelabelter 6b oder schwer zu beurteilender 6c Pixel 2a*, Objekte 2a** und/oder Lern-Eingabe-Bilder 2a durch einen Benutzer, einen Experten oder ein weiteres trainiertes Modell angefordert werden; und/oder
• das Lern-Eingabe-Bild 2a beim weiteren Training gemäß Block 174 lediglich als ungelabeltes Lern-Eingabe-Bild verwendet werden oder gemäß Block 175 vollständig unberücksichtigt bleiben.

Hierbei können insbesondere beispielsweise gemäß Block 172 nur unzutreffend gelabelte 6b Lern-Eingabe-Bilder 2a, Pixel 2a* bzw. Objekte 2a** automatisch nachgelabelt werden.
Gemäß Block 191 können gemeinsame Merkmale derjenigen Lern-Eingabe-Bilder 2a identifiziert werden, die als schwer zu beurteilen 6c gewertet wurden, bzw. als schwer zu beurteilen 6c gewertete Pixel 2a* und/oder Objekte 2a** enthalten.
Gemäß Block 192 kann die Menge der Lern-Eingabe-Bilder 2a um neue Lern-Eingabe-Bilder 2a erweitert werden, die zu denjenigen Lern-Eingabe-Bildern 2a ähnlich sind, die als schwer zu beurteilen 6c gewertet wurden, bzw. die als schwer zu beurteilen 6c gewertete Pixel 2a* und/oder Objekte 2a** enthalten.
Hierzu können gemäß Block 192a die neuen Lern-Eingabe-Bilder 2a durch Abwandeln von Lern-Eingabe-Bildern 2a, die als schwer zu beurteilen 6c gewertet wurden, bzw. die als schwer zu beurteilen 6c gewertete Pixel 2a* und/oder Objekte 2a** enthalten, erzeugt werden.
Alternativ oder in Kombination hierzu können gemäß Block 192b die neuen Lern-Eingabe-Bilder 2a mit einem generativen Modell erzeugt werden, das auf Lern-Eingabe-Bildern 2a, die als schwer zu beurteilen 6c gewertet wurden, bzw. die als schwer zu beurteilen 6c gewertete Pixel 2a* und/oder Objekte 2a** enthalten, trainiert oder weitertrainiert worden ist.
2 zeigt beispielhaft, wie ein Schwellwert 5b für eine Bewertung 5a von Ist-Klassifikations-Scores 3 als Kriterium 6 ermittelt werden kann, das dann wiederum zur Unterscheidung zwischen zutreffend gelabelten Pixeln 6a und unzutreffend gelabelten Pixeln 6b dienen kann. Aufgetragen ist die Wahrscheinlichkeitsdichte ρ von Werten der Bewertung 5a über diesen Werten, wobei höhere Werte auf der x-Achse besseren Bewertungen im Sinne von „zutreffend gelabelt“ entsprechen. Kurve A wurde an einem realen Datensatz mit einer Mischung aus zutreffend und unzutreffend gelabelten Lern-Eingabe-Bildern 2a ermittelt. Kurve B gibt die Wahrscheinlichkeitsdichte ρ für die unzutreffend gelabelten Lern-Eingabe-Bilder 2a an, und Kurve C gibt die Wahrscheinlichkeitsdichte ρ für die zutreffend gelabelten Lern-Eingabe-Bilder 2a an. Die Kurven B und C sind nur verfügbar, wenn vorab bekannt ist, welche Lern-Eingabe-Bilder 2a zutreffend und welche unzutreffend gelabelt sind. In der realen Anwendung sind die unzutreffend gelabelten Lern-Eingabe-Bilder 2a unbekannt und mit dem Verfahren 100 zu ermitteln. In einem Minimum zwischen den beiden Maxima der Kurve A wird der Schwellwert 5b festgelegt.
3 zeigt beispielhaft, wie Pixel 2a* von Lern-Eingabe-Bildern 2a anhand zweier Metriken 5 und 5' in zwei Cluster 5c und 5d aufgeteilt werden können. In dem in 3 gezeigten Beispiel gilt für beide Metriken 5 und 5', dass hohe Werte 5a bzw. 5a' besser sind. Dementsprechend versammeln sich im Cluster 5c die unzutreffend gelabelten Pixel 6b, während sich im Cluster 5d die zutreffend gelabelten Pixel 6a versammeln.
4 veranschaulicht, wie mit nur wenigen Lern-Eingabe-Bildern 2a, Pixeln 2a* von Lern-Eingabe-Bildern 2a und/oder Objekten 2a** in Lern-Eingabe-Bildern 2a, für die sicher bekannt ist, dass sie zutreffend gelabelt sind 6a, die übrigen Lern-Eingabe-Bilder 2a, Pixel 2a* bzw. Objekte 2a** gut in zutreffend gelabelt 6a bzw. unzutreffend gelabelt 6b klassifiziert werden können. Hierzu werden die Lern-Eingabe-Bilder 2a, Pixel 2a* bzw. Objekte 2a** im durch mehrere (hier: zwei) Metriken 5, 5' aufgespannten Raum 5# aufgetragen. Die kleinsten Werte der Metriken 5, 5', für die es jeweils noch als zutreffend gelabelte Beispiele 6a gibt, definieren die Grenzen des Quadranten 5+, der den zutreffend gelabelten Lern-Eingabe-Bildern 2a, Pixeln 2a* bzw. Objekten 2a** zugeordnet wird. Die restlichen drei Quadranten werden als das Teilgebiet 5- des Raums 5# gewertet, das von den unzutreffend gelabelten Lern-Eingabe-Bildern 2a, Pixeln 2a* bzw. Objekten 2a** eingenommen wird. Daher werden Lern-Eingabe-Bilder 2a, Pixel 2a* bzw. Objekte 2a**, deren Bewertungen 5a in diesem zweiten Teilgebiet 5-liegen, als unzutreffend gelabelt 6b gewertet.
5 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 200 mit der vollständigen Wirkkette bis zur Ansteuerung technischer Systeme 50, 60, 70.
In Schritt 210 wird ein Bildklassifikator 1 mit dem zuvor beschriebenen Verfahren 100 trainiert. Dadurch nehmen die Parameter 1a, die das Verhalten dieses Bildklassifikators 1 charakterisieren, den fertig trainierten Zustand 1a* an.
In Schritt 220 werden dem Bildklassifikator 1 Eingabe-Bilder 2 zugeführt, die mit mindestens einem Sensor 7 aufgenommen wurden.
In Schritt 230 werden die Eingabe-Bilder 2, individuelle Pixel 2* der Eingabe-Bilder 2 und/oder Objekte 2** in den Eingabe-Bildern 2 von dem Bildklassifikator 1 auf Klassifikations-Scores 3 abgebildet.
In Schritt 240 wird aus den Klassifikations-Scores 3 ein Ansteuersignal 240a gebildet. In Schritt 250 wird ein Fahrzeug 50, ein System 60 für die Überwachung von Bereichen, und/oder ein System 70 für die Qualitätskontrolle von in Serie gefertigten Produkten, mit diesem Ansteuersignal 240a angesteuert.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102019204139 A1 [0004]

Claims

Verfahren (100) zum Trainieren eines Bildklassifikators (1), der einem Eingabe-Bild (2), individuellen Pixeln (2*) eines Eingabe-Bildes (2) und/oder Objekten (2**) im Eingabe-Bild (2) Klassifikations-Scores (3) in Bezug auf eine oder mehrere Klassen einer vorgegebenen Klassifikation zuordnet, mit den Schritten: • dem Bildklassifikator (1) werden Lern-Eingabe-Bilder (2a) zugeführt (110), wobei diese Lern-Eingabe-Bilder (2a), individuelle Pixel (2a*) der Lern-Eingabe-Bilder (2a) und/oder Objekte (2a**) in den Lern-Eingabe-Bildern (2a) mit Soll-Klassifikations-Scores (3a) gelabelt sind; • die Lern-Eingabe-Bilder (2a), individuelle Pixel (2a*) der Lern-Eingabe-Bilder (2a) und/oder Objekte (2a**) in den Lern-Eingabe-Bildern (2a) werden von dem Bildklassifikator (1) auf Ist-Klassifikations-Scores (3) abgebildet (120); • Abweichungen dieser Ist-Klassifikations-Scores (3) von den zugehörigen Soll-Klassifikations-Scores (3a) werden mit einer vorgegebenen Kostenfunktion (4) bewertet (130); • Parameter (1a), die das Verhalten des Bildklassifikators (1) charakterisieren, werden optimiert (180) mit dem Ziel, dass sich bei weiterer Verarbeitung von Lern-Eingabe-Bildern (2a) die Bewertung (4a) durch die Kostenfunktion (4) voraussichtlich verbessert, • die vom Bildklassifikator (1) ermittelten Ist-Klassifikations-Scores (3) werden jeweils anhand mindestens einer vorgegebenen Metrik (5, 5') bewertet (140); • unter Heranziehung der hierbei erhaltenen Bewertungen (5a) werden Lern-Eingabe-Bilder (2a), Pixel (2a*) der Lern-Eingabe-Bilder (2a) und/oder Objekte (2a**) in den Lern-Eingabe-Bildern (2a) in zutreffend gelabelte (6a), unzutreffend gelabelte (6b) und schwer als zutreffend oder unzutreffend gelabelt zu beurteilende (6c) Lern-Eingabe-Bilder (2a), Pixel (2a*) bzw. Objekte (2a**) klassifiziert (160).
Verfahren nach Anspruch 1, wobei • anhand der Bewertungen (5a) ein Kriterium (6) für die Unterscheidung ermittelt wird (150), inwieweit die Lern-Eingabe-Bilder (2a), Pixel (2a*) der Lern-Eingabe-Bilder (2a) und/oder Objekte (2a**) in den Lern-Eingabe-Bildern (2a) mit ihren jeweiligen Soll-Klassifikations-Scores (3a) zutreffend gelabelt sind, unzutreffend gelabelt sind oder schwer zu beurteilen sind; und • die Lern-Eingabe-Bilder (2a), die Pixel (2a*) bzw. die Objekte (2a**) anhand dieses Kriteriums (6) klassifiziert werden.
Verfahren (100) nach einem der Ansprüche 1 bis 2, wobei die vorgegebene Metrik (5) • einen Beitrag des jeweiligen Lern-Eingabe-Bildes (2a), Pixels (2a*) und/oder Objekts (2a**) zu der Kostenfunktion (4), und/oder • einen Abstand zwischen dem Ist-Klassifikations-Score (3) des jeweiligen Lern-Eingabe-Bildes (2a), Pixels (2a*) und/oder Objekts (2a**), der sich auf die Soll-Klasse dieses Lern-Eingabe-Bildes (2a), Pixels (2a*) bzw. Objekts (2a**) bezieht, und dem größten anderen Ist-Klassifikations-Score (3) in Bezug auf dieses Lern-Eingabe-Bild (2a), Pixel (2a*) bzw. Objekt (2a**), und/oder • eine zusammenfassende Statistik, und/oder einer Entwicklung, des Beitrags, und/oder des Abstands, über eine vorgegebene Auswahl von Epochen der Optimierung, beinhaltet.
Verfahren (100) nach einem der Ansprüche 1 bis 3, wobei die vorgegebene Metrik (5) für ein Lern-Eingabe-Bild (2a), Pixel (2a*) und/oder Objekt (2a**) in Abhängigkeit davon, welcher Klasse der Bildklassifikator (1) dieses Lern-Eingabe-Bild (2a), Pixel (2a*) bzw. Objekt (2a**) vorrangig zuordnet, ausgewählt und/oder abgewandelt wird (141).
Verfahren (100) nach einem der Ansprüche 1 bis 4, wobei für vorrangig unterschiedlichen Klassen zugeordnete Lern-Eingabe-Bilder (2a), Pixel (2a*) und/oder Objekte (2a**) jeweils eine oder mehrere unterschiedliche Epochen ausgewählt werden (141a), aus denen Ist-Klassifikations-Scores (3) in die vorgegebene Metrik (5) eingehen.
Verfahren (100) nach einem der Ansprüche 1 bis 5, wobei mindestens eine Epoche anhand eines mittels Validierungs-Eingabe-Bildern, die ebenfalls mit Soll-Klassifikations-Scores (3a) gelabelt sind und die nicht Gegenstand des Trainings sind, gemessenen Leistungsstandes des Bildklassifikators (1) ausgewählt wird (142).
Verfahren (100) nach Anspruch 6, wobei in Antwort darauf, dass der gemessene Leistungsstand in einer vorgegebenen Anzahl von Epochen nicht mindestens einen vorgegebenen absoluten oder relativen Fortschritt erzielt hat (143), diejenige Epoche mit dem bislang besten Leistungsstand ausgewählt wird (144).
Verfahren (100) nach einem der Ansprüche 1 bis 7, wobei • anhand der mit der vorgegebenen Metrik (5) erhaltenen Bewertungen (5a) der Ist-Klassifikations-Scores (3) mindestens ein Wertebereich (5b) ermittelt wird (151) und • Lern-Eingabe-Bilder (2a), Pixel (2a*) von Lern-Eingabe-Bildern (2a) und/oder Objekte (2a**), deren Bewertung (5a) in dem Wertebereich (5b) liegt, als zutreffend gelabelt (6a), unzutreffend gelabelt (6b), bzw. schwer zu beurteilen (6c), gewertet werden (161).
Verfahren (100) nach einem der Ansprüche 1 bis 8, wobei • Lern-Eingabe-Bilder (2a), Pixel (2a*) von Lern-Eingabe-Bildern (2a) und/oder Objekte (2a**) in den Lern-Eingabe-Bildern (2a) anhand ihrer mit der mindestens einen vorgegebenen Metrik (5) erhaltenen Bewertungen (5a) geclustert werden (152) und • Lern-Eingabe-Bilder (2a), Pixel (2a*) bzw. Objekte (2a**), die zu mindestens einem ausgewählten Cluster (5c, 5d, 5e) gehören, als zutreffend gelabelt (6a), unzutreffend gelabelt (6b), bzw. schwer zu beurteilen (6c), gewertet werden (162).
Verfahren (100) nach einem der Ansprüche 1 bis 9, wobei Lern-Eingabe-Bilder (2a), Pixel (2a*) von Lern-Eingabe-Bildern und/oder Objekte (2a**) in Lern-Eingabe-Bildern (2a) in einem Raum (5#) aufgetragen werden (165), der von mehreren Metriken (5) aufgespannt wird.
Verfahren (100) nach Anspruch 10, wobei • Lern-Eingabe-Bilder (2a), Pixel (2a*) von Lern-Eingabe-Bildern (2a) und/oder Objekte (2a**) in Lern-Eingabe-Bildern (2a) bereitgestellt werden (165a), für die bekannt ist, dass sie zutreffend gelabelt sind (6a); • ein erstes Teilgebiet (5+) im von den mehreren Metriken (5) aufgespannten Raum (5#) ermittelt wird (165b), das die Bewertungen (5a) dieser Lern-Eingabe-Bilder (2a), Pixel (2a*) bzw. Objekte (2a**) einnehmen; • anhand dieses ersten Teilgebiets (5+) ein zweites Teilgebiet (5-) abgeschätzt wird (165c), das die Bewertungen (5a) von unzutreffend gelabelten Lern-Eingabe-Bildern (2a), Pixeln (2a*) bzw. Objekten (2a**) einnehmen; und • Lern-Eingabe-Bilder (2a), Pixel (2a*) bzw. Objekte (2a**), deren Bewertungen (5a) in diesem zweiten Teilgebiet (5-) liegen, als unzutreffend gelabelt (6b) gewertet werden (165d).
Verfahren (100) nach Anspruch 11, wobei das erste Teilgebiet (5+) und das zweite Teilgebiet (5-) als Quantile bezüglich einer oder mehrerer Metriken, die den Raum aufspannen, festgelegt werden.
Verfahren (100) nach einem der Ansprüche 1 bis 12, wobei die Lern-Eingabe-Bilder (2a) Indikator-Bilder enthalten, deren Pixel (2a*) exklusiv mit Soll-Klassifikations-Scores (3a) in Bezug auf eine Indikator-Klasse gelabelt sind.
Verfahren (100) nach einem der Ansprüche 1 bis 13, wobei in Antwort darauf, dass ein oder mehrere Lern-Eingabe-Bilder (2a), Pixel (2a*) eines Lern-Eingabe-Bildes (2a) und/oder Objekte (2a**) in Lern-Eingabe-Bildern (2a) als schwer zu beurteilen (6c), bzw. als unzutreffend gelabelt (6b), gewertet wurden, das Training des Bildklassifikators (1) angepasst wird (170), insbesondere, indem • diese Pixel (2a*) und/oder Objekte (2a**), und/oder ein diese Pixel (2a*) und/oder Objekte (2a**) enthaltender Bildbereich des Lern-Eingabe-Bildes (2a), bei der Auswertung der Kostenfunktion (4) unberücksichtigt bleibt (171); und/oder • unzutreffend gelabelte (6b) oder schwer zu beurteilende (6c) Pixel (2a*), Objekte (2a**) und/oder Lern-Eingabe-Bilder (2a) automatisch nachgelabelt werden (172), und/oder • ein Nachlabeln unzutreffend gelabelter (6b) oder schwer zu beurteilender (6c) Pixel (2a*), Objekte (2a**) und/oder Lern-Eingabe-Bilder (2a) durch einen Benutzer, einen Experten oder ein weiteres trainiertes Modell angefordert wird (173); und/oder • das Lern-Eingabe-Bild (2a) beim weiteren Training lediglich als ungelabeltes Lern-Eingabe-Bild verwendet wird (174) oder vollständig unberücksichtigt bleibt (175).
Verfahren (100) nach Anspruch 14, wobei nur unzutreffend gelabelte (6b) Lern-Eingabe-Bilder (2a), Pixel (2a*) bzw. Objekte (2a**) automatisch nachgelabelt werden (172a).
Verfahren (100) nach einem der Ansprüche 1 bis 15, wobei • gemeinsame Merkmale derjenigen Lern-Eingabe-Bilder (2a) identifiziert werden (191), die als schwer zu beurteilen (6c) gewertet wurden, bzw. als schwer zu beurteilen (6c) gewertete Pixel (2a*) und/oder Objekte (2a**) enthalten, und/oder • die Menge der Lern-Eingabe-Bilder (2a) um neue Lern-Eingabe-Bilder (2a) erweitert wird (192), die zu denjenigen Lern-Eingabe-Bildern (2a) ähnlich sind, die als schwer zu beurteilen (6c) gewertet wurden, bzw. die als schwer zu beurteilen (6c) gewertete Pixel (2a*) und/oder Objekte (2a**) enthalten.
Verfahren (100) nach Anspruch 16, wobei die neuen Lern-Eingabe-Bilder (2a) • durch Abwandeln von Lern-Eingabe-Bildern (2a), die als schwer zu beurteilen (6c) gewertet wurden, bzw. die als schwer zu beurteilen (6c) gewertete Pixel (2a*) und/oder Objekte (2a**) enthalten, erzeugt werden (192a), und/oder • mit einem generativen Modell erzeugt werden (192b), das auf Lern-Eingabe-Bildern (2a), die als schwer zu beurteilen (6c) gewertet wurden, bzw. die als schwer zu beurteilende (6c) gewertete Pixel (2a*) und/oder Objekte (2a**) enthalten, trainiert oder weitertrainiert worden ist.
Verfahren (100) nach einem der Ansprüche 1 bis 17, wobei in Antwort darauf, dass höchstens ein bestimmter Anteil der Pixel (2a*) und/oder Objekte (2a**) eines Lern-Eingabe-Bildes (2a) als unzutreffend gelabelt identifiziert wurden (163), alle Pixel (2a*) und/oder Objekte (2a**) dieses Lern-Eingabe-Bildes (2a) als zutreffend gelabelt gewertet werden (164).
Verfahren nach Anspruch 18, wobei der Anteil • als Schwellwert, und/oder • anhand der Anteile unzutreffend gelabelter Pixel (2a*) und/oder Objekte (2a**) in anderen Lern-Eingabe-Bildern (2a) festgelegt wird.
Verfahren (200) mit den Schritten: • ein Bildklassifikator (1) wird mit dem Verfahren (100) nach einem der Ansprüche 1 bis 19 trainiert (210); • dem Bildklassifikator (1) werden Eingabe-Bilder (2) zugeführt (220), die mit mindestens einem Sensor (7) aufgenommen wurden; • die Eingabe-Bilder (2), individuelle Pixel (2*) der Eingabe-Bilder (2) und/oder Objekte (2**) in den Eingabe-Bildern (2), werden von dem Bildklassifikator (1) auf Klassifikations-Scores (3) abgebildet (230); • aus den Klassifikations-Scores (3) wird ein Ansteuersignal (240a) gebildet (240); • ein Fahrzeug (50), ein System (60) für die Überwachung von Bereichen, und/oder ein System (70) für die Qualitätskontrolle von in Serie gefertigten Produkten, wird mit dem Ansteuersignal (240a) angesteuert (250).
Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, ein Verfahren (100, 200) nach einem der Ansprüche 1 bis 20 auszuführen.
Maschinenlesbarer Datenträger mit dem Computerprogramm nach Anspruch 21.
Ein oder mehrere Computer mit dem Computerprogramm nach Anspruch 21, und/oder mit dem maschinenlesbaren Datenträger nach Anspruch 22.