DE102021206377A1

DE102021206377A1 - Robusteres überwachtes Training für Bildklassifikatoren

Info

Publication number: DE102021206377A1
Application number: DE102021206377.2A
Authority: DE
Inventors: William Harris Beluch; Jan Mathias Koehler; Matthias Zeller
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2022-12-22

Abstract

Verfahren (100) zum Trainieren eines Bildklassifikators (1) mit den Schritten:• dem Bildklassifikator (1) werden Lern-Eingabe-Bilder (2a) zugeführt (110), wobei individuelle Pixel (2a*) der Lern-Eingabe-Bilder (2a) mit Soll-Klassifikations-Scores (3a) gelabelt sind;• individuelle Pixel (2a*) der Lern-Eingabe-Bilder (2a) werden von dem Bildklassifikator (1) auf Ist-Klassifikations-Scores (3) abgebildet (120);• Abweichungen dieser Ist-Klassifikations-Scores (3) von den zugehörigen Soll-Klassifikations-Scores (3a) werden mit einer vorgegebenen Kostenfunktion (4) bewertet (130);• Parameter (1a), die das Verhalten des Bildklassifikators (1) charakterisieren, werden optimiert (180) mit dem Ziel, dass sich bei weiterer Verarbeitung von Lern-Eingabe-Bildern (2a) die Bewertung (4a) durch die Kostenfunktion (4) voraussichtlich verbessert,• die vom Bildklassifikator (1) ermittelten Ist-Klassifikations-Scores (3) werden jeweils anhand mindestens einer vorgegebenen Metrik (5, 5') bewertet (140);• anhand der hierbei erhaltenen Bewertungen (5a) wird ein Kriterium (6) für die Unterscheidung ermittelt (150), ob Pixel (2a*) der Lern-Eingabe-Bilder (2a) mit ihren jeweiligen Soll-Klassifikations-Scores (3a) zutreffend gelabelt sind;• mit diesem Kriterium (6) werden Pixel (2a*) der Lern-Eingabe-Bilder (2a) in zutreffend gelabelte (6a) und unzutreffend gelabelte (6b) Pixel klassifiziert (160).

Description

Die vorliegende Erfindung betrifft das überwachte Training von Bildklassifikatoren mittels Lern-Eingabe-Bildern und zugehörenden Soll-Klassifikations-Scores, denen der Bildklassifikator individuelle Pixel der Lern-Eingabe-Bilder jeweils zuordnen soll.
Stand der Technik
Das Führen eines Fahrzeugs im öffentlichen Straßenverkehr ist eine komplexe Aufgabe, die eine kontinuierliche Erfassung des Fahrzeugumfelds und eine zeitnahe Reaktion auf das Auftauchen von Objekten, wie etwa Verkehrszeichen, sowie auf das Verhalten anderer Verkehrsteilnehmer erfordert. Voraussetzung für eine korrekte Reaktion ist, dass Objekte und andere Verkehrsteilnehmer korrekt klassifiziert werden, also beispielsweise ein Stoppschild immer als ein Stoppschild erkannt wird.
Für das zumindest teilweise automatisierte Führen von Fahrzeugen kommen Bildklassifikatoren zum Einsatz, die Bilder des Fahrzeugumfelds dahingehend analysieren, welche Objekte die Bilder zeigen. Diese Bildklassifikatoren werden in der Regel überwacht trainiert anhand von Lern-Eingabe-Bildern, zu denen die vom Bildklassifikator zu identifizierenden Objekte als „Labels“ vorab bekannt sind.
Das „Labeln“ von Lern-Eingabe-Bildern ist eine zumindest teilweise manuell durchzuführende Arbeit und daher fehleranfällig. Die DE 10 2019 204 139 A1 offenbart ein Trainingsverfahren, bei dem die Verlässlichkeit und/oder Qualität der Zuordnung von Labels zu Lern-Eingabe-Bildern beim überwachten Training in eine Gewichtung der Lern-Eingabe-Bilder untereinander eingeht.
Offenbarung der Erfindung
Im Rahmen der Erfindung wurde ein Verfahren zum Trainieren eines Bildklassifikators entwickelt. Dieser Bildklassifikator ordnet individuellen Pixeln eines Eingabe-Bildes Klassifikations-Scores in Bezug auf eine oder mehrere Klassen einer vorgegebenen Klassifikation zu. Auf diese Weise entsteht eine semantische Segmentierungskarte des Eingabe-Bildes.
Der Bildklassifikator kann insbesondere beispielsweise trainierbar gemacht werden, indem er eine mit anpassbaren Parametern parametrisierte Funktion mit großer Kraft zur Verallgemeinerung enthält. Der Bildklassifikator kann insbesondere beispielsweise ein künstliches neuronales Netzwerk, KNN, beinhalten, und/oder er kann ein KNN sein.
Im Rahmen des Verfahrens werden dem Bildklassifikator Lern-Eingabe-Bilder zugeführt. Individuelle Pixel dieser Lern-Eingabe-Bilder sind mit Soll-Klassifikations-Scores gelabelt, die eine Soll-Segmentierungskarte bilden. Diese Soll-Segmentierungskarte wird dem Bildklassifikator nicht direkt zur Verfügung gestellt, dient aber als Richtschnur für dessen Training.
Individuelle Pixel der Lern-Eingabe-Bilder werden von dem Bildklassifikator auf Ist-Klassifikations-Scores abgebildet. Abweichungen dieser Ist-Klassifikations-Scores von den zugehörigen Soll-Klassifikations-Scores werden mit einer vorgegebenen Kostenfunktion bewertet. Parameter, die das Verhalten des Bildklassifikators charakterisieren, werden optimiert mit dem Ziel, dass sich bei weiterer Verarbeitung von Lern-Eingabe-Bildern die Bewertung durch die Kostenfunktion voraussichtlich verbessert.
Begleitend zu diesem Training, und/oder auch nach diesem Training, werden die vom Bildklassifikator ermittelten Ist-Klassifikations-Scores jeweils anhand einer vorgegebenen Metrik bewertet. Anhand der hierbei erhaltenen Bewertungen wird ein Kriterium für die Unterscheidung ermittelt, ob Pixel der Lern-Eingabe-Bilder mit ihren jeweiligen Soll-Klassifikations-Scores zutreffend gelabelt sind. Mit diesem Kriterium werden Pixel der Lern-Eingabe-Bilder in zutreffend gelabelte und unzutreffend gelabelte Pixel klassifiziert.
Es wurde erkannt, dass beim Labeln von Lern-Eingabe-Bildern ein stark nichtlinearer Zusammenhang zwischen der Genauigkeit des Labelns und dem hierfür notwendigen Aufwand besteht. So ist es beispielsweise vergleichsweise einfach und schnell möglich, eine „Bounding-Box“ um ein visuell im Bild erkanntes Fahrzeug oder anderes Objekt festzulegen, so dass der komplette Inhalt dieser Bounding-Box dann als zu diesem Fahrzeug bzw. anderen Objekt gehörend gelabelt werden kann. Dabei wird in Kauf genommen, dass es zwischen dem äußeren Rand des Objekts und dem Rand der Bounding-Box immer Pixel gibt, die schon nicht mehr zum Objekt gehören. Das Labeln dieser Pixel als zum Objekt gehörig ist also schon nicht mehr korrekt. Der Fehler lässt sich reduzieren, indem beim Labeln die Konturen des Objekts präzise nachgezeichnet werden. Dies dauert jedoch deutlich länger als lediglich zwei Eckpunkte für eine Bounding-Box festzulegen.
Auch der beim Labeln erzielbare quantitative Durchsatz ist mit der Fehlerrate korreliert. Wem eine gewisse Fehlerrate zugestanden wird, der kann deutlich schneller arbeiten, ohne etwa in schwer erkennbaren Zweifelsfällen zur Lupe greifen oder länger nachdenken zu müssen. Kommt es hingegen auf die Genauigkeit jedes einzelnen Labels kritisch an, ist möglicherweise sogar ein Vier-Augen-Prinzip nötig, bei dem zwei Personen unabhängig voneinander zu übereinstimmenden Ergebnissen kommen müssen.
Weiterhin ist es auch schwierig, überhaupt Eingabe-Bilder aufzunehmen, in denen sich alle Bildbereiche gleichermaßen gut Objekten zuordnen lassen. Schon zu Zeiten der professionellen analogen Fotografie war bekannt, dass Bilder, in denen es visuell nichts auszusetzen gibt und einfach „alles stimmt“, sehr selten sind. Eine Handvoll richtig gute Bilder auf einem 36 Bilder fassenden Kleinbildfilm war hier schon eine gute Quote, und bevor mit der Arbeit überhaupt begonnen wurde, wurden optimale Bedingungen beispielsweise in Bezug auf Wetter und/oder Licht abgewartet. Die Beobachtung eines Fahrzeugumfeldes und die Analyse der erhaltenen Bilder müssen jedoch auch unter den ungünstigsten für den Gebrauch des Fahrzeugs anzunehmenden Bedingungen funktionieren. Dabei ist es praktisch nicht verhinderbar, dass Bilder auch Bereiche mit schlechter erkennbaren Objekten enthalten, die möglicherweise falsch gelabelt werden. So kommt es gerade in Bildern von Verkehrssituationen immer wieder vor, dass Objekte teilweise durch andere Objekte verdeckt sind. Das klassische Beispiel hierfür ist ein Fußgänger, der durch eine Lücke zwischen zwei parkenden Autos auf die Fahrbahn tritt. Objekte können auch schlicht und einfach dadurch schwer erkennbar werden, dass sie vom verwendeten Sensor zu weit entfernt sind, so dass sie im aufgenommenen Bild zu klein erscheinen.
Indem nun zutreffend gelabelte von unzutreffend gelabelten Pixeln unterschieden werden können, kann in jedem Trainingsbild die in den zutreffend gelabelten Pixeln enthaltene Information genutzt und gelernt werden, ohne dass diese Information durch die unzutreffend gelabelten Pixel verwässert wird.
Die vorgegebene Metrik kann jede Form von Anzeichen für möglicherweise nicht korrekte Soll-Klassifikations-Scores nutzen, die sich aus dem Training des Bildklassifikators ergibt. So kann es sich beispielsweise in einem erhöhten Beitrag des fraglichen Pixels zur Kostenfunktion des Trainings manifestieren, wenn bezüglich eines bestimmten Pixels etwas „nicht passt“.
Ähnlich aussagekräftig ist der Abstand zwischen dem Ist-Klassifikations-Score des jeweiligen Pixels, der sich auf die Soll-Klasse dieses Pixels bezieht, und dem größten anderen Ist-Klassifikations-Score in Bezug auf dieses Pixel. Dieses Maß wird auch „Margin“ genannt. Als Ist-Klassifikations-Scores können in diesem Zusammenhang beispielsweise Logits verwendet werden, die der Bildklassifikator Pixeln für bestimmte Klassen zuordnet. Es können aber auch beispielsweise Softmax-Scores verwendet werden, die aus diesen Logits gebildet werden. Die Soll-Klasse korrespondiert zu den Soll-Klassifikations-Scores. Meistens werden „harte“ Labels verwendet mit Soll-Klassifikations-Scores, die nur in der zur Soll-Klasse korrespondierenden Komponente von Null verschieden sind. Der Vektor der Soll-Klassifikations-Scores kann also beispielsweise ein „one-hot“-Vektor in Bezug auf die Soll-Klasse sein. Ist das Label inhaltlich zutreffend, ist der zur Soll-Klasse korrespondierende Klassifikations-Score in der Regel groß, und der nächstkleinere Klassifikations-Score folgt mit weitem Abstand. Ist das Label inhaltlich nicht zutreffend, kann hingegen beispielsweise der Klassifikations-Score in Bezug auf die „wahre“ Klasse größer sein als der Klassifikations-Score in Bezug auf die Soll-Klasse laut Label.
Die Metrik kann auch beispielsweise eine zusammenfassende Statistik des Beitrags des Pixels zur Kostenfunktion, und/oder des „Margins“, beinhalten. So kann beispielsweise eine Standardabweichung des Beitrags, bzw. des „Margins“, über einen Zeithorizont gebildet werden, der sich eine vorgegebene Anzahl von Trainingsepochen zurückerstreckt. Beispielsweise kann dieser Zeithorizont fünf oder mehr Epochen lang sein.
Es kann auch beispielsweise ein Variationsverhältnis verwendet werden, um die Konstanz der Klassenzuordnung zu messen. Beispielsweise kann innerhalb einer um eine bestimmte Anzahl von Epochen zurückreichenden Historie ermittelt werden, welche Klasse in jeder Epoche jeweils den höchsten Klassifikations-Score (etwa Logit oder Softmax) hatte. Das Variationsverhältnis ist dann das Verhältnis des Anteils derjeniger Epochen, in denen die häufigste Klasse tatsächlich den höchsten Klassifikations-Score hatte, zur Gesamtzahl der untersuchten Epochen. Wenn beispielsweise 10 Epochen untersucht werden, dann bedeutet ein Variationsverhältnis von 3/10, dass sich der Bildklassifikator über das fragliche Pixel sehr unsicher ist. Ein Variationsverhältnis von 9/10 hingegen zeigt an, dass das Urteil des Bildklassifikators in Bezug auf das fragliche Pixel im Verlauf des Trainings sehr konstant ist. Die untersuchten Epochen müssen in der Historie nicht unmittelbar aufeinander folgen. Stattdessen kann in der Historie beispielsweise jede zweite, dritte oder sonst n-te Epoche untersucht werden, und/oder es können Stichproben aus der Historie genommen werden.
Alle diese Metriken können beispielsweise auf eine gemeinsame Skala normiert werden, um sie untereinander besser vergleichbar und somit auch einfacher zu einer Gesamt-Metrik kombinierbar zu machen. Mögliche Normierungen können beispielsweise

• einen Z-Score auf jeder Metrik,
• eine Minimum-Maximum-Normierung oder
• ein Verhältnis des Metrikwerts zur Breite eines Intervalls zwischen dem 95-%-Quantil und dem 5-%-Quantil

In einer besonders vorteilhaften Ausgestaltung wird die vorgegebene Metrik für ein Pixel in Abhängigkeit davon, welcher Klasse der Bildklassifikator dieses Pixel vorrangig zuordnet, ausgewählt und/oder abgewandelt werden. Hiermit kann es beispielsweise berücksichtigt werden, wenn unterschiedliche Typen von Objekten in einem Eingabe-Bild unterschiedlich schwer zu erkennen sind. So ist beispielsweise bei Nacht ein beleuchtetes Fahrzeug besser zu erkennen als ein unbeleuchteter Fußgänger.
Beispielsweise können für vorrangig unterschiedlichen Klassen zugeordnete Pixel jeweils eine oder mehrere unterschiedliche Epochen ausgewählt werden, aus denen Ist-Klassifikations-Scores in die vorgegebene Metrik eingehen. Eine Motivation hierfür ist, dass Klassen, denen ein größerer Anteil der in den Lern-Eingabe-Bildern insgesamt enthaltenen Pixel angehört (etwa Straße oder Gehweg), vom Bildklassifikator schneller gelernt werden als Klassen, denen nur ein wesentlich kleinerer Teil der Pixel angehört (etwa Fußgänger, Hund oder Katze).
Die Epoche kann insbesondere beispielsweise anhand eines mittels Validierungs-Eingabe-Bildern gemessenen Leistungsstandes des Bildklassifikators ausgewählt werden. Die Validierungs-Eingabe-Bilder sind ebenfalls mit Soll-Klassifikations-Scores gelabelt und zugleich nicht Gegenstand des Trainings. Somit kann der Bildklassifikator die Validierungs-Eingabe-Bilder, im Gegensatz zu den Lern-Eingabe-Bildern, nicht vorab „auswendig lernen“, um sich eine gute Bewertung durch die Kostenfunktion zu „erschleichen“.
Beispielsweise kann die Menge derjenigen Pixel, die laut Soll-Klassifikations-Scores der Soll-Klasse angehören soll, mit der Menge derjenigen Pixel verglichen werden, die laut Ist-Klassifikations-Scores vorrangig der Soll-Klasse zugeordnet werden. Der Vergleich dieser Mengen kann beispielsweise über die „mean intersection over union“ (mloU, auch als Jaccard-Index bekannt) oder über den Dice-Koeffizienten (auch bekannt als F1-Score) erfolgen.
Alternativ oder auch in Kombination hierzu kann beispielsweise durch Vergleich mit den Labels der Validierungs-Eingabe-Bilder eine pixelbezogene Klassifikationsgenauigkeit des Bildklassifikators als dessen Leistungsstand ermittelt werden.
In einer weiteren vorteilhaften Ausgestaltung wird in Antwort darauf, dass der gemessene Leistungsstand in einer vorgegebenen Anzahl von Epochen nicht mindestens einen vorgegebenen absoluten oder relativen Fortschritt erzielt hat, diejenige Epoche mit dem bislang besten Leistungsstand ausgewählt. Auf diese Weise kann beispielsweise das Training vorzeitig abgebrochen werden („early stopping“), wenn sich der Leistungsstand nicht mehr wesentlich verbessert. Hiermit wird zum einen Rechenzeit eingespart und zum anderen eine Tendenz des Bildklassifikators zum „Auswendiglernen“ der Trainingsdaten (Overfitting) unterdrückt werden.
In einer weiteren besonders vorteilhaften Ausgestaltung wird anhand der mit der vorgegebenen Metrik erhaltenen Bewertungen der Ist-Klassifikations-Scores ein Schwellwert ermittelt. Pixel von Lern-Eingabe-Bildern, deren Bewertung unterhalb dieses Schwellwerts liegt, werden als unzutreffend gelabelt gewertet.
Beispielsweise kann eine Kerndichteschätzung (KDE), und/oder ein Histogramm, der Bewertung durch die Metrik für die gemäß der Metrik möglichen Werte ermittelt werden. Hierin sind jeweils Wahrscheinlichkeitsdichten der möglichen Bewertungen über diesen Bewertungen aufgetragen, wobei ein Histogramm diskret und eine Kerneldichteschätzung kontinuierlich ist.
Als Schwellwert kann dann beispielsweise ein Minimum zwischen zwei Maxima der KDE bzw. des Histogramms ermittelt werden. Die KDE, bzw. das Histogramm, kann aber auch beispielsweise mit einem geeigneten Modell, wie etwa einem Gaussian Mixture Model oder einem Expectation Maximization Algorithm, in eine erste Komponente, die sich auf zutreffend gelabelte Lern-Eingabe-Bilder bezieht, und eine zweite Komponente, die sich auf unzutreffend gelabelte Lern-Eingabe-Bilder bezieht, zerlegt werden. Der Schnittpunkt, bei dem beide Komponenten den gleichen Wert annehmen, kann dann als Schwellwert gewählt werden.
Die KDE, bzw. das Histogramm, kann weiterhin beispielsweise verwendet werden, um eine Epoche für die Unterscheidung zwischen zutreffend und unzutreffend gelabelten Pixeln zu finden. In jeder Epoche kann, getrennt nach Klassen oder auch für alle Klassen gemeinsam, die KDE bzw. das Histogramm für die vorgegebene Metrik aufgestellt werden. Es kann dann diejenige Epoche ausgewählt werden, in der zwei Maxima der KDE, bzw. des Histogramms, am deutlichsten voneinander unterscheidbar sind.
Alternativ oder auch in Kombination hierzu können beispielsweise Pixel von Lern-Eingabe-Bildern anhand ihrer mit der mindestens einen vorgegebenen Metrik erhaltenen Bewertungen geclustert werden. Pixel, die zu mindestens einem ausgewählten Cluster gehören, können dann als unzutreffend gelabelt gewertet werden. Mit diesem Ansatz können insbesondere mehrere Metriken gleichzeitig berücksichtigt werden. Es können also Cluster in einem mehrdimensionalen Raum ermittelt werden.
Das Clustern kann weiterhin beispielsweise verwendet werden, um eine Epoche für die Unterscheidung zwischen zutreffend und unzutreffend gelabelten Pixeln zu finden. In jeder Epoche können, getrennt nach Klassen oder auch für alle Klassen gemeinsam, mehrere vorgegebene Metriken geclustert werden. Es kann dann diejenige Epoche ausgewählt werden, in der zwei Cluster am deutlichsten voneinander unterscheidbar sind.
In einer weiteren vorteilhaften Ausgestaltung können die Lern-Eingabe-Bilder Indikator-Bilder enthalten, deren Pixel exklusiv mit Soll-Klassifikations-Scores in Bezug auf eine Indikator-Klasse gelabelt sind. Diese Indikator-Klasse tritt zu den zuvor genutzten Klassen der Klassifikation hinzu. Wenn es also beispielsweise bisher 19 Klassen gab, erhalten die Pixel der Indikator-Bilder das Label 20. Als Indikator-Bilder können beispielsweise Lern-Eingabe-Bilder verwendet werden, indem deren Pixel auf die Indikator-Klasse umgelabelt werden. Aus der Verteilung der einen oder mehreren verwendeten Metriken ist dann die Unterscheidung zwischen zutreffend und unzutreffend gelabelten Pixeln ersichtlich. Idealerweise sollten Lern-Eingabe-Bilder, die als Indikator-Bilder verwendet werden, nicht mehr im Training verwendet werden.
Es muss nicht unbedingt eine neue Indikator-Klasse eingeführt werden, um Indikator-Bilder einzuführen, deren Pixel als unzutreffend gelabelt angenommen werden können. Stattdessen können auch beispielsweise Pixel von Lern-Eingabe-Bildern auf jeweils semantisch völlig andere Klassen umgelabelt werden, um so Indikator-Bilder zu erhalten. Es kann beispielsweise aus einem Fußgänger ein Auto und aus einer Straße ein Fahrrad werden.
Die Erkenntnis, dass bestimmte Pixel von Lern-Eingabe-Bildern als unzutreffend gelabelt zu werten sind, lässt sich in vielfältiger Weise nutzen, um das Training des Bildklassifikators zu verbessern und anzupassen.
Beispielsweise können die unzutreffend gelabelten Pixel, und/oder ein diese Pixel enthaltender Bildbereich des Lern-Eingabe-Bildes, bei der Auswertung der Kostenfunktion unberücksichtigt bleiben. Die in den zutreffend gelabelten Pixeln enthaltene Information lässt sich dann immer noch verwenden. Es kann aber auch beispielsweise ein Nachlabeln der unzutreffend gelabelten Pixel angefordert werden, um die unzutreffenden Labels nicht bloß für den Moment zu ignorieren, sondern dauerhaft zu korrigieren.
Das Lern-Eingabe-Bild mit den unzutreffend gelabelten Pixeln kann aber auch beispielsweise beim weiteren Training lediglich als ungelabeltes Lern-Eingabe-Bild verwendet werden oder vollständig unberücksichtigt bleiben. Eingriffe dieser Art können insbesondere beispielsweise in Antwort darauf stattfinden, dass ein vorgegebener Anteil der Pixel in einem Lern-Eingabe-Bild als unzutreffend gelabelt erkannt worden ist.
Grundsätzlich können auch zutreffend gelabelte Pixel von Lern-Eingabe-Bildern zunächst als unzutreffend gelabelt identifiziert werden. Daher werden in einer weiteren vorteilhaften Ausgestaltung in Antwort darauf, dass höchstens ein bestimmter Anteil der Pixel eines Lern-Eingabe-Bildes als unzutreffend gelabelt identifiziert wurde, alle Pixel dieses Lern-Eingabe-Bildes als zutreffend gelabelt gewertet. Dieser bestimmte Anteil kann beispielsweise vorab in Form eines festen Schwellwerts vorgegeben sein. Dieser Schwellwert kann aber auch individuell je nach Datenlage angepasst werden.
Letztendliches Ziel der Erkennung unzutreffend gelabelter Pixel ist es, den Erfolg des Trainings des Bildklassifikators zu verbessern, damit der fertig trainierte Bildklassifikator auf ungesehenen Bildern mit einer besseren Genauigkeit arbeitet und auf die von ihm gelieferten Ergebnisse mehr Verlass ist.
Daher stellt die Erfindung auch ein weiteres Verfahren bereit. Dieses Verfahren beginnt damit, dass der Bildklassifikator wie zuvor beschrieben trainiert wird. Anschließend werden dem Bildklassifikator Eingabe-Bilder zugeführt, die mit mindestens einem Sensor aufgenommen wurden. Individuelle Pixel der Eingabe-Bilder werden von dem Bildklassifikator auf Klassifikations-Scores abgebildet. Aus diesen Klassifikations-Scores wird ein Ansteuersignal gebildet. Mit diesem Ansteuersignal wird ein Fahrzeug, ein System für die Überwachung von Bereichen, und/oder ein System für die Qualitätskontrolle von in Serie gefertigten Produkten, angesteuert.
Das zuvor beschriebene Trainingsverfahren hat in diesem Zusammenhang die Wirkung, dass die Aktion, die das jeweilige System in Antwort auf die Ansteuerung mit dem Ansteuersignal ausführt, mit einer höheren Wahrscheinlichkeit der mit dem Sensor erfassten Betriebssituation des Systems angemessen ist.
Die Verfahren können insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das beschriebenen Verfahren zum Trainieren des neuronalen Netzwerks auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen.
Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.
Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.
Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
Ausführungsbeispiele
Es zeigt:

1 Ausführungsbeispiel des Verfahrens 100 zum Trainieren des Bildklassifikators 1;
2 Beispielhafte Ermittlung eines Schwellwerts 5b für die Bewertung 5a der Ist-Klassifikations-Scores 3;
3 Beispielhaftes Clustern von Pixeln in Cluster 5c und 5d anhand zweier Bewertungen 5a und 5a' durch Metriken 5 und 5';
4 Ausführungsbeispiel des Verfahrens 200 mit vollständiger Wirkkette.

1 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100 zum Trainieren des Bildklassifikators 1.
In Schritt 110 werden dem Bildklassifikator 1 Lern-Eingabe-Bilder 2a zugeführt. Dabei sind individuelle Pixel 2a* der Lern-Eingabe-Bilder 2a mit Soll-Klassifikations-Scores 3a gelabelt.
In Schritt 120 werden individuelle Pixel 2a* der Lern-Eingabe-Bilder 2a werden von dem Bildklassifikator 1 auf Ist-Klassifikations-Scores 3 abgebildet, so dass Segmentierungskarten der Lern-Eingabe-Bilder 2a entstehen.
In Schritt 130 werden Abweichungen dieser Ist-Klassifikations-Scores 3 von den zugehörigen Soll-Klassifikations-Scores 3a mit einer vorgegebenen Kostenfunktion 4 bewertet.
In Schritt 140 werden die vom Bildklassifikator 1 ermittelten Ist-Klassifikations-Scores 3 jeweils anhand mindestens einer vorgegebenen Metrik 5, 5' bewertet.
In Schritt 150 wird anhand der hierbei erhaltenen Bewertungen 5a ein Kriterium 6 für die Unterscheidung ermittelt, ob Pixel 2a* der Lern-Eingabe-Bilder 2a mit ihren jeweiligen Soll-Klassifikations-Scores 3a zutreffend gelabelt sind.
In Schritt 160 werden mit diesem Kriterium 6 Pixel 2a* der Lern-Eingabe-Bilder 2a in zutreffend gelabelte Pixel 6a und unzutreffend gelabelte Pixel 6b klassifiziert.
In Schritt 170 wird in Antwort darauf, dass ein oder mehrere Pixel 2a* eines Lern-Eingabe-Bildes 2a als unzutreffend gelabelt gewertet wurden, das Training des Bildklassifikators 1 angepasst. Hierbei können beispielsweise von der Kostenfunktion 4 erhaltene Bewertungen 4a modifiziert werden.
In Schritt 180 werden Parameter 1a, die das Verhalten des Bildklassifikators 1 charakterisieren, optimiert mit dem Ziel, dass sich bei weiterer Verarbeitung von Lern-Eingabe-Bildern 2a die Bewertung 4a durch die Kostenfunktion 4 voraussichtlich verbessert. Der fertig trainierte Zustand der Parameter 1a ist mit dem Bezugszeichen 1a* bezeichnet.
Gemäß Block 141 kann die vorgegebene Metrik 5 für ein Pixel 2a* in Abhängigkeit davon, welcher Klasse der Bildklassifikator 1 dieses Pixel 2a* vorrangig zuordnet, ausgewählt und/oder abgewandelt werden. Beispielsweise können gemäß Block 141a für vorrangig unterschiedlichen Klassen zugeordnete Pixel 2a* jeweils eine oder mehrere unterschiedliche Epochen ausgewählt werden, aus denen Ist-Klassifikations-Scores 3 in die vorgegebene Metrik 5 eingehen.
Gemäß Block 142 kann mindestens eine von der Metrik 5, 5' auszuwertende Epoche anhand eines mittels Validierungs-Eingabe-Bildern, die ebenfalls mit Soll-Klassifikations-Scores 3a gelabelt sind und die nicht Gegenstand des Trainings sind, gemessenen Leistungsstandes des Bildklassifikators 1 ausgewählt werden. Es kann dann gemäß Block 143 geprüft werden, ob der gemessene Leistungsstand in einer vorgegebenen Anzahl von Epochen mindestens einen vorgegebenen absoluten oder relativen Fortschritt erzielt. Ist dies nicht der Fall (Wahrheitswert 0), kann gemäß Block 144 diejenige Epoche mit dem bislang besten Leistungsstand ausgewählt werden.
Gemäß Block 151 kann anhand der mit der vorgegebenen Metrik 5 erhaltenen Bewertungen 5a der Ist-Klassifikations-Scores 3 ein Schwellwert 5b ermittelt werden. Gemäß Block 161 können dann Pixel 2a* von Lern-Eingabe-Bildern 2a, deren Bewertung 5a unterhalb dieses Schwellwerts 5b liegt, als unzutreffend gelabelt gewertet werden.
Gemäß Block 152 können Pixel 2a* von Lern-Eingabe-Bildern 2a anhand ihrer mit der mindestens einen vorgegebenen Metrik 5 erhaltenen Bewertungen 5a geclustert werden. Hierbei entstehen Cluster 5c, 5d. Gemäß Block 162 können dann Pixel 2a*, die zu mindestens einem ausgewählten Cluster 5c, 5d gehören, als unzutreffend gelabelt gewertet werden.
Um das Training des Bildklassifikators an das Vorhandensein unzutreffend gelabelter Pixel 6b von Lern-Eingabe-Bildern 2a anzupassen, können insbesondere beispielsweise

• gemäß Block 171 diese Pixel 6b, und/oder ein diese Pixel 6b enthaltender Bildbereich des Lern-Eingabe-Bildes 2a, bei der Auswertung der Kostenfunktion 4 unberücksichtigt bleiben; und/oder
• gemäß Block 172 ein Nachlabeln dieser Pixel 6b angefordert werden; und/oder
• das Lern-Eingabe-Bild 2a beim weiteren Training gemäß Block 173 lediglich als ungelabeltes Lern-Eingabe-Bild verwendet werden oder gemäß Block 174 vollständig unberücksichtigt bleiben.

2 zeigt beispielhaft, wie ein Schwellwert 5b für eine Bewertung 5a von Ist-Klassifikations-Scores 3 als Kriterium 6 ermittelt werden kann, das dann wiederum zur Unterscheidung zwischen zutreffend gelabelten Pixeln 6a und unzutreffend gelabelten Pixeln 6b dienen kann. Aufgetragen ist die Wahrscheinlichkeitsdichte ρ von Werten der Bewertung 5a über diesen Werten, wobei höhere Werte auf der x-Achse besseren Bewertungen im Sinne von „zutreffend gelabelt“ entsprechen. Kurve A wurde an einem realen Datensatz mit einer Mischung aus zutreffend und unzutreffend gelabelten Lern-Eingabe-Bildern 2a ermittelt. Kurve B gibt die Wahrscheinlichkeitsdichte ρ für die unzutreffend gelabelten Lern-Eingabe-Bilder 2a an, und Kurve C gibt die Wahrscheinlichkeitsdichte ρ für die zutreffend gelabelten Lern-Eingabe-Bilder 2a an. Die Kurven B und C sind nur verfügbar, wenn vorab bekannt ist, welche Lern-Eingabe-Bilder 2a zutreffend und welche unzutreffend gelabelt sind. In der realen Anwendung sind die unzutreffend gelabelten Lern-Eingabe-Bilder 2a unbekannt und mit dem Verfahren 100 zu ermitteln. In einem Minimum zwischen den beiden Maxima der Kurve A wird der Schwellwert 5b festgelegt.
3 zeigt beispielhaft, wie Pixel 2a* von Lern-Eingabe-Bildern 2a anhand zweier Metriken 5 und 5' in zwei Cluster 5c und 5d aufgeteilt werden können. In dem in 3 gezeigten Beispiel gilt für beide Metriken 5 und 5', dass hohe Werte 5a bzw. 5a' besser sind. Dementsprechend versammeln sich im Cluster 5c die unzutreffend gelabelten Pixel 6b, während sich im Cluster 5d die zutreffend gelabelten Pixel 6a versammeln.
4 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 200 mit der vollständigen Wirkkette bis zur Ansteuerung technischer Systeme 50, 60, 70.
In Schritt 210 wird ein Bildklassifikator 1 mit dem zuvor beschriebenen Verfahren 100 trainiert. Dadurch nehmen die Parameter 1a, die das Verhalten dieses Bildklassifikators 1 charakterisieren, den fertig trainierten Zustand 1a* an.
In Schritt 220 werden dem Bildklassifikator 1 Eingabe-Bilder 2 zugeführt, die mit mindestens einem Sensor 7 aufgenommen wurden.
In Schritt 230 werden individuelle Pixel 2* der Eingabe-Bilder 2 von dem Bildklassifikator 1 auf Klassifikations-Scores 3 abgebildet.
In Schritt 240 wird aus den Klassifikations-Scores 3 ein Ansteuersignal 240a gebildet. In Schritt 250 wird ein Fahrzeug 50, ein System 60 für die Überwachung von Bereichen, und/oder ein System 70 für die Qualitätskontrolle von in Serie gefertigten Produkten, mit diesem Ansteuersignal 240a angesteuert.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102019204139 A1 [0004]

Claims

Verfahren (100) zum Trainieren eines Bildklassifikators (1), der individuellen Pixeln (2*) eines Eingabe-Bildes (2) Klassifikations-Scores (3) in Bezug auf eine oder mehrere Klassen einer vorgegebenen Klassifikation zuordnet, mit den Schritten: • dem Bildklassifikator (1) werden Lern-Eingabe-Bilder (2a) zugeführt (110), wobei individuelle Pixel (2a*) der Lern-Eingabe-Bilder (2a) mit Soll-Klassifikations-Scores (3a) gelabelt sind; • individuelle Pixel (2a*) der Lern-Eingabe-Bilder (2a) werden von dem Bildklassifikator (1) auf Ist-Klassifikations-Scores (3) abgebildet (120); • Abweichungen dieser Ist-Klassifikations-Scores (3) von den zugehörigen Soll-Klassifikations-Scores (3a) werden mit einer vorgegebenen Kostenfunktion (4) bewertet (130); • Parameter (1a), die das Verhalten des Bildklassifikators (1) charakterisieren, werden optimiert (180) mit dem Ziel, dass sich bei weiterer Verarbeitung von Lern-Eingabe-Bildern (2a) die Bewertung (4a) durch die Kostenfunktion (4) voraussichtlich verbessert, • die vom Bildklassifikator (1) ermittelten Ist-Klassifikations-Scores (3) werden jeweils anhand mindestens einer vorgegebenen Metrik (5, 5') bewertet (140); • anhand der hierbei erhaltenen Bewertungen (5a) wird ein Kriterium (6) für die Unterscheidung ermittelt (150), ob Pixel (2a*) der Lern-Eingabe-Bilder (2a) mit ihren jeweiligen Soll-Klassifikations-Scores (3a) zutreffend gelabelt sind; • mit diesem Kriterium (6) werden Pixel (2a*) der Lern-Eingabe-Bilder (2a) in zutreffend gelabelte (6a) und unzutreffend gelabelte (6b) Pixel klassifiziert (160).
Verfahren (100) nach Anspruch 1, wobei die vorgegebene Metrik (5) • einen Beitrag des jeweiligen Pixels (2a*) zu der Kostenfunktion (4), und/oder • einen Abstand zwischen dem Ist-Klassifikations-Score (3) des jeweiligen Pixels (2*), der sich auf die Soll-Klasse dieses Pixels (2a*) bezieht, und dem größten anderen Ist-Klassifikations-Score (3) in Bezug auf dieses Pixel (2a*), und/oder • eine zusammenfassende Statistik, und/oder einer Entwicklung, des Beitrags, und/oder des Abstands, über eine vorgegebene Auswahl von Epochen der Optimierung (170), beinhaltet.
Verfahren (100) nach einem der Ansprüche 1 bis 2, wobei die vorgegebene Metrik (5) für ein Pixel (2a*) in Abhängigkeit davon, welcher Klasse der Bildklassifikator (1) dieses Pixel (2a*) vorrangig zuordnet, ausgewählt und/oder abgewandelt wird (141).
Verfahren (100) nach einem der Ansprüche 1 bis 3, wobei für vorrangig unterschiedlichen Klassen zugeordnete Pixel (2a*) jeweils eine oder mehrere unterschiedliche Epochen ausgewählt werden (141a), aus denen Ist-Klassifikations-Scores (3) in die vorgegebene Metrik (5) eingehen.
Verfahren (100) nach einem der Ansprüche 1 bis 4, wobei mindestens eine Epoche anhand eines mittels Validierungs-Eingabe-Bildern, die ebenfalls mit Soll-Klassifikations-Scores (3a) gelabelt sind und die nicht Gegenstand des Trainings sind, gemessenen Leistungsstandes des Bildklassifikators (1) ausgewählt wird (142).
Verfahren (100) nach Anspruch 5, wobei in Antwort darauf, dass der gemessene Leistungsstand in einer vorgegebenen Anzahl von Epochen nicht mindestens einen vorgegebenen absoluten oder relativen Fortschritt erzielt hat (143), diejenige Epoche mit dem bislang besten Leistungsstand ausgewählt wird (144).
Verfahren (100) nach einem der Ansprüche 1 bis 6, wobei • anhand der mit der vorgegebenen Metrik (5) erhaltenen Bewertungen (5a) der Ist-Klassifikations-Scores (3) ein Schwellwert (5b) ermittelt wird (151) und • Pixel (2a*) von Lern-Eingabe-Bildern (2a), deren Bewertung (5a) unterhalb dieses Schwellwerts (5b) liegt, als unzutreffend gelabelt gewertet werden (161).
Verfahren (100) nach einem der Ansprüche 1 bis 7, wobei • Pixel (2a*) von Lern-Eingabe-Bildern (2a) anhand ihrer mit der mindestens einen vorgegebenen Metrik (5) erhaltenen Bewertungen (5a) geclustert werden (152) und • Pixel (2a*), die zu mindestens einem ausgewählten Cluster (5c, 5d) gehören, als unzutreffend gelabelt gewertet werden (162).
Verfahren (100) nach einem der Ansprüche 1 bis 8, wobei die Lern-Eingabe-Bilder (2a) Indikator-Bilder enthalten, deren Pixel (2a*) exklusiv mit Soll-Klassifikations-Scores (3a) in Bezug auf eine Indikator-Klasse gelabelt sind.
Verfahren (100) nach einem der Ansprüche 1 bis 9, wobei in Antwort darauf, dass ein oder mehrere Pixel (2a*) eines Lern-Eingabe-Bildes (2a) als unzutreffend gelabelte Pixel (6b) gewertet wurden, das Training des Bildklassifikators (1) angepasst wird (170), insbesondere, indem • diese Pixel (6b), und/oder ein diese Pixel (6b) enthaltender Bildbereich des Lern-Eingabe-Bildes (2a), bei der Auswertung der Kostenfunktion (4) unberücksichtigt bleibt (171); und/oder • ein Nachlabeln dieser Pixel (6b) angefordert wird (172); und/oder • das Lern-Eingabe-Bild (2a) beim weiteren Training lediglich als ungelabeltes Lern-Eingabe-Bild verwendet wird (173) oder vollständig unberücksichtigt bleibt (174).
Verfahren (100) nach einem der Ansprüche 1 bis 10, wobei in Antwort darauf, dass höchstens ein bestimmter Anteil der Pixel (2a*) eines Lern-Eingabe-Bildes (2a) als unzutreffend gelabelt identifiziert wurden (163), alle Pixel (2a*) dieses Lern-Eingabe-Bildes (2a) als zutreffend gelabelt gewertet werden (164).
Verfahren (200) mit den Schritten: • ein Bildklassifikator (1) wird mit dem Verfahren (100) nach einem der Ansprüche 1 bis 11 trainiert (210); • dem Bildklassifikator (1) werden Eingabe-Bilder (2) zugeführt (220), die mit mindestens einem Sensor (7) aufgenommen wurden; • individuelle Pixel (2*) der Eingabe-Bilder (2) werden von dem Bildklassifikator (1) auf Klassifikations-Scores (3) abgebildet (230); • aus den Klassifikations-Scores (3) wird ein Ansteuersignal (240a) gebildet (240); • ein Fahrzeug (50), ein System (60) für die Überwachung von Bereichen, und/oder ein System (70) für die Qualitätskontrolle von in Serie gefertigten Produkten, wird mit dem Ansteuersignal (240a) angesteuert (250).
Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, ein Verfahren (100, 200) nach einem der Ansprüche 1 bis 12 auszuführen.
Maschinenlesbarer Datenträger mit dem Computerprogramm nach Anspruch 13.
Ein oder mehrere Computer mit dem Computerprogramm nach Anspruch 13, und/oder mit dem maschinenlesbaren Datenträger nach Anspruch 14.