DE102021204960A1 - Numerisch stabileres Trainingsverfahren für Bildklassifikatoren - Google Patents

Numerisch stabileres Trainingsverfahren für Bildklassifikatoren Download PDF

Info

Publication number
DE102021204960A1
DE102021204960A1 DE102021204960.5A DE102021204960A DE102021204960A1 DE 102021204960 A1 DE102021204960 A1 DE 102021204960A1 DE 102021204960 A DE102021204960 A DE 102021204960A DE 102021204960 A1 DE102021204960 A1 DE 102021204960A1
Authority
DE
Germany
Prior art keywords
segmentation map
class
hand
size
image classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102021204960.5A
Other languages
English (en)
Inventor
Christoph-Nikolas Straehle
Evgeny Levinkov
Kaspar Sakmann
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102021204960.5A priority Critical patent/DE102021204960A1/de
Publication of DE102021204960A1 publication Critical patent/DE102021204960A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

Verfahren (100) zum Trainieren eines Bildklassifikators (1) mit den Schritten:• es werden Trainings-Bilder (2a) und zugehörige Soll-Segmentierungskarten (3a) bereitgestellt (110);• die Trainings-Bilder (2a) werden von dem Bildklassifikator (1) in Segmentierungskarten (3) übersetzt (120);• eine Abweichung der Segmentierungskarten (3) von den jeweiligen Soll-Segmentierungskarten (3a) wird mit einer Kostenfunktion (4) bewertet (130), wobei◯ für jede Klasse der Klassifikation ein kontinuierliches Maß I' für die Größe der Schnittmenge der gemäß Segmentierungskarte (3) einerseits und gemäß Soll-Segmentierungskarte (3a) andererseits dieser Klasse zugeordneten Pixel ermittelt wird (131);◯ für jede Klasse der Klassifikation ein kontinuierliches Maß U' für die Größe der Vereinigungsmenge der gemäß Segmentierungskarte (3) einerseits und gemäß Soll-Segmentierungskarte (3a) andererseits dieser Klasse zugeordneten Pixel ermittelt wird (132); und◯ die Kostenfunktion (4) mit einem über alle Klassen gebildeten Mittel von Quotienten I'/U' aus jeweils einem Maß I' für die Größe der Schnittmenge und einem Maß U' für die Größe der Vereinigungsmenge korreliert ist (133); und• Parameter (1a), die das Verhalten des Bildklassifikators (1) charakterisieren, werden optimiert (140) mit dem Ziel, dass die weitere Verarbeitung von Trainings-Bildern (2a) durch den Bildklassifikator (1) voraussichtlich zu einer besseren Bewertung (4a) durch die Kostenfunktion (4) führt.

Description

  • Die vorliegende Erfindung betrifft das Training von Bildklassifikatoren, die Bilder zu Segmentierungskarten in Bezug Klassen einer vorgegebenen Klassifikation verarbeiten.
  • Stand der Technik
  • Um Bilder automatisiert auszuwerten und auf der Basis dieser Auswertung technische Systeme automatisiert zu steuern, ist es häufig wünschenswert, den semantischen Inhalt der Bilder zu klassifizieren. Wenn beispielsweise ein zumindest teilweise automatisiert fahrendes Fahrzeug sein Umfeld beobachtet und Bilder aufnimmt, kann eine Segmentierungskarte angeben, welche Pixel dieser Bilder jeweils zu anderen Verkehrsteilnehmern, Fahrbahnbegrenzungen, Hindernissen oder anderen verkehrsrelevanten Objekten gehören. Die DE 10 2019 202 451 A1 offenbart beispielhaft, wie eine solche Segmentierungskarte erhalten und für die weitere Verarbeitung aufbereitet werden kann.
  • Offenbarung der Erfindung
  • Im Rahmen der Erfindung wurde ein Verfahren zum Trainieren eines Bildklassifikators entwickelt. Dieser Bildklassifikator ist dazu ausgebildet, die Pixel eines Eingabe-Bildes jeweils einer von mehreren Klassen einer vorgegebenen Klassifikation zuzuordnen und so eine semantische Segmentierungskarte des Eingabe-Bildes zu erzeugen. Hierbei können insbesondere verschiedene Pixel des Eingabe-Bildes unterschiedlichen Klassen zugeordnet werden. In einer einfachen Ausführungsform kann die Segmentierungskarte jedoch auch homogen mit einer einzigen Klasse belegt sein, die dem kompletten Eingabe-Bild zugeordnet wird. Der Bildklassifikator kann insbesondere beispielsweise ein künstliches neuronales Netzwerk, KNN, beinhalten, und/oder er kann ein KNN sein.
  • Der Begriff des Bildes umfasst jede Zuordnung von Werten mindestens einer interessierenden Größe, wie etwa einer Messgröße, zu Orten, die in einem zwei- oder mehrdimensionalen Raster angeordnet sind. Neben Kamerabildern können insbesondere beispielsweise auch Videobilder, Wärmebilder, Ultraschallbilder, Radarbilder und Lidar-Bilder verwendet werden.
  • Das Verfahren beginnt damit, dass Trainings-Bilder und zugehörige Soll-Segmentierungskarten bereitgestellt werden. Diese Trainings-Bilder werden von dem Bildklassifikator in Segmentierungskarten übersetzt. Das Training ist auf das Ziel gerichtet, dass dies aus jedem Trainings-Bild erzeugte Segmentierungskarte möglichst gut mit der zugehörigen Soll-Segmentierungskarte übereinstimmt.
  • Zu diesem Zweck wird eine Abweichung der Segmentierungskarten von den jeweiligen Soll-Segmentierungskarten mit einer Kostenfunktion bewertet. Dabei wird für jede Klasse der Klassifikation ein kontinuierliches Maß I' für die Größe der Schnittmenge sowie ein kontinuierliches Maß U' für die Größe der Vereinigungsmenge zwischen
    • • der Menge der Pixel, die gemäß der Segmentierungskarte dieser Klasse zugeordnet werden und
    • • der Menge der Pixel, die gemäß der Soll-Segmentierungskarte dieser Klasse zugeordnet werden,
    ermittelt. Hierbei ist unter „kontinuierlich“ zu verstehen, dass die Maße I', U' nicht darauf eingeschränkt sind, lediglich diskret variieren zu können, indem jeweils ein Pixel als kleinste Einheit zu einer der miteinander zu vergleichenden Mengen hinzutritt oder aber diese Menge verlässt. Die Maße I', U' können insbesondere beispielsweise auf der Basis von Klassifikations-Scores ermittelt werden, die die Segmentierungskarte, bzw. die Soll-Segmentierungskarte, Pixeln des Eingabe-Bildes in Bezug auf die jeweilige Klasse zuordnet. Hierbei können dann insbesondere beispielsweise die Klassifikations-Scores in der Segmentierungskarte frei im Intervall [0, 1] variieren. Die Soll-Segmentierungskarte kann für jedes Pixel in Bezug auf eine Klasse ein „hard label“, das entweder 0 oder 1 sein kann, als Klassifikations-Score angeben. Die Soll-Segmentierungskarte kann jedoch auch beispielsweise „soft labels“ mit Zwischenwerten zwischen 0 und 1 enthalten, in denen Unsicherheiten bezüglich der Klassenzuordnung berücksichtigt sind.
  • Die Kostenfunktion ist mit einem über alle Klassen gebildeten Mittel von Quotienten I'/U' aus jeweils einem Maß I' für die Größe der Schnittmenge und einem Maß U' für die Größe der Vereinigungsmenge korreliert. Die Kostenfunktion kann somit insbesondere beispielsweise explizit von diesem Mittel von Quotienten I'/U' abhängen. Die Kostenfunktion kann jedoch auch beispielsweise von einer Funktion abhängen, die ihrerseits von dem Mittel von Quotienten I'/U' abhängt. Weiterhin können an beliebigen Stellen im Rechengang zum Wert der Kostenfunktion auch Näherungslösungen für einzelne Bestandteile, aus denen sich die Kostenfunktion zusammensetzt, zum Einsatz kommen. Mit derartigen Näherungslösungen können beispielsweise nicht differenzierbare Funktionsverläufe in einer differenzierbaren Weise nachgebildet werden.
  • Parameter, die das Verhalten des Bildklassifikators charakterisieren, werden optimiert mit dem Ziel, dass die weitere Verarbeitung von Trainings-Bildern durch den Bildklassifikator voraussichtlich zu einer besseren Bewertung durch die Kostenfunktion führt. Hierfür kann jedes geeignete Optimierungsverfahren verwendet werden, wie beispielsweise ein Gradientenabstiegsverfahren. Die besagten differenzierbaren Näherungen haben in diesem Zusammenhang den Vorteil, dass Gradienten der von der Kostenfunktion erhaltenen Bewertung besser zu Änderungen der Parameter zurückpropagiert werden können.
  • Die Kostenfunktion ist im Vergleich zur sogenannten „mean intersection over union“-Metrik dahingehend verallgemeinert, dass die Maße für die Größen der Schnittmenge und der Vereinigungsmenge jeweils kontinuierlich und nicht mehr diskret sind. Dies bewirkt bereits, dass das Training numerisch deutlich stabiler wird. Dadurch konvergiert das Training schneller, und die für im Training ungesehene Eingabe-Bilder ermittelten Segmentierungskarten werden qualitativ besser. Die Verwendung einer auf „mean intersection over union“ aufbauenden Kostenfunktion wird also im Vergleich etwa zur Kreuzentropie nicht mehr damit erkauft, dass sich beim Vergleich der Größen von Mengen der diskrete Charakter dieser Mengen störend bemerkbar macht.
  • In einer besonders vorteilhaften Ausgestaltung beinhaltet das Maß I' für die Größe der Schnittmenge eine über alle Pixel der jeweiligen Klasse gebildete Summe von Werten, die den kleineren der gemäß Segmentierungskarte einerseits und gemäß Soll-Segmentierungskarte andererseits vorliegenden Klassifikations-Scores für das jeweilige Pixel in Bezug auf die Klasse angeben oder annähern. Für ein Eingabe-Bild B mit Pixeln P kann ein Maß I' für die Größe der Schnittmenge in Bezug auf eine Klasse C beispielsweise angegeben werden als I ' ( C ) = p C B min ( s C ( p ) , g C ( p ) ) .
    Figure DE102021204960A1_0001
    Hierin ist sc(p) der Klassifikations-Score der Segmentierungskarte in Bezug auf die Klasse C für das Pixel p. gc(p) ist der Klassifikations-Score der Soll-Segmentierungskarte („ground truth“) in Bezug auf die Klasse C für das Pixel p.
  • Alternativ oder auch in Kombination hierzu beinhaltet das Maß U' für die Größe der Vereinigungsmenge eine über alle Pixel der jeweiligen Klasse gebildete Summe von Werten, die den größeren der gemäß Segmentierungskarte einerseits und gemäß Soll-Segmentierungskarte andererseits vorliegenden Klassifikations-Scores für das jeweilige Pixel in Bezug auf die Klasse angeben oder annähern. Somit kann das Maß U' für die Größe der Vereinigungsmenge beispielsweise angegeben werden als U ' ( C ) = p C B max ( s C ( p ) , g C ( p ) ) .
    Figure DE102021204960A1_0002
    Die verallgemeinerte „mean intersection over union“, mloU', wird damit zu mIoU ' = 1 N C I ' ( C ) U ' ( C )
    Figure DE102021204960A1_0003
    mit N als der Anzahl der Klassen C und einer Summe von Quotienten I'(C)/U'(C). Für Klassifikations-Scores sC(p) und gC(p), die nur die beiden binären Werte 0 und 1 annehmen können, geht diese Definition in die bekannte diskrete „mean intersection over union“, mloU, über. Es ändert sich also nur dort etwas, wo der Rahmen der bekannten mloU verlassen wird.
  • Besonders vorteilhaft wird der größere von zwei Klassifikations-Scores mit der Formel smax ( a , b ) = a exp ( a max ( a , b ) ) + b exp ( b max ( a , b ) ) 1 + exp ( min ( a , b ) max ( a , b ) )
    Figure DE102021204960A1_0004
    angenähert, und der kleinere von zwei Klassifikations-Scores a und b wird mit der Formel smin ( a , b ) = smax ( a , b )
    Figure DE102021204960A1_0005
    angenähert.
  • Die Funktion smax(a,b) ist eine differenzierbare Näherung für die Maximumfunktion max(a,b), die entweder den Wert a oder den Wert b zurückgibt. Analog ist die Funktion smin(a,b) eine differenzierbare Näherung für die Minimumfunktion min(a,b), die entweder den Wert a oder den Wert b zurückgibt.
  • In einer weiteren besonders vorteilhaften Ausgestaltung beinhaltet die Kostenfunktion einen Logarithmus des Mittels der Quotienten I'/U' oder eine Näherung dieses Logarithmus. Auf diese Weise können die Quotienten in numerisch stabiler Weise summiert werden. Dies ist insbesondere dann vorteilhaft, wenn Größenordnungen, in denen sich die Maße I'(C) und U'(C) bewegen, stark variieren. Weiterhin werden lediglich die Logarithmen der Maße I'(C) und U'(C) benötigt, zu deren Bildung auch wieder nur Logarithmen von Klassifikations-Scores sC(p), gC(p) benötigt werden. Der Logarithmus des Mittels der Quotienten lässt sich insbesondere beispielsweise mit Hilfe der Logsumexp-Funktion logsumexp ( x | x M ) = max x M x + log x M exp ( x max x M x )
    Figure DE102021204960A1_0006
    für beliebige Elemente x einer Menge M ermitteln.
  • Dann gilt: log mIoU ' = logsumexp ( log I ' ( C ) U ' ( C ) | C ) log  N .
    Figure DE102021204960A1_0007
  • Für jede Klasse C ist wiederum log I ' ( C ) U ' ( C ) = log  I ' ( C ) log  U ' ( C ) .
    Figure DE102021204960A1_0008
  • Dies lässt sich noch weiter zerlegen, indem im Rahmen einer weiteren vorteilhaften Ausgestaltung log I'(C), und/oder log U'(C), wiederum unter Nutzung der Logsumexp-Funktion aus Logarithmen der Beiträge einzelner Pixel p ermittelt wird: log  I ' ( C ) = logsumexp ( max ( min ( log  s C ( p ) , log [ g C ( p ) + ε ] ) , log ε ) | p C ) ,
    Figure DE102021204960A1_0009
    log  U ' ( C ) = logsumexp ( max ( log  s C ( p ) , l o g [ g C ( p ) + ε ] ) | p C ) .
    Figure DE102021204960A1_0010
  • Hierin sorgt die Einführung eines ε in der Größenordnung 10-7 dafür, dass log I'(C) und log U'(C) auch dann wohldefiniert bleiben, wenn es Pixel p mit einem „hard label“ von gC(p)=0 gibt. log I'(C) und log U'(C) können in den obigen Ausdruck für log mloU' eingesetzt werden. Somit werden nur die Logarithmen log sc(p) der vom Klassifikator gelieferten Klassifikations-Scores sC(p) sowie die Logarithmen log gc(p) der aus der Soll-Segmentierungskarte ersichtlichen Klassifikations-Scores gc(p) benötigt, um log mloU' zu ermitteln.
  • Die Logarithmen log sC(p) werden vorteilhaft einer Segmentierungsschicht des Bildklassifikators entnommen, deren Ausgabe zur Bildung der Segmentierungskarte noch zu diskretisieren ist. Hierbei handelt es sich um „logits“, also um noch nicht normierte Logarithmen von Wahrscheinlichkeiten für die Zuordnungen zu Klassen.
  • Das Arbeiten direkt im Raum dieser Logarithmen hat den Vorteil, dass das Training numerisch sehr stabil ist und auch besonders genaue Gradienten der Kostenfunktion erzeugt, aus denen dann wiederum zielgerichtete Änderungen der Parameter des Bildklassifikators abgeleitet werden können. Wird der Bildklassifikator mit der hier beschriebenen Kostenfunktion log mloU' trainiert, führt dies somit zu einem deutlichen Gewinn an Genauigkeit, wenn der Bildklassifikator anschließend anhand von ungesehenen Testdaten auf die Probe gestellt wird. Im Vergleich zu einem Bildklassifikator, der mit der bekannten Kreuzentropie als Kostenfunktion trainiert wird, ergibt sich ein Zugewinn an Genauigkeit in der Größenordnung 3 %.
  • Der Effekt zeigt sich besonders stark bei Bildklassifikatoren mit neuronalen Netzwerken, die nicht viel mehr Verarbeitungskapazität haben als zur Erfüllung der gestellten Aufgabe unbedingt erforderlich ist. Im Endeffekt lässt sich eine vorgegebene Aufgabe also mit einer bestimmten Genauigkeit dank des neuartigen Trainings auch auf kleineren Architekturen implementieren, wodurch Hardware und Energieaufwand eingespart wird.
  • Eine solche kleine Architektur hat keine Kapazität zum „Overfitting“, also zum „Auswendiglernen“ der Trainingsdaten. Ob ein solches „Overfitting“ stattfindet und die Architektur „zu groß“ ist, lässt sich aus einem Vergleich des mittleren Quotienten I'/U' zwischen Trainings- und Validierungsphase erkennen. Ist der mittlere Quotient in der Trainingsphase, also auf bereits gesehenen Daten, höher als in der Validierungsphase auf bislang ungesehenen Daten, ist dies ein Anzeichen für „Overfitting“.
  • In einer weiteren vorteilhaften Ausgestaltung bleiben bei der Bildung des Mittels von Quotienten Klassen, für die die aus der Segmentierungskarte einerseits und aus der Soll-Segmentierungskarte andererseits ermittelte Vereinigungsmenge eine vorgegebene Mindestgröße nicht erreicht, unberücksichtigt. Hiermit kann die numerische Stabilität noch weiter verbessert werden. Die Mindestgröße kann beispielsweise in der Größenordnung 5 Pixel liegen.
  • Alternativ oder auch in Kombination hierzu können die Klassen auch in einer sonstigen von der Gleichverteilung abweichenden Weise untereinander gewichtet werden. Auf diese Weise kann etwa berücksichtigt werden, dass bestimmte Verwechslungen von Klassen in der jeweils vorliegenden Anwendung nachteiligere Folgen haben als andere Verwechslungen. So ist beispielsweise die fälschliche Einstufung eines giftigen Pilzes als „essbar“ viel gefährlicher als eine unrichtige Einstufung, um welche Art von Giftpilz es sich genau handelt.
  • Wie eingangs erläutert, ist die Erzeugung von Segmentierungskarten kein Selbstzweck, sondern dient der verbesserten Ansteuerung technischer Systeme in einer konkreten Anwendung. Daher bezieht sich die Erfindung auch auf ein Verfahren mit der vollständigen Wirkkette bis zu dieser Ansteuerung.
  • Im Rahmen dieses Verfahrens wird ein Bildklassifikator bereitgestellt. Der Bildklassifikator wird mit dem zuvor beschriebenen Verfahren trainiert. Bilder, die mit mindestens einem Sensor aufgenommen wurden, werden von dem trainierten Bildklassifikator zu semantischen Segmentierungskarten verarbeitet.
  • Aus den semantischen Segmentierungskarten wird ein Ansteuersignal gebildet. ein Fahrzeug, und/oder ein System für die Überwachung von Bereichen, und/oder ein System für die Qualitätskontrolle von Produkten, wird mit dem Ansteuersignal angesteuert.
  • Wie zuvor erläutert, hat das verbesserte Training in diesem Kontext die Wirkung, dass beim Training ungesehene Bilder zu Segmentierungskarten verarbeitet werden, die inhaltlich zu einem größeren Grade zutreffend sind. Wenn auf Grund dieser Segmentierungskarten ein Ansteuersignal erzeugt und ein technisches System angesteuert wird, ist die Wahrscheinlichkeit erhöht, dass die Aktion, die das technische System daraufhin ausführt, in der aktuellen Betriebssituation des technischen Systems angemessen ist.
  • Die Verfahren können insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, eines der beschriebenen Verfahren auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen.
  • Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.
  • Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.
  • Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
  • Ausführungsbeispiele
  • Es zeigt:
    • 1 Ausführungsbeispiel des Verfahrens 100 zum Trainieren des Bildklassifikators 1;
    • 2 Ausführungsbeispiel des Verfahrens 200 mit vollständiger Wirkkette bis zur Ansteuerung technischer Systeme 50, 60, 70.
  • 1 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100 zum Trainieren des Bildklassifikators 1.
  • In Schritt 110 werden Trainings-Bilder 2a und zugehörige Soll-Segmentierungskarten 3a bereitgestellt.
  • In Schritt 120 werden die Trainings-Bilder 2a von dem Bildklassifikator 1 in Segmentierungskarten 3 übersetzt.
  • In Schritt 130 wird eine Abweichung der Segmentierungskarten 3 von den jeweiligen Soll-Segmentierungskarten 3a wird mit einer Kostenfunktion 4 bewertet.
  • In Schritt 140 werden Parameter 1a, die das Verhalten des Bildklassifikators (1) charakterisieren, optimiert mit dem Ziel, dass die weitere Verarbeitung von Trainings-Bildern 2a durch den Bildklassifikator 1 voraussichtlich zu einer besseren Bewertung 4a durch die Kostenfunktion 4 führt. Der fertig trainierte Zustand der Parameter 1a ist mit dem Bezugszeichen 1a* bezeichnet.
  • Innerhalb des Kastens 130 ist im Einzelnen dargestellt, wie die Bewertung durch die Kostenfunktion abläuft.
  • Gemäß Block 131 wird für jede Klasse der Klassifikation ein kontinuierliches Maß I' für die Größe der Schnittmenge der gemäß Segmentierungskarte 3 einerseits und gemäß Soll-Segmentierungskarte 3a andererseits dieser Klasse zugeordneten Pixel ermittelt. Dieses Maß I' kann insbesondere beispielsweise gemäß Block 131a eine über alle Pixel der jeweiligen Klasse gebildete Summe von Werten beinhalten, die den kleineren der gemäß Segmentierungskarte 3 einerseits und gemäß Soll-Segmentierungskarte 3a andererseits vorliegenden Klassifikations-Scores für das jeweilige Pixel in Bezug auf die Klasse angeben oder annähern.
  • Gemäß Block 132 wird für jede Klasse der Klassifikation ein kontinuierliches Maß U' für die Größe der Vereinigungsmenge der gemäß Segmentierungskarte 3 einerseits und gemäß Soll-Segmentierungskarte 3a andererseits dieser Klasse zugeordneten Pixel ermittelt. Dieses Maß U' für die Größe der Vereinigungsmenge kann insbesondere beispielsweise gemäß Block 132a eine über alle Pixel der jeweiligen Klasse gebildete Summe von Werten beinhalten, die den größeren der gemäß Segmentierungskarte 3 einerseits und gemäß Soll-Segmentierungskarte 3a andererseits vorliegenden Klassifikations-Scores für das jeweilige Pixel in Bezug auf die Klasse angeben oder annähern.
  • Gemäß Block 133 ist die Kostenfunktion 4 mit einem über alle Klassen gebildeten Mittel von Quotienten I'/U' aus jeweils einem Maß I' für die Größe der Schnittmenge und einem Maß U' für die Größe der Vereinigungsmenge korreliert. Die Kostenfunktion kann insbesondere beispielsweise gemäß Block 133a einen Logarithmus des Mittels der Quotienten I'/U', oder eine Näherung dieses Logarithmus, beinhalten.
  • 2 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 200 mit der vollständigen Wirkkette bis zur Ansteuerung technischer Systeme 50, 60, 70.
  • In Schritt 210 wird ein Bildklassifikator 1 bereitgestellt.
  • In Schritt 220 wird der Bildklassifikator 1 mit dem zuvor beschriebenen Verfahren 100 trainiert. Der fertig trainierte Zustand des Bildklassifikators 1 ist mit dem Bezugszeichen 1* bezeichnet.
  • In Schritt 230 werden Bilder 2, die mit mindestens einem Sensor 5 aufgenommen wurden, von dem trainierten Bildklassifikator 1* zu semantischen Segmentierungskarten 3 verarbeitet.
  • In Schritt 240 wird aus den semantischen Segmentierungskarten 3 wird ein Ansteuersignal 240a gebildet.
  • In Schritt 250 wird ein Fahrzeug 50, und/oder ein System 60 für die Überwachung von Bereichen, und/oder ein System 70 für die Qualitätskontrolle von Produkten, mit dem Ansteuersignal 240a angesteuert.
  • Der Sensor 5, der für die Aufnahme der Bilder 2 verwendet wird, kann insbesondere beispielsweise zu dem technischen System 50, 60, 70 gehören, das in Schritt 250 angesteuert wird. Beispielsweise kann der Sensor 5 von einem Fahrzeug 50 mitgeführt werden.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • DE 102019202451 A1 [0002]

Claims (12)

  1. Verfahren (100) zum Trainieren eines Bildklassifikators (1), der dazu ausgebildet ist, die Pixel eines Eingabe-Bildes (2) jeweils einer von mehreren Klassen einer vorgegebenen Klassifikation zuzuordnen und so eine semantische Segmentierungskarte (3) des Eingabe-Bildes (2) zu erzeugen, mit den Schritten: • es werden Trainings-Bilder (2a) und zugehörige Soll-Segmentierungskarten (3a) bereitgestellt (110); • die Trainings-Bilder (2a) werden von dem Bildklassifikator (1) in Segmentierungskarten (3) übersetzt (120); • eine Abweichung der Segmentierungskarten (3) von den jeweiligen Soll-Segmentierungskarten (3a) wird mit einer Kostenfunktion (4) bewertet (130), wobei ◯ für jede Klasse der Klassifikation ein kontinuierliches Maß I' für die Größe der Schnittmenge der gemäß Segmentierungskarte (3) einerseits und gemäß Soll-Segmentierungskarte (3a) andererseits dieser Klasse zugeordneten Pixel ermittelt wird (131); ◯ für jede Klasse der Klassifikation ein kontinuierliches Maß U' für die Größe der Vereinigungsmenge der gemäß Segmentierungskarte (3) einerseits und gemäß Soll-Segmentierungskarte (3a) andererseits dieser Klasse zugeordneten Pixel ermittelt wird (132); und ◯ die Kostenfunktion (4) mit einem über alle Klassen gebildeten Mittel von Quotienten I'/U' aus jeweils einem Maß I' für die Größe der Schnittmenge und einem Maß U' für die Größe der Vereinigungsmenge korreliert ist (133); und • Parameter (1a), die das Verhalten des Bildklassifikators (1) charakterisieren, werden optimiert (140) mit dem Ziel, dass die weitere Verarbeitung von Trainings-Bildern (2a) durch den Bildklassifikator (1) voraussichtlich zu einer besseren Bewertung (4a) durch die Kostenfunktion (4) führt.
  2. Verfahren (100) nach Anspruch 1, wobei • das Maß I' für die Größe der Schnittmenge eine über alle Pixel der jeweiligen Klasse gebildete Summe von Werten beinhaltet (131a), die den kleineren der gemäß Segmentierungskarte (3) einerseits und gemäß Soll-Segmentierungskarte (3a) andererseits vorliegenden Klassifikations-Scores für das jeweilige Pixel in Bezug auf die Klasse angeben oder annähern; und/oder • das Maß U' für die Größe der Vereinigungsmenge eine über alle Pixel der jeweiligen Klasse gebildete Summe von Werten beinhaltet (132a), die den größeren der gemäß Segmentierungskarte (3) einerseits und gemäß Soll-Segmentierungskarte (3a) andererseits vorliegenden Klassifikations-Scores für das jeweilige Pixel in Bezug auf die Klasse angeben oder annähern.
  3. Verfahren (100) nach Anspruch 2, wobei • der größere von zwei Klassifikations-Scores a und b mit der Formel smax ( a , b ) = a exp ( a max ( a , b ) ) + b exp ( b max ( a , b ) ) 1 + exp ( min ( a , b ) max ( a , b ) )
    Figure DE102021204960A1_0011
    angenähert wird und • der kleinere von zwei Klassifikations-Scores a und b mit der Formel smin ( a , b ) = smax ( a , b )
    Figure DE102021204960A1_0012
    angenähert wird.
  4. Verfahren (100) nach einem der Ansprüche 1 bis 3, wobei die Kostenfunktion (4) einen Logarithmus des Mittels der Quotienten I'/U', oder eine Näherung dieses Logarithmus, beinhaltet (133a).
  5. Verfahren (100) nach Anspruch 4, wobei ein Logarithmus des Mittels der Quotienten I'/U' unter Nutzung der Logsumexp-Funktion aus Logarithmen der Quotienten I'/U' ermittelt wird.
  6. Verfahren (100) nach Anspruch 5 und 2 sowie optional zusätzlich Anspruch 3, wobei ein Logarithmus des Maßes für die Größe der Schnittmenge, und/oder ein Logarithmus Maß für die Größe der Vereinigungsmenge, unter Nutzung der Logsumexp-Funktion aus Logarithmen der Beiträge einzelner Pixel ermittelt wird.
  7. Verfahren (100) nach Anspruch 6, wobei die Logarithmen der Beiträge der einzelnen Pixel einer Segmentierungsschicht des Bildklassifikators (1) entnommen werden, deren Ausgabe zur Bildung der Segmentierungskarte noch zu diskretisieren ist.
  8. Verfahren (100) nach einem der Ansprüche 1 bis 7, wobei bei der Bildung des Mittels von Quotienten I'/U' • Klassen, für die die aus der Segmentierungskarte (3) einerseits und aus der Soll-Segmentierungskarte (3a) andererseits ermittelte Vereinigungsmenge eine vorgegebene Mindestgröße nicht erreicht, unberücksichtigt bleiben (134), und/oder • die Klassen in einer sonstigen von der Gleichverteilung abweichenden Weise untereinander gewichtet werden (135).
  9. Verfahren (200) mit den Schritten: • ein Bildklassifikator (1) wird bereitgestellt (210); • der Bildklassifikator (1) wird mit dem Verfahren (100) nach einem der Ansprüche 1 bis 8 trainiert (220); • Bilder (2), die mit mindestens einem Sensor (5) aufgenommen wurden, werden von dem trainierten Bildklassifikator (1*) zu semantischen Segmentierungskarten (3) verarbeitet (230); • aus den semantischen Segmentierungskarten (3) wird ein Ansteuersignal (240a) gebildet (240); und • ein Fahrzeug (50), und/oder ein System (60) für die Überwachung von Bereichen, und/oder ein System (70) für die Qualitätskontrolle von Produkten, wird mit dem Ansteuersignal (240a) angesteuert (250).
  10. Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, ein Verfahren (100, 200) nach einem der Ansprüche 1 bis 9 auszuführen.
  11. Maschinenlesbarer Datenträger mit dem Computerprogramm nach einem der Ansprüche 1 bis 10.
  12. Ein oder mehrere Computer mit dem Computerprogramm nach Anspruch 10, und/oder mit dem maschinenlesbaren Datenträger nach Anspruch 11.
DE102021204960.5A 2021-05-17 2021-05-17 Numerisch stabileres Trainingsverfahren für Bildklassifikatoren Pending DE102021204960A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102021204960.5A DE102021204960A1 (de) 2021-05-17 2021-05-17 Numerisch stabileres Trainingsverfahren für Bildklassifikatoren

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102021204960.5A DE102021204960A1 (de) 2021-05-17 2021-05-17 Numerisch stabileres Trainingsverfahren für Bildklassifikatoren

Publications (1)

Publication Number Publication Date
DE102021204960A1 true DE102021204960A1 (de) 2022-11-17

Family

ID=83806221

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102021204960.5A Pending DE102021204960A1 (de) 2021-05-17 2021-05-17 Numerisch stabileres Trainingsverfahren für Bildklassifikatoren

Country Status (1)

Country Link
DE (1) DE102021204960A1 (de)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019202451A1 (de) 2019-02-22 2020-08-27 Robert Bosch Gmbh Glättung für Bildklassifikation
DE102019213061A1 (de) 2019-08-29 2021-03-04 Volkswagen Aktiengesellschaft Klassifizierung von KI-Modulen
DE102020207564A1 (de) 2020-06-18 2021-12-23 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren und Vorrichtung zum Trainieren eines Bildklassifikators

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019202451A1 (de) 2019-02-22 2020-08-27 Robert Bosch Gmbh Glättung für Bildklassifikation
DE102019213061A1 (de) 2019-08-29 2021-03-04 Volkswagen Aktiengesellschaft Klassifizierung von KI-Modulen
DE102020207564A1 (de) 2020-06-18 2021-12-23 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren und Vorrichtung zum Trainieren eines Bildklassifikators

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
VAN BEERS, Floris, et al. Deep Neural Networks with Intersection over Union Loss for Binary Image Segmentation. In: ICPRAM. 2019. S. 438-445.

Similar Documents

Publication Publication Date Title
DE102018128289B4 (de) Verfahren und vorrichtung für eine autonome systemleistung und zur einstufung
DE102019124018A1 (de) Verfahren zum Optimieren von Tests von Regelsystemen für automatisierte Fahrdynamiksysteme
EP3393875B1 (de) Verfahren zum verbesserten erkennen von objekten durch ein fahrerassistenzsystem
DE102019209644A1 (de) Verfahren zum Trainieren eines neuronalen Netzes
DE112021006280T5 (de) Generieren von daten auf grundlage von vorab trainierten modellen unter verwendung generierender konkurrierender modelle
DE102019204139A1 (de) Training für künstliche neuronale Netzwerke mit besserer Ausnutzung der Lern-Datensätze
DE102021204550A1 (de) Verfahren zum Erzeugen wenigstens eines Datensatzes zum Trainieren eines Algorithmus maschinellen Lernens
EP3931760A1 (de) Training neuronaler netzwerke für effizientes implementieren auf hardware
DE102021204960A1 (de) Numerisch stabileres Trainingsverfahren für Bildklassifikatoren
DE102020205542A1 (de) Aufbereiten von Lern-Datensätzen mit verrauschten Labeln für Klassifikatoren
DE102020213253A1 (de) Computerimplementierte konsistente klassifikationsverfahren
DE102020214850A1 (de) Energie- und speichereffizientes Training neuronaler Netzwerke
DE102020210700A1 (de) Flexiblerer iterativer Betrieb künstlicher neuronaler Netzwerke
DE102016200854B4 (de) Verfahren und Recheneinheit zur Dimensionierung eines Klassifikators
DE102020208765A1 (de) Bildklassifikator mit variablen rezeptiven Feldern in Faltungsschichten
DE102019130484A1 (de) Verfahren und Vorrichtung zum Anlernen eines Ensembles von neuronalen Netzen
DE102019217951A1 (de) Verfahren und Vorrichtung zum Bestimmen einer Domänendistanz zwischen mindestens zwei Datendomänen
DE102019219926A1 (de) Verfahren und Vorrichtung zum Trainieren eines Neuronalen Netzes
DE102022204415A1 (de) Verbesserung der domänenübergreifenden Few-Shot-Objektdetektion
DE102020210729A1 (de) Training von Klassifikatornetzwerken auf eine bessere Erklärbarkeit der erhaltenen Klassifikations-Scores
DE102022208083A1 (de) Trainieren eines neuronalen Netzwerks mit Hilfe von Wissensgraphen
EP4125005A1 (de) Kontrastives representation learning für messdaten
DE102021200614A1 (de) Domänenunabhängiges Training von Bildklassifikatoren
DE102020211475A1 (de) Kaskadierte Cluster-Generator-Netze zum Erzeugen synthetischer Bilder
DE102022202985A1 (de) Nullschuss-Klassifikation von Messdaten

Legal Events

Date Code Title Description
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009660000

Ipc: G06V0030194000

R163 Identified publications notified