DE102020208765A1

DE102020208765A1 - Bildklassifikator mit variablen rezeptiven Feldern in Faltungsschichten

Info

Publication number: DE102020208765A1
Application number: DE102020208765.2A
Authority: DE
Inventors: Volker Fischer
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2022-01-20

Abstract

Bildklassifikator (1), umfassend mindestens ein erstes neuronales Netzwerk (2), das dazu ausgebildet ist, ein Eingabe-Bild (10), und/oder mindestens einen Teilbereich (10a) dieses Eingabe-Bildes (10), einer oder mehreren Klassen (3a-3c) einer vorgegebenen Klassifikation (3) zuzuordnen, wobei das erste neuronale Netzwerk (2) mindestens eine Faltungsschicht (21-23) aufweist, die dazu ausgebildet ist, mindestens einen Filterkern (21a) sukzessive an verschiedenen Auf-Positionen (11) auf die Eingabe (10) dieser Faltungsschicht (21-23) anzuwenden, indem Werte (12) der Eingabe (10) in einem Umfeld (11a') der Auf-Position (11) gewichtet summiert werden, wobei das Umfeld (11a') durch Zuführen eines von dem Filterkern (21a) vorgeschlagenen Umfelds (11a) zu mindestens einer Abbildung (4), deren Verhalten durch Abbildungs-Parameter (4a) charakterisiert ist, erhalten wird, und wobei die Anzahl der Abbildungs-Parameter (4a) unabhängig von der Größe des rezeptiven Feldes des Filterkerns (21a) ist.Verfahren (100) zum Trainieren und Verfahren (200) mit vollständiger Wirkkette bis zur Ansteuerung eines Fahrzeugs (50).

Description

Die vorliegende Erfindung betrifft Bildklassifikatoren, die ein Eingabe-Bild, und/oder mindestens einen Teilbereich hiervon, einer oder mehreren Klassen einer vorgegebenen Klassifikation zuordnen.
Stand der Technik
Beim Führen eines Fahrzeugs im Straßenverkehr nimmt der Fahrer eine Vielzahl von Informationen mit den Augen auf und klassifiziert die sichtbaren Objekte. Er erkennt beispielsweise Fahrbahnbegrenzungen, Verkehrszeichen, andere Fahrzeuge und Fußgänger als solche und kann entsprechende Reaktionen einleiten.
Für das zumindest teilweise automatisierte Fahren, bei dem das Fahrzeugumfeld mit einer Sensorik erfasst wird, wird daher ebenfalls eine Funktionalität benötigt, aus den mit der Sensorik erfassten Messdaten Objekte zu klassifizieren. Diese Messdaten liegen häufig in Form von Bildern vor.
Die DE 10 2018 205 539 A1 offenbart einen Klassifikator zum Erkennen von Objekten und/oder Situationen in Bilddaten und anderen Messdaten.
Offenbarung der Erfindung
Im Rahmen der Erfindung wurde ein Bildklassifikator entwickelt. Der Bildklassifikator umfasst mindestens ein erstes neuronales Netzwerk, das dazu ausgebildet ist, ein Eingabe-Bild, und/oder mindestens einen Teilbereich dieses Eingabe-Bildes, einer oder mehreren Klassen einer vorgegebenen Klassifikation zuzuordnen.
Das Eingabe-Bild kann mit einer oder mehreren beliebigen Abbildungsmodalitäten aufgenommen worden sein. Es kann beispielsweise ein Kamerabild, ein Videobild, ein Wärmebild, ein Radarbild und/oder ein Lidar-Bild sein.
Das erste neuronale Netzwerk weist mindestens eine Faltungsschicht auf. Diese Faltungsschicht ist dazu ausgebildet, mindestens einen Filterkern sukzessive an verschiedenen Auf-Positionen auf die Eingabe dieser Faltungsschicht anzuwenden. Dabei werden Werte der Eingabe in einem Umfeld der Auf-Position gewichtet summiert, wobei die Gewichte durch Zahlenwerte im Filterkern vorgegeben sind. Die gewichtete Summe wird dann jeweils in der auch „Merkmalskarte“ (feature map) genannten Ausgabe der Faltungsschicht der Auf-Position zugeordnet. Beispielsweise können in der Eingabe der Faltungsschicht Auf-Positionen, die in einem regelmäßigen Raster angeordnet sind, von dem Filterkern sukzessive „angefahren“ werden, und für jede Auf-Position wird eine gewichtete Summe in der Merkmalskarte vermerkt. Die Dimensionalität der Merkmalskarte ist typischerweise deutlich kleiner als die Dimensionalität der Eingabe der Faltungsschicht.
Das Umfeld der Auf-Position, in dem die gewichtete Summe von Werten der Eingabe gebildet wird, wird erhalten, indem ein von dem Filterkern vorgeschlagenes Umfeld mindestens einer Abbildung zugeführt wird. Das Verhalten dieser Abbildung ist durch Abbildungs-Parameter charakterisiert, deren Anzahl unabhängig von der Größe des rezeptiven Feldes des Filterkerns ist. Das rezeptive Feld des Filterkerns ist der Bereich, aus dem Werte zu der gewichteten Summe beitragen. Seine Größe kann beispielsweise in der Anzahl von Werten der Eingabe gemessen werden, die in die gewichtete Summe eingehen. Die Kombination des rezeptiven Feldes mit einer konkreten Auf-Position legt das von dem Filterkern vorgeschlagene Umfeld der Auf-Position fest, in dem die gewichtete Summe von Werten der Eingabe gebildet werden soll.
Wenn beispielsweise das durch den Filterkern vorgeschlagene Umfeld ursprünglich ein quadratischer Bereich mit Zentrum an der Auf-Position war, kann dieses Umfeld nach dem Durchlaufen der Abbildung etwa gedehnt, gestaucht, gestreckt, gedreht oder auch in mehrere Teile aufgespalten sein.
Die Veränderung des Umfelds der Auf-Position durch die Abbildung hat die Wirkung, dass das Verhalten des Bildklassifikators besser erklärbar wird: Wenn diese Veränderung beim Training des Bildklassifikators in die Optimierung mit einbezogen wird, „entscheidet“ sich der Bildklassifikator in bestimmten Situationen „bewusst“ dafür, bestimmte Werte der Eingabe der Faltungsschicht überzugewichten und dafür andere Werte unterzugewichten oder gar nicht mehr zu berücksichtigen. Damit ist unmittelbar einsichtig, auf welche Bereiche der Eingabe der Faltungsschicht die Entscheidung des Bildklassifikators letztendlich geschützt ist. Da es wiederum eine räumliche Korrespondenz zwischen der Faltungsschicht und dem Eingabe-Bild gibt, ist also auch eine Aussage dahingehend möglich, welche Anteile des Eingabe-Bildes für die Entscheidung des Bildklassifikators besonders wichtig sind.
Insbesondere kann beispielsweise untersucht werden, inwieweit die Anteile des Eingabe-Bildes, auf die der Bildklassifikator seine Entscheidung gestützt hat, mit der konkreten Anwendung in Einklang stehen. Hiervon kann das Vertrauen, das dem Bildklassifikator in der Anwendung entgegengebracht werden kann, maßgeblich abhängen.
Wenn beispielsweise eine Verkehrssituation, die von einem zumindest teilweise automatisiert fahrenden Fahrzeug zu bewältigen ist, auf Grund von Bildbereichen klassifiziert wird, auf die es objektiv tatsächlich ankommt, dann ist der Entscheidung des Bildklassifikators viel mehr zu trauen als wenn die Entscheidung auf Grund von Bildbereichen getroffen wurde, die objektiv von untergeordneter Bedeutung sind.
Ähnliches gilt bei der optischen Qualitätskontrolle von in Serie gefertigten Produkten. Hier kann die Qualitätsbeurteilung beispielsweise davon abhängen, ob sich an dem Produkt bestimmte Mängel oder Schäden zeigen oder eben nicht. Daher sollte beispielsweise die Entscheidung, ein Produkt als „nicht OK“ auszusondern, auf tatsächlich optisch erkennbare Mängel oder Schäden gestützt sein.
Eine Erklärbarkeit der hier beschriebenen Art lässt sich theoretisch auch mit der sogenannten „deformierbaren Faltung“ (deformable convolution) realisieren, bei der für jeden im Umfeld der Auf-Position enthaltenen Wert der Eingabe der Faltungsschicht beliebige Ersatzkoordinaten innerhalb dieser Eingabe gewählt werden können, von denen der Wert stattdessen bezogen werden sollte. Der Bildklassifikator erhält dadurch jedoch extrem viele zusätzliche Parameter, nämlich 2*RF*W*H, wobei RF die Anzahl der Werte im rezeptiven Feld des Filterkerns sowie W und H die Breite bzw. Höhe der unter Anwendung des Filterkerns erzeugten Merkmalskarte sind. Bei gleicher gewünschter Genauigkeit der Klassifikation erhöht ein derartiger Zuwachs der Parameteranzahl den Bedarf an Trainingsdaten und auch an Trainingszeit. Wenn in der konkreten Anwendung nun die Menge der zur Verfügung stehenden Trainingsdaten vorgegeben ist, führt eine massive Vergrößerung der Parameteranzahl letztendlich zu einer Verschlechterung der erzielbaren Genauigkeit.
Indem nun aber der Kreis der möglichen Abbildungen eingeschränkt wird auf Abbildungen mit einer Anzahl von Abbildungs-Parametern, die unabhängig von der Größe des rezeptiven Feldes des Filterkerns ist, gesellen sich zu den beim Training des Bildklassifikators ohnehin schon zu trainierenden Klassifikator-Parametern des ersten neuronalen Netzwerks deutlich weniger Abbildungs-Parameter. Dadurch kann das Training im Wesentlichen mit der gleichen Menge an Trainingsdaten auskommen und dennoch auf die gleiche Genauigkeit der Klassifikation führen. Die Genauigkeit der Klassifikation kann beispielsweise anhand von Testdaten gemessen werden.
Der Effekt ist noch ausgeprägter, wenn in einer Filterschicht mehr als ein Filterkern zum Einsatz kommt: Indem die Anzahl der Abbildungs-Parameter unabhängig von der Größe des rezeptiven Feldes des Filterkerns ist, kann beispielsweise ein und dieselbe Abbildung, und somit ein und derselbe Satz Abbildungs-Parameter, für mehrere Filterkerne in der Filterschicht wiederverwendet werden. Es kann also lediglich ein Satz mit wenigen Parametern ausreichen, um die Umgebungen, aus denen eine Vielzahl von Filterkernen in der Faltungsschicht jeweils ihre Eingaben bezieht, zu verändern.
In einer besonders vorteilhaften Ausgestaltung umfasst die Abbildung eine affine Transformation des Umfelds der Auf-Position. Eine derartige Transformation erhält die Kollinearität von Punkten, die Parallelität von Geraden sowie Teilverhältnisse von Strecken. Der Kreis der möglichen Transformationen ist dann hinreichend groß, um viele verschiedene Veränderungen des Umfelds der Auf-Position zu ermöglichen. Gleichzeitig ist die Anzahl der für die Beschreibung benötigten Abbildungs-Parameter klein und unabhängig von der Anzahl der Abbildungs-Parameter: Die affinen Transformationen werden durch Parameter charakterisiert, die Änderungen geometrischer Formen beschreiben, und die Anzahl dieser Parameter hängt nicht davon ab, wie groß die geänderten Formen sind oder wie viele Werte der Eingabe der Faltungsschicht in eine derartige Form (etwa ein Rechteck oder eine Raute) hineinpassen.
Die Abbildung kann insbesondere beispielsweise eine Kombination aus einer linearen Abbildung und einer Verschiebung des Umfelds umfassen. Eine lineare Abbildung in zwei Dimensionen ist durch vier Parameter charakterisiert, und eine Verschiebung in zwei Dimensionen ist durch weitere zwei Parameter charakterisiert. Somit ist die gesamte Abbildung durch lediglich sechs zusätzliche Abbildungs-Parameter charakterisiert. Wenn der Kreis der Abbildungen weiter eingeschränkt wird, wie etwa auf Drehungen mit einem Parameter, Skalierungen mit einem Parameter, und/oder Verschiebungen mit zwei Parametern, kann die Zahl der insgesamt benötigten Abbildungs-Parameter noch weiter reduziert werden.
In einer weiteren vorteilhaften Ausgestaltung hängen Abbildungs-Parameter, die auf das durch mindestens einen Filterkern vorgeschlagene Umfeld der Auf-Position wirken, von der Auf-Position ab. Auf diese Weise kann die Aufmerksamkeit des Bildklassifikators gezielt auf bestimmte Bereiche des Eingabe-Bildes fokussiert werden. Beispielsweise kann für die Qualitätskontrolle von Produkten die Belegung der menschlichen Netzhaut mit Sinneszellen, die einen zentralen Bereich des schärfsten Sehens beinhaltet, nachgebildet werden. Für den Straßenverkehr kann es hingegen beispielsweise auch vorteilhaft sein, Aufmerksamkeit des Bildklassifikators mindestens am linken und rechten Rand des Eingabe-Bildes zu konzentrieren. Hier sind von vielen Objekten im Zentrum des Eingabe-Bildes, die schon seit längerer Zeit beobachtet werden, keine Überraschungen zu erwarten. Wenn aber ein Objekt plötzlich und unerwartet von der Seite in das Gesichtsfeld der Kamera tritt, muss so schnell wie möglich geklärt werden, um welches Objekt es sich handelt und ob das eigene Fahrzeug hierauf eventuell reagieren muss.
Die Abbildungs-Parameter können beispielsweise als Ergebnis eines Trainings des Bildklassifikators in dem Bildklassifikator hinterlegt sein. Beim Training können sich also die Abbildungs-Parameter zu den Klassifikator-Parametern gesellen, die das Verhalten des für die Klassenzuordnung zuständigen ersten neuronalen Netzwerks charakterisiert. Bis auf die Hinzufügung dieser Parameter muss das Training dann nicht grundlegend verändert werden.
In einer weiteren besonders vorteilhaften Ausgestaltung weist der Bildklassifikator zusätzlich ein zweites neuronales Netzwerk auf, dessen Verhalten durch trainierte Abbildungs-Netzwerk-Parameter charakterisiert ist. Dieses zweite neuronale Netzwerk ist dann dazu ausgebildet, die Auf-Position, und/oder mindestens einen Teil der Eingabe der Faltungsschicht, zu mindestens einem Ergebnis zu verarbeiten. Der Bildklassifikator zieht dieses Ergebnis heran, um Abbildungs-Parameter zu ermitteln. Das zweite neuronale Netzwerk ist dann also dafür zuständig, die Aufmerksamkeit des ersten neuronalen Netzwerks räumlich zu steuern. Das erste neuronale Netzwerk fällt auf Grund der Bildinformation in den Bereichen, auf die das zweite neuronale Netzwerk die Aufmerksamkeit gelenkt hat, die Entscheidung über die Klassenzuordnung.
Hierbei sind auch Mischformen möglich. So kann beispielsweise ein Teil der Abbildungs-Parameter im Bildklassifikator fest eingestellt sein, während ein anderer Teil der Abbildungs-Parameter aus einem zweiten neuronalen Netzwerk bezogen wird, das im laufenden Betrieb weiter lernen kann.
Weiterhin kann mit der Aufteilung auf fest im Bildklassifikator hinterlegte Abbildungs-Parameter einerseits und aus einem zweiten neuronalen Netzwerk bezogene Abbildungs-Parameter andererseits ein Kompromiss zwischen Speicherbedarf und Bedarf an Rechenleistung eingestellt werden. Ein in einem Speicher des Bildklassifikators hinterlegter Abbildungs-Parameter ist sofort verfügbar, aber die Speicherung einer großen Zahl Abbildungs-Parameter benötigt viel Speicherplatz. Ein trainiertes zweites neuronales Netzwerk hingegen ist ein sehr stark komprimierter „Speicher“, aus dem Abbildungs-Parameter für eine beliebige Vielzahl von Situationen bezogen werden können. Dafür muss für den Abruf der Abbildungs-Parameter jedes Mal eine Inferenz dieses zweiten neuronalen Netzwerks durchlaufen werden.
Die konkrete Anwendung des Bildklassifikators kann Randbedingungen vorgeben, anhand derer der Kompromiss zwischen Speicherbedarf und Bedarf an Rechenleistung zu wählen ist. So sind beispielsweise in Steuergeräten für Fahrzeuge der verfügbare Platz für Hardwarekomponenten, die maximale Leistungsaufnahme aus dem Bordnetz des Fahrzeugs, und/oder die maximale Wärmeabgabe, begrenzt.
Der Bildklassifikator kann die Ausgabe der mindestens einen Faltungsschicht in vielfältiger Weise nutzen, um hieraus Aussagen über das Eingabe-Bild oder Teile hiervon abzuleiten.
Beispielsweise kann der Bildklassifikator dazu ausgebildet sein, das Eingabe-Bild als Ganzes einer oder mehreren Klassen der vorgegebenen Klassifikation zuzuordnen. Die Klassen können beispielsweise Objekte repräsentieren, die das Eingabe-Bild zeigt. Die Klassen können aber auch beispielsweise eine Gesamtbewertung des Eingabe-Bildes repräsentieren. So kann etwa eine Verkehrssituation als „kritisch“ oder ein gefertigtes Produkt als „nicht OK“ bewertet werden.
Der Bildklassifikator kann beispielsweise auch dazu ausgebildet sein, Teilbereiche und/oder Pixel des Eingabe-Bildes einer oder mehreren Klassen der vorgegebenen Klassifikation zuzuordnen, so dass eine semantische Segmentierung des Eingabe-Bildes entsteht. Eine solche semantische Segmentierung kann insbesondere beispielsweise von Fahrassistenzsystemen und Systemen für das zumindest teilweise automatisierte Fahren genutzt werden.
Der Bildklassifikator kann weiterhin beispielsweise dazu ausgebildet sein, mindestens ein in dem Eingabe-Bild erkanntes Objekt einer oder mehreren Klassen der vorgegebenen Klassifikation zuzuordnen. Das Objekt kann in beliebiger Weise in dem Eingabe-Bild erkannt werden. Beispielsweise kann mit einem geeigneten Algorithmus eine „Bounding-Box“ ermittelt werden, in der sich das Objekt befindet, und anschließend kann der Inhalt dieser Bounding-Box klassifiziert werden.
Wie zuvor erläutert, ist nicht nur die Klassenzuordnung durch den Bildklassifikator dem maschinellen Lernen zugänglich, sondern auch die Steuerung der Aufmerksamkeit des Bildklassifikators über die Abbildung. Daher bezieht sich die Erfindung auch auf ein Verfahren zum Trainieren des Bildklassifikators.
Im Rahmen dieses Verfahrens wird zunächst der Bildklassifikator bereitgestellt. Das Verhalten des ersten neuronalen Netzwerks wird durch Klassifikator-Parameter charakterisiert. Es werden Lern-Bilder und zugehörige Lern-Ausgaben, auf die der Bildklassifikator die Lern-Bilder idealerweise abbilden soll, bereitgestellt.
Die Lern-Bilder werden von dem Klassifikator zu Ausgaben verarbeitet. Die Übereinstimmung dieser Ausgaben mit den Lern-Ausgaben wird mit einer vorgegebenen Kostenfunktion bewertet. Es werden nun einerseits Klassifikator-Parameter und andererseits Abbildungs-Parameter und/oder Abbildungs-Netzwerk-Parameter optimiert mit dem Ziel, dass die bei der künftigen Verarbeitung von Lern-Bildern erhaltenen Ausgaben von der Kostenfunktion besser bewertet werden.
Dabei besteht Wahlfreiheit dahingehend, inwieweit Klassifikator-Parameter einerseits und Abbildungs-Parameter, bzw. Abbildungs-Netzwerk-Parameter, andererseits gleichzeitig oder im Wechsel trainiert werden.
Wie zuvor erläutert, kann der Bildklassifikator besonders vorteilhaft in Fahrzeugen für die Analyse von Verkehrssituationen eingesetzt werden. Daher bezieht sich die Erfindung auch auf ein weiteres Verfahren, bei dem der Bildklassifikator in einem Fahrzeug eingesetzt wird.
Im Rahmen dieses Verfahrens wird der Bildklassifikator bereitgestellt. Weiterhin wird mindestens ein Eingabe-Bild bereitgestellt, das mit mindestens einem von einem Fahrzeug getragenen Sensor aufgenommen wurde. Das Eingabe-Bild wird von dem Bildklassifikator zu einer Ausgabe verarbeitet. Aus der Ausgabe wird ein Ansteuersignal für das Fahrzeug gebildet, und das Fahrzeug wird mit diesem Ansteuersignal angesteuert.
Dabei kann insbesondere beispielsweise der Bildklassifikator mit dem zuvor beschriebenen Verfahren trainiert werden.
Die Verfahren können insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, eines der beschriebenen Verfahren auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen.
Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.
Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.
Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
Figurenliste
Es zeigt:

1 Ausführungsbeispiel des Bildklassifikators 1;
2 Ausführungsbeispiel des Verfahrens 100 zum Trainieren des Bildklassifikators 1;
3 Ausführungsbeispiel des Verfahrens 200 mit vollständiger Wirkkette bis zum Ansteuern eines Fahrzeugs 50.

1 zeigt ein Ausführungsbeispiel eines Bildklassifikators 1, der dazu ausgebildet ist, ein Eingabe-Bild 10, und/oder Teilbereiche 10a oder Pixel 10b hieraus, einer oder mehreren Klassen 3a-3c einer vorgegebenen Klassifikation 3 zuzuordnen.
Der Bildklassifikator 1 umfasst ein erstes neuronales Netzwerk 2, dessen Verhalten durch Klassifikator-Parameter 2a charakterisiert ist. In dem in 1 gezeigten Beispiel enthält das erste neuronale Netzwerk 2 drei Faltungsschichten 21-23, in denen aus dem Eingabe-Bild 10 beispielsweise sukzessive Merkmale extrahiert werden können, sowie eine vollvernetzte Schicht 24, die eine Zuordnung zu einer oder mehreren Klassen 3a-3c als Ausgabe 7 ausgibt.
Nur für die erste Faltungsschicht 21 ist beispielhaft eingezeichnet, dass zu dieser Faltungsschicht 21 ein Filterkern 21a gehört. Die Eingabe dieser Faltungsschicht 21 ist identisch mit dem Eingabe-Bild 10. Die Ausgabe der Faltungsschicht 21 wird ermittelt, indem der Filterkern 21a an mehrere Auf-Positionen 11 im Eingabe-Bild 10 „bewegt“ wird und Werte 12 aus einem Umfeld 11a' der Auf-Position 11 gewichtet summiert werden. In 1 ist der Übersichtlichkeit halber nur eine der Auf-Positionen mit dem Bezugszeichen 11 bezeichnet.
Das Umfeld 11a' wird aus einem vom Filterkern 21a vorgeschlagenen Umfeld 11a erhalten, indem dieses Umfeld 11a einer zugeführt wird. Das Verhalten dieser ist durch Abbildungs-Parameter 4a charakterisiert. Abbildungs-Parameter 4a können beispielsweise in einem Speicher 5 in dem Bildklassifikator 1 hinterlegt sein. Alternativ oder auch in Kombination hierzu können Abbildungs-Parameter aus der Ausgabe 6b eines zweiten neuronalen Netzwerks 6 ermittelt werden, das die Auf-Position 11, und/oder mindestens einen Teil des Eingabe-Bildes 10 (bzw. der sonstigen Eingabe der Faltungsschicht), als Eingabe erhält. Das Verhalten des zweiten neuronalen Netzwerks ist durch Abbildungs-Netzwerk-Parameter 6a charakterisiert.
2 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100 zum Trainieren des Bildklassifikators 1. In Schritt 110 wird der Bildklassifikator 1 im noch untrainierten Zustand oder in einem vortrainierten Zustand bereitgestellt. In Schritt 120 werden Lern-Bilder 13a sowie Lern-Ausgaben 13b, auf die der Bildklassifikator die Lern-Bilder 13a im trainierten Zustand abbilden soll, bereitgestellt.
Die Lern-Bilder werden in Schritt 130 von dem Bildklassifikator 1 zu Ausgaben 7 verarbeitet. Die Übereinstimmung dieser Ausgaben 7 mit den Lern-Ausgaben 13b wird in Schritt 140 mit einer vorgegebenen Kostenfunktion 14 bewertet.
In Schritt 150 werden sowohl Klassifikator-Parameter 2a als auch Abbildungs-Parameter 4a und/oder Abbildungs-Netzwerk-Parameter 6a des Bildklassifikators 1 optimiert mit dem Ziel, dass die bei der künftigen Verarbeitung von Lern-Bildern 13a erhaltenen Ausgaben 7 von der Kostenfunktion 14 besser bewertet werden. Das Training kann beendet werden, wenn ein beliebiges Abbruchkriterium, beispielsweise hinsichtlich der erzielten Genauigkeit, der Änderungsrate der Parameter, und/oder der Epochenzahl, erfüllt ist. Der dann erreichte Zustand 2a*, 4a*, 6a* der Parameter 2a, 4a bzw. 6a ist der fertig trainierte Zustand.
3 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 200 mit der vollständigen Wirkkette bis zur Ansteuerung eines Fahrzeugs 50.
In Schritt 210 wird der zuvor beschriebene Bildklassifikator 1 bereitgestellt, wobei dieser gemäß Block 211 insbesondere beispielsweise mit dem zuvor beschriebenen Verfahren 100 trainiert werden. In Schritt 220 wird mindestens ein Eingabe-Bild 10 bereitgestellt, das mit mindestens einem von einem Fahrzeug 50 getragenen Sensor aufgenommen wurde.
Das Eingabe-Bild 10 wird in Schritt 230 von dem Bildklassifikator zu einer Ausgabe 7 verarbeitet, die die Zuordnung zu einer oder mehreren Klassen 3a-3c der vorgegebenen Klassifikation 3 repräsentiert. In Schritt 240 wird aus dieser Ausgabe 7 ein Ansteuersignal 240a für das Fahrzeug 50 gebildet. In Schritt 250 wird das Fahrzeug 50 mit diesem Ansteuersignal 240a angesteuert.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102018205539 A1 [0004]

Claims

Bildklassifikator (1), umfassend mindestens ein erstes neuronales Netzwerk (2), das dazu ausgebildet ist, ein Eingabe-Bild (10), und/oder mindestens einen Teilbereich (10a) dieses Eingabe-Bildes (10), einer oder mehreren Klassen (3a-3c) einer vorgegebenen Klassifikation (3) zuzuordnen, wobei das erste neuronale Netzwerk (2) mindestens eine Faltungsschicht (21-23) aufweist, die dazu ausgebildet ist, mindestens einen Filterkern (21a) sukzessive an verschiedenen Auf-Positionen (11) auf die Eingabe (10) dieser Faltungsschicht (21-23) anzuwenden, indem Werte (12) der Eingabe (10) in einem Umfeld (11a') der Auf-Position (11) gewichtet summiert werden, wobei das Umfeld (11a') durch Zuführen eines von dem Filterkern (21a) vorgeschlagenen Umfelds (11a) zu mindestens einer Abbildung (4), deren Verhalten durch Abbildungs-Parameter (4a) charakterisiert ist, erhalten wird, und wobei die Anzahl der Abbildungs-Parameter (4a) unabhängig von der Größe des rezeptiven Feldes des Filterkerns (21a) ist.
Bildklassifikator (1) nach Anspruch 1, wobei die Abbildung (4) eine affine Transformation des Umfelds (11a) umfasst.
Bildklassifikator (1) nach einem der Ansprüche 1 bis 2, wobei die Abbildung (4) eine Kombination aus einer linearen Abbildung und einer Verschiebung des Umfelds (11a) umfasst.
Bildklassifikator (1) nach einem der Ansprüche 1 bis 3, wobei Abbildungs-Parameter (4a), die auf das durch mindestens einen Filterkern (21a) vorgeschlagene Umfeld (11a) der Auf-Position (11) wirken, von der Auf-Position (11) abhängen.
Bildklassifikator (1) nach einem der Ansprüche 1 bis 4, wobei Abbildungs-Parameter (4a) als Ergebnis eines Trainings des Bildklassifikators (1) in dem Bildklassifikator (1) hinterlegt sind.
Bildklassifikator (1) nach einem der Ansprüche 1 bis 5, wobei der Bildklassifikator (1) zusätzlich ein zweites neuronales Netzwerk (6) aufweist, dessen Verhalten durch trainierte Abbildungs-Netzwerk-Parameter (6a) charakterisiert ist und das dazu ausgebildet ist, die Auf-Position (11), und/oder mindestens einen Teil der Eingabe (10) der Faltungsschicht (21-23), zu mindestens einem Ergebnis (6b) zu verarbeiten, und wobei der Bildklassifikator (1) dazu ausgebildet ist, Abbildungs-Parameter (4a) unter Heranziehung dieses Ergebnisses (6b) zu ermitteln.
Bildklassifikator (1) nach einem der Ansprüche 1 bis 6, dazu ausgebildet, unter Heranziehung der Ausgabe der mindestens einen Faltungsschicht (21-23) • das Eingabe-Bild (10) als Ganzes einer oder mehreren Klassen (3a-3c) der vorgegebenen Klassifikation (3) zuzuordnen; und/oder • Teilbereiche (10a) und/oder Pixel (10b) des Eingabe-Bildes (10) einer oder mehreren Klassen (3a-3c) der vorgegebenen Klassifikation (1) zuzuordnen, so dass eine semantische Segmentierung des Eingabe-Bildes (10) entsteht; und/oder • mindestens ein in dem Eingabe-Bild (10) erkanntes Objekt einer oder mehreren Klassen (3a-3c) der vorgegebenen Klassifikation (3) zuzuordnen.
Verfahren (100) zum Trainieren eines Bildklassifikators (1) nach einem der Ansprüche 1 bis 7, mit den Schritten: • der Bildklassifikator (1) wird bereitgestellt (110), wobei das Verhalten seines ersten neuronalen Netzwerks (2) durch Klassifikator-Parameter (2a) charakterisiert wird; • Lern-Bilder (13a) und zugehörige Lern-Ausgaben (13b), auf die der Bildklassifikator (1) die Lern-Bilder (13a) idealerweise abbilden soll, werden bereitgestellt (120); • die Lern-Bilder (13a) werden von dem Bildklassifikator (1) zu Ausgaben (7) verarbeitet (130); • die Übereinstimmung der Ausgaben (7) mit den Lern-Ausgaben (13b) wird mit einer vorgegebenen Kostenfunktion (14) bewertet (140); • sowohl Klassifikator-Parameter (2a) als auch Abbildungs-Parameter (4a) und/oder Abbildungs-Netzwerk-Parameter (6a) des Bildklassifikators (1) werden optimiert (150) mit dem Ziel, dass die bei der künftigen Verarbeitung von Lern-Bildern (13a) erhaltenen Ausgaben (7) von der Kostenfunktion (14) besser bewertet werden.
Verfahren (200) mit den Schritten: • ein Bildklassifikator (1) nach einem der Ansprüche 1 bis 7 wird bereitgestellt (210); • es wird mindestens ein Eingabe-Bild (10) bereitgestellt (220), das mit mindestens einem von einem Fahrzeug (50) getragenen Sensor aufgenommen wurde; • das Eingabe-Bild (10) wird von dem Bildklassifikator (1) zu einer Ausgabe (7) verarbeitet (230); • aus der Ausgabe (7) wird ein Ansteuersignal (240a) für das Fahrzeug (50) gebildet (240); • das Fahrzeug (50) wird mit diesem Ansteuersignal (240a) angesteuert (250).
Verfahren (200) nach Anspruch 9, wobei der Bildklassifikator (1) mit dem Verfahren (100) nach Anspruch 8 trainiert wird (211).
Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, ein Verfahren (100, 200) nach einem der Ansprüche 1 bis 10 auszuführen.
Maschinenlesbarer Datenträger und/oder Downloadprodukt mit dem Computerprogramm nach Anspruch 11.
Computer, ausgerüstet mit dem Computerprogramm nach Anspruch 11, und/oder mit dem maschinenlesbaren Datenträger und/oder Downloadprodukt nach Anspruch 12.