DE102020120934A1

DE102020120934A1 - Verfahren zum Bereitstellen eines komprimierten neuronalen Netzes zur Multi-Label Multi-Klassen Kategorisierung, Fahrzeugassistenzeinrichtung zur Umgebungskategorisierung und Kraftfahrzeug

Info

Publication number: DE102020120934A1
Application number: DE102020120934.7A
Authority: DE
Inventors: Naveen Shankar NAGARAJA; Manoj Rohit Vemparala; Nael Fasfous; Alexander Frickenstein; Barbara Hilsenbeck; Mohammad-Ali Nikouei Mahani; Johannes Niedermayer; Alvaro Marcos-Ramiro; Michael Schmidt
Original assignee: Bayerische Motoren Werke AG
Current assignee: Bayerische Motoren Werke AG
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2022-02-10

Abstract

Die Erfindung betrifft ein Verfahren zum Bereitstellen eines komprimierten neuronalen Netzes zur Multi-Label Multi-Klassen-Kategorisierung von Eingangsdaten. Die Erfindung betrifft weiter eine Assistenzeinrichtung mit einem derartigen komprimierten neuronalen Netz sowie ein damit ausgestattetes Kraftfahrzeug. Bei dem Verfahren wird ein neuronales Netz mittels bereitgestellter Trainingsdaten, die mit mehreren vorgegebenen Labeln und Klassen annotiert sind, in einer ersten Phase zum entsprechenden Kategorisieren von Eingangsdaten trainiert. In einer zweiten Phase wird das so trainierte neuronale Netz unter Anwendung von bestärkendem Lernen komprimiert. Dabei entfernt ein vorgegebener Agent Filter des trainierten neuronalen Netzes unter Maximierung einer vorgegebenen Belohnungsfunktion. Diese Belohnungsfunktion belohnt eine Reduzierung der Anzahl von Filtern bei gleichzeitiger Minimierung eines Genauigkeitsverlusts und Maximierung der Interpretierbarkeit des neuronalen Netzes.

Description

Die vorliegende Erfindung betrifft ein Verfahren zum Bereitstellen eines künstlichen neuronalen Netzes zur Multi-Label Multi-Klassenkategorisierung von Eingangsdaten, eine entsprechende Einrichtung und ein damit ausgestattetes Kraftfahrzeug.
Künstliche neuronale Netze können in verschiedenen Anwendungsbereichen bereits heutzutage bemerkenswert gute Ergebnisse liefern, weshalb ein verstärkter Einsatz angestrebt wird. Beispielsweise für Anwendungen im Bereich der Fahrzeugtechnik hat sich die Methodik der Multi-Label Multi-Klassen-Kategorisierung mittels neuronaler Netze als vorteilhaft erwiesen. Die besten Ergebnisse werden dabei oftmals mit relativ komplexen und daher entsprechend berechnungs- und ressourcenintensiven neuronalen Netzen erzielt. Nicht in jedem Anwendungsfall kann jedoch auf praktikable Weise ausreichend Berechnungskapazität zur Anwendung derartiger neuronaler Netze zur Verfügung gestellt werden. Ein Ansatz besteht in der Komprimierung durch Stutzen oder Ausdünnen (englisch: pruning) komplexer neuronaler Netze, was jedoch oftmals zu einer verminderten Qualität jeweiliger Ergebnisse führt. So können sich etwa die Genauigkeit und Robustheit bzw. insgesamt die Performance entsprechend ausgedünnter neuronaler Netze verschlechtern. Die Genauigkeit beschreibt beispielsweise eine Rate, mit der das neuronale Netz korrekte Ergebnisse liefert. Die Robustheit beschreibt beispielsweise eine reduzierte Anfälligkeit des neuronalen Netzes zur Fehlkategorisierung von jeweiligen Trainingsdaten abweichender oder zur Irreführung des neuronalen Netzes gestalteter Daten.
Ein Beispiel zur Anwendung einer Multi-Label Multi-Klassen-Methode ist aus der CN 109 657 082 A bekannt. Dabei wird ein vollständig faltendes neuronales Netzwerk (FCN, fully convolutional neural network) anhand von Bilddaten darauf trainiert, eine Multi-Klassen-Labelvorhersage für jedes Bild durchzuführen, indem mittels des neuronalen Netzwerks eine Segmentierung erzeugt wird. Aus jedem Bild werden lokale Merkmale extrahiert, um einen Merkmalsvektor zu erhalten. Basierend auf extrahierten Multiskalenmerkmalen und den Multi-Label-Informationen wird dann eine Multi-Label-Abfrage in einem zweischrittigen Grob-zu-Fein-Vorgang durchgeführt. Damit soll eine verbesserte Genauigkeit im Vergleich zu herkömmlichen Methoden erreicht werden.
Ein weiteres Beispiel für die Anwendung neuronaler Netze im Fahrzeug- oder Verkehrsbereich ist in der US 10,650,548 B1 in Form eines Verfahrens zum Detektieren eines Ortes eines autonomen Fahrzeugs durch Nutzung von Geländemerkmalen beschrieben. Wird dort eine Live-Merkmalskarte gewonnen, so werden darin Merkmalskombinationen für jedes Referenzobjekt, das in einer Datenregionen enthalten ist, die zum Ort und zur Stellung des Fahrzeugs korrespondiert, detektiert. Durch ein Berechnungsgerät werden Bildkoordinaten der Referenzobjekte in einem Live-Bild bestimmt durch Bezugnahme auf die Koordinaten in den Merkmalskarten. Das Berechnungsgerät detektiert dann optimierte Koordinaten des Fahrzeugs durch Bezugnahme auf 3-dimensionale Koordinaten der Referenzobjekte in der realen Welt. Auf diese Weise soll die Position eines autonomen Fahrzeuges besonders genau bestimmt werden, insbesondere genauer als dies typischerweise mit dem satellitengestützten globalen Positionierungssystem (GPS) möglich ist, und dazu notwendiger Rechenaufwand im Vergleich zu einem konventionellen Ansatz eingespart werden.
Aufgabe der vorliegenden Erfindung ist es, eine besonders effiziente und gleichzeitig effektive Datenkategorisierung mittels eines künstlichen neuronalen Netzes zu ermöglichen.
Diese Aufgabe wird erfindungsgemäß durch die Gegenstände der unabhängigen Patentansprüche gelöst. Vorteilhafte Ausgestaltungen und Weiterbildungen der vorliegenden Erfindung sind in den abhängigen Patentansprüchen, in der Beschreibung und in der Zeichnung angegeben.
Ein erfindungsgemäßes Verfahren dient zum Bereitstellen bzw. Erzeugen eines künstlichen neuronalen Netzes zur Multi-Label Multi-Klassen-Kategorisierung von jeweiligen bereitgestellten und durch das neuronale Netz verarbeiteten Eingangsdaten. Bei dem Verfahren werden Trainingsdaten bereitgestellt, die mit mehreren vorgegebenen Labeln und Klassen annotiert sind. Die Trainingsdaten weisen also eine hierarchische Annotierung auf, wobei im vorliegenden Sinne ein Label eine hierarchisch übergeordnete Annotierung ist, der ihrerseits mehrere untergeordnete Annotierungen, hier nämlich mehrere Klassen, zugeordnet sein können. Beispielsweise kann für fahrzeug- oder verkehrstechnische Anwendungen zur Kategorisierung von Bildern oder Bilddaten, die eine jeweilige Umgebung oder Verkehrsszenen darstellen, als ein erstes Label „Straße“ mit den zugeordneten Klassen „Autobahn“, „Ausfahrt“, „nicht-Autobahn“, „innerstädtische Straße“ und/oder dergleichen vorgegebenen sein. Als ein zweites Label kann in diesem Beispiel etwa „Baustellenbereich“ mit den zugeordneten Klassen „ja“, „nein“ vorgegeben sein. Ebenso können weitere oder andere Label und/oder Klassen vorgegebenen sein. Die Zuweisung von Labeln und Klassen unterscheidet sich dabei dadurch, dass sich Wahrscheinlichkeiten, die jeweils für die einem Label zugeordneten Klassen durch das neuronale Netzwerk bestimmt oder vergeben werden, zu 1 oder zu 100 % addieren, während verschiedene Label für die jeweiligen Eingangsdaten, beispielsweise für ein jeweiliges Bild, mit voneinander unabhängigen Wahrscheinlichkeiten bestimmt oder vergeben werden können. Die für alle Label vergebenen Wahrscheinlichkeiten müssen sich also für ein Eingangsdatum, etwa für ein einzelnes verarbeitetes Bild, nicht zu 1 oder 100 % addieren. Die Trainingsdaten können also insbesondere Bilder oder Bilddaten sein oder umfassen, sind jedoch nicht notwendigerweise darauf beschränkt. Beispielsweise könnten die Trainingsdaten ebenso Lidardaten oder dergleichen sein oder umfassen.
Weiter wird als Teil des erfindungsgemäßen Verfahrens in einer ersten Phase das neuronale Netz mittels der bereitgestellten Trainingsdaten zum Kategorisieren von ihm zugeführten Eingangsdaten gemäß den vorgegebenen Labeln und Klassen trainiert. Die Eingangsdaten können während dieses Trainings die Trainingsdaten sein. Bei einer späteren Anwendung des trainierten neuronalen Netzes, also zur Inferenzzeit, können die Eingangsdaten im entsprechenden Einsatz oder Anwendungsfall anfallende zu verarbeitenden Daten, also Live- oder Arbeitsdaten sein. Das neuronale Netz wird hier also zur Prädiktion von wenigstens einem Label und einer Klasse oder Klassifizierung für jeweilige Eingangsdaten trainiert. Dementsprechend kann das derart trainierte neuronale Netz dann für ihm zugeführte, also von dem neuronalen Netz verarbeitete Eingangsdaten wenigstens ein jeweiliges Label und wenigstens eine jeweilige Klasse als Kategorisierung ausgeben.
Zur Durchführung dieser ersten Phase, also des Trainings, kann beispielsweise ein vortrainiertes oder mit zufälligen Filtern bzw. Gewichten initialisiertes neuronales Netz als Basis oder Ausgangspunkt bereitgestellt werden. Dieses kann eine vorgegebene Struktur sowie vorgegebene Hyperparameter aufweisen, also etwa eine bestimmte vorgegebene Anzahl, Größe und Verknüpfung von Schichten und Filtern, jeweilige vorgegebene Aktivierungsfunktionen, eine jeweilige vorgegebene Lernrate und/oder dergleichen mehr. Bei dem neuronalen Netz kann es sich insbesondere um ein tiefes, also mehrschichtiges faltendes neuronales Netz (englisch: deep convolutional neural network, deep CNN) handeln. Zum Trainieren des neuronalen Netzes in dieser ersten Phase können grundsätzlich bekannte Trainingsmethoden, beispielsweise basierend auf einer Fehler-Rückpropagation oder dergleichen, angewendet werden.
Weiter wird als Teil des erfindungsgemäßen Verfahrens in einer späteren zweiten Phase das als Resultat der ersten Phase erhaltene derart trainierte neuronale Netz mittels bestärkenden Lernens (Englisch, fachsprachlich: reinforcement learning) komprimiert. Dazu entfernt ein vorgegebener Software-Agent Filter des trainierten neuronalen Netzes unter Maximierung einer vorgegebenen Belohnungsfunktion. Die Belohnungsfunktion belohnt eine Reduzierung der Anzahl von Filtern bei gleichzeitiger Minimierung eines Genauigkeitsverlusts des neuronalen Netzes, also der durch dieses erreichten oder vorgenommenen Kategorisierung, und bei gleichzeitiger Maximierung der Interpretierbarkeit des neuronalen Netzes bzw. von bei der Verarbeitung der Eingangsdaten innerhalb des neuronalen Netzes anfallenden Zwischenergebnissen. Derartige Zwischenergebnisse können etwa zwischen den Schichten des neuronalen Netzes gegebene Repräsentation oder Merkmalskarten (englisch: feature maps), Ausgänge nichtlinearer Aktivierungen oder pooling Funktionen sein. Das Maximieren der Belohnungsfunktion bedeutet im vorliegenden Sinne, dass deren Wert oder Ausgabe, also eine jeweilige durch die Belohnungsfunktion bestimmte oder mittels der Belohnungsfunktion berechnete Belohnung oder deren Betrag, maximiert wird. Je nach Implementierung der Belohnungsfunktion - beispielsweise als Kostenfunktion (englisch: cost function) oder als Fehlerfunktion - kann also ebenso eine Minimierung ihres Wertes oder ihrer Ausgabe durchgeführt bzw. belohnt werden.
Eine entsprechende Belohnung kann beispielsweise in Form eines numerischen Wertes vorliegen. Durch die Belohnungsfunktion wird also eine durch den Agenten reduzierte Anzahl von Filtern positiv bewertet, wenn damit gleichzeitig kein signifikanter Genauigkeitsverlusts verbunden ist und eine besonders gute Interpretierbarkeit des neuronalen Netzes gegeben ist. Im Gegenzug kann eine größere Anzahl von verbleibenden Filtern oder ein signifikanter Verlust von Genauigkeit und/oder Interpretierbarkeit durch die Belohnungsfunktion bestraft, also mit einer kleineren Belohnung belegt werden.
Die Interpretierbarkeit beschreibt hier eine anschauliche Verständlichkeit von Zwischenergebnissen des neuronalen Netzes. Aus einem neuronalen Netz mit besserer oder höherer Interpretierbarkeit können also einfacher bessere oder genauere Erklärungen dafür entnommen oder abgeleitet werden, wie oder warum das neuronale Netz zu einem bestimmten Ergebnis, also zu einer bestimmten Kategorisierung jeweiliger verarbeiteter Eingangsdaten gelangt ist. Es kann also gegebenenfalls genauer bestimmt werden, auf welchen konkreten Merkmalen die jeweilige Kategorisierung basiert. Dies kann einen wesentlichen Vorteil etwa bezüglich der Überprüfbarkeit oder einer Anpassung des neuronalen Netzes, da komplexere neuronale Netz typischerweise dazu tendieren, abstrakte, kaum anschaulich nachvollziehbare Merkmale zur Klassifizierung von Eingangsdaten zu verwenden.
Um eine verbesserte Interpretierbarkeit zu erreichen, aus einem Ausgang oder Output einer oder mehreren Schichten des neuronalen Netzes mittels sogenanntem Class-Activation-Mapping (CAM, zu Deutsch etwa: Klassen-Aktivierungs-Kartierung) eine Visualisierung ausgeleitet, also erzeugt werden. Diese zeigt, beispielsweise in Form einer Heatmap, an, welche Merkmale das neuronale Netz an der jeweiligen Stelle gelernt hat bzw. auf Grundlage welcher Daten- oder Bildregionen (Rols, englisch: Regions of Interest) das neuronale Netz letztlich eine jeweilige Klassifizierung vornimmt. Eine bessere Interpretierbarkeit kann dann gegeben sein, wenn die gelernten Merkmale bzw. die im Wesentlichen zu der jeweiligen Klassifizierung führenden Daten- oder Bildregionen - entsprechend Bereichen relativ hoher Intensität in der Heatmap - besser oder stärker lokalisiert sind und auf in den jeweiligen Eingangsdaten dargestellten oder repräsentierten Objekten zentriert sind, die semantisch der jeweiligen Klasse entsprechen. Wird beispielsweise als Teil der Eingangsdaten ein Bild verarbeitet, in dem Baustellenbereich und dessen Umgebung oder Hintergrund dargestellt ist, so kann eine bessere Interpretierbarkeit dann gegeben sein, wenn in der CAM-Visualisierung die Bereiche größter Aktivierung oder Intensität auf zu dem Baustellenbereich gehörenden Objekten und nicht etwa auf Objekten des Hintergrunds liegen. Eine derartige CAM-Visualisierung kann mittels der Belohnungsfunktion verarbeitet oder bewertet bzw. dem Agenten zugeführt werden. Der Agent kann so im Laufe der Zeit bzw. über mehrere Iterationen hinweg darauf basierend lernen, welche Filter des neuronalen Netzes entfernt werden können, um eine verbesserte bzw. bestmögliche Interpretierbarkeit in diesem Sinne zu erreichen oder beizubehalten, welche Auswahl oder Kombination von Filtern also dazu führt, dass das neuronale Netz die semantisch tatsächlich jeweils relevanten Datenmerkmale für die Kategorisierung lernt bzw. verwendet. Eine schlechtere Interpretierbarkeit kann entsprechend beispielsweise gegeben sein, wenn die Bereiche größter Aktivierung oder Intensität breit verwischt, also weniger stark auf konkrete Objekte und/oder auf semantisch nicht der jeweiligen Klasse entsprechende Objekte lokalisiert sind.
Als mögliche Aktionen für den Agenten können ein Entfernen eines oder mehrerer Filter aus einer oder mehreren Schichten des neuronalen Netzes (englisch: filter pruning) vorgegeben bzw. definiert sein. Der Agent kann dabei in einem Schritt oder in einer Iteration des bestärkenden Lernprozesses je nach Ausgestaltung also jeweils genau einen oder mehrere Filter entfernen. Welche und/oder wie viele Filter durch den Agenten entfernt werden kann durch eine vorgegebene Vorschrift oder einen vorgegebenen Algorithmus bestimmt oder zufällig sein. Insbesondere kann vorgegeben sein, dass automatisch derjenige oder diejenigen Filter entfernt werden, der bzw. die den kleinsten Beitrag zu einem Ergebnis oder Output des neuronalen Netzes liefern. Je nach Komplexität oder Größe des neuronalen Netzes, insbesondere je nach dessen ursprünglicher Anzahl von Filtern, kann auf diese Weise ein gesamter Möglichkeits- oder Kombinationsraum durchlaufen bzw. getestet werden. Ebenso kann eine Abbruchbedingung für das bestärkende Lernen, also die Komprimierung des neuronalen Netzes vorgegeben sein. Eine solche Abbruchbedingung kann beispielsweise angeben oder definieren, dass das bestärkende Lernen nach einer vorgegebenen Anzahl von Durchläufen oder Iterationen, beim Erreichen einer bestimmten vorgegebenen absoluten oder relativen Verbesserung, also Komprimierung, nach einer vorgegebenen Zeitspanne, bei einem Abflachen einer jeweiligen Verbesserungskurve, also bei einer Verringerung einer jeweiligen Verbesserungsrate von Iteration zu Iteration - gegebenenfalls gemessen an einem vorgegebenen Schwellenwert - und/oder dergleichen mehr zu beenden ist bzw. beendet wird. Nach Beenden des bestärkenden Lernens kann ein dabei gefundenes Optimum, also eine Form, Version oder Variante des entsprechend komprimierten neuronalen Netzes, für die eine maximale Belohnung bestimmt wurde, als das letztliche oder endgültige komprimierte künstliche neuronale Netz zur Multi-Label Multi-Klassen- Kategorisierung von Eingangsdaten ausgegeben oder bereitgestellt werden.
Durch die vorliegende Erfindung kann ein neuronales Netz mit einer reduzierten Anzahl von Filtern, also einer reduzierten Größe oder Komplexität und entsprechend reduzierten Berechnungs- oder Ressourcenanforderungen gefunden werden, ohne einen signifikanten Qualitätsverlust, also insbesondere eine signifikante Reduzierung der Genauigkeit und/oder Robustheit des neuronalen Netzes bzw. der von diesem gelieferten Ergebnisse, in Kauf zu nehmen. Da dabei gleichzeitig die Interpretierbarkeit maximiert bzw. belohnt wird, kann zudem vorteilhaft ein Verhalten des neuronalen Netzes besonders einfach und besonders anschaulich überprüfbar bzw. nachvollziehbar sein. Dies ermöglicht eine besonders einfache und zuverlässige Absicherung des komprimierten neuronalen Netzes beispielsweise für sicherheitskritische Anwendungen, etwa für einen autonomen Betrieb eines Kraftfahrzeugs. Ebenso ermöglicht die Maximierung oder Optimierung der Interpretierbarkeit eine besonders einfache Anpassung des komprimierten neuronalen Netzes, beispielsweise im Rahmen eines Nachtrainings, um Fehler oder ein Bias bei der Verarbeitung von Eingangsdaten durch das komprimierte neuronale Netz zu beheben. Dadurch, dass die Interpretierbarkeit bereits während der Erzeugung des komprimierten neuronalen Netzes als Kriterium berücksichtigt wird, kann eine solche Fehlerbehebung vereinfacht werden bzw. besonders effektiv und effizient erreicht werden. Insgesamt kann durch das gemäß der vorliegenden Erfindung erzeugte komprimierte neuronale Netz effektiv und effizient für eine Vielzahl von Anwendungen flexibel eingesetzt werden.
Im Gegensatz zu herkömmlichen Komprimierungsverfahren, die beispielsweise gemäß einer strikten Vorgabe eine bestimmte Anzahl von Filtern nach einem starren Muster entfernen, berücksichtigt das hier vorgeschlagene bestärkende Lernen durch die Belohnung der Minimierung des mit dem Entfernen von Filtern einhergehenden Genauigkeitsverlustes des neuronalen Netzes automatisch oder inhärent individuelle Modelleigenschaften des jeweiligen neuronalen Netzes sowie, nicht zuletzt durch das Belohnen der Maximierung der Interpretierbarkeit, inhaltliche Auswirkungen des jeweiligen Entfernens von Filtern. Damit kann gegenüber herkömmlichen Komprimierungsverfahren eine signifikante Verbesserung zumindest im Verhältnis von Kompressionsrate und durch die Komprimierung bewirktem Genauigkeitsverlust erreicht werden.
In vorteilhafter Ausgestaltung der vorliegenden Erfindung werden als Trainingsdaten Bilddaten bereitgestellt. Das neuronale Netz wird dann mit diesen Bilddaten zum Kategorisieren von in Bilddaten dargestellten Umwelt- oder Umgebungsszenen trainiert. Die Trainingsdaten können hier also beispielsweise Kamerabilder sein, die Szenen aus der Außenwelt, insbesondere aus einem öffentlichen Verkehrsraum, darstellen oder abbilden. Die Bilddaten können dabei in der realen Welt aufgenommene Bilddaten und/oder künstlich erzeugte, also synthetische, beispielsweise in einer Fahrsimulation aufgenommene, Bilddaten sein oder umfassen. Ebenso sind zwar auch andere Anwendungen des erfindungsgemäß bereitgestellten neuronalen Netzes möglich, es hat sich jedoch gezeigt, dass die Verarbeitung von Bilddaten mittels neuronaler Netze einen besonders vorteilhaften Anwendungsfall darstellt. Insbesondere ist damit eine besonders effektive und effiziente Segmentierung sowie Objekt- oder Szenenerkennung möglich. Durch die erfindungsgemäß vorgesehene Komprimierung des neuronalen Netzes und den dadurch entsprechend gesenkten Berechnungs- bzw. Ausführungsaufwand für das komprimierte neuronale Netz kann die hier vorgeschlagene Kategorisierung von Umgebungsszenen in Bilddaten mittels des komprimierten neuronalen Netzes mit heutzutage verbreitet verfügbarer Berechnungshardware - zumindest nahezu - in Echtzeit und auch in mobilen Anwendungen, in denen typischerweise nur begrenzte Berechnungskapazitäten zur Verfügung stehen, eingesetzt werden.
Dementsprechend können in vorteilhafter Weiterbildung der vorliegenden Erfindung die Bilddaten Verkehrsszenen aus dem Blickwinkel eines Kraftfahrzeugs darstellen. Das neuronale Netz wird dann darauf trainiert, diese Verkehrsszenen danach zu kategorisieren, ob sie in eine vorgegebene Betriebsdomäne (ODD, englisch: operational design domain) eines Assistenzsystems des Kraftfahrzeugs fallen. Eine Betriebsdomäne in diesem Sinne beschreibt dabei Situationen, Umgebungen und/oder Bedingungen, in oder unter denen das Assistenzsystem bestimmungs- oder spezifikationsgemäß arbeiten, also aktiviert oder eingesetzt werden kann, darf oder soll. Ein solches Assistenzsystem kann beispielsweise ein Spurhalteassistent oder ein Abstandsregeltempomat oder dergleichen sein, der beispielsweise nur auf der Autobahn verwendet werden darf, aber beispielsweise nicht innerorts. In diesem Beispiel würde die Betriebsdomäne also Autobahnen bzw. ein Befahren von Autobahnen durch das Kraftfahrzeug oder einen Betrieb des Kraftfahrzeugs auf einer Autobahn umfassen, während das Befahren anderer Straßen oder der Betrieb des Kraftfahrzeugs auf anderen Straßen außerhalb der vorgegebenen Betriebsdomäne des Assistenzsystems liegen würde. Die Erkennung der Betriebsdomäne, das heißt ob sich das Kraftfahrzeug jeweils aktuell in der Betriebsdomäne des Assistenzsystems befindet, ist daher ein wichtiges Problem, beispielsweise für begrenzt autonome Kraftfahrzeuge mit einer Einstufung unterhalb von SAE J3016 Level 5. Dieses Problem kann erfahrungsgemäß basierend auf einer Bildverarbeitung durch neuronale Netze gelöst werden, wobei die vorliegende Erfindung die tatsächliche Umsetzung oder Anwendung dieser Lösung durch Reduzierung des von dem erfindungsgemäß bereitgestellten komprimierten neuronalen Netz benötigten Rechen- oder Ressourcenaufwands ebenso wie die durch die im Vergleich zu herkömmlichen neuronalen Netzen besonders gute Interpretierbarkeit erleichtert.
In weiterer vorteilhafter Ausgestaltung der vorliegenden Erfindung wird in der zweiten Phase das neuronale Netz jeweils nach Entfernen eines oder mehrerer Filter nachtrainiert. Dazu kann beispielsweise ein weiterer Satz annotierte Trainingsdaten bereitgestellt bzw. ein oder mehrere Durchläufe oder Iterationen des oder eines Trainingsverfahrens ausgeführt, also durchlaufen werden. Erst danach, also nach dem Nachtraining des entsprechend gestutzten neuronalen Netzes wird die Belohnungsfunktion für diese Version oder Variante des komprimierten neuronalen Netzes ausgewertet. Mit anderen Worten kann das neuronale Netz in der zweiten Phase also auf die jeweilige reduzierte Anzahl bzw. individuelle Kombination von Filtern adaptiert werden, bevor der resultierende Genauigkeitsverlust und die resultierende Interpretierbarkeit bewertet, also die Belohnung für den Agenten bestimmt werden. Dadurch kann letztlich die Performance des neuronalen Netzes weiter verbessert und ein Maximum der Belohnungsfunktion, also eine optimale Version oder Variante des neuronalen Netzes besonders zuverlässig gefunden werden.
Zum Auswerten der Belohnungsfunktion können ein Satz von dazu bereitgestellten Eingangsdaten durch das neuronale Netz verarbeitet und resultierende Ergebnisse analysiert werden. Dies kann beispielsweise deren Verarbeiten durch die Belohnungsfunktion, einen Vergleich mit bereitgestellten Referenzergebnissen, einen Vergleich mit durch eine andere Version oder Variante des komprimierten neuronalen Netzes erzielten Vergleichsergebnissen und/oder dergleichen bedeuten oder umfassen.
In weiterer vorteilhafter Ausgestaltung der vorliegenden Erfindung werden in der zweiten Phase zum Entfernen von Filtern diese, also deren Gewichte zunächst auf null gesetzt oder maskiert. Erst nach abschließender Auswahl der für das endgültige komprimierte neuronale Netz beizubehaltenden Filter werden die übrigen, also die für diese Version oder Variante des komprimierten neuronalen Netzes auf null gesetzten oder maskierten Filter vollständig gelöscht. Mit anderen Worten werden also während des bestärkenden Lernens in der zweiten Phase in jedem Durchlauf oder jeder Iteration die eigentlichen Datenstrukturen anderer Filter beibehalten und erst wenn das bestärkende Lernen beendet ist, also beispielsweise ein Optimum gefunden oder eine Abbruchbedingung erfüllt ist, die Datenstrukturen der zu entfernenden Filter vollständig aus dem neuronalen Netz herausgenommen, um die endgültige Komprimierung zu erreichen. Eine Maskierung eines Filters kann dabei bedeuten, dass eine vorgegebene Maske auf den jeweiligen Filter angewendet oder anstelle des Filters beim Verarbeiten der Eingangsdaten verwendet wird und dadurch ein Effekt des jeweiligen maskierten Filters bzw. dessen Einfluss auf ein jeweiliges Verarbeitungsergebnis verhindert wird. Dieses Vorgehen ermöglicht es vorteilhaft besonders einfach und flexibel verschiedene Kombinationen von beizubehaltenden und zu entfernenden Filtern zu testen. Beispielsweise können in einem früheren Durchlauf auf null gesetzte oder maskierte Filter für einen späteren Durchlauf des bestärkenden Lernens wieder reaktiviert bzw. demaskiert werden, um eine letztlich nicht nur hinsichtlich der Anzahl von Filtern, sondern auch hinsichtlich des minimierten Genauigkeitsverlusts und der maximierten Interpretierbarkeit optimierte Kombination beizubehaltender Filter zu finden.
In weiterer vorteilhafter Ausgestaltung der vorliegenden Erfindung werden zum Komprimieren des trainierten neuronalen Netzes durch den Agenten diejenigen Filter entfernt, die den geringsten Beitrag zur letztlichen Kategorisierung der Eingangsdaten hinsichtlich der Label und Klassen liefern. Mit anderen Worten ist der Agent also dazu ausgebildet oder eingerichtet, um anhand der verschiedenen durch die Belohnungsfunktion während des bestärkenden Lernens gegebenen Belohnungen diejenigen Filter zu bestimmen, die den größten Beitrag zur korrekten Kategorisierung der jeweiligen Eingangsdaten liefern, also den größten Einfluss auf die Kategorisierung der Eingangsdaten haben und daher für das endgültige komprimierte neuronale Netz beizubehalten sind. Auf diese Weise kann eine besonders effektive Komprimierung des neuronalen Netzes erreicht werden, da eine besonders große Anzahl von Filtern bei minimalem Genauigkeitsverlusts entfernt werden kann.
In weiterer vorteilhafter Ausgestaltung der vorliegenden Erfindung wird durch die Belohnungsfunktion die Separation zwischen den vorgegebenen Klassen unter Berücksichtigung, insbesondere unter Minimierung, der klasseninternen Variationen maximiert. Mit anderen Worten berücksichtigt die Belohnungsfunktionen also Intraklassen-Korrelationen. Dadurch kann letztlich eine besonders effektive und zuverlässige Kategorisierung der Eingangsdaten durch das resultierende komprimierte neuronale Netz erreicht werden.
In weiterer vorteilhafter Ausgestaltung der vorliegenden Erfindung wird die Interpretierbarkeit anhand von Merkmalskarten des neuronalen Netzes bestimmt. Merkmalskarten in diesem Sinne werden auch als feature Maps bezeichnet und stellen einen jeweiligen Output der Filter bei deren Anwendung auf eine jeweils vorherige Schicht des neuronalen Netzes dar. In den Merkmalskarten sind also die Aktivierungen der Filter enthalten oder zusammengefasst, die sich beim Abtasten der jeweiligen vorherigen Schicht durch die Filter mittels mathematischer Faltungsoperationen ergeben. Diese Merkmalskarten stellen besonders einfach zugängliche und besonders anschaulich verständliche Repräsentationen der jeweiligen Eingangsdaten an verschiedenen Stellen des neuronalen Netzes dar und ermöglichen somit eine besonders robuste Bewertung der Interpretierbarkeit. Durch die Verwendung der Merkmalskarten wird also ein Innenleben bzw. eine innere Funktionsweise des neuronalen Netzes zugänglich, wodurch ein sonst oftmals gegebenes Verhalten des neuronalen Netzes als Blackbox aufgebrochen werden kann. Dies kann wie bereits angedeutet beispielsweise für ein Verständnis oder eine Nachvollziehbarkeit von Kategorisierungsfehlern des neuronalen Netzes hilfreich sein. Beispielsweise können auf diese Weise einzelne Merkmale bestimmt werden, die letztendlich zu einer bestimmten Kategorisierung bzw. einem Fehler des neuronalen Netzes geführt oder beigetragen haben. Dies kann dann beispielsweise durch gezielte entsprechende Annotierung derartiger Merkmale in den oder weiteren Trainingsdaten und entsprechendes Nachtrainieren des neuronalen Netzes zur Fehlerbehebung bzw. zur Verbesserung der Genauigkeit und Zuverlässigkeit bzw. der Robustheit des neuronalen Netzes verwendet werden.
Ein weiterer Aspekt der vorliegenden Erfindung ist eine Assistenzeinrichtung für ein Kraftfahrzeug, die ein gemäß dem erfindungsgemäßen Verfahren bereitgestelltes komprimiertes neuronales Netz für die Multi-Label Multi-Klassen-Kategorisierung von Bilddaten, die eine Fahrzeugumgebung abbilden, aufweist. Die Assistenzeinrichtung kann dazu eine Eingangsschnittstelle zum Erfassen oder Empfangen von Bilddaten sowie eine Ausgangsschnittstelle zum Ausgeben oder Bereitstellen entsprechender Verarbeitungsergebnisse, beispielsweise der entsprechend prädizierten und klassifizierten Bilddaten, aufweisen. Zum Verarbeiten der Bilddaten kann die Assistenzeinrichtung beispielsweise einen computerlesbaren Datenspeicher und eine damit verbundene Prozessoreinrichtung, beispielsweise einen Mikroprozessor, einen Mikrochip, ein Mikrocontroller, eine Hardwareschaltung oder dergleichen, aufweisen. Auf dem Datenspeicher kann dann das bereitgestellte komprimierte neuronale Netz in Form oder als Teil eines durch die Prozessoreinrichtung ausführbaren Programmcodes oder Computerprogramms abgelegt sein. Die Assistenzeinrichtung kann ebenso dazu eingerichtet sein, abhängig von der jeweiligen Kategorisierung ein Steuersignal zum Aktivieren oder Deaktivieren eines Assistenzsystems des Kraftfahrzeugs eingerichtet sein, wobei das Assistenzsystem nur dann aktiviert bzw. zur Verwendung freigeschaltet werden kann, wenn sich das Kraftfahrzeug gemäß der Kategorisierung der jeweiligen Bilddaten in einer vorgegebenen Betriebsdomäne für das Assistenzsystem befindet.
Besonders bevorzugt kann die Assistenzeinrichtung dabei dazu eingerichtet sein, eine Ausgabe des neuronalen Netzes zu glätten, also beispielsweise einen gleitenden zeitlichen Durchschnitt zu bestimmen (englisch: temporal smoothing) und das Steuersignal für die Aktivierung oder Freischaltung des Assistenzsystems nur dann auszugeben, wenn dieser Durchschnitt bzw. diese geglättete Ausgabe des neuronalen Netzes ein vorgegebenes Kriterium erfüllt. Als dieses Kriterium kann beispielsweise vorgegeben sein, dass eine Wahrscheinlichkeit dafür, dass sich das Kraftfahrzeug jeweils aktuell in der vorgegebenen Betriebsdomäne für das Assistenzsystem befindet, oberhalb eines vorgegebenen Schwellenwertes liegt oder dass die aktuelle Fahrzeugumgebung wenigstens mit einer vorgegebenen Häufigkeit als in der vorgegebenen Betriebsdomäne liegend kategorisiert wird. Dadurch können bei einer relativ hochfrequenten Bereitstellung und Verarbeitung der Bilddaten, beispielsweise mit einer Frequenz zwischen 10 Hz und 100 Hz, Ausreißer oder kurzzeitige Abweichungen oder Veränderungen in der Kategorisierung herausgefiltert bzw. hinsichtlich ihrer Auswirkungen oder Effekte gedämpft werden. Dadurch kann ein besonders zuverlässiger und robuster Betrieb des jeweiligen Assistenzsystems und damit auch des Kraftfahrzeugs insgesamt erreicht werden.
Ein weiterer Aspekt der vorliegenden Erfindung ist ein Kraftfahrzeug, das eine Umgebungssensorik zum Aufnehmen oder Erfassen von Bilddaten aufweist, die eine jeweilige Umgebung des Kraftfahrzeugs abbilden. Weiter weist das erfindungsgemäße Kraftfahrzeug eine erfindungsgemäße Assistenzeinrichtung auf. Das erfindungsgemäße Kraftfahrzeug kann insbesondere das im Zusammenhang mit dem erfindungsgemäßen Verfahren und/oder in Zusammenhang mit der erfindungsgemäßen Assistenzeinrichtung genannte Kraftfahrzeug sein und dementsprechend einige oder alle der in diesen Zusammenhängen genannten Eigenschaften und/oder Merkmale aufweisen. Insbesondere kann das Kraftfahrzeug ein in Abhängigkeit von einem Output, also einer Ausgabe oder Kategorisierung des neuronalen Netzes bzw. der Assistenzeinrichtung gesteuertes Assistenzsystem, insbesondere für eine autonome oder teilautonome Funktion des Kraftfahrzeugs aufweisen.
Weitere Merkmale der Erfindung können sich aus den Ansprüchen, den Figuren und der Figurenbeschreibung ergeben. Die vorstehend in der Beschreibung genannten Merkmale und Merkmalskombinationen sowie die nachfolgend in der Figurenbeschreibung und/oder in den Figuren alleine gezeigten Merkmale und Merkmalskombinationen sind nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen oder in Alleinstellung verwendbar, ohne den Rahmen der Erfindung zu verlassen.
Die Zeichnung zeigt in:

1 einen beispielhaften schematischen Ablaufplan für ein Verfahren zum Bereitstellen eines künstlichen neuronalen Netzes zum Kategorisieren von Fahrzeugumgebungen; und
2 eine schematische Darstellung eines Kraftfahrzeugs mit einem solchen künstlichen neuronalen Netz.

Für einen autonomen Fahrzeugbetrieb ist eine Erkennung einer jeweiligen Fahrzeugumgebung als Teil einer vorgegebenen Betriebsdomäne (ODD) eine wichtige Herausforderung. Diese Herausforderung kann datengetrieben mittels maschinellen Lernens bewältigt werden. Dazu zeigt 1 schematisch einen beispielhaften Ablaufplan 10 für ein Verfahren zum Bereitstellen eines komprimierten künstlichen neuronalen Netzes 28 (siehe 2) zum automatischen Kategorisieren von Fahrzeugumgebungen bzw. entsprechenden Bilddaten. Dazu werden in einem Verfahrensschritt S1 zunächst Trainingsdaten in Form von mit Labeln und Klassen annotierten Bilddaten bereitgestellt. Beispielsweise parallel dazu wird in einem Verfahrensschritt S2 ein initiales unkomprimiertes Basisnetzwerk als Ausgangspunkt bereitgestellt.
In einem Verfahrensschritt S3 wird das bereitgestellte Basisnetzwerk anhand der bereitgestellten Trainingsdaten zum Kategorisieren von ihm zugeführten Eingangsdaten gemäß den vorgegebenen Labeln und Klassen trainiert. Dies kann beispielsweise in einem iterativen Trainingsprozess erfolgen, was hier durch einen schleifenförmigen Programmpfad P1 angedeutet ist.
Nachdem mit Abschluss des Trainings des Basisnetzwerks ein entsprechend trainiertes neuronales Netz erzeugt wurde, wird dieses in einem Verfahrensschritt S4 komprimiert. Dazu werden durch einen vorgegebenen Software-Agenten Filter des trainierten neuronalen Netzes in einem iterativen Prozess entfernt. Jeweils nach dem Entfernen eines oder mehrerer Filter wird in jedem Iterationsschritt eine vorgegebene Belohnungsfunktionen ausgewertet, die eine reduzierte Anzahl von Filtern bei gleichzeitiger Minimierung eines Genauigkeitsverlusts und Maximierung einer Interpretierbarkeit des neuronalen Netzes bewertet bzw. belohnt. Abhängig von der jeweiligen erzielten Belohnung kann der Software-Agent dann eine Auswahl der entfernten bzw. zu entfernenden Filter variieren, um letztlich die Belohnungsfunktion bzw. die durch diese bestimmte Belohnung zu maximieren. Auch dieser iterative Prozess ist hier schematisch durch einen schleifenförmigen Programmpfad P2 angedeutet.
Nachdem auf diese Weise das hinsichtlich der Anzahl von Filtern, der Genauigkeit und der Interpretierbarkeit optimierte komprimierte neuronale Netz 28 gefunden oder erzeugt wurde, wird dieses in einem Verfahrensschritt S5 zur Anwendung, also für einen produktiven Einsatz bereitgestellt.
Bei dem vorliegend beschriebenen Verfahren wird mit anderen Worten also bestärkendes Lernenden zur modellabhängigen oder modellbewussten Komprimierung des trainierten neuronalen Netzes durch Entfernung von Filtern, die einen minimalen Beitrag zu einem Gesamtergebnis liefern (englisch: model aware filter pruning), angewendet. Abgesehen von der Maximierung der Belohnungsfunktion ist dabei kein festes Ziel für den Software-Agenten vorgegeben, wodurch besonders flexibel und effektiv für das jeweilige Modell, also das jeweilige trainierte neuronale Netz bzw. das daraus erzeugte komprimierte neuronale Netz 28 ein Optimum aus Kompressionsrate, Qualität oder Genauigkeit und Interpretierbarkeit gefunden werden kann. Dazu können für diese verschiedenen Aspekte jeweilige individuelle Teilbelohnungen in der Belohnungsfunktion definiert sein, die dann zu einer Gesamtbelohnung kombiniert werden können. Für eine besonders flexible und robuste Kategorisierung ist das neuronale Netz 28 hier insbesondere zur Multi-Label Multi-Klassen-Kategorisierung jeweiliger Eingangsdaten trainiert.
Bevorzugt kann, beispielsweise zwischen den Verfahrensschritten S3 und S4, eine Quantifizierung (englisch: quantization) der gelernten Gewichte, Aktivierungen und/oder einer Arithmetik durchgeführt werden. Ebenso kann im Rahmen des Verfahrensschritts S4, also während der Komprimierung des trainierten neuronalen Netzes, ein jeweiliges Nachtraining einer jeweils aktuellen Variante oder Version des neuronalen Netzes durchgeführt werden, um eine weiter verbesserte Genauigkeit zu erreichen.
Für das bestärkende Lernen ist zwar die vorgegebene Belohnungsfunktion, aber kein anderes spezifisches Ziel definiert. Die Belohnungsfunktion ist dabei derart konstruiert, dass bei dem bestärkenden Lernen insgesamt die Genauigkeit des letztlichen komprimierten neuronalen Netzes 28 bei der Kategorisierung von Eingangsdaten maximiert bzw. möglichst groß gehalten wird und dabei eine Separation zwischen den Klassen bei Berücksichtigung von Intraklassen-Variationen maximiert wird. Da somit letztlich Filter, die keinen oder nur einen geringen Beitrag zum jeweiligen Endergebnis, also zu Kategorisierung der Eingangsdaten liefern, entfernt werden, ergibt sich eine geringere Größe des komprimierten neuronalen Netzes 28 im Vergleich zu dem initial bereitgestellten Basisnetzwerk bzw. dem im Verfahrensschritt S3 erzeugten trainierten neuronalen Netz.
Das derart bereitgestellte, beispielsweise anhand von Verkehrsszenen trainierte, komprimierte neuronale Netz 28 kann beispielsweise für einen teilautonomen Fahrzeugbetrieb angewendet werden. Dazu zeigt 2 eine schematische Darstellung eines zumindest teilautonomen Kraftfahrzeugs 12. Das Kraftfahrzeug 12 weist hier eine Umgebungssensorik 14, eine Datenverarbeitungseinrichtung 16, ein Assistenzsystem 18 und einen Antrieb 20 auf, die durch einen Bordnetz 22 zur Signal- oder Datenübertragung miteinander verbunden sind. Von der Umgebungssensorik 14 aufgenommene Bilddaten, die eine jeweilige Umgebung des Kraftfahrzeugs 12 abbilden, können der Datenverarbeitungseinrichtung 16 als Eingangsdaten zugeführt werden.
Zum Verarbeiten dieser Eingangsdaten weist die Datenverarbeitungseinrichtung 16 vorliegend einen Prozessor 24 und einen damit verbundenen computerlesbaren Datenspeicher 26 auf. In dem Datenspeicher 26 ist das wie beschrieben erzeugte komprimierte neuronale Netz 28 abgelegt. Dieses weist hier schematisch angedeutet eine Eingangsschicht 30, mehrere versteckte Schichten 32 (englisch: hidden layers) und eine Ausgangsschicht 34 auf. Nachdem die Eingangsdaten durch das neuronale Netz 28 verarbeitet wurden, gibt dieses an der Ausgangsschicht 34 eine entsprechende Kategorisierung der Eingangsdaten aus. Die Datenverarbeitungseinrichtung 16 kann dann automatisch ermitteln, ob sich gemäß dieser Kategorisierung das Kraftfahrzeug 12 derzeit in einer vorgegebenen Betriebsdomäne des Assistenzsystems 18 befindet. Abhängig davon kann die Datenverarbeitungseinrichtung 16 dann beispielsweise ein Steuersignal erzeugen und über das Bordnetz 22 ausgeben.
Durch dieses Steuersignal kann das Assistenzsystem 18 aktiviert werden, wenn sich das Kraftfahrzeug 12 in der vorgegebenen Betriebsdomäne befindet und andernfalls deaktiviert werden. Befindet sich das Kraftfahrzeug 12 in der vorgegebenen Betriebsdomäne des Assistenzsystems 18, so kann dieses beispielsweise automatisch bzw. autonom den Antrieb 20 des Kraftfahrzeugs 12 steuern oder eine sonstige Fahrzeugfunktion des Kraftfahrzeugs 12 ausführen.
Insgesamt zeigen die beschriebenen Beispiele wie eine interpretierbare Multi-Label Multi-Klassen Szenenklassifikation mit RL-basiertem (RL, englisch: reinforcement learning) Stutzen (englisch: pruning) von, insbesondere faltenden, neuronalen Netzen realisiert werden kann.
Bezugszeichenliste

10: Ablaufplan
12: Kraftfahrzeug
14: Umgebungssensorik
16: Datenverarbeitungseinrichtung
18: Assistenzsystem
20: Antrieb
22: Bordnetz
24: Prozessor
26: Datenspeicher
28: neuronales Netz
30: Eingangsschicht
32: versteckte Schichten
34: Ausgangsschicht
S1 - S5: Verfahrensschritte
P1, P2: Programmpfade

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

CN 109657082 A [0003]
US 10650548 B1 [0004]

Claims

Verfahren (10) zum Bereitstellen eines künstlichen neuronalen Netzes (28) zur Multi-Label Multi-Klassen Kategorisierung von Eingangsdaten, bei dem - Trainingsdaten bereitgestellt werden, die mit mehreren vorgegebenen Labeln und Klassen annotiert sind, - in einer ersten Phase (S3) das neuronale Netz (28) mittels der bereitgestellten Trainingsdaten zum Kategorisieren von ihm zugeführten Eingangsdaten gemäß den vorgegebenen Labeln und Klassen trainiert wird, und - in einer zweiten Phase (S4) das derart trainierte neuronale Netz (28) mittels bestärkenden Lernens komprimiert wird, wobei ein vorgegebener Agent Filter des trainierten neuronalen Netzes (28) unter Maximierung einer vorgegebenen Belohnungsfunktion entfernt, die eine Reduzierung der Anzahl von Filtern bei gleichzeitiger Minimierung eines Genauigkeitsverlusts und Maximierung der Interpretierbarkeit von bei der Verarbeitung der Eingangsdaten innerhalb des neuronalen Netzes (28) anfallenden Zwischenergebnissen belohnt.
Verfahren (10) nach Anspruch 1, dadurch gekennzeichnet, dass als Trainingsdaten Bilddaten bereitgestellt werden und das neuronale Netz (28) damit zum Kategorisieren von in Bilddaten dargestellten Umgebungsszenen trainiert wird.
Verfahren (10) nach Anspruch 2, dadurch gekennzeichnet, dass die Bilddaten Verkehrsszenen aus dem Blickwinkel eines Kraftfahrzeugs (12) darstellen und das neuronale Netz (28) darauf trainiert wird, die Verkehrsszenen danach zu kategorisieren, ob sie in eine vorgegebene Betriebsdomäne eines Assistenzsystems (18) des Kraftfahrzeugs (12) fallen.
Verfahren (10) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass in der zweiten Phase das neuronale Netz (28) jeweils nach Entfernen eines oder mehrerer Filter nachtrainiert wird und erst danach die Belohnungsfunktion ausgewertet wird.
Verfahren (10) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass in der zweiten Phase zum Entfernen von Filtern diese zunächst auf null gesetzt oder maskiert werden und erst nach abschließender Auswahl der für das endgültige komprimierte neuronale Netz (28) beizubehaltenden Filter die übrigen, auf null gesetzten Filter gelöscht werden.
Verfahren (10) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zum Komprimieren des trainierten neuronalen Netzes (28) durch den Agenten diejenigen Filter entfernt werden, die den geringsten Beitrag zur letztlichen Kategorisierung der Eingangsdaten liefern.
Verfahren (10) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass durch die Belohnungsfunktion die Separation zwischen den vorgegebenen Klassen unter Berücksichtigung, insbesondere Minimierung, der klasseninternen Variationen maximiert wird.
Verfahren (10) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Interpretierbarkeit anhand von Merkmalskarten des neuronalen Netzes (28) bestimmt wird.
Assistenzeinrichtung (16) für ein Kraftfahrzeug (12), aufweisend ein gemäß einem Verfahren (10) nach einem der vorhergehenden Ansprüche bereitgestelltes komprimiertes neuronales Netz (28) für die Multi-Label Multi-Klassen Kategorisierung von Bilddaten, die eine Fahrzeugumgebung abbilden.
Kraftfahrzeug (12), aufweisend eine Umgebungssensorik (14) zum Aufnehmen von Bilddaten, die eine jeweilige Umgebung des Kraftfahrzeugs (12) abbilden, und eine damit gekoppelte Assistenzeinrichtung (16) nach Anspruch 9.