DE102022104399A1

DE102022104399A1 - Verfahren und Prozessorschaltung zum Ermitteln von Trainingsdatensätzen für ein Training eines Modells des maschinellen Lernens

Info

Publication number: DE102022104399A1
Application number: DE102022104399.1A
Authority: DE
Inventors: Nico Schmidt; Stephanie Jonkers; Rohan Kanchan; Bennet Seifert; Peter Schlicht; Fabian Hüger; Milan Rohde; Andreas Looft; Yevgeniya Filippovska
Original assignee: Volkswagen AG; Cariad SE
Current assignee: Volkswagen AG; Cariad SE
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2023-08-24

Abstract

Die Erfindung betrifft ein Verfahren zum Ermitteln von Trainingsdatensätzen für ein Training eines Modells (24) des maschinellen Lernens, wobei durch eine Prozessorschaltung (11) zu bereits vorhandenen Trainingsdatensätzen (26) eine statistische Verteilungsfunktion (30) von aus den Trainingsdatensätzen mittels einer vorbestimmten Funktion (31) gebildeten Merkmalsvektoren (32, 34) ermittelt wird und solche zusätzlichen Trainingsdatensätze (36) ermittelt werden, deren jeweiliger mittels der Funktion (31) gebildeter Merkmalsvektor (32, 34) gemäß der statistischen Verteilungsfunktion (30) eine Auftrittswahrscheinlichkeit kleiner als ein vorbestimmter Schwellenwert (35) aufweist, und die zusätzlichen Trainingsdatensätze (36) den vorhandenen Trainingsdatensätzen (26) hinzugefügt werden.

Description

Die Erfindung betrifft ein Verfahren und eine Prozessorschaltung, mittels welchen Trainingsdatensätze für ein Training eines Modells des maschinellen Lernens ermittelt werden. Ein Trainingsdatensatz kann beispielsweise ein Bild von einer Umgebung, beispielsweise ein Bild einer Verkehrssituation, enthalten. Als Modell des maschinellen Lernens kann beispielsweise ein künstliches neuronales Netzwerk trainiert werden. Um das Training effizient durchzuführen, sollten die verwendeten Trainingsdatensätze möglichst unterschiedliche Szenen oder Situationen (Szenarien) darstellen, da es keinen Mehrwert bringt, zu ähnlichen Szenen eine Vielzahl von Trainingsdatensätzen bereitzustellen und dagegen andere Szenen nicht durch einen Trainingsdatensatz zu repräsentieren.
Bei der Entwicklung von datengesteuerten autonomen Fahrfunktionen auf Basis von Modellen des Maschinellen Lernens (einschließlich tiefer neuronaler Netze wie Faltungsnetze oder Transformatoren zur Klassifizierung, zur semantischen Segmentierung oder zur Objekterkennung) ist es wichtig, eine Menge von Trainingsdatensätzen für das Training zu erstellen und zu verwenden, die so vielfältig wie möglich ist (so vollständig wie möglich in Bezug auf den operativen Entwurfsbereich), d. h. sie sollte Beispiele für alle Arten von Szenarien oder Situationen, denen die Funktion in der Anwendungsphase begegnen könnte, enthalten. Dies ist darauf zurückzuführen, dass diese Systeme vollständig oder zumindest teilweise datengesteuert erstellt werden, d. h. alle Szenarien, die sie kennen und bewältigen können, sind durch die Daten der Trainingsdatensätze definiert, die ihnen während des Trainings präsentiert wurden. Es ist jedoch unklar, wie der Raum möglicher Szenarien aussieht und wie eine vorhandene Menge an Trainingsdatensätzen auf Vollständigkeit oder Abdeckung dieser möglichen Szenarien getestet werden kann. Außerdem ist unklar, wie man herausfinden kann, ob einzelne Trainingsdatensätze ein ähnliches Szenario abdecken (und damit möglicherweise redundant sind) oder ob sie unterschiedliche Regionen des Szenarienraums abdecken. Bei der Arbeit mit Bilddaten ist der Datenraum sehr hochdimensional, so dass es unmöglich ist, ihn in einer zum Training verwendeten Menge von Trainingsdatensätzen vollständig abzudecken. Erstens ist nicht bekannt, welcher Unterraum des Szenarienraums in realen Anwendungen tatsächlich physikalisch möglich ist, also welche unterschiedlichen Erscheinungsbilder sich für Szenen ergeben. Zweitens ist es nicht trivial, Datenproben auf skalierbare Weise eine semantische Bedeutung zuzuweisen, also sogenannte Label-Daten: Der gängigste Ansatz ist die (computergestützte) menschliche Annotation von Label-Daten, um die Semantik (Ground Truth) zu erzeugen, die für den überwachten Parameteranpassungsprozess beim Training eines Modells des maschinellen Lernens benötigt wird.
Aus der EP 3 647 734 A1 ist bekannt, dass in einem Kraftfahrzeug ein Messdatensatz, wie beispielsweise ein Kamerabild einer Umgebung, kompakt dargestellt werden kann, indem mittels eines sogenannten Merkmalsextraktors Merkmale aus dem Kamerabild extrahiert werden können und diese mittels einer dimensions-reduzierenden Methode komprimiert werden können. In die Merkmalsdaten aus dem Merkmalsextraktor können noch zusätzliche Messdaten aus einem Odometriesensor integriert werden.
Aus der US 2021/0140793 A1 ist bekannt, dass zu einem Messdatensatz, beispielsweise LIDAR-Messpunkten, zusätzlich semantische Informationen ermittelt und gespeichert werden können, welche den Inhalt des Messdatensatzes oder die darin abgebildeten Objekte beschreiben.
Aus der DE 10 2020 205 315 A1 ist bekannt, dass zum Trainieren eines Modells des maschinellen Lernens für eine automatisierte Fahrfunktion Trainingsdatensätze gesammelt werden können. Um für ein effizientes Training gezielt neue Trainingsdatensätze zu beschaffen, werden im Fahrbetrieb kritische Fahrsituationen identifiziert und zusätzliche Trainingsdatensätze aus ähnlichen Fahrsituationen angefordert.
Der Erfindung liegt die Aufgabe zugrunde, für das Training eines Modells des maschinellen Lernens Trainingsdatensätze zu beschaffen, mittels welchen das Training dahingehend effizient gestaltet werden kann, dass redundante Trainingsdatensätze, die für das Training keinen zusätzlichen Trainingseffekt bringen, vermieden werden.
Die Aufgabe wird durch die Gegenstände der unabhängigen Patentansprüche gelöst. Vorteilhafte Weiterentwicklungen oder Weiterbildungen der Erfindung ergeben sich durch die abhängigen Patentansprüche, die folgende Beschreibung sowie die Figuren.
Die Erfindung umfasst als eine Lösung ein Verfahren zum Ermitteln von Trainingsdatensätzen für ein Training eines Modells des maschinellen Lernens. Als ein Modell des maschinellen Lernens kann beispielsweise ein künstliches neuronales Netzwerk oder ein Decision-Tree oder eine Support-Vector-Machine, SVM, vorgesehen sein. Das Training kann mittels eines an sich aus dem Stand der Technik bekannten Trainingsalgorithmus für ein solches Modell durchgeführt werden. Ein Trainingsalgorithmus benötigt Trainingsdatensätze, von denen jeder eine Szene oder eine Situation darstellt, wie sie von dem Modell des maschinellen Lernens interpretiert werden können soll, nachdem es mittels der Trainingsdatensätze trainiert worden ist. Ein Trainingsdatensatz kann hierzu in an sich bekannter Weise mit zusätzlichen Label-Daten versehen werden, welche das wahre Detektionsergebnis oder Prädiktionsergebnis, also die sogenannte Ground Truth, angeben können. Ein Trainingsdatensatz stellt hier einen einzelnen Messdatensatz dar, der für das Training ausgewählt wurde. Ein solcher Messdatensatz kann z.B. die Bilddaten einer Bildaufnahme oder eines Bilds aus einer Umgebungskamera enthalten. Ein Trainingsdatensatz kann z.B. eine Verkehrssituation darstellen. Die Menge aller verwendeten Trainingsdatensätze stellt das Trainingsmaterial für das Training des Modells dar.
Das Verfahren geht davon aus, dass bereits eine initiale Menge von Trainingsdatensätzen vorhanden ist. Sie kann z.B. als zufällige Auswahl oder als Standard-Trainingsmaterial vorgebeben sein. Durch eine Prozessorschaltung wird zu den bereits vorhandenen Trainingsdatensätzen eine statistische Verteilungsfunktion von Merkmalsvektoren gebildet, die wiederum aus den Trainingsdatensätzen mittels einer vorbestimmten Funktion gebildet werden. Ein Trainingsdatensatz kann in der besagten Weise beispielsweise ein Einzelbild einer Szene oder Situation sein. Daraus kann dann mittels der besagten Funktion ein Merkmalsvektor gebildet werden, welcher den Trainingsdatensatz repräsentiert und welcher bevorzugt einen geringeren Datenumfang aufweist, also weniger Datenwerte enthält, als der Trainingsdatensatz selbst. Ein Merkmalsvektor kann eine Aneinanderreihung von Merkmalswerten sein, wobei jeder Merkmalswert eine Position entlang einer Dimension eines Merkmalsraums darstellen kann, wie dies für die Interpretation eines Vektors an sich bekannt ist. Somit stellt ein Merkmalsvektor in dem Merkmalsraum jeweils einen Punkt dar. Diese Merkmalsvektoren, also die von ihnen repräsentierten Punkte im Merkmalsraum, können durch eine statistische Verteilungsfunktion modelliert oder beschrieben werden. Eine solche statistische Verteilungsfunktion kann beispielsweise ein Histogramm sein, welches angibt, wo oder in welchen Raumbereichen des Merkmalsraums sich wie viele der Merkmalsvektoren befinden.
Um nun zusätzliche Trainingsdatensätze zu ermitteln und hierbei redundante oder bereits durch die vorhandenen Trainingsdatensätze beschriebene Situationen oder Szenen auszuschließen, werden nur solche zusätzlichen Trainingsdatensätze ermittelt oder zugelassen, deren jeweiliger mittels der besagten Funktion gebildeter Merkmalsvektor gemäß der statistischen Verteilungsfunktion eine Auftrittswahrscheinlichkeit kleiner als ein vorbestimmter Schwellenwert aufweist. Mit anderen Worten wird anhand des jeweiligen Merkmalsvektors eines neuen Messdatensatzes geprüft, wie wahrscheinlich dieser ist und damit als zusätzlicher Trainingsdatensatz geeignet ist, wenn man die statistische Verteilungsfunktion der Merkmalsvektoren der bisherigen Trainingsdatensätze zugrunde legt.
Anzumerken ist hier, dass zur besseren Unterscheidung hier zum einen von einem Messdatensatz gesprochen wird, welcher ein Messergebnis oder die Ausgabe eines Messsensors darstellt, also beispielsweise ein Kamerabild (Einzelbild) oder eine Bildsequenz aus mehreren Bildern oder Video). Wird ein solcher Messdatensatz dann als geeignet für das Training erkannt oder akzeptiert, liegt also die Auftrittswahrscheinlichkeit seines Merkmalsvektors unterhalb des Schwellenwerts, so wird ein solcher Messdatensatz hier als zusätzlicher Trainingsdatensatz bezeichnet, welcher den bereits vorhandenen Trainingsdatensätzen hinzugefügt werden kann, um die Menge der Trainingsdatensätze für das Training des Modells des maschinellen Lernens zu erweitern oder zu ergänzen.
Das Verfahren kann iterativ durchgeführt werden, das heißt nach dem Hinzufügen der zusätzlichen Trainingsdatensätze kann auch die statistische Verteilung aktualisiert oder neu berechnet werden, sodass sie die ursprünglich vorhandenen Trainingsdatensätze und neu hinzugefügte zusätzliche Trainingsdatensätze repräsentiert. Dies kann dann genutzt werden, um weitere zusätzliche Trainingsdatensätze zu ermitteln.
Das Training des Modells des maschinellen Lernens kann dann mittels der insgesamt gesammelten oder zusammengeführten Trainingsdatensätze erfolgen. Das fertig trainierte Modell des maschinellen Lernens kann dann beispielsweise für eine automatisierte Fahrfunktion in einem Kraftfahrzeug eingesetzt oder bereitgestellt werden. Hierzu kann das Modell des maschinellen Lernens in dem Kraftfahrzeug betrieben werden, um auf der Grundlage von Messdatensätzen, die in derselben Weise wie die Trainingsdatensätze gebildet sein können, Objekte in der Umgebung des Kraftfahrzeugs zu erkennen und/oder eine sogenannte Computer-Vision-Funktion bereitzustellen.
Durch die Erfindung ergibt sich der Vorteil, dass für das Erweitern der Menge der Trainingsdatensätze nur solche Messdatensätze als zusätzliche Trainingsdatensätze berücksichtigt werden, die auf der Grundlage der bereits vorhandenen Trainingsdatensätze als Ausnahme oder als selten oder unwahrscheinlich gemäß der statistischen Verteilungsfunktion beschrieben sind, also durch die bereits vorhandenen Trainingsdatensätze nur geringfügig oder gar nicht repräsentiert sind, weshalb sich eine Auftrittswahrscheinlichkeit kleiner als der Schwellenwert ergibt. Ist dagegen die Auftrittswahrscheinlichkeit größer als der Schwellenwert, so kann davon ausgegangen werden, dass in den bereits vorhandenen Trainingsdatensätzen bereits ausreichendes Trainingsmaterial vorhanden ist, sodass kein zusätzlicher Trainingsdatensatz für die Situation oder Szene notwendig ist.
Die Erfindung umfasst auch Weiterentwicklungen oder Weiterbildungen, durch die sich zusätzliche Vorteile ergeben.
Gemäß einer Weiterentwicklung wird der jeweilige Merkmalsvektor durch die besagte Funktion ermittelt, indem der jeweilige Trainingsdatensatz mittels eines Faltungsnetzwerks (CNN - Convolutional Neuronal Network) eines sogenannten Autoencoders gefiltert wird und hierdurch eine jeweilige Ortsverteilung von unterschiedlichen, durch das Faltungsnetzwerk vorgegebenen Bildmerkmalen erzeugt wird. Ein Autoencoder kann einen Trainingsdatensatz, beispielsweise ein Kamerabild, in Bezug auf vorbestimmte Bildmerkmale oder Muster, beispielsweise jeweils Streifen oder Kanten oder Farben oder Strukturen, analysieren und in einer sogenannten Merkmalskarte eine Ortsverteilung angeben, die beschreibt, wo in dem Trainingsdatensatz, also beispielsweise wo in dem Kamerabild, welche Struktur oder Farbe oder Muster vorhanden ist. Somit kann in dem Faltungsnetzwerk für jedes gesuchte Muster oder Farbe oder Struktur ein entsprechender Filter vorgesehen sein. Das Filterergebnis, also die Ausgabe des Faltungsnetzwerks, ist dann eine Zusammenstellung von Verteilungswerten dieser Bildmerkmale (Muster und/oder Farbe und/oder Struktur). Diese Bildmerkmale können dann als Grundlage für das Erzeugen des Merkmalsvektors dienen. Beispielsweise können die Bildmerkmale, also die Werte der Ortsverteilungen, die die Position oder das Vorhandensein der Bildmerkmale für unterschiedliche Bildbereiche im Trainingsdatensatz beschreiben, in den Merkmalsvektor integriert werden oder es kann aus ihnen in der noch zu beschreibenden Weise eine dimensionsreduzierte Repräsentation mittels einer dimensions-reduzierenden Methode erzeugt werden.
Werden Messdatensätze auf einer Messfahrt erzeugt und soll überprüft werden, ob diese Messdatensätze als zusätzliche Trainingsdatensätze geeignet sind, so kann es von Vorteil sein, die in den Messdatensätzen beschriebene Situation oder Szene auch anhand von zusätzlichen Situationsdaten zu beschreiben, die beim Erzeugen des jeweiligen Messdatensatzes verfügbar sind, weil bekannt ist, wo sich das Messfahrzeug aktuell beim Erzeugen des jeweiligen Messdatensatzes befindet. In einer Weiterentwicklung wird hierzu der jeweilige Merkmalsvektor durch die besagte Funktion ermittelt, indem zu dem jeweiligen Trainingsdatensatz auch Situationsdaten ermittelt werden, welche die Aufnahmesituation des jeweiligen Trainingsdatensatzes beschreiben. Der Merkmalsvektor kann dann zusätzlich oder alternativ zumindest teilweise aus solchen Situationsdaten gebildet werden. Beispiele für Situationsdaten sind die Geoposition des Aufnahmesensors, mittels welchem der Trainingsdatensatz ermittelt wurde. Aus einer Straßenkarte kann anhand der Geoposition ein Straßentyp (z.B. Autobahn, Landstraße, Kreuzung, Stadt) als Teil der Situationsdaten ermittelt werden. Weiter Beispiele können sein: Wetterdaten, welche beispielsweise Sichtverhältnisse und/oder ein vorherrschendes Wetter angeben; Verkehrsdaten, welche eine Verkehrsdichte angeben.
Als weitere mögliche Informationsquelle für die Entscheidung darüber, ob ein Messdatensatz als zusätzlicher Trainingsdatensatz genutzt werden kann, hat sich erwiesen, dass sich auch ohne ein bereits trainiertes Modell des maschinellen Lernens mittels eines Hilfsmodells aus einem Messdatensatz Merkmale extrahieren lassen, die hier als Semantikdaten bezeichnet werden und die zum Bilden eines Merkmalsvektors genutzt werden können. Hierzu wird der jeweilige Merkmalsvektor durch die besagte Funktion ermittelt, indem zu dem jeweiligen Trainingsdatensatz mittels eines Objekterkenners Semantikdaten ermittelt werden, welche eine inhaltliche Beschreibung von in dem jeweiligen Trainingsdatensatz abgebildeten Objekten angeben. Beispielsweise kann in den Semantikdaten angegeben sein, dass sich in dem Trainingsdatensatz ein Objekt eines vorgegebenen Objekttyps, beispielsweise eine Person oder ein Fahrzeug, abgebildet ist. Es kann auch beispielsweise eine Anzahl der abgebildeten Objekte eines vorgegebenen Objekttyps in den Semantikdaten enthalten sein. Die Semantikdaten können auch beispielsweise eine Dichte und/oder Position von Objekten eines vorgegebenen Objekttyps angeben. Der Merkmalsvektor kann also zumindest teilweise aus solchen Semantikdaten gebildet werden. Hierzu kann für das Erzeugen der Semantikdaten beispielsweise ein Hilfsmodell des maschinellen Lernens, also ein Modell des maschinellen Lernens, was nicht auf den Trainingsdaten trainiert wurde, verwendet werden. Hierbei kann die Erkennung mittels eines solchen Hilfsmodells gröber oder mit geringerer Detailtiefe vorgesehen sein als es für das eigentliche zu trainierende Modell des maschinellen Lernens vorgesehen sein kann, da lediglich erkannt werden muss, ob es sich um ein Objekt eines bestimmten Objekttyps handelt, ohne weitere Details detektieren können zu müssen. Ein Hilfsmodell kann aus dem Stand der Technik entnommen werden.
Wie bereits ausgeführt, kann ein Merkmalsvektor aus den Ortsverteilungen der Bildmerkmale eines Autoencoders und/oder den Situationsdaten der Aufnahmesituation und/oder den Semantikdaten gebildet werden. Um all diese Informationen oder Daten zusammenzufassen, ist gemäß einer Weiterentwicklung vorgesehen, dass die besagte Funktion zum Bilden der Merkmalsvektoren umfasst, dass zunächst ein Zwischenvektor mit Merkmalsdaten oder Merkmalswerten gebildet wird. Diese Merkmalsdaten können also die besagten Ortsverteilung der Bildmerkmale und/oder die Situationsdaten der Aufnahmesituation und/oder die Semantikdaten enthalten. Der Zwischenvektor kann mittels einer sogenannten Konkatenation („concat“ - concatenation) gebildet werden. Dieser Zwischenvektor ist insofern eine vollständiger Merkmalsvektor, als dass er alle ermittelten Merkmalswerte enthalten kann, was ihn aber vom Datenvolumen her unerwünscht umfangreich machen kann. Dieser (vollständige) Zwischenvektor wird deshalb mittels einer dimensions-reduzierenden Methode zu dem eigentlichen Merkmalsvektor komprimiert. Eine hierzu verwendete dimensions-reduzierende Methode kann beispielsweise eine Hauptkomponentenanalyse (PCA - Principal Component Analysis) oder eine ICA (Independent Component Analysis) oder eine UMAP (Uniform Manifold Approximation) oder eine sogenannte spektrale Einbettung (Spectral Embedding) sein, um vorteilhafte Beispiele zu nennen.
Die Erfindung betrifft auch die Frage, wie geeignete Messdatensätze ermittelt werden können, die sich als zusätzlicher Trainingsdatensatz nutzen lassen.
Eine Weiterentwicklung geht hierbei von der statistischen Verteilungsfunktion aus und konstruiert hiervon ausgehen „rückwärts“, welche Eigenschaften ein geeigneter zusätzlicher Trainingsdatensatz aufweisen muss und löst dann die entsprechende Messung oder Ermittlung eines solchen Messdatensatzes aus, der als zusätzlicher Trainingsdatensatz geeignet ist. Eine Weiterentwicklung sieht hierzu vor, dass zum Ermitteln zumindest eines der zusätzlichen Trainingsdatensätze ausgehend von einem solchen Merkmalsvektor, dessen Auftrittswahrscheinlichkeit in der statistischen Verteilungsfunktion kleiner als der vorbestimmte Schwellenwert ist, eine zu der besagten „Funktion“ inverse Funktion (die also von einem Merkmalsvektor hin zu einem Trainingsdatensatz abbilden kann) ein prototypischer Trainingsdatensatz erzeugt wird. Da die Funktion in der beschriebenen Weise eine dimensions-reduzierende Methode umfassen kann, also beispielsweise eine PCA, wird in diesem Fall zu einem gegebenen Merkmalsvektor kein eindeutiger und/oder genauer prototypischer Trainingsdatensatz erzeugt werden können. Vielmehr wird lediglich ein „verschwommener“ Trainingsdatensatz beschrieben, indem zu einzelnen Datenwerten des gesuchten zusätzlichen Trainingsdatensatzes lediglich eine Region oder eine Zone angegeben werden kann, in welcher ein bestimmter jeweiliger Datenwert liegen muss, um nach Anwenden der eigentlichen (nicht-inversen) Funktion wieder den Merkmalsvektor zu erhalten, der die besagte Auftrittswahrscheinlichkeit kleiner als der Schwellenwert hat. Um initial überhaupt einen solchen Merkmalsvektor aus der statistischen Verteilungsfunktion zu ermitteln, kann in dem Merkmalsraum derjenige Raumbereich ermittelt werden, der gemäß der statistischen Verteilungsfunktion alldiejenigen Merkmalsvektoren umfasst, die eine Auftrittswahrscheinlichkeit größer als der Schwellenwert aufweisen. Ein Merkmalsvektor außerhalb dieses Raumbereichs stellt dann einen geeigneten Merkmalsvektor zum Anwenden der besagten inversen Funktion dar. Umfasst die Funktion zum Bilden der Merkmalsvektoren ein künstliches neuronales Netzwerk und/oder einen Autoencoder auf Basis eines Faltungsnetzwerks, so kann eine inverse Funktion durch eine sogenannte Relevantpropagation gebildet werden, wie sie beispielhaft in der Veröffentlichung von Montavon et al beschrieben ist: (Gregoire Montavon, Alexander Binder, Sebastian Lapuschkin, Wojciech Samek, Klaus-Robert Müller, „Layer-Wise Relevance Propagation: An Overview“, Explainable AI: Interpreting, Explaining and Visualizing Deep Learning. Lecture Notes in Computer Science, vol 11700. Springer, Cham. https://doi.org/10.1007/978-3-030-28954-6_10).
Um die dimensions-reduzierende Methode zu invertieren, kann auf entsprechende inverse Abbildungen für die PCA, ICA, UMAP oder das spektrale Einbetten zurückgegriffen werden, wie es aus dem Stand der Technik bekannt ist. Der prototypische Trainingsdatensatz enthält also zu einzelnen Bereichen, beispielsweise einzelnen Bildregionen eines Kamerabilds, Vorgaben für Datenwerte, die in dem Messdatensatz dort enthalten sein sollten, damit sich ein zulässiger zusätzlicher Trainingsdatensatz ergibt. Für solche Regionen oder Zonen des Trainingsdatensatzes, beispielsweise Bildregionen, die gemäß der inversen Funktion als irrelevant für die Auswertung oder die Erzeugung eines Merkmalsvektors erkannt werden, kann ein Standardwert, beispielsweise 0, zugrundegelegt werden.
Ein zusätzlicher Trainingsdatensatz kann aber auch auf andere Weise ermittelt werden. In einer Weiterentwicklung werden zum Ermitteln zumindest eines der zusätzlichen Trainingsdatensätze jeweilige Messdatensätze mittels einer Sensorschaltung erfasst und/oder mittels einer Simulationssoftware erzeugt. Wie bereits erläutert, stellt ein Messdatensatz eine solche Ausgabe einer Sensorschaltung oder Simulationssoftware dar, für die noch nicht bekannt ist, ob es sich um einen geeigneten zusätzlichen Trainingsdatensatz handelt. Es wurde also noch keine Prüfung mittels eines Merkmalsvektors in der beschriebenen Weise vorgenommen. Anhand des aus dem Messdatensatz erzeugten Merkmalsvektors wird verifiziert, dass der Merkmalsvektor gemäß der statistischen Verteilungsfunktion die Auftrittswahrscheinlichkeit kleiner als der Schwellenwert aufweist. Dies verifiziert oder bestätigt einen solchen Messdatensatz als geeigneten zusätzlichen Trainingsdatensatz. In diesem Fall wird also der Messdatensatz als zusätzlicher Trainingsdatensatz verwendet.
Diese Prüfung kann auch anders herum genutzt werden, um zu überprüfen, ob alle geplanten Situationen oder Szenen durch die insgesamt bereits vorhandene Menge der Trainingsdatensätze abgedeckt sind. Ein Messdatensatz wird nämlich in der Regel gebildet, indem er gemäß eines vorbestimmten Szenenkatalogs für all diejenigen Situationen erzeugt wird. Ein solcher Szenenkatalog beschreibt all diejenigen Situationen, in welchen das Modell des maschinellen Lernens betrieben werden soll. Ein Beispiel für einen solchen Szenenkatalog kann angeben, dass das Modell des maschinellen Lernens für eine automatisierte Fahrfunktion genutzt werden können soll und hierbei als Situationen beispielsweise Überholsituationen und/oder Situationen an Kreuzungen und/oder Situationen bei Fahrt im Regen vorgesehen oder ermöglicht werden sollen. Falls der Merkmalsvektor die Auftrittswahrscheinlichkeit größer als der Schwellenwert aufweist, also der zugehörige Messdatensatz bereits durch die vorhandenen Trainingsdatensätze repräsentiert oder abgebildet ist, wird ein Bestätigungssignal erzeugt, das bestätigt, dass die Situation, in welcher der Messdatensatz erzeugt wurde oder die durch den Messdatensatz beschrieben ist, bereits abgedeckt ist, also diese Situation aus dem Szenenkatalog bereits durch die vorhandenen Trainingsdatensätze beschrieben oder abgedeckt ist. Damit muss dieser Messdatensatz nicht ebenfalls als zusätzlicher Trainingsdatensatz hinzugefügt werden. Somit kann verifiziert werden, ob der Szenenkatalog vollständig durch die vorhandenen Messdatensätze abgedeckt oder repräsentiert ist. Es können hierzu zu allen geforderten Situationen beispielhafte Messdatensätze gebildet werden und es kann überprüft werden, ob durch die vorhandenen Trainingsdatensätze sich bereits ergibt, dass die daraus gebildete statistische Verteilungsfunktion alle zusätzlichen Messdatensätze als bereits abgedeckt oder durch die Auftrittswahrscheinlichkeit größer als der Schwellenwert repräsentiert.
Wie bereits ausgeführt, kann ein Trainingsdatensatz insbesondere ein Einzelbild oder Kamerabild aus einer Kamera repräsentieren, wie sie für ein Kraftfahrzeug mit automatisierter Fahrfunktion nutzt oder aufweist, um die automatisierte Fahrfunktion zu betreiben. Eine automatisierte Fahrfunktion kann beispielsweise eine autonome Fahrfunktion oder eine Fahrerassistenzfunktion mit automatisierter Längsführung oder automatisierter Querführung sein. Ein Trainingsdatensatz kann als Inhalt auch eine Bildsequenz einer Videoaufnahme einer Kamera der besagten Art enthalten.
Die Erfindung sieht zusätzlich zu dem Verfahren auch die besagte Prozessorschaltung vor, die zum Ermitteln der Trainingsdatensätze dazu angepasst ist, eine Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Die Prozessorschaltung kann hierzu zumindest einen Mikroprozessor und/oder zumindest einen digitalen Signalprozessor und/oder zumindest eine GPU (Graphical Processing Unit) und/oder eine NPU (Neuronal Processing Unit) umfassen. In der Prozessorschaltung kann ein Programmcode bereitgestellt sein, der Programminstruktionen umfasst, die bei Ausführen durch die Prozessorschaltung diese veranlassen, die Ausführungsform des Verfahrens auszuführen. Der Programmcode kann in einem Datenspeicher der Prozessorschaltung gespeichert sein, der mit dem zumindest einen besagten Prozessor gekoppelt sein kann. Die Prozessorschaltung kann beispielsweise als ein Computer oder ein Verbund mehrerer Computer gebildet sein, die beispielsweise in einem Entwicklungslabor für das Training des Modells des maschinellen Lernens bereitgestellt sein kann.
Als eine weitere Lösung umfasst die Erfindung auch ein computerlesbares Speichermedium, umfassend Befehle, die bei der Ausführung durch einen Computer oder einen Computerverbund diesen veranlassen, eine Ausführungsform des erfindungsgemäßen Verfahrens auszuführen. Das Speichermedium kann z.B. zumindest teilweise als ein nichtflüchtiger Datenspeicher (z.B. als eine Flash-Speicher und/oder als SSD - solid state drive) und/oder zumindest teilweise als ein flüchtiger Datenspeicher (z.B. als ein RAM - random access memory) ausgestaltet sein. Durch den Computer oder Computerverbund kann die beschriebene Prozessorschaltung mit zumindest einem Mikroprozessor bereitgestellt sein. Die Befehle können als Binärcode oder Assembler und/oder als Quellcode einer Programmiersprache (z.B. C) bereitgestellt sein.
Die Erfindung umfasst auch die Kombinationen der Merkmale der beschriebenen Ausführungsformen.
Im Folgenden werden Ausführungsbeispiele der Erfindung beschrieben. Hierzu zeigt:

1 eine schematische Darstellung einer Ausführungsform des Verfahrens; und
2 eine Skizze zur Veranschaulichung der inversen Funktion zur Erzeugung des prototypischen Trainingsdatensatzes.

Bei den im Folgenden erläuterten Ausführungsbeispielen handelt es sich um bevorzugte Ausführungsbeispiele der Erfindung. Bei den Ausführungsbeispielen stellen die beschriebenen Komponenten jeweils einzelne, unabhängig voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden und damit auch einzeln oder in einer anderen als der gezeigten Kombination als Bestandteil der Erfindung anzusehen sind. Des Weiteren sind die beschriebenen Ausführungsbeispiele auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.
In den Figuren sind funktionsgleiche Elemente jeweils mit denselben Bezugszeichen versehen.
1 zeigt ein System 10 mit einer Prozessorschaltung 11 und Kraftfahrzeugen 12, von denen der Übersichtlichkeit halber nur eines dargestellt ist und Auslassungspunkte 13 die Möglichkeit weiterer Kraftfahrzeuge der im Folgenden beschriebenen Art symbolisieren.
Durch das jeweilige Kraftfahrzeug 12 kann während einer Fahrt durch eine Umgebung 14 mittels zumindest eines Umgebungssensors oder Messsensors 15, beispielsweise einer Kamera 16, in der Umgebung 14 zumindest ein Verkehrsteilnehmer 17 erfasst werden. Hierzu kann ein Erfassungsbereich 18 des jeweiligen Messsensors 15 in die Umgebung 14 gerichtet sein. Sensordaten 19 des jeweiligen Messsensors 15 können an eine automatisierte Fahrfunktion 20 des Kraftfahrzeugs 12 übergeben oder übermittelt werden. Die automatisierte Fahrfunktion 20 kann mittels eines Steuergeräts 21 beispielsweise in dem Kraftfahrzeug 12 selbst realisiert sein. Die automatisierte Fahrfunktion 20 kann vorsehen, Steuerdaten 22 zum Steuern einer Fahraktuatorik 23 zu erzeugen, mittels welcher in dem Kraftfahrzeug 12 eine Längsführung (Beschleunigen und/oder Bremsen) und/oder eine Querführung (Lenken) automatisiert in Abhängigkeit von den Steuerdaten 22 durchgeführt werden kann. Die automatisierte Fahrfunktion 20 kann hierzu beispielsweise ein autonomes Fahren des Kraftfahrzeugs 12 und/oder eine Fahrerassistenzfunktion, beispielsweise einen Spurhaltefunktion und/oder eine Einparkfunktion, umfassen, um nur Beispiele zu nennen. Um aus den Sensordaten 19 die Steuerdaten 22 zu erzeugen, kann in der automatisierten Fahrfunktion 20 vorgesehen sein, dass anhand der Sensordaten 19 der jeweilige Verkehrsteilnehmer 17 automatisiert erkannt werden kann, wofür ein Modell 24 des maschinellen Lernens genutzt werden kann. Mittels des Modells des maschinellen Lernens kann aus den Sensordaten 19, beispielsweise Bilddaten einer Kamera 16, der jeweilige Verkehrsteilnehmer 17 detektiert oder erkannt werden. Als Verkehrsteilnehmer 17 kann beispielsweise jeweils ein anderes Kraftfahrzeug und/oder ein Fußgänger und/oder ein Radfahrer erkannt werden. Mittels des Modells 24 kann zusätzlich oder alternativ vorgesehen sein, auch Verkehrsinfrastrukturobjekte, wie beispielsweise Verkehrsschilder und/oder Ampeln und/oder Fahrbahnmarkierungen, zu erkennen. Erkennungsdaten, die aus den Sensordaten 19 durch das Modell 24 erzeugt werden, können dazu genutzt werden, in an sich bekannter Weise ein Umgebungsmodell der Umgebung 14 in der automatisierten Fahrfunktion 20 zu erzeugen und daraufhin eine Fahrtrajektorie für das Kraftfahrzeug 12 zu berechnen, um kollisionsfrei an ein Fahrziel zu fahren. Anhand dieser Trajektorie können dann die Steuerdaten 22 erzeugt werden, um mittels der Fahraktuatorik 23 der berechneten Fahrtrajektorie zu folgen oder diese abzufahren.
Um das Modell 24 zu erzeugen, kann in dem System 10 eine Prozessorschaltung 11 vorgesehen sein, die mittels eines Trainingsalgorithmus 25 auf der Grundlage von Trainingsdatensätzen 26 das Modell 24 erzeugen kann. Ein jeder Trainingsdatensatz 26 kann beispielsweise ein Einzelbild aus einer Kamera wie der Kamera 16, oder allgemein einen Messdatensatz von Sensordaten zumindest eines Umgebungssensors, darstellen oder enthalten. Zusätzlich können für den jeweiligen Trainingsdatensatz 26 in an sich bekannter Weise Beschreibungsdaten oder Labeldaten 27 bereitgestellt sein, welcher angeben kann, welche Verkehrsobjekte (Verkehrsteilnehmer und/oder Straßeninfrastrukturobjekte) in dem jeweiligen Trainingsdatensatz 26 abgebildet sind oder dargestellt sind. Anhand einer solchen Datenbank 28 mit Trainingsdatensätzen 26 und zugeordneten Labeldaten 27 kann in an sich bekannter Weise der Trainingsalgorithmus 25 das Modell 24 des maschinellen Lernens erzeugen. Hierzu kann beispielsweise das Modell 24 als künstliches neuronales Netzwerk ausgestaltet sein und das Training mittels des aus dem Stand der Technik bekannten Back-Propagation-Algorithmus durchgeführt werden. Alternative oder zusätzliche Implementierungsmöglichkeiten für ein Modell 24 können sein: eine Support-Vector-Machine, ein Decision Tree, um nur Beispiele zu nennen, die dem Stand der Technik entnommen werden können.
Damit mittels des Modells 24 unterschiedliche Verkehrssituationen oder Verkehrsszenarien in dem Kraftfahrzeug 12 erkannt oder ausgewertet werden können, enthält die Menge der Trainingsdatensätze 26 für unterschiedliche Szenen oder Verkehrssituationen einen entsprechenden repräsentativen Trainingsdatensatz 26. Um den Trainingsalgorithmus 25 hierbei effizient betreiben zu können, ist vorgesehen, dass pro Verkehrssituation oder Szenario die Redundanz an entsprechenden Trainingsdatensätzen 26 reduziert ist oder gering gehalten ist.
Um dies zu erreichen, wird das im Folgenden beschriebene Verfahren durch die Prozessorschaltung 11 durchgeführt.
Das Verfahren kann davon ausgehen, dass in einem Schritt S1 auf eine Initialmenge oder Anfangsmenge von Trainingsdatensätzen 26 ausgegangen wird, wie sie beispielsweise mittels einer Messfahrt mit einem Messfahrzeug im Straßenverkehr erzeugt und/oder aus einer Datenbank für Standard-Trainingsdaten entnommen werden können. Bezüglich der bereits vorhandenen Trainingsdatensätze 26 kann eine statistische Verteilungsfunktion 30 gebildet werden, was mittels einer statistischen Analysefunktion erfolgen kann, die beispielsweise eine Kernel-basierte Dichteverteilung (KDE - Kernel Density Estimation), wie beispielsweise eine Gauß-Kernel-Verteilung und/oder ein Clustering oder eine Support-Vector-Machine von Merkmalsvektoren 32 erzeugen kann, deren Erzeugung im Folgenden anhand von den im Weiteren beschriebenen zusätzlichen Trainingsdatensätzen beschrieben wird. Jeder Merkmalsvektor 32 kann aus einem jeweiligen Trainingsdatensatz 26 durch eine Funktion f, Bezugszeichen 31, in der im Weiteren beschriebenen Weise erzeugt werden.
Ist also zu den bereits vorhandenen Trainingsdaten 26 eine statistische Verteilungsfunktion 30 von deren Merkmalsvektoren 32 bekannt, so kann zu einem Messdatensatz 33 entschieden werden, ob dieser bereits statistisch durch die statistische Verteilungsfunktion 30 repräsentiert ist oder noch nicht. Ergibt sich für einen Messdatensatz 33, dass dieser durch die statistische Verteilungsfunktion 30 bereits repräsentiert ist, also durch die statistische Verteilungsfunktion 30 angegeben ist, dass sich ein zu dem Messdatensatz 33 gebildeter Merkmalsvektor 34 eine Auftrittswahrscheinlichkeit größer oder gleich als ein Schwellenwert 35 ist, so kann dieser Messdatensatz 33 verworfen werden, da er bereits durch die vorhandenen Trainingsdatensätze 26 repräsentiert ist. Andernfalls, wenn der Merkmalsvektor 34 eines neu zugegangenen Messdatensatzes 33 gemäß der statistischen Verteilungsfunktion 30 eine Auftrittswahrscheinlichkeit kleiner als der Schwellenwert 35 aufweist, so kann dieser Messdatensatz 33 als zusätzlicher Trainingsdatensatz 36 den bereits vorhandenen Trainingsdatensätzen 26 in der Datenbank 28 hinzugefügt werden und (beispielsweise durch eine Bedienperson) mit Labeldaten 27 ausgestattet werden.
Der Messdatensatz 33 kann in der beschriebenen Weise Sensordaten eines Umgebungssensors enthalten, wie sie beispielsweise auf einer Messfahrt erzeugt worden sein können.
1 veranschaulicht symbolisch, wie die Merkmalsvektoren 32, 34 Merkmalswerte für unterschiedliche Dimensionen M1, M2 des jeweiligen Merkmalsvektors 32, 34 angeben können. Die hier dargestellten zwei Dimensionen für Merkmalswerte M1, M2 sind nur symbolisch dargestellt, ein Merkmalsvektor 32, 34 kann beispielhaft Merkmalswerte oder Dimensionen im Bereich von 2 bis 20 aufweisen, um geeignete Beispiele zu nennen.
Um einen Merkmalsvektor 34 aus einem Messdatensatz 33 zu erzeugen (und entsprechend einen Merkmalsvektor 32 aus einem Trainingsdatensatz 26), kann vorgesehen sein, dass der Messdatensatz 33 mittels eines sogenannten Autoencoders 40 dahingehend analysiert wird, welche Muster oder Strukturen in dem Messdatensatz 33, beispielsweise einem Kamerabild, enthalten sind oder erkennbar sind. Das Ergebnis ergibt dann eine Ortsverteilung 41 der entsprechenden Muster und/oder Strukturen, also eine Angabe, wo im Bild oder im Messdatensatz 33 sich zu welchem Anteil welche Textur und/oder Muster und/oder Farbe befinden. Die Ortsverteilung 41 kann als ein Vektor angegeben sein.
Der Autoencoder 40 kann beispielsweise auf der Grundlage eines Faltungsnetzwerks CNN in an sich bekannter Weise realisiert sein.
Mittels eines Objekterkenners 42 kann vorgesehen sein, Semantikdaten 43 zu erzeugen, welche zu dem Messdatensatz 33 eine Objektstatistik angeben, beispielsweise welche Klasse von Verkehrsobjekten 44 in dem Messdatensatz 33 mittels des Objekterkenners 42 erkannt wurden, welche Anzahl und/oder in welchem Zahlenverhältnis und/oder wo im Messdatensatz, beispielsweise im Kamerabild. Der hierfür verwendete Objekterkenner 42 muss dabei nicht die Erkennungsqualität des Modells 24 selbst aufweisen. Die Semantikdaten 43 können mit dem Vektor der Ortsverteilungen 41 konkateniert werden, um auch bei Kombination einen einzelnen Vektor zu erhalten.
In einem Schritt S4 kann zusätzlich oder alternativ vorgesehen sein, Situationsdaten 45 zu der jeweiligen Messsituation oder Aufnahmesituation 46 zu ermitteln, in welcher der Messdatensatz 33 erzeugt wurde oder aufgenommen wurde. Hierzu kann beispielsweise auf zumindest einen Datendienst und/oder zumindest ein Sensorsignal des Messfahrzeugs als Datenquelle DB zurückgegriffen werden. Die Situationsdaten 45 stellen also Metadaten dar, die beispielsweise eine Geoposition des Messsensors, der den Messdatensatz 33 erzeugt hat, zum Aufnahmezeitpunkt angibt (beispielsweise Geokoordinaten eines GNSS (Global Navigation Satellite System), beispielsweise des GPS (Global Positioning System)). Zusätzlich oder alternativ dazu können die Situationsdaten eine Aufnahmezeit und/oder eine Wetterbedingung während der Aufnahme angeben, um nur Beispiele zu nennen. Die Situationsdaten 45 können ebenfalls als ein Vektor angegeben sein, der durch Konkatenieren mit einem Vektor aus der Ortsverteilung 41 und/oder einem Vektor aus den Semantikdaten 43 konkateniert oder kombiniert werden kann.
Insgesamt ergibt sich somit ein Eingabevektor oder vollständiger Merkmalsvektor 47, der mittels einer dimensions-reduzierenden Methode 48 in der Anzahl seiner Dimensionen reduziert werden kann, um hierdurch den Merkmalsvektor 34 (beziehungsweise Merkmalsvektor 32) zu erhalten. Als dimensions-reduzierende Methode 48 kann beispielsweise eine PCA, ICA, UMAP oder ein Spectral Embedding verwendet werden, um nur Beispiele zu nennen. Ein weiteres Beispiel ist ein Clustering.
Ein Objekterkenner 42 kann beispielsweise mittels eines künstlichen neuronalen Netzwerks, eines sogenannten Perception DNN (Deep Neuronal Network) realisiert sein.
Der Merkmalsvektor 34 kann dann in der statistischen Verteilungsfunktion 30 daraufhin überprüft werden, ob seine Auftrittswahrscheinlichkeit oder ob für ihn eine Wahrscheinlichkeit durch die statistische Verteilungsfunktion 30 angegeben wird, die kleiner als der Schwellenwert 35 ist. Ist dies der Fall, so wird (symbolisiert durch einen symbolischen Schalter 50) der Messdatensatz 33 in der beschriebenen Weise als zusätzlicher Trainingsdatensatz 36 in die Datenbank 38 aufgenommen werden. Die statistische Verteilungsfunktion 30 ist hier dadurch dargestellt, dass beispielsweise mittels Gauß-Kerneln, Moden 51 der statistischen Verteilungsfunktion 30 dargestellt sind. Die statistische Verteilungsfunktion 30 kann in der beschriebenen Weise auf Grundlage der statistischen Verteilung oder der Histogramme der Merkmalsvektoren 32 gebildet werden, die in 1 in der statistischen Verteilungsfunktion 30 beispielhaft als Stützwerte 52 für die statistische Verteilungsfunktion 30 dargestellt sind.
Für eine vorgegebene Menge an Messdatensätzen 33 kann somit überprüft werden, ob diese in die Datenbank 28 als zusätzliche Trainingsdatensätze 26 aufzunehmen sind.
In einem Schritt S5, in einem Schritt S6
Nach Aufnehmen eines zusätzlichen Trainingsdatensatzes 36 oder nach Aufnehmen einer vorbestimmten Anzahl an zusätzlichen Trainingsdatensätzen 36 in die Datenbank 28 kann jeweils die statistische Verteilungsfunktion 30 mittels der Funktion 31 aktualisiert werden.
Der Messdatensatz 33 kann beispielsweise auf der Grundlage eines Szenarienkataloges oder Szenenkatalog 60 erzeugt worden sein, der angeben kann, welches Szenario oder welche Verkehrssituation durch einen Messdatensatz 33 abgebildet werden soll. Sodann kann überprüft werden, ob die bereits vorhandenen Trainingsdatensätze 26 diese Verkehrssituation bereits ausreichend (gemäß dem Schwellenwert 35) abbilden oder nicht. Als Schwellenwert kann beispielhaft angegeben sein, dass die Auftrittswahrscheinlichkeit gemäß der statistischen Verteilungsfunktion größer als 60 Prozent oder größer als 70 Prozent oder größer als 80 Prozent sein soll, um nur Beispiele zu nennen. Der Schwellenwert 35 kann in einem Bereich von 60 Prozent bis 95 Prozent liegen, um geeignete Beispiele zu nennen.
2 veranschaulicht eine alternative Möglichkeit, um ähnlich wie bei dem Szenenkatalog 60 zu ermitteln, welches Szenario oder welche Verkehrssituation durch einen Messdatensatz 33 abgebildet werden sollte, um einen zusätzlichen Trainingsdatensatz 36 zu bilden.
Ein jeweiliger Trainingsdatensatz 26 kann auch seinen Merkmalsvektor 32, 34 und/oder seine Ortsverteilung und/oder Situationsdaten und/oder Semantikdaten enthalten, damit sie in dem Verfahren verfügbar bleiben.
Hierzu ist dargestellt, wie ausgehend von der statistischen Verteilungsfunktion 30 für einen Merkmalsvektor 70, dessen Auftrittswahrscheinlichkeit kleiner als der Schwellenwert 35 ist, mittels einer zu der Funktion 31 inversen Funktion 31`, also einer inversen Funktion f^-1, ein prototypischer Trainingsdatensatz 71 erzeugt werden kann, welcher prinzipiell oder durch Intervallangaben oder Wertangaben für einzelne Pixel oder Messorte des prototypischen Trainingsdatensatzes 71 angibt, welche Datenwerte dort enthalten sein sollen, um eine weitere, bisher nicht durch die vorhandenen Trainingsdatensätze 26 repräsentierte Verkehrssituation abzubilden oder darzustellen. Dargestellt ist hier beispielhaft, wie in dem prototypischen Trainingsdatensatz 71 in einem Bereich 72 Datenwerte enthalten sein sollen, die eine Objektklasse eines Verkehrsobjekts eines Passanten angeben. Für einen weiteren Bereich 73 kann angegeben sein, dass dort Verkehrsobjekte in Form einer Randbebauung, beispielsweise Bäume, vorgesehen sein sollen. Ein weiterer Bereich 74 kann Datenwerte enthalten, die angeben, dass sich dort ein Verkehrsschild befinden soll. Ein weiterer Bereich 75 kann mit Datenwerten belegt sein, die angeben, dass sich dort eine Fahrspur befinden soll. Die Datenwerte für die Bereiche 72, 73, 74, 75 können grob oder diffus sein, da sich aufgrund der merkmalsreduzierenden Methode 48 durch eine entsprechende inverse Transformation oder Methode 48` nur in der Auflösung reduzierte Angaben erzeugen lassen. Der Merkmalsvektor 70 kann somit in der inversen Funktion 31' mittels der inversen Transformation oder der inversen Dimensions-reduzierenden Methode 48`, also einer Dimensions-erhöhenden Methode 48`, in einen vollständigen Merkmalsvektor 47 umgewandelt oder transformiert werden. Dieser kann dann beispielsweise mittels einer Relevanzpropagation 40`, die das Faltungsnetzwerk (Autoencoder 40) in seiner Wirkung umkehren soll, analysiert werden. Mittels einer inversen Relevanzpropagation 42` kann der Objekterkenner 42 „rückwärts betrieben“ werden, also aus einem entsprechenden Anteil oder einer entsprechenden Teilmenge aus dem vollständigen Merkmalsvektor 47, welcher den Semantikdaten 43 entspricht, kann mittels der Relevanzpropagation 42` eine Aussage über beispielsweise den Inhalt, also die beschriebene semantische Bedeutung der Bereiche 72 bis 75 (entsprechende Objektklassen) ermittelt werden. Aus dem vollständigen Merkmalsvektor 47 kann eine entsprechende Teilmenge der Merkmalswerte als Ortsverteilung 41 genutzt werden.
Ein entsprechender Anteil der Merkmalswerte des vollständigen Merkmalsvektors 47 kann als Situationsdaten 45 genutzt werden und beispielsweise mittels des jeweiligen Datenbank oder allgemein durch eine Umkehrfunktion kann aus den Merkmalswerten der Situationsdaten 45 ermittelt werden, welche entsprechende Aufnahmesituation 46 vorliegen muss, ob beispielsweise Regen vorhanden sein muss oder Nebel, um nur Beispiele zu nennen.
Somit ergibt sich durch die inverse Funktion 31' eine Beschreibung des prototypischen Trainingsdatensatzes 71 und es kann nun daraufhin eine entsprechende Messfahrt unternommen werden, um einen zu dem prototypischen Trainingsdatensatz 71 korrespondierenden Messdatensatz 33 gezielt zu erzeugen oder aufzunehmen.
Dieser kann dann in der beschriebenen Weise (siehe 1) in die Datenbank 28 aufgenommen werden, wobei hierbei ebenfalls Überprüfung in der beschriebenen Weise mittels des Verfahrens vorgenommen werden kann, um sicherzugehen, dass der anhand des prototypischen Trainingsdatensatzes 71 erzeugte Messdatensatz 33 tatsächlich als zusätzlicher Trainingsdatensatz 36 aufgenommen werden soll.
Der am häufigsten verwendete Ansatz zum Testen und Erreichen der Datenabdeckung basiert auf Metainformationen über das Szenario, z. B. für Wahrnehmungsfunktionen beim autonomen Fahren könnten dies Ort, Zeit (Tages- und Jahreszeit), Verkehrsumgebung, Wetterbedingungen, Richtung und Streuung des Sonnenlichts usw. sein. Für die Anwendung der Anomalie- oder Neuheitserkennung versuchen einige neuere Ansätze, die Dichte der Vorkommnisse im Einbettungsraum von maschinellen Lernsystemen zu messen, wie z. B. die Engpassschicht von Autoencodern oder Wahrnehmungs-DNNs. Dieser Ansatz verwendet die (immer noch recht hochdimensionalen) Aktivierungen der Neuronen in der Engpassschicht, die durch ein Eingangsmuster verursacht werden, und wendet darauf einige Methoden zur Dimensionalitätsreduktion an (z. B. PCA, ICA, UMAP, spektrale Einbettung), gefolgt von einer Kernel-Dichte-Schätzung (KDE - kernel density estimation) oder einem Clustering. Um zu entscheiden, ob es sich um neue oder anormale Proben handelt, wird ein Schwellenwert angewendet (Dichteschwelle für KDE oder Abstandsschwelle für Clustering), um zu prüfen, ob eine Probe in der bekannten Verteilung liegt oder nicht.
Szenariodefinitionen, die auf Metadaten basieren, werden in erster Linie von Hand erstellt, was die Einschränkung mit sich bringt, dass man nicht genau weiß, wie sie sich tatsächlich auf die Arbeit eines Wahrnehmungssystems auswirken (z.B. kann sich ein Ortsmerkmal einer Datenprobe stark von einer zweiten unterscheiden, obwohl das Erscheinungsbild für das Wahrnehmungssystem sehr ähnlich ist, d.h. dieses Merkmal ist im Trainingsverfahren nicht sehr informativ). Außerdem überspannen sie hochdimensionale diskrete Szenarienräume, was zu sehr großen Szenarienkatalogen führt. Datengetriebene Ansätze wie das Verfahren der vorliegenden Erfindung versuchen, den Eingaberaum aus der Sicht des Wahrnehmungssystems und nicht aus der Sicht eines menschlichen Experten zu betrachten.
Die im Stand der Technik erwähnten Ansätze zur Erkennung von Neuheit fallen ebenfalls in die Klasse der datengesteuerten Ansätze und lösen somit diesen Aspekt. Sie haben jedoch den Nachteil, dass sie im Falle der Autoencoder nur Low-Level-Informationen berücksichtigen, bzw. im Falle eines Wahrnehmungs-DNN nur die durch diese Wahrnehmungsaufgabe modellierte Semantik.
Die beschriebene Methode kombiniert ihn mit einem metadatenbasierten Ansatz: Zusätzlich zur Einbettungsrepräsentation der Engpassschicht, die rein aus Wahrnehmungseingangsdaten (z. B. Bildern) aufgebaut wird, erhält der DNN-Encoder, der diese Einbettung extrahiert, zusätzliche Metadaten als Eingabe, bevor er die niedrigdimensionale Repräsentation aufbaut und darauf eine Dichteabschätzung oder ein Clustering durchführt.
Die Quellen für Metainformationen können unterschiedlicher Art sein, z. B. Kontextdaten von Kartenanbietern, Wetteranbietern, GPS-Standort, Tages- und Jahreszeit, Lichtverhältnisse, Straßentypen. Darüber hinaus kann sie eine Auswahl von Umgebungswahrnehmungsdaten umfassen, wie z. B. Vorkommen und Position von Objekten in der Szene (z. B. Position im Sichtfeld und einfache Statistiken über das Vorkommen bestimmter Klassen), die von einem Objekterkennungs-DNN oder ähnlichem extrahiert werden. Dieser Umgebungswahrnehmungs-DNN könnte sogar nur eine mittlere Erkennungsqualität in Bezug auf die genaue Lage und Ausdehnung von Objekten haben, sofern die abgeleiteten Statistiken wie Anzahl, ungefähre Lage und ungefähre Größe der Objekte korrekt sind.
Das Ergebnis ist eine Dichtekarte eines Datensatzes, in der die Regionen sowohl wahrnehmungsbezogenen als auch semantischen Szenarien entsprechen. Diese Karte kann verwendet werden:

(1) zur Überprüfung, ob Daten, die aus Testfahrten nach einem übergeordneten Szenarienkatalog generiert wurden, in Regionen mit hoher Dichte der Trainingsdaten liegen, d.h. im Trainingsprozess ausreichend abgedeckt werden
(2) für die Datenauswahl, indem Daten einer Fahrzeugflotte nur dann aufgezeichnet (und dem Trainingssatz hinzugefügt) werden, wenn sie in Regionen mit geringer Dichte der Trainingsdaten liegen, d. h. das Fahrzeug trifft auf eine Situation, die nicht ausreichend durch die Trainingsdaten abgedeckt ist, so dass sie aufgezeichnet, kommentiert und dem Trainingssatz hinzugefügt werden sollte
(3) als Grundlage für umgekehrte Abfragen, um herauszufinden, welche Art von Daten erforderlich ist, um die Abdeckung in Regionen mit geringer Dichte der Karte zu erhöhen. Dies kann mit Hilfe der Relevanzfortpflanzung erfolgen, d. h. durch Zuordnung eines Punktes in der Region zu Eingabewerten, die ihn erzeugen würden. Diese Informationen können entweder die Datenerfassungskampagne leiten (wir wissen jetzt, nach welcher Art von Daten wir suchen) oder zur synthetischen Erzeugung von Eingabedaten dienen, um den Trainingsdatensatz zu erweitern.

Insgesamt zeigen die Beispiele, wie eine Unvollständigkeit von Trainingsmaterial in einer datengetriebenen Funktionsentwicklung ermittelt werden kann.
Bezugszeichenliste

10: System
11: Prozessorschaltung
12: Kraftfahrzeug
13: Auslassungspunkte
14: Umgebung
15: Sensors
16: Kamera
17: Verkehrsteilnehmer
18: Erfassungsbereich
19: Sensordaten
20: Fahrfunktion
21: Steuergeräts
22: Steuerdaten
23: Fahraktuatorik
24: Modell
25: Trainingsalgorithmus
26: vorhandener Trainingsdatensatz
27: Labeldaten
28: Datenbank
30: Verteilungsfunktion
31: Funktion
32: Merkmalsvektor
33: Messdatensatz
34: Merkmalsvektor
35: Schwellenwert
36: zusätzlicher Trainingsdatensatz
38: Datenbank
40: Autoencoder
40`: Relevanzpropagation
41: Ortsverteilung
42: Objekterkenner
42`: Relevanzpropagation
43: Semantikdaten
44: Verkehrsobjekten
45: Situationsdaten
46: Aufnahmesituation
47: vollständiger Merkmalsvektor
48: dimensions-reduzierende Methode
50: Schalter
51: Moden
52: Stützwert
60: Szenenkatalog
70: unwahrscheinlicher Merkmalsvektor
71: prototypischer Trainingsdatensatz
72: Bereich
73: Bereich
74: Bereich
75: Bereich

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

EP 3647734 A1 [0003]
US 20210140793 A1 [0004]
DE 102020205315 A1 [0005]

Claims

Verfahren zum Ermitteln von Trainingsdatensätzen für ein Training eines Modells (24) des maschinellen Lernens, wobei durch eine Prozessorschaltung (11) zu bereits vorhandenen Trainingsdatensätzen (26) eine statistische Verteilungsfunktion (30) von aus den Trainingsdatensätzen (26) mittels einer vorbestimmten Funktion (31) gebildeten Merkmalsvektoren (32) ermittelt wird und solche zusätzlichen Trainingsdatensätze (36) ermittelt werden, deren jeweiliger mittels der Funktion (31) gebildeter Merkmalsvektor (34) gemäß der statistischen Verteilungsfunktion (30) eine Auftrittswahrscheinlichkeit kleiner als ein vorbestimmter Schwellenwert (35) aufweist, und die zusätzlichen Trainingsdatensätze (36) den vorhandenen Trainingsdatensätzen (26) hinzugefügt werden.
Verfahren nach Anspruch 1, wobei der jeweilige Merkmalsvektors (32, 34) durch die Funktion (31) ermittelt wird, indem der jeweilige Trainingsdatensatz mittels eines Faltungsnetzwerks, CNN, eines Autoencoders (40) gefiltert wird und hierdurch eine jeweilige Ortsverteilung (41) von unterschiedlichen, durch das Faltungsnetzwerk vorgegebenen Bildmerkmalen erzeugt wird und der Merkmalsvektor (32, 34) zumindest teilweise aus den Ortsverteilungen (41) gebildet wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der jeweilige Merkmalsvektor (32, 34) durch die Funktion (31) ermittelt wird, indem zu dem jeweiligen Trainingsdatensatz Situationsdaten (45) ermittelt werden, welche eine Aufnahmesituation (46) des jeweiligen Trainingsdatensatzes (26, 36) beschreiben, und der Merkmalsvektor (32, 34) zumindest teilweise aus den Situationsdaten (45) gebildet wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der jeweilige Merkmalsvektor (32, 34) durch die Funktion (31) ermittelt wird, indem zu dem jeweiligen Trainingsdatensatz (26, 36) mittels eines Objekterkenners (42) Semantikdaten (43) ermittelt werden, welche eine inhaltliche Beschreibung von in dem jeweiligen Trainingsdatensatz (26, 36) abgebildeten Objekten angeben, und der Merkmalsvektor (32, 34) zumindest teilweise aus den Semantikdaten (43) gebildet wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Funktion (31) umfasst, dass ein Zwischenvektor mit Merkmalswerten gebildet und dieser mittels einer dimensions-reduzierenden Methode (48) zu dem Merkmalsvektor (32, 34) komprimiert wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei zum Ermitteln zumindest eines der zusätzlichen Trainingsdatensätze (36) ausgehend von einem solchen Merkmalsvektor (70), dessen Auftrittswahrscheinlichkeit in der statistischen Verteilungsfunktion (30) kleiner als der vorbestimmte Schwellenwert ist, eine zu der Funktion (31) inversen Funktion (31 `) ein prototypischer Trainingsdatensatz (71) erzeugt wird, der Datenwerte eines gesuchten zusätzlichen Trainingsdatensatzes (36) angibt, und zumindest einer der zusätzlichen Trainingsdatensätze (36) gemäß dem prototypischen Trainingsdatensatz (71) erzeugt wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei zum Ermitteln zumindest eines der zusätzlichen Trainingsdatensätze (36) ein jeweiliger Messdatensatz (33) mittels einer Sensorschaltung erfasst und/oder mittels einer Simulationssoftware erzeugt wird und anhand des aus dem Messdatensatz (33) erzeugten Merkmalsvektor (32, 34) verifiziert wird, dass der Merkmalsvektor (32, 34) gemäß der statistischen Verteilungsfunktion (30) die Auftrittswahrscheinlichkeit kleiner als der Schwellenwert aufweist, und in diesem Fall der Messdatensatz (33) als zusätzlicher Trainingsdatensatz (36) verwendet wird.
Verfahren nach Anspruch 7, wobei der Messdatensatz (33) gemäß eines vorbestimmten Szenenkatalog (60) für Situationen, in welchen das Modell (24) des maschinellen Lernens betrieben werden soll, erzeugt wird, und falls der Merkmalsvektor (32, 34) die Auftrittswahrscheinlichkeit größer als der Schwellenwert aufweist, ein Bestätigungssignal erzeugt wird, das bestätigt, dass die Situation, in welcher der Messdatensatz (33) erzeugt wurde, abgedeckt ist.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der jeweilige Trainingsdatensatz ein Einzelbild oder eine Bildsequenz einer Videoaufnahme enthält.
Prozessorschaltung (11) zum Ermitteln von Trainingsdatensätzen für ein Training eines Modells (24) des maschinellen Lernens, wobei die Prozessorschaltung (11) dazu angepasst ist, ein Verfahren nach einem der vorhergehenden Ansprüche durchzuführen.
Computerlesbares Speichermedium, umfassend Befehle, die bei der Ausführung durch einen Computer oder einen Computerverbund diesen veranlassen, ein Verfahren nach einem der Ansprüche 1 bis 9 auszuführen.