DE102022112622A1

DE102022112622A1 - Verfahren und Prozessorschaltung zum Ermitteln von Trainingsdatensätzen für ein Modell des Maschinellen Lernens einer automatisierten Fahrfunktion sowie Speichermedium für die Prozessorschaltung

Info

Publication number: DE102022112622A1
Application number: DE102022112622.6A
Authority: DE
Inventors: Andreas Looft; Fabian Hüger; Rohan Kanchan; Milan Jonah Rohde; Peter Schlicht; Bennet Seifert; Stephanie Jonkers; Nico Schmidt; Yevgeniya Filippovska
Original assignee: Volkswagen AG; Cariad SE
Current assignee: Volkswagen AG; Cariad SE
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2023-11-23

Abstract

Die Erfindung betrifft ein Verfahren zum modellspezifischen Ermitteln von zusätzlichen Trainingsdatensätzen (31) für ein Modell des Maschinellen Lernens einer automatisierten Fahrfunktion (14), um eine Einsatzdomäne der automatisierten Fahrfunktion (14) auf neue Umgebungssituationen zu erweitern, wobei zumindest ein Bild einer Umgebungssituation bereitgestellt wird und zu zumindest einem vorbestimmten Umgebungsaspekt (40) der Umgebungssituation jeweils mehrere Ausprägungsstufen (41) des jeweiligen Umgebungsaspekts (40) vorgegeben werden und in dem jeweiligen Bild der zumindest eine Umgebungsaspekt (40) gemäß den Ausprägungsstufen (41) verändert wird und für jedes veränderte Bild (50) die folgenden Schritte durchgeführt werden: Durchführen einer Computer-Vision-Verarbeitung (24) der Eingabedaten (51) durch das Modell und Überprüfen und Erkennen, ob zumindest ein vorbestimmtes Performanzmaß (54) in einem vorbestimmen Wertebereich liegt, und falls das Performanzmaß (54) in dem Wertebereich liegt, ermitteln der jeweiligen eingestellten Ausprägungsstufe (41) des zumindest einen Umgebungsaspekts (40) und Signalisieren eines Bedarfs an zusätzlichen Trainingsdaten für diese Ausprägungsstufen (41).

Description

Die Erfindung betrifft ein Verfahren zum Ermitteln von Trainingsdatensätzen für ein Modell des maschinellen Lernens. Die Trainingsdatensätze werden dabei modellspezifisch ermittelt, das heißt sie berücksichtigen eine derzeitige Erkennungsleistung oder ein derzeitiges mittels des Modells erzielbares oder erreichbares Erkennungsergebnis beim Durchführen einer Computer-Vision-Verarbeitung. Das Modell des maschinellen Lernens ist für eine automatisierte Fahrfunktion eines Kraftfahrzeugs vorgesehen und ist bereits mit initialen Trainingsdatensätzen trainiert. Durch die zusätzlich ermittelten Trainingsdatensätze wird die Einsatzdomäne des Modells auf neue Umgebungssituationen erweitert. Die Erfindung betrifft auch eine Prozessorschaltung, mittels welcher das Verfahren durchgeführt werden kann, sowie ein computerlesbares Speichermedium, um eine Prozessorschaltung zum Durchführen des Verfahrens zu ertüchtigen.
Beim Trainieren eines Modells des maschinellen Lernens, beispielsweise eines künstlichen neuronalen Netzwerks, muss sichergestellt sein, dass in den Trainingsdatensätzen, beispielsweise Kamerabildern, all diejenigen Umgebungssituationen abgebildet oder repräsentiert sind, die repräsentativ für die gesamte Einsatzdomäne des Modells sind. Die Einsatzdomäne sind all diejenigen Umgebungssituationen, in welchen das Modell verwendet werden können soll, in welchem also ein Performanzmaß für eine Erkennungsleistung oder ein Ergebnis der Computer-Vision-Verarbeitung des Modells über einem vorbestimmten Schwellenwert liegt.
Bei einem Modell des maschinellen Lernens für eine automatisierte Fahrfunktion ist es allerdings sehr schwer vorherzusagen und sehr aufwendig abzuschätzen, ob durch eine gegebene Menge von initialen Trainingsdatensätzen, also eine gegebene Menge von Kamerabildern oder Videosequenzen, alle sich potentiell oder möglicherweise ergebenden Umgebungssituationen abgedeckt sind. Man geht davon aus, dass solche Umgebungssituationen, die durch die Trainingsdatensätze nicht repräsentiert oder abgebildet worden sind, das Modell des maschinellen Lernens nach dem Training mit diesen Trainingsdatensätzen dennoch durch seine Eigenschaft der Interpolation oder Generalisierung in der Lage sein wird, auch hier ein ausreichend großes Performanzmaß oder eine ausreichend große Erkennungsleistung bei der Computer-Vision-Verarbeitung in neuen Umgebungssituationen zu erbringen, insbesondere falls diese ähnlich sind.
Allerdings ist man daran interessiert, dies testen oder verifizieren zu können, bevor das Modell in einer automatisierten Fahrfunktion eingesetzt wird, um bei Bedarf, wenn also eine Umgebungssituation nur mit geringer Erkennungsleistung oder unzureichender Computer-Vision-Verarbeitung erkannt wird, in diesem Fall zusätzliches Trainingsmaterial, also weitere oder zusätzliche Trainingsdatensätze, gezielt beschaffen zu können.
Die alternative Lösung, die Menge der Trainingsdatensätze von Anfang an derart groß zu machen, dass mit Sicherheit alle Umgebungssituationen abgedeckt sind, würde zu einem zu großen Rechenaufwand beim Trainieren des Modells führen. Das künstliche Erzeugen einer derart großen Menge an Trainingsdatensätze wäre beispielsweise gemäß der US 2021/0350185 A1 erreichbar, die beschreibt, dass in einer Abbildung einer Umgebungssituation gezielt neue Objekte eingefügt werden können, um hierdurch einen künstlich veränderten Bildinhalt mit einer ähnlichen Umgebungssituation zu erzeugen. Diese zusätzlichen, künstlich erzeugten Bilddaten werden dann als weiteres Trainingsmaterial beim Training eines künstlichen neuronalen Netzwerks verwendet.
Hierdurch können zwar systematisch Trainingsdatensätze für neue weitere Umgebungssituationen erzeugt werden, aber mit jedem weiteren Trainingsdatensatz steigt auch der Bedarf an Rechenleistung zum Durchführen eines entsprechenden Trainings des Modells des maschinellen Lernens. Daher ist die Anzahl der hinzugefügten Trainingsdatensätze möglichst gering zu halten.
Aus der US 2019/0080206 A1 ist bekannt, dass ein künstlich erzeugtes Bild, dessen Detailgrad zu gering für eine fotorealistische Darstellung einer Umgebungssituation ist, in Bezug auf den Fotorealismus mittels eines computerbasierten Verfahrens verbessert werden kann.
Der Erfindung liegt die Aufgabe zugrunde, Trainingsdatensätze für ein Training eines Modells des maschinellen Lernens bereitzustellen, mittels welchen ein effizientes Training des Modells für eine vorgegebene Einsatzdomäne, also einen geplanten Einsatzbereich des Modells oder die Menge der möglichen Umgebungssituationen, durchgeführt werden kann.
Die Aufgabe wird durch die Gegenstände der unabhängigen Patentansprüche gelöst. Vorteilhafte Weiterentwicklungen der Erfindung sind durch die abhängigen Patentansprüche, die folgende Beschreibung sowie die Figuren beschrieben.
In der eingangs beschriebenen Weise wird ein Verfahren zum Ermitteln von zusätzlichen Trainingsdatensätzen für ein Modell des maschinellen Lernens einer automatisierten Fahrfunktion bereitgestellt. Das Verfahren geht davon aus, dass das Modell des maschinellen Lernens bereits teilweise oder ansatzweise trainiert ist, das heißt das Modell kann mit einer initialen Sammlung von Trainingsdatensätzen trainiert worden sein. Die zusätzlichen Trainingsdatensätze werden modellspezifisch ermittelt, das heißt die Auswahl der zusätzlichen Trainingsdatensätze ist derart, dass diese zusätzlichen Trainingsdatensätze Umgebungssituationen darstellen, in denen ein Performanzmaß für eine Erkennungsleistung bei dem Modells unter einem Schwellenwert liegt. Das heißt, ein Trainingsdatensatz stellt jeweils eine Datenmenge dar, die eine Umgebungssituation in der Weise beschreibt, wie sie als Eingabedaten dem Modell des maschinellen Lernens für eine Computer-Vision-Verarbeitung bereitgestellt werden. Es kann sich beispielsweise um die Bilddaten eines Kamerabilds handeln, wie sie durch eine Kamera eines Kraftfahrzeugs erzeugt oder bereitgestellt werden können, in welchem die automatisierte Fahrfunktion betrieben oder durchgeführt wird. Ein Trainingsdatensatz kann auch eine Videosequenz umfassen, wenn das Modell des maschinellen Lernens auch eine Zeitdatenverarbeitung vorsieht, wie es beispielsweise durch ein rekurrentes künstliches neuronales Netzwerk vorgesehen sein kann. Allgemein kann das Modell des maschinellen Lernens ein künstliches neuronales Netzwerk und/oder einen Decision Tree umfassen, um nur Beispiele zu nennen. Eine Gesamtheit aller Umgebungssituationen, in welchen das Modell des maschinellen Lernens bei der Computer-Vision-Verarbeitung ein vorbestimmtes Performanzmaß mit einem Erkennungsergebnis oberhalb eines Schwellenwerts erzeugen können soll, ist hier als die besagte Einsatzdomäne des Modells bezeichnet. Sie kann vom Fachmann vorgegeben werden. Das Performanzmaß kann beispielsweise eine sogenannte Erkennungsleistung sein, also beispielsweise eine Anzahl in dem jeweiligen Trainingsdatensatz korrekt erkannter Objekte der Umgebungssituation. Eine Umgebungssituation kann insbesondere eine Verkehrssituation darstellen. Objekte der Umgebungssituation können beispielsweise Verkehrsteilnehmer und/oder Fahrwegs-Infrastrukturkomponenten (beispielsweise Leitplanken und/oder Fahrbahnmarkierungen) sein. Verkehrsteilnehmer können beispielsweise Kraftfahrzeuge und/oder Fußgänger und/oder Zweiradfahrer sein.
Ausgehend von dem bereits teilweise trainierten Modell wird bei dem Verfahren zumindest ein Bild einer Umgebungssituation bereitgestellt. Dieses kann durch entsprechende Bilddaten repräsentiert oder gespeichert sein. Das Bild kann ein bereits beim initialen Training verwendeter Trainingsdatensatz sein oder daraus hergeleitet sein. Zudem werden für mehrere vorbestimmte Umgebungsaspekte (beispielsweise die Helligkeit in der Umgebung und/oder die Anzahl der Fußgänger in der Umgebungssituation) jeweils mehrere Ausprägungsstufen des jeweiligen Umgebungsaspekts vorgegeben. Solche Ausprägungstufen können beispielsweise vorgeben, dass bei dem Umgebungsaspekt „Helligkeit“ N unterschiedliche Helligkeitsstufen (N eine ganze Zahl) eingestellt oder ausgeprägt werden sollen, beispielsweise N gleich fünf Helligkeitsstufen. Ausprägungsstufen können im Falle des Umgebungsaspekts „Fußgänger“ beispielsweise die Angabe sein, dass N Ausprägungsstufen für Anzahlen von Fußgängern (z.B. 0, 2, 5, 10, 15 Fußgänger bei N=5) vorgesehen sein kann.
In dem jeweiligen Bild der Umgebungssituation, das bereitgestellt worden ist, wird dann jeweils der zumindest eine Umgebungsaspekt (beispielsweise Helligkeit und/oder Fußgänger) gemäß diesen Ausprägungsstufen des jeweiligen Umgebungsaspekts verändert, indem ein Bildinhalt des Bilds gemäß der jeweiligen Ausprägungsstufe angepasst oder verändert wird. Beispielsweise wird also in dem Bild die Helligkeit in der Umgebungssituation gemäß den Ausprägungsstufen angepasst oder verändert. Jeder Ausprägungsstufe kann hierzu eine korrespondierende Bildmanipulationsroutine zugeordnet sein, die zum Anpassen des Bildinhalts durchgeführt wird. Wird also für ein Bild gemäß dem Umgebungsaspekt „Helligkeit“ eine Ausprägungsstufe, beispielsweise Ausprägungsstufe 3 (=zugeordneter Helligkeitswert), vorgegeben, so wird der entsprechend dieser Ausprägungsstufe zugeordnete Helligkeitswert durch die Bildmanipulationsroutine in dem Bildinhalt eingestellt. Hierzu können beispielsweise Helligkeitswerte oder Intensitätswerte von Pixeln des Bildes entsprechend eingestellt oder verändert werden. Es können Bildmanipulationsroutinen aus dem Stand der Technik genutzt werden, wie sie aus der Bildverarbeitung bekannt sind. Es können hierbei Ausprägungsstufen für einen einzelnen Umgebungsaspekt oder für mehrere der Umgebungsaspekte pro Iteration der Bildveränderung eingestellt werden.
Insgesamt wird das Bild entlang der durch die Umgebungsaspekte vorgegebenen Dimensionen variiert, wobei die Auflösung oder der Detailgrad oder die Abstufung der Dimensionen durch die Ausprägungsstufen der Umgebungsaspekte vorgegeben werden. Somit ergibt sich ein Suchraum oder Manipulationsraum, bei welchem ausgehend von dem originalen Bild dessen Bildinhalt entlang der Dimensionen der Umgebungsaspekte verschoben oder verändert wird. Die Umgebungsaspekte und deren Ausprägungsstufen können vom Fachmann aus der geforderten Einsatzdomäne hergeleitet werden, insbesondere ist in dem umfassten Suchraum die gesamte Einsatzdomäne enthalten oder alle deren Extremwerte abgedeckt.
Beim Anwenden der jeweiligen Ausprägungsstufen ergibt sich jeweils ein verändertes Bild. Aus einem solchen jeweiligen veränderten Bild werden Eingabedaten für das Modell des maschinellen Lernens erzeugt. Das Modell wird somit mit dem jeweiligen veränderten Bild in Form der Eingabedaten konfrontiert oder betrieben. Die Eingabedaten können dabei das veränderte Bild selbst sein (also dessen Bilddaten) oder daraus abgeleitete Daten, wie später noch erläutert wird.
Um nun hiervon ausgehend gezielt zusätzliche Trainingsdatensätze zum Anpassen des Modells an die Einsatzdomäne zu erzeugen, ist erfindungsgemäß vorgesehen, dass für jedes veränderte Bild die folgenden Schritte durchgeführt werden:

Die aus dem veränderten Bild erzeugten Eingabedaten werden dem Modell übergeben und das Modell führt eine Computer-Vision-Verarbeitung der Eingabedaten durch. Hierdurch werden Ergebnisdaten der Computer-Vision-Verarbeitung erzeugt. Die Computer-Vision-Verarbeitung kann beispielsweise eine Objektdetektion oder Objekterkennung vorsehen. Zusätzlich oder alternativ dazu kann eine semantische Segmentierung der Eingabedaten durch die Computer-Vision-Verarbeitung erfolgen. Als Ergebnisdaten können beispielsweise die Ausgabedaten des Modells, also ein Ergebnis der Objektdetektion und/oder semantischen Segmentierung, genommen werden. Zusätzlich oder alternativ dazu können die Ergebnisdaten auch Zustandsdaten des Modells, beispielsweise sogenannte Aktivierungswerte von künstlichen Neuronen des Modells, umfassen, wie sie in zumindest einer Zwischenschicht des Modells beispielsweise im Falle eines künstlichen neuronalen Netzwerks, ermittelt werden können.

Durch eine Prozessorschaltung wird überprüft und erkannt, ob zumindest ein vorbestimmtes, anhand der Ergebnisdaten erzeugtes Performanzmaß kleiner als ein vorbestimmter jeweiliger Schwellenwert ist (indiziert ungenügende Erkennungsleistung). Für den Schwellenwert kann der Fachmann festlegen, ab wann eine Verarbeitungsleistung, also die Ergebnisdaten der Computer-Vision-Verarbeitung, eine unzureichende oder zu geringe Verarbeitungsleistung oder Performanz signalisieren oder festlegen. Wird beispielsweise gefordert, dass das Modell in der gesamten Einsatzdomäne, also für alle vorgesehenen Umgebungssituationen, eine Performanz von mehr als 90 Prozent oder mehr als 95 Prozent aufweisen muss oder allgemein als einen vorbestimmten Prozentsatz, so ergibt sich hierdurch der Schwellenwert, oberhalb welchem das Performanzmaß liegen muss, damit das Modell für das jeweilige veränderte Bild als geeignet oder zugelassen akzeptiert werden kann.
Ist dagegen das Performanzmaß kleiner als der Schwellenwert, also die Erkennungsleistung oder Verarbeitungsleistung bei der Computer-Vision-Verarbeitung zu gering oder ungenügend, so werden die jeweiligen eingestellten Ausprägungsstufen des zumindest einen Umgebungsaspekts ermittelt, die dem veränderten Bild zugrunde liegen. Bevorzugt werden bei dem Verfahren mehrere Umgebungsaspekte zugleich oder nacheinander eingestellt oder verändert. Durch die eingestellten Ausprägungsstufen ist bekannt, wie der Bildinhalt beschaffen ist oder welcher Bildinhalt nach dem Verändern des Bildes darin enthalten ist. Für diesen Bildinhalt hat sich ein Performanzmaß kleiner als der Schwellenwert ergeben. Entsprechend wird signalisiert, dass ein Bedarf an zusätzlichen Trainingsdatensätzen besteht, die Umgebungssituationen mit der jeweils ermittelten Ausprägungsstufe des zumindest einen Umgebungsaspekts aufweisen.
Durch Verändern des Bilds entlang der durch die Umgebungsaspekte und die Veränderungsskalen vorgegebenen Dimensionen wird ausgehend von einem jeweiligen Bild einer Umgebungssituation diese systematisch gemäß den Veränderungsskalen verändert oder manipuliert und hierbei die schrittweise oder graduelle Veränderung der Performanz in Form des Performanzmaßes beobachtet oder ermittelt. Sobald das Performanzmaß unter den Schwellenwert sinkt, ist eine Umgebungssituation erkannt, in welcher noch Trainingsbedarf oder Bedarf an zusätzlichen Trainingsdatensätzen für das geprüfte oder getestete Modell besteht.
Durch die Erfindung ergibt sich somit der Vorteil, dass nur solche zusätzlichen Trainingsdatensätze beschafft oder für ein weiteres Training zugrundegelegt werden, für die sich eine Verbesserung der Erkennungsleistung oder des Performanzmaßes ergibt oder ergeben kann. Somit kann ein Zugewinn oder eine Steilheit der „Lernkurve“ für das Modell optimiert oder maximiert oder gezielt verbessert werden.
Mit dem signalisierten Bedarf an Trainingsdatensätzen können dann die entsprechenden Trainingsdatensätze gezielt erzeugt oder beschafft werden. Hierfür können beispielsweise entsprechende Testfahrten in den entsprechenden Umgebungssituationen durchgeführt werden oder die Trainingsdatensätze können mittels Simulation der entsprechenden Umgebungssituation künstlich erzeugt werden. Die so ermittelten oder erzeugten zusätzlichen Trainingsdatensätze können dann beispielsweise der initialen Sammlung von Trainingsdatensätzen hinzugefügt werden und/oder es können in einem Verfahren des Nachtrainierens diese zusätzlichen Trainingsdatensätze in das Modell eintrainiert werden. Ein Training eines Modells des maschinellen Lernens auf der Grundlage von Trainingsdatensätzen kann beispielsweise mittels des an sich bekannten Backpropagation-Algorithmus erfolgen, um nur ein Beispiel zu nennen. Das Training eines Modells des maschinellen Lernens auf Grundlage von Trainingsdatensätzen ist an sich aus dem Stand der Technik bekannt. Das mittels der zusätzlichen Trainingsdatensätze trainierte Modell kann dann in dem Kraftfahrzeug für den Betrieb oder den Einsatz in der automatisierten Fahrfunktion bereitgestellt werden. Das Kraftfahrzeug kann somit mittels des Modells Sensordatensätze, beispielsweise Bilder aus einer Kamera oder aus mehreren Kameras des Kraftfahrzeugs, mittels der Computer-Vision-Verarbeitung dahingehend verarbeiten, dass eine Objektdetektion/Objekterkennung und/oder semantische Segmentierung in dem jeweiligen Sensordatensatz vorgenommen werden kann und daraufhin gemäß der automatisierten Fahrfunktion beispielsweise eine Fahrtrajektorie des Kraftfahrzeugs in Abhängigkeit von dem Erkennungsergebnis oder Verarbeitungsergebnis der Computer-Vision-Verarbeitung erfolgen. Das Ergebnis der Computer-Vision-Verarbeitung für die automatisierte Fahrfunktion kann beispielsweise das Detektieren und/oder Segmentieren von Objekten in einer Umgebung des Kraftfahrzeugs sein. Das Planen der Trajektorie kann für eine kollisionsfreie Fahrt des Kraftfahrzeugs vorgesehen sein.
Die Erfindung umfasst auch Weiterentwicklungen oder Weiterbildungen, durch die sich zusätzliche Vorteile ergeben.
Der zumindest eine Umgebungsaspekt umfasst gemäß einer Weiterentwicklung zumindest einen der folgenden. Eine Umgebungssituation kann ein Wetter sein, beispielsweise Regen. Durch die Ausprägungsstufen kann vorgegeben sein, dass unterschiedliche Ausprägungen des Wetters, also beispielsweise des Regens, vorgegeben werden. Beispielsweise können die Ausprägungsstufen von „kein Regen“ bis „Starkregen“ mehrere unterschiedliche Stärken oder Intensitäten vorgeben. Ein Umgebungsaspekt kann eine Anzahl Verkehrsteilnehmer eines vorbestimmten Teilnehmertyps sein. Teilnehmertypen können beispielsweise sein: Fußgänger, Kraftfahrzeuge, Fahrradfahrer. Durch die Ausprägungsstufen können also eine unterschiedliche Anzahl der jeweiligen Verkehrsteilnehmer des Teilnehmertyps, sein. So kann beispielsweise vorgegeben sein: „Kein Fußgänger“ bis „100 Fußgänger“, wobei als Ausprägungsstufe beispielsweise Zehnerschritte oder Fünferschritte vorgesehen sein können, um nur Beispiele zu nennen. Ein Umgebungsaspekt kann eine Jahreszeit sein, wobei beispielsweise vier Ausprägungsstufen (Frühling, Sommer, Herbst, Winter) vorgeben sein können. Ein Umgebungsaspekt können die Lichtverhältnisse in der Umgebungssituation sein, wobei die Ausprägungsstufen unterschiedliche Helligkeitswerte vorgeben können. Ein Umgebungsaspekt kann beispielsweise eine Randbebauung sein, wobei die Ausprägungsstufen beispielsweise vorgeben kann: urbane Umgebung, Wald, offenes Feld, Gebirgspass, um nur Beispiele zu nennen.
Entsprechend ist gemäß einer Weiterentwicklung vorgesehen, dass für den jeweiligen Umgebungsaspekt die jeweiligen Ausprägungsstufen unterschiedliche Intensitätsgrade des Umgebungsaspekts (beispielsweise von schwach zu stark oder Stufen 1 bis 10) vorgeben. So können beispielsweise Intensitätsgrade von 1 bis N oder von 0 bis M vorgegeben werden, denen jeweils eine entsprechende Ausprägung des Umgebungsaspekts zugeordnet ist. M und N sind hierbei ganze Zahlen. Zusätzlich oder alternativ dazu können, insbesondere für den Fall, dass der Umgebungsaspekt nicht gestuft werden kann, die Ausprägungsstufen einen Wechsel zwischen unterschiedlichen vorbestimmten Typen des Umgebungsaspekts vorsehen, insbesondere einen Wechsel zwischen Jahreszeiten (wie beschrieben) oder eines Wettertyps (Sonnenschein, Regen, Schneefall, Nebel), wenn keine unterschiedlichen Intensitätsgrade vorgesehen sind. Somit können auch solche Umgebungsaspekte, die sich nicht gemäß der Intensität in Intensitätsgrade einteilen lassen, entlang einer Dimension eines Umgebungsaspekts durch die Ausprägungsstufen repräsentieren oder steuern lassen.
Wie bereits ausgeführt, ergibt sich ein Suchraum oder Veränderungsraum, indem das jeweilige Bild entlang der unterschiedlichen Dimensionen der Umgebungsaspekte variiert wird. Hierbei ist man natürlich daran interessiert, mit geringem Rechenaufwand die „Schwachstellen“ zu erkennen, also diejenigen Umgebungssituationen oder veränderten Bilder, bei welchen das Performanzmaß kleiner als der Schwellenwert ist. Gemäß einer Weiterbildung wird hierzu eine Reihenfolge, in welcher die Umgebungsaspekte oder zumindest einige Umgebungsaspekte und/oder die zugehörigen Ausprägungsstufen nacheinander eingestellt werden, mittels einer Zufallsfunktion ermittelt. Beispielsweise kann hierdurch eine sogenannte Monte-Carlo-Abtastung des Veränderungsraums oder Suchraums erfolgen. Dies hat sich dahingehend als vorteilhaft erwiesen, als dass (zumindest überblicksweise) erkannt werden kann, für welche neuen Umgebungssituationen (Kombination aus Ausprägungsstufen der Umgebungsaspekte) ein besonders großer Bedarf an zusätzlichen Trainingsdatensätzen vorhanden ist. Hierzu kann nach einer solchen Zufallszahlen-basierten Abtastung derjenige Bereich im Suchraum oder Veränderungsraum ausgewählt werden, in welchem das Performanzmaß am niedrigsten war. Um einen genauen oder detaillierten Überblick über die Eignung des Modells in der Einsatzdomäne zu erhalten, kann alternativ dazu mittels eines vorbestimmten Rasters der zumindest eine Umgebungsaspekt und dort dessen Ausprägungsstufen abgetastet oder geprüft werden, was beispielsweise mittels einer sogenannten FOR-Schleife erfolgen kann. Hierdurch ergibt sich ein „Brute-Force“-Ansatz, um die gesamte Einsatzdomäne prüfen zu können.
Um ausgehend von einem gegebenen Bild einer Umgebungssituation veränderte Bilder und damit neue Umgebungssituationen darstellen oder erzeugen zu können, umfasst gemäß einer Weiterentwicklung die Bildmanipulationsroutine, dass ein Teilbereich des Bildinhalts gelöscht und durch einen den Teilbereich umgebenden Bildhintergrund ersetzt wird. Somit kann in dem Bildinhalt ein Objekt entfernt werden und damit beispielsweise eine Anzahl von Objekten eines vorgegebenen Objekttyps, beispielsweise Fußgänger, reduziert werden. Zusätzlich oder alternativ ist gemäß einer Weiterentwicklung vorgesehen, dass die Bildmanipulationsroutine umfasst, dass eine von den Bilddaten verschiedene Objektvorlage in den Bildinhalt eingesetzt wird. Hierdurch kann der Bildinhalt um ein neues Objekt ergänzt werden. Als Objektvorlage kann beispielsweise eine Abbildung eines Verkehrsteilnehmers oder einer Straßen-Infrastrukturkomponente (beispielsweise einer Leitplanke oder Fahrbahnmarkierung) in den Bildinhalt eingesetzt werden. Somit kann ein Objekt eines vorgegebenen Objekttyps in dem Bildinhalt ergänzt werden.
Das Manipulieren oder Veränderung eines Bildinhalts kann dahingehend aufwendig sein, dass das veränderte Bild genauso fotorealistisch wirken muss wie ein Kamerabild, damit das Modell des maschinellen Lernens die Computer-Vision-Verarbeitung in derselben Weise ausführen kann wie bei einem Kamerabild oder allgemein wie bei Sensordaten eines Umgebungssensors eines Kraftfahrzeugs, wofür das Modell des maschinellen Lernens trainiert werden muss. Damit das Verändern des Bildinhalts mit einem geringeren Grad an Komplexität durchgeführt werden kann, handelt es sich bei den Bilddaten bevorzugt um synthetische Bilddaten oder allgemein um Bilddaten, bei denen die Umgebungssituation in einem Detailgrad dargestellt ist, der weniger als ein fotorealistischer Detailgrad ist, also nur eine schematisierte oder vergröberte Darstellung. Insbesondere sind Objekte in der Umgebungssituation in den Bilddaten jeweils als eine jeweilige einfarbige Fläche repräsentiert. Es handelt sich also bei den Bilddaten um eine Darstellung der Umgebungssituation in einer schematisierten oder in einer Auflösung kleiner als die fotorealistische Auflösung. Hierdurch ergibt sich der Vorteil, dass bei einer Veränderung des Bildinhalts der entsprechende Algorithmus für die Bildmanipulationsroutine entsprechend einfach oder effizient ausgestaltet sein kann. Der reduzierte oder geringer als fotorealistische Detailgrad kann daran erkannt werden, dass Elemente in den Bilddaten oder dem Bildinhalt fehlen, obwohl sie aufgrund der Auflösung (Anzahl Pixel) im Falle eines fotorealistischen Detailgrads dargestellt werden könnten. Beispielsweise können in den Bilddaten Staub oder Flecken oder Unebenheiten auf einer Oberfläche eines Objekts fehlen oder nicht dargestellt sein, obwohl es bei einem fotorealistischen Detailgrad in dem Bildinhalt abgebildet sein müsste.
Um ausgehend von solchen synthetischen Bilddaten wieder fotorealistische Eingabedaten für das Modell des maschinellen Lernens zu erhalten, sieht eine Weiterentwicklung vor, dass die Eingabedaten für das Modell erzeugt werden, indem durch die Bilddaten beschriebene Objekte der Umgebungssituation (die mit dem geringeren Detailgrad dargestellt sind) durch eine fotorealistische Darstellung des jeweiligen Objekts ersetzt werden. Mit anderen Worten wird der Detailgrad vergrößert. Mit anderen Worten wird aus den (synthetischen) Bilddaten die Information entnommen, wo in dem Bild sich ein jeweiliges Bild befindet und/oder welches Objekt vor welchem anderen Objekt angeordnet ist und/oder welchen Flächenbereich in dem Bildinhalt ein jeweiliges Objekt einnimmt. Ausgehend von diesen Informationen über die Position oder den Flächenbereich in dem Bildinhalt wird dann für das jeweilige Objekt eine fotorealistische Darstellung eingefügt, wie sie beispielsweise aus fotorealistischen Abbildungen des jeweiligen Objekts entnommen werden kann, die beispielsweise als Bilddateien verfügbar gemacht werden können. Die Bilddaten werden bevorzugt mittels eines Variational Autoencoder, VAE, und/oder einem Generative Adversarial Network, GAN, zu den Eingabedaten für das Modell umgewandelt. Solche Methoden sind an sich aus dem Stand der Technik bekannt. Beispielsweise kann auf die folgende Veröffentlichung zurückgegriffen werden: Taesung Park, Ming-Yu Liu, Ting-Chun Wang, Jun-Yan Zhu, „Semantic Image Synthesis with Spatially-Adaptive Normalization“, https://doi.org/10.48550/arxiv.1903.07291, https://arxiv.org/abs/1903.07291, https://nvlabs.github.io/SPADE/.
Um die (synthetischen) Bilddaten für das Erzeugen der manipulierten Bilddaten oder manipulierten Bilder zu erhalten, ist gemäß einer Weiterentwicklung vorgesehen, dass zum Erzeugen zumindest einiger dieser Bilddaten fotorealistische Eingabebilddaten einer Fotografie und/oder Videosequenz einer Kameraaufnahme empfangen werden und die Bilddaten aus diesen Eingabedaten durch zumindest eine vorbestimmte Bildoperation zur Reduktion des Detailgrads erzeugt werden. Mit anderen Worten können als Eingabebilddaten, aus denen die (synthetischen) Bilddaten erzeugt werden sollen, Sensordaten entnommen werden, wie sie auch im Kraftfahrzeug für die automatisierte Fahrfunktion bereitgestellt werden. Insbesondere kann zumindest ein Trainingsdatensatz, der bereits zum Trainieren des Modells des maschinellen Lernens verwendet wurde, als Eingabebilddaten verwendet werden. Die Bildoperation zur Reduktion des Detailgrads kann beispielsweise vorsehen, dass mittels eines Variational Autoencoder, VAE, und/oder mittels eines Generative Adversarial Networks, GAN, die Bilddaten als synthetische Bilddaten erzeugt werden. Somit kann auf bereits verfügbares Bildmaterial (Eingabebilddaten aus einer Kamera) zurückgegriffen werden. Zusätzlich oder alternativ dazu sieht gemäß einer Weiterentwicklung das Erzeugen der Bilddaten vor, dass zumindest einige der Bilddaten direkt durch eine vorbestimmte Simulationsroutine gemäß einer semantischen Beschreibung der Umgebungssituation erzeugt werden. Die semantische Beschreibung kann beispielsweise eine Datei sei, in welcher durch Stichworte oder Steuerbefehle angegeben sein kann, wo sich welche Objekte welchen Objekttyps in der Umgebungssituation befinden sollen. Beispielsweise kann die semantische Beschreibung auf einer XML-Datei oder JSON-Datei beruhen. Aus einer solchen semantischen Beschreibung kann mittels einer Simulationsroutine der Bildinhalt einer Umgebungssituation durch Rendern oder Raytracing erzeugt werden. Hierzu kann beispielsweise ein sogenannter Raytracer als Programm oder Software verwendet werden.
Um ausgehend von fotorealistischen Eingabebilddaten oder Fotografien die Bilddaten zu erzeugen, kann zusätzlich oder alternativ zu einem VAE und/oder GAN auch ein Gauß-Glättungsfilter oder eine Region-Growing-Routine oder eine Quantisierung einer Farbpalette angewendet werden.
Um zu erkennen, ob das Modell für eine bestimmte Umgebungssituation gemäß neuer Bilddaten geeignet ist, wird das Performanzmaß geprüft. In einer Weiterentwicklung umfasst das Performanzmaß, dass ein vorbestimmtes Unsicherheitsmaß, insbesondere die epistemische Unsicherheit (epistemic uncertainty) kleiner als ein erster Schwellenwert ist. Der Wertebereich ist also derjenige Zahlenbereich, den das Unsicherheitsmaß einnehmen kann und der kleiner als der erste Schwellenwert ist. Zusätzlich oder alternativ dazu hat sich als Performanzmaß bewährt, dass eine Objekterkennung in Bezug auf die erkannte Anzahl von Objekten eines vorbestimmten Objekttyps (beispielsweise Anzahl erkannter Kraftfahrzeuge oder Fußgänger) von einer durch die entsprechende Ausprägungsstufe (Ausprägungsstufe des Umgebungsaspekts „Kraftfahrzeuge oder Fußgänger“) vorgegebenen Anzahl um mehr als ein zweiter Schwellenwert abweicht (Wertebereich also alle Anzahlen, die jenseits des Schwellenwerts liegen).
Wie viele Objekte des Objekttyps in den ursprünglichen Bilddaten (vor Anwenden der Ausprägungsstufe) enthalten sind, kann beispielsweise aus sogenannten Labeldaten eines Trainingsdatensatzes (Ground-Truth-Daten) entnommen werden, falls die Bilddaten aus solchen Trainingsdatensätzen gebildet werden. Es können auch für die Bilddaten entsprechende Labeldaten beispielsweise durch einen Operateur eingefügt werden. Bei simulierten Bilddaten kann die semantische Beschreibung dahingehend ausgewertet oder genutzt werden, um die Anzahl der in den Bilddaten enthaltenen Objekte eines vorgegebenen Objekttyps zu ermitteln.
Für Anwendungsfälle oder Anwendungssituationen, die sich bei dem Verfahren ergeben können und die hier nicht explizit beschrieben sind, kann vorgesehen sein, dass gemäß dem Verfahren eine Fehlermeldung und/oder eine Aufforderung zur Eingabe einer Nutzerrückmeldung ausgegeben und/oder eine Standardeinstellung und/oder ein vorbestimmter Initialzustand eingestellt wird.
Um das Verfahren zu implementieren, umfasst die Erfindung auch ein computerlesbares Speichermedium mit einem Programmcode, der Programminstruktionen umfasst, die bei Ausführen durch eine Prozessorschaltung diese veranlassen, eine Ausführungsform des Verfahrens durchzuführen. Der Programmcode kann beispielsweise ein sogenannter Binärcode mit maschinenausführbaren Instruktionen oder Assembler und/oder als Quellcode einer Programmiersprache (z.B. C) sein. Als computerlesbares Speichermedium können beispielsweise eine Festplatte oder ein Flashspeicher vorgesehen sein. Das Speichermedium kann in der Prozessorschaltung in deren Datenspeicher realisiert sein. Das Speichermedium kann aber auch beispielsweise als sogenannter Appstore-Server im Internet betrieben sein.
Um das Verfahren in einem Labor durchführen zu können, umfasst die Erfindung auch eine Prozessorschaltung, die dazu eingerichtet ist, eine Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Die Prozessorschaltung kann hierzu eine Ausführungsform des computerlesbaren Speichermediums umfassen.
Die Prozessorschaltung kann eine Datenverarbeitungsvorrichtung oder eine Prozessoreinrichtung darstellen, die dazu eingerichtet ist, eine Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Die Prozessorschaltung kann hierzu zumindest einen Mikroprozessor und/oder zumindest einen Mikrocontroller und/oder zumindest einen FPGA (Field Programmable Gate Array) und/oder zumindest einen DSP (Digital Signal Processor) aufweisen. Des Weiteren kann die Prozessorschaltung Programmcode aufweisen, der dazu eingerichtet ist, bei Ausführen durch die Prozessorschaltung die Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Der Programmcode kann in einem Datenspeicher der Prozessorschaltung gespeichert sein.
Das Kraftfahrzeug, in welchem das Modell betrieben wird, ist bevorzugt als Kraftwagen, insbesondere als Personenkraftwagen oder Lastkraftwagen, oder als Personenbus oder Motorrad ausgestaltet.
Die Erfindung umfasst auch die Kombinationen der Merkmale der beschriebenen Ausführungsformen. Die Erfindung umfasst also auch Realisierungen, die jeweils eine Kombination der Merkmale mehrerer der beschriebenen Ausführungsformen aufweisen, sofern die Ausführungsformen nicht als sich gegenseitig ausschließend beschrieben wurden.
Im Folgenden sind Ausführungsbeispiele der Erfindung beschrieben. Hierzu zeigt:

1 eine schematische Darstellung einer Prozessorschaltung, die ein Modell des maschinellen Lernens (ML-Modell) für ein Kraftfahrzeug mit automatisierter Fahrfunktion bereitstellt; und
2 ein Flussschaudiagramm zur Veranschaulichung einer Ausführungsform des erfindungsgemäßen Verfahrens, wie es durch die Prozessorschaltung ausgeführt werden kann.

Bei den im Folgenden erläuterten Ausführungsbeispielen handelt es sich um bevorzugte Ausführungsformen der Erfindung. Bei den Ausführungsbeispielen stellen die beschriebenen Komponenten der Ausführungsformen jeweils einzelne, unabhängig voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden. Daher soll die Offenbarung auch andere als die dargestellten Kombinationen der Merkmale der Ausführungsformen umfassen. Des Weiteren sind die beschriebenen Ausführungsformen auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.
In den Figuren bezeichnen gleiche Bezugszeichen jeweils funktionsgleiche Elemente.
1 beschreibt ein System 10 mit einer Prozessorschaltung 11 und zumindest einem Fahrzeug 12. 1 zeigt zwei Fahrzeuge 12 und symbolisiert durch Auslassungspunkte 13, dass die Anzahl der Fahrzeuge 12 auch mehr als zwei sein kann. Die Prozessorschaltung 11 kann im Internet I als Backend für die Fahrzeuge 12 betrieben werden. Das jeweilige Fahrzeug 12 kann dabei ein Kraftwagen, insbesondere ein Personenkraftwagen oder Lastkraftwagen, oder ein Roboter, beispielsweise ein Fertigungsroboter, sein. Das System umfasst bevorzugt mehrere Fahrzeuge 12, von denen jedes in der im Folgenden beschriebenen Weise ausgestaltet sein kann.
In dem jeweiligen Fahrzeug 12 kann für eine automatisierte Fahrfunktion 14 vorgesehen sein, die Steuerdaten 15 für eine Aktuatorik 16 zum Führen des Fahrzeugs 12 erzeugen kann. Die Aktuatorik 16 kann in bekannter Weise in Abhängigkeit von den Steuerdaten 15 eine Längsführung (Beschleunigen und/oder Bremsen) und/oder eine Querführung (Lenken) des Fahrzeugs 12 bewirken oder ausführen. Die Steuerdaten 15 können durch die automatisierte Fahrfunktion 14 automatisiert erzeugt werden, d.h. ohne eine Zutun eines Fahrers, wodurch das Fahrzeug 12 selbsttätig oder automatisiert das Fahrzeug 12 führen kann.
Zum Erzeugen der Steuerdaten 15 kann vorgesehen sein, dass von dem Fahrzeug 12 aus dessen Umgebung 17 überwacht wird, um darin vorhandene Objekte 18, beispielsweise andere Verkehrsteilnehmer und/oder Hindernisse, und zusätzlich oder alternativ dazu einen Fahrweg 19 zu erkennen und daraufhin die Steuerdaten 15 für eine kollisionsfreie Fahrt zu planen und zu erzeugen. Die Steuerdaten 15 können eine entsprechende Fahrtrajektorie umsetzen.
Die Umgebung 17 kann mittels zumindest eines Umgebungssensors 20 des Fahrzeugs 12 erfasst werden, der beispielsweise eine Kamera umfassen kann und dessen Erfassungsbereich 21 in die Umgebung 17 ausgerichtet sein kann. Durch den jeweiligen Umgebungssensor 20 kann die Umgebung 17 jeweils zyklisch oder wiederholt erfasst werden und die Umgebung 17 dabei jeweils durch einen Sensordatensatz 22 abgebildet oder beschrieben sein.
Auf Grundlage des jeweiligen Sensordatensatzes 22 kann durch eine Steuerschaltung 23 des Fahrzeugs 12 mittels eines Modells M des maschinellen Lernens eine Computer-Vision-Verarbeitung 24 des Sensordatensatzes 22 erfolgen, um aus dem jeweiligen Sensordatensatz 22 Erkennungsdaten 25 mit einem Verarbeitungsergebnis oder Erkennungsergebnis zu erzeugen, welches das zumindest eine Objekt 18 und/oder den Fahrweg 19 beschreibt. Dies ist an sich aus dem Stand der Technik bekannt. Die Steuerschaltung 23 kann durch ein Steuergerät oder einen Verbund mehrere Steuergeräte des Fahrzeugs 12 realisiert sein.
Mittels der Erkennungsdaten 25 des Erkennungsergebnisses kann die automatisierte Fahrfunktion 14 in an sich bekannter Weise beispielsweise die besagte Fahrtrajektorie berechnen, aus welcher oder auf deren Grundlage die Steuerdaten 15 für die Aktuatorik 16 erzeugt werden können. Die Fahrfunktion kann eine Fahrerassistenz (z.B. Einparkhilfe, Spurhalteassistenz) und/oder ein autonomes Führen des Fahrzeugs 12 umfassen. Die Fahrfunktion kann durch zumindest ein Steuergerät des Fahrzeugs 12 bereitgestellt sein.
Vor dem Betrieb des Modells M im Fahrzeug 12 kann das Modell M durch die Prozessorschaltung 11 mittels eines an sich bekannten Trainingsalgorithmus 30 trainiert oder erzeugt worden sein. Dies kann in an sich bekannter Weise auf der Grundlage von Trainingsdatensätzen 31 erfolgt sein, zu denen zusätzlich in an sich bekannter Weise Labeldaten 32 mit Soll-Ergebnisdaten 25' (Ground-Truth-Daten) bereitgestellt worden sein können. Auf Grundlage der Trainingsdatensätze 31 und der Labeldaten 32 kann mittels des Trainingsalgorithmus 30 das Modell M beispielsweise mittels Back-Propagation erzeugt worden sein. 1 veranschaulicht, wie das Modell M als künstliches neuronales Netzwerk ANN (Artificial neural network) mit einem Autoencoder 33 und einem Decoder 34 in an sich bekannter Weise ausgestaltet worden sein kann. Das fertig trainierte Modell M kann über eine Kommunikationsverbindung C zu dem jeweiligen Fahrzeug 12 übertragen werden. Hierzu kann in dem Fahrzeug 12 jeweils eine Kommunikationsschaltung W vorgesehen sein, die beispielsweise ein Mobilfunkmodul und/oder ein WLAN-Funkmodul (WLAN - Wireless local network) umfassen kann. Die Kommunikationsverbindung C kann eine Internetverbindung umfassen.
Durch eine Konstellation oder Anordnung aus zumindest einem Objekt 18 auf einem Fahrweg 19 ergibt sich jeweils eine Umgebungssituation S in der Umgebung 17. Die Umgebungssituation S kann auch beispielsweise ein aktuelles Wetter und/oder einen Straßentyp und/oder eine Sensorkonfiguration K des jeweiligen Umgebungssensors 20 umfassen. Sie kann z.B. eine Stausituation oder eine Kreuzungsfahrt oder ein Überholmanöver umfassen.
Durch das Training kann das Modell M für eine Vielzahl von Umgebungssituationen S dahingehend vorbereitet werden, dass die Computer-Vision-Verarbeitung 24 derart leistungsstark oder mit einem derart guten Erkennungsergebnis ausgeführt wird, dass ein Performanzmaß, beispielsweise eine Erkennungsrate oder ein Erkennungsanteil an Objekten 18 und/oder Fahrweginfrastruktur oberhalb eines Schwellenwerts ist, beispielsweise oberhalb eines Schwellenwerts in einem Bereich von 80 Prozent bis 99 Prozent. Hierzu müssen die Trainingsdatensätze 31 dahingehend vollständig sein, dass durch das Modell M die Computer-Vision-Verarbeitung 24 durch den Trainingsalgorithmus 30 für alle Umgebungssituationen S vorbereitet oder trainiert ist.
Um herauszufinden oder zu erkennen, ob zumindest eine Umgebungssituation S unzureichend in dem Modell M eintrainiert ist, also das Performanzmaß für eine solche Umgebungssituation S kleiner als der Schwellenwert ist, und entsprechend zusätzliche Trainingsdatensätze für eine solche Umgebungssituation S ermittelt und mittels des Trainingsalgorithmus 30 ebenfalls in das Modell M in bekannter Weise eintrainiert werden können, kann das in 2 beschriebene Verfahren angewendet werden.
Für das Verfahren kann beispielsweise die Einsatzdomäne E für das Modell M beschrieben werden, indem für unterschiedliche Umgebungsaspekte 40, beispielsweise eine Anzahl Fußgänger und/oder eine Regenintensität eines Regens in einer Umgebungssituation S, in unterschiedlichen Ausprägungsstufen 41 beschrieben oder definiert werden. Die Umgebungsaspekte 40 stellen Dimensionen Dim1Din2, ..., DimX des Suchraums oder Veränderungsraums zum Beschreiben der Einsatzdomänen dar. Beispielhaft sind hier insgesamt X Umgebungsaspekte vorgesehen, wobei X in einem Bereich von 1 bis beispielsweise 50 liegen kann. Die einzelnen Ausprägungsstufen 41 sind hier auch als Stufen S1, S2, ..., SN beschrieben, wobei in 2 beispielhaft und nicht allgemein gültig für jeden Umgebungsaspekt 40 insgesamt N, also die gleiche Anzahl an Ausprägungsstufen 41, angegeben ist, was aber nicht unbedingt so vorgegeben sein muss. N kann in einem Bereich von 1 bis 100 liegen, um nur ein Beispiel zu nennen. Für jeden Umgebungsaspekt 40 kann für die jeweilige Ausprägungsstufe 41 ein entsprechender Wert V1.1, ..., VX. N zum Steuern oder Konfigurieren einer Bildmanipulationsroutine 42 vorgegeben sein.
Bei dem Verfahren können in einem Schritt S10 ausgehend von Bilddaten 43, die als Bildinhalt eine bestimmte Umgebungssituation S beschreiben, mittels der Bildmanipulationsroutine 42 der Bildinhalt 44 gemäß dem Wert aus der Ausprägungsstufe 41 des jeweiligen Umgebungsaspekts 40 verändert oder eingestellt werden. Die Werte V1.1, ..., VX. N können dabei die Bildmanipulationsroutine 42 dahingehend steuern, dass keine Veränderung vorgenommen wird und/oder eine relative Veränderung und/oder eine absolute Einstellung in dem Bildinhalt 44 der Bilddaten 43. Beispielsweise kann vorgesehen sein, dass eine Anzahl an Fußgängern und/oder fremden Kraftfahrzeugen eingestellt wird und/oder ein vorgegebener Objekttyp zumindest eines Objekts 18, beispielsweise ein Verkehrsschild oder eine Fahrbahnmarkierung, in dem Bildinhalt 44 eingeprägt wird oder aus diesem entfernt wird. Durch Anwenden der Bildmanipulationsroutine 42 gemäß den jeweiligen Werten aus den Umgebungsaspekten 40 ergeben sich aus dem Schritt S11 in einem Schritt S12 veränderte Bilddaten 45.
Bei dem Verfahren ist bevorzugt vorgesehen, dass die Bilddaten 43 Bilddaten mit einem Detailgrad darstellen, der geringer ist als eine fotorealistische Darstellung der jeweiligen Umgebungssituation S. Die Bilddaten 43 stellen somit in dem Bildinhalt 44 eine Umgebungssituation S dar, die nicht fotorealistisch wiedergegeben oder dargestellt ist. Entsprechend sind auch die veränderten Bilddaten 45 dann eine Darstellung einer veränderten Umgebungssituation S oder der veränderten Umgebungssituation S in einer nicht-fotorealistischen Darstellungsweise.
Die Bilddaten 43 können beispielsweise synthetisch oder simuliert sein und hierzu mittels einer Simulationsroutine 46 in einem Schritt S13 aus einer semantischen Beschreibung 47 erzeugt worden sein, welche beispielsweise durch Steuerbefehlsworte oder eine textbasierte Beschreibung die Erzeugung der Bilddaten 43 steuern kann, wozu beispielsweise ein Renderer oder Raytracer genutzt werden kann.
Zusätzlich oder alternativ dazu können für Bilddaten 43 jeweils beispielsweise fotorealistische Bilddaten 48 in einem Schritt S14 ermittelt werden, beispielsweise können fotorealistische Bilddaten aus den Trainingsdatensätzen 31 verwendet werden. Diese können in dem Schritt S13 anstelle einer Simulation mittels einer Bildoperation 49 in die Bilddaten 43 umgewandelt werden. Hierzu kann die Bildoperation 49 beispielsweise ein künstliches neuronales Netzwerk oder einen Variational Autoencoder VAE oder ein Generative Adversarial Network GAN und/oder beispielsweise einen Glättungsfilter und/oder eine Quantisierung einer Farbpalette umfassen, um nur Beispiele zu nennen.
Um mittels oder auf Grundlage der veränderten Bilddaten 45 das Modell M in Bezug auf das Performanzmaß zu prüfen und damit einen Arbeitspunkt in der Einsatzdomäne E verifizieren zu können, kann in einem Schritt S15 vorgesehen sein, dass die veränderten Bilddaten, die den veränderten Bildinhalt oder das veränderte Bild 50 darstellen, in einem Schritt S15 in fotorealistische Bilddaten umgewandelt werden, die fotorealistische Eingabedaten 51 darstellen, die in einem Schritt S16 für einen Computer-Vision-Verarbeitung bereitgestellt werden können. Mittels des Modells M kann dann auf Grundlage der Eingabedaten 51 die Computer-Vision-Verarbeitung 24 durchgeführt werden, wodurch sich im Schritt S17 Ergebnisdaten 53 der Computer-Vision-Verarbeitung 24 ergeben. Auf Grundlage der Ergebnisdaten 53 kann in einem Schritt S18 überprüft werden, ob das Modell M gemäß den Ergebnisdaten 53 ein Performanzmaß 54 erreicht oder bewirkt, das oberhalb des beschriebenen Schwellenwerts 55 ist (Symbolisiert durch ein Plus-Zeichen „+“) oder unterhalb des Schwellenwerts 55 (kleiner als der Schwellenwert 55, symbolisiert durch ein Minus-Zeichen „--“). In letzerem Fall kann in einem Schritt S20 signalisiert werden, dass zusätzliche Trainingsdatensätze 31 beschafft werden sollen, die gemäß dem veränderten Bild 50, das heißt gemäß den im Schritt S11 angewendeten Werten für die Umgebungsaspekte 40 und deren Ausprägungsstufe 41 eine Umgebungssituation S darstellen.
Als Performanzmaß 54 kann beispielsweise eine Uncertainty oder Unsicherheit ermittelt werden, das heißt die Ergebnisdaten 53 können Unsicherheitswerte enthalten oder umfassen. Zusätzlich oder alternativ kann überprüft werden, ob ein Bildinhalt des veränderten Bildes 50 korrekt oder vollständig in den Eingabedaten 51 analysiert oder erkannt wurde.
Somit können die zusätzlichen Trainingsdatensätze 31` den Trainingsdatensätzen 31 hinzugefügt werden und das Modell M durch die Prozessorschaltung L neu oder ergänzend trainiert werden. Die zusätzlichen Trainingsdaten 31' können beispielsweise durch Simulation und/oder Testfahrten ermittelt oder erzeugt werden.
Beispielsweise kann automatisiert gemäß den Umgebungsaspekten und deren Ausprägungsstufen ein Skript oder eine Anweisung für eine Testfahrt und/oder eine Skript- oder Konfigurationsdatei für eine Simulation erzeugt werden. Somit kann auch das Beschaffen der zusätzlichen Trainingsdatensätze 31' automatisiert gesteuert werde.
Insgesamt zeigen die Beispiele, wie ein Brute-Force-Ansatz für die Erkennung von Sonderfällen oder Anomalien beim Betrieb eines Modells des Maschinellen Lernens bereitgestellt werden kann.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 20210350185 A1 [0005]
US 20190080206 A1 [0007]

Claims

Verfahren zum modellspezifischen Ermitteln von zusätzlichen Trainingsdatensätzen (31) für ein Modell des Maschinellen Lernens einer automatisierten Fahrfunktion (14), um eine Einsatzdomäne der automatisierten Fahrfunktion (14) auf neue Umgebungssituationen zu erweitern, wobei • zumindest ein Bild einer Umgebungssituation bereitgestellt wird und • zu zumindest einem vorbestimmten Umgebungsaspekt (40) der Umgebungssituation jeweils mehrere Ausprägungsstufen (41) des jeweiligen Umgebungsaspekts (40) vorgegeben werden und • in dem jeweiligen Bild der zumindest eine Umgebungsaspekt (40) gemäß den Ausprägungsstufen (41) verändert wird, indem ein Bildinhalt (44) des Bildes gemäß der jeweiligen Ausprägungsstufe (41) angepasst wird, wobei jeder Ausprägungsstufe (41) eine korrespondierende Bildmanipulationsroutine (42) zugeordnet ist, die zum Anpassen des Bildinhalts (44) ausgeführt wird, und somit jeweils ein verändertes Bild (50) erzeugt wird und • aus dem jeweiligen veränderten Bild (50) Eingabedaten (51) für das Modell erzeugt werden, dadurch gekennzeichnet, dass für jedes veränderte Bild (50) die folgenden Schritte durchgeführt werden: • Durchführen einer Computer-Vision-Verarbeitung (24) der Eingabedaten (51) durch das Modell und hierdurch Erzeugen von Ergebnisdaten (53) der Computer-Vision-Verarbeitung (24), • durch eine Prozessorschaltung (11) Überprüfen und Erkennen, ob zumindest ein vorbestimmtes, anhand der Ergebnisdaten (53) ermitteltes Performanzmaß (54) in einem vorbestimmen Wertebereich liegt, und • falls das Performanzmaß (54) in dem Wertebereich liegt, Ermitteln der jeweiligen eingestellten Ausprägungsstufe (41) des zumindest einen Umgebungsaspekts (40) und • Signalisieren eines Bedarfs an zusätzlichen Trainingsdatensätzen (31), die Umgebungssituationen mit der jeweils ermittelten Ausprägungsstufe (41) des zumindest einen Umgebungsaspekts (40) darstellen.
Verfahren nach Anspruch 1, wobei der zumindest eine Umgebungsaspekt (40) zumindest einen der folgenden umfasst: • ein Wetter in der Umgebungssituation, • eine Anzahl Verkehrsteilnehmer eines vorbestimmen Teilnehmertyps, • eine Jahreszeit, • Lichtverhältnisse in der Umgebungssituation, • eine Randbebauung.
Verfahren nach einem der vorhergehenden Ansprüche, wobei für den jeweiligen Umgebungsaspekt (40) die jeweiligen Ausprägungsstufen (41) unterschiedliche Intensitätsgrade des Umgebungsaspekts (40), insbesondere Intensitätsgrade von 1 bis N oder von 0 bis N, vorgeben und/oder einen Wechsel zwischen unterschiedlichen vorbestimmten Typen des Umgebungsaspekts (40), insbesondere ein Wechsel einer Jahreszeit oder eines Wettertyps, bewirken.
Verfahren nach einem der vorhergehenden Ansprüche, wobei eine Reihenfolge, in welcher zumindest einige Umgebungsaspekte (40) und/oder Ausprägungsstufen (41) nacheinander eingestellt werden, mittels einer Zufallsfunktion oder mittels eines vorbestimmten Rasters ermittelt werden.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Bildmanipulationsroutine (42) umfasst, dass • ein Teilbereich des Bildinhalts (44) gelöscht und durch einen den Teilbereich umgebenden Bildhintergrund ersetzt wird und/oder • eine von dem Bild verschiedene Objektvorlage in den Bildinhalt (44) eingesetzt wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Bild die Umgebungssituation mit einem Detailgrad darstellt, der geringer als ein fotorealistischer Detailgrad ist, wobei insbesondere Objekte (18) in der Umgebungssituation jeweils als eine jeweilige einfarbige Fläche repräsentiert sind.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Eingabedaten (51) für das Modell erzeugt werden, indem durch das veränderte Bild beschriebene Objekte (18) durch eine fotorealistische Darstellung des jeweiligen Objekts (18) ersetzt werden, wobei das veränderte Bild hierzu insbesondere mittels eines Variational Autoencoders (33), VAE, und/oder mittels eines Generative Adversarial Networks, GAN, zu den Eingabedaten (51) umgewandelt wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei zum Erzeugen zumindest einiger der Bilder fotorealistische Eingabebilddaten einer Fotographie und/oder Videosequenz einer Kameraaufnahme empfangen werden und das jeweilige Bild aus den Eingabedaten (51) durch zumindest eine vorbestimmte Bildoperation (49) zur Reduktion eines Detailgrad erzeugt werden, wobei die Eingabebilddaten (43, 45, 48) hierzu insbesondere mittels einem Variational Autoencoder (33), VAE, und/oder einem Generative Adversarial Network, GAN, zu den Bilddaten (43, 45, 48) umgewandelt werden, und/oder wobei zum Erzeugen zumindest einiger der Bilder diese direkt durch eine vorbestimmte Simulationsroutine (46) gemäß einer semantischen Beschreibung (47) der Umgebungssituation erzeugt werden.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Performanzmaß (54) umfasst, dass ein vorbestimmtes Unsicherheitsmaß, insbesondere eine epistemische Unsicherheit, kleiner ein erster Schwellen ist und/oder eine Objekterkennung in Bezug auf eine erkannte Anzahl von Objekten (18) eines vorbestimmten Objekttyps von einer durch die Ausprägungsstufe (41) vorgegebenen Anzahl um mehr als ein zweiter Schwellenwert (55) abweicht.
Computerlesbares Speichermedium mit einem Programmcode, der Programminstruktionen umfasst, die bei Ausführen durch eine Prozessorschaltung (11) diese veranlassen, ein Verfahren nach einem vorhergehenden Ansprüche durchzuführen.
Prozessorschaltung (11), die dazu eingerichtet ist, ein Verfahren nach einem der Ansprüche 1 bis 9 durchzuführen.