DE102022209528A1

DE102022209528A1 - Visuelle Analysesysteme zur Diagnose und Verbesserung von Deep-Learning-Modellen für bewegbare Objekte beim autonomen Fahren

Info

Publication number: DE102022209528A1
Application number: DE102022209528.6A
Authority: DE
Inventors: Lincan Zou; Wenbin He; Liang Gou; Liu Ren
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-09-17
Filing date: 2022-09-13
Publication date: 2023-03-23
Also published as: JP2023044674A; US20230085938A1; CN115830569A

Abstract

Ausführungsformen von Systemen und Verfahren zur Diagnose eines objekterkennenden maschinellen Lernmodells für autonomes Fahren werden hierin offenbart. Ein Eingabebild, das eine Szene zeigt, wird von einer Kamera empfangen, die in oder an einem Fahrzeug angebracht ist. Eine räumliche Verteilung von bewegbaren Objekten innerhalb der Szene wird unter Verwendung eines maschinellen Lernmodells mit kontextbewusster räumlicher Darstellung abgeleitet. Ein ungesehenes Objekt, das nicht in dem ursprünglichen Eingabebild enthalten ist, wird in der Szene erzeugt, unter Verwendung eines räumlich-kontradiktorischen maschinellen Lernmodells. Über das räumlich-kontradiktorische maschinelle Lernmodell wird das ungesehene Objekt an unterschiedliche andere Orte bewegt, um das objekterkennende maschinelle Lernmodell fehlschlagen zu lassen. Eine interaktive Benutzerschnittstelle ermöglicht es einem Benutzer, die Leistung des objekterkennenden maschinellen Lernmodells bezüglich der Szene ohne das ungesehene Objekt und der Szene mit dem ungesehenen Objekt zu analysieren.

Description

Technisches Gebiet
Die vorliegende Offenbarung betrifft visuelle Analysesysteme zur Diagnose und Verbesserung von Deep-Learning-Modellen für bewegbare Objekte beim autonomen Fahren.
Stand der Technik
Durch autonomes Fahren wird es für ein Fahrzeug möglich, fähig zu sein, seine Umgebung zu erfassen und sich sicher zu bewegen, mit nur wenig oder ganz ohne menschliche Eingabe. Viele Systeme ermöglichen autonomes Fahren. Ein solches System ist die semantische Segmentierung. Die semantische Segmentierung beinhaltet Aufnehmen eines Bildes von einer im oder am Fahrzeug montierten Kamera, Aufteilen des Eingabebildes in semantisch bedeutungsrelevante Regionen auf Pixelebene, und Zuweisen, zu jeder Region, eines semantischen Labels, wie etwa Fußgänger, Auto, Straße, und dergleichen.
Tiefe neuronale Faltungsnetze (CNNs) spielen eine zunehmend wichtige Rolle in Wahrnehmungssystemen für autonomes Fahren, einschließlich Objekterkennung und semantischer Segmentierung. Trotz der überlegenen Leistung von CNNs ist aus Sicherheitsgründen eine gründliche Bewertung der Genauigkeit und Robustheit des Modells erforderlich, bevor es beim autonomen Fahrzeugen eingesetzt wird. Einerseits sollte die Genauigkeit der Modelle über Objekte mit zahlreichen semantischen Klassen und Datenquellen analysiert werden, um vollständig zu verstehen, wann und warum die Modelle möglicherweise versagen. Andererseits ist es entscheidend, die potenziellen Schwachstellen von Modellen zu identifizieren und zu verstehen, damit die Robustheit der Modelle gegenüber ungesehenen Fahrszenen verbessert werden kann.
Kurzdarstellung
Gemäß einer Ausführungsform wird ein computer-implementiertes Verfahren zur Diagnose eines objekterkennenden maschinellen Lernmodells für autonomes Fahren bereitgestellt. Das computer-implementierte Verfahren weist auf: Empfangen eines Eingabebildes von einer Kamera, das eine Szene zeigt; Ableiten einer räumlichen Verteilung von bewegbaren bzw. verschiebbaren Objekten innerhalb der Szene unter Verwendung eines maschinellen Lernmodells mit kontextbewusster räumlicher Darstellung; Erzeugen eines ungesehenen Objekts in der Szene, das nicht in dem Eingabebild enthalten ist, unter Verwendung eines räumlich-kontradiktorischen maschinellen Lernmodells; über das räumlich-kontradiktorischen maschinelle Lernmodell, Bewegen des ungesehenen Objekts an unterschiedliche Orte, um das objekterkennende maschinelle Lernmodell fehlschlagen zu lassen; und Ausgeben einer interaktiven Benutzerschnittstelle, die es einem Benutzer ermöglicht, die Leistung des objekterkennenden maschinellen Lernmodells bezüglich der Szene ohne das ungesehene Objekt und der Szene mit dem ungesehenen Objekt zu analysieren.
Gemäß einer Ausführungsform wird ein System zur Diagnose eines objekterkennenden maschinellen Lernmodells für autonomes Fahren mit Mensch-Maschine-Interaktion bereitgestellt. Das System weist eine Benutzerschnittstelle auf. Das System weist einen Speicher auf, der ein von einer Kamera empfangenes Eingabebild speichert, das eine Szene außerhalb eines Fahrzeugs zeigt, wobei der Speicher ferner Programmanweisungen speichert, die einem maschinellen Lernmodell mit kontextbewusster räumlicher Darstellung entsprechen, das dazu ausgebildet ist, räumliche Informationen von Objekten innerhalb der Szene zu bestimmen, und der Speicher speichert ferner Programmanweisungen, die einem räumlich-kontradiktorischen maschinellen Lernmodell entsprechen, das dazu ausgebildet ist, ungesehene Objekte zu erzeugen und in die Szene einzufügen. Das System weist einen Prozessor auf, der kommunikativ mit dem Speicher gekoppelt ist und programmiert ist zum: Erzeugen einer semantischen Maske der Szene über semantische Segmentierung, Bestimmen einer räumlichen Verteilung von bewegbaren Objekten innerhalb der Szene basierend auf der semantischen Maske unter Verwendung des maschinellen Lernmodells mit kontextbewusster räumlicher Darstellung, Erzeugen eines ungesehenen Objekts in der Szene, das nicht in dem Eingabebild enthalten ist, unter Verwendung des räumlich-kontradiktorischen maschinellen Lernmodells, Bewegen des ungesehenen Objekts an unterschiedliche Orte unter Verwendung des räumlich-kontradiktorischen maschinellen Lernmodells, um das objekterkennende maschinelle Lernmodell fehlschlagen zu lassen, und Ausgeben von visuellen Analysen auf der Benutzeroberfläche, die es einem Benutzer ermöglichen, die Leistung des objekterkennenden maschinellen Lernmodells bezüglich der Szene ohne das ungesehene Objekt und der Szene mit dem ungesehenen Objekt zu analysieren.
Gemäß einer Ausführungsform weist ein System Speicher auf zum Speichern (i) eines von einer Kamera empfangen Eingabebilds, das eine Szene außerhalb eines Fahrzeugs zeigt, (ii) einer semantischen Maske, die dem Eingabebild zugeordnet ist, (iii) von Programmanweisungen, die einem maschinellen Lernmodell mit kontextbewusster räumlicher Darstellung entsprechen, das dazu ausgebildet ist, räumliche Informationen von Objekten innerhalb der Szene zu bestimmen, und (iv) von Programmanweisungen, die einem räumlich-kontradiktorischen maschinellen Lernmodell entsprechen, das dazu ausgebildet ist, ungesehene Objekte zu erzeugen und in die Szene einzufügen. Das System weist einen oder mehrere Prozessoren auf, die mit dem Speicher kommunizieren und dazu programmiert sind, über das maschinelle Lernmodell zur kontextbewussten räumlichen Darstellung Koordinaten von bewegbaren Objekten innerhalb der Szene in den Latenzraum zu codieren, und die Koordinaten mit einem Decodierer zu rekonstruieren, um eine räumliche Verteilung der bewegbaren Objekte zu bestimmen. Der eine oder die mehreren Prozessoren sind ferner dazu programmiert, über das räumlich kontradiktorische maschinellen Lernmodell ein ungesehenes Objekt, das nicht in dem Eingabebild enthalten ist, in der Szene zu erzeugen durch (i) Abtasten von Latenzraumkoordinaten eines Teils der Szene, um ein Begrenzungskästchen abzubilden, (ii) Abrufen eines Objekts mit ähnlichen Begrenzungskastenkoordinaten aus dem Speicher, und (iii) Platzieren des Objekts in dem Begrenzungskästchen. Der eine oder die mehreren Prozessoren sind ferner dazu programmiert, über das räumlich kontradiktorische maschinelle Lernmodell das ungesehene Objekt unter Verwendung des räumlich-kontradiktorischen maschinellen Lernmodells an unterschiedliche Orte zu bewegen, um zu versuchen, das objekterkennende maschinelle Lernmodell fehlschlagen zu lassen. Der eine oder die mehreren Prozessoren sind ferner dazu programmiert, auf einer Benutzerschnittstelle visuelle Analysen auszugeben, die es einem Benutzer ermöglichen, die Leistung des objekterkennenden maschinellen Lernmodells bezüglich der Szene ohne das ungesehene Objekt und der Szene mit dem ungesehenen Objekt zu analysieren.
Figurenliste

1 ist ein schematisches Diagramm eines Systems, das visuelle Analysewerkzeuge und ihre zugrundeliegenden maschinellen Lernmodelle ausführt, gemäß einer Ausführungsform.
2 ist eine schematische Darstellung eines maschinellen Lernmodells, das eine Vorhersagemaske aus einem Eingabebild erzeugt, gemäß einer Ausführungsform.
3 ist eine schematische Übersicht über ein System, das dazu ausgebildet ist, die Genauigkeit und Robustheit von semantischen Segmentierungsmodellen bezüglich bewegbaren Objekte zu diagnostizieren und zu verbessern, gemäß einer Ausführungsform.
4 ist eine schematische Darstellung eines maschinellen Lernmodells mit kontextbewusster räumlicher Darstellung gemäß einer Ausführungsform.
5 ist eine schematische Darstellung eines räumlich-kontradiktorischen maschinelle Lernmodells gemäß einer Ausführungsform.
6 ist eine schematische Darstellung eines Systems, das dazu ausgebildet ist, eine matrixartige Ansicht oder Region auf einer Benutzerschnittstelle auszugeben, gemäß einer Ausführungsform.
7 ist eine Leistungslandschaftsansicht eines semantischen Segmentierungsmodells für städtische Fahrszenen als ein Beispiel der auf der Benutzerschnittstelle sichtbaren matrixartigen Ansicht, gemäß einer Ausführungsform.
8 ist eine Blockansicht eines Vergleichs zweier Datensätze, in diesem Fall eines Trainings- oder ursprünglichen Datensatzes und eines kontradiktorischen Datensatzes, wobei jeder Block erweitert werden kann, um Bilder zu sehen, die durch den Block dargestellt werden, gemäß einer Ausführungsform.
9 ist ein Flussdiagramm eines Verfahrens oder Algorithmus, das/der durch den/die hier offenbarten Prozessor(en) implementiert wird.

Ausführliche Beschreibung
Es werden hier Ausführungsformen der vorliegenden Offenbarung beschrieben. Es versteht sich jedoch, dass die offenbarten Ausführungsformen lediglich Beispiele sind, und dass andere Ausführungsformen verschiedene und alternative Formen annehmen können. Die Figuren sind nicht notwendigerweise maßstabsgetreu; einige Merkmale könnten übertrieben oder minimiert dargestellt sein, um Details bestimmter Komponenten zu zeigen. Daher sind hierin offenbarte, spezifische strukturelle und funktionelle Details nicht als einschränkend zu interpretieren, sondern lediglich als repräsentative Grundlage, um einem Fachmann zu lehren, die Ausführungsformen auf verschiedene Weise einzusetzen. Wie der durchschnittliche Fachmann verstehen wird, können verschiedene, unter Bezugnahme auf eine der Figuren dargestellte und beschriebene Merkmale mit Merkmalen kombiniert werden, die in einer oder mehreren anderen Figuren dargestellt sind, um Ausführungsformen zu erzeugen, die nicht explizit dargestellt oder beschrieben sind. Die dargestellten Kombinationen von Merkmalen stellen repräsentative Ausführungsformen für typische Anwendungen bereit. Für bestimmte Anwendungen oder Implementierungen könnten jedoch in Übereinstimmung mit den Lehren dieser Offenbarung verschiedene Kombinationen und Modifizierungen der Merkmale erwünscht sein.
Autonome Fahrzeuge müssen Fahrszenen wahrnehmen und verstehen, um die richtigen Entscheidungen zu treffen. Semantische Segmentierung wird häufig in autonomen Fahrsystemen verwendet, um Fahrbereiche zu erkennen und wichtige Objekte auf der Straße, wie Fußgänger, Autos, und anderes, zu erkennen. Während die semantische Segmentierung in verschiedenen Technologien- d. h. nicht nur Bilder - verwendet werden kann, konzentriert sich diese Offenbarung auf die semantische Segmentierung von Bilddaten, die Bilder (die z. B. von einer im oder am Fahrzeug montierten Kamera aufgenommen werden) in semantisch bedeutungsvolle Regionen auf Pixelebene unterteilt, und jedes Segment in eine Klasse (z. B. Straße, Fußgänger, Fahrzeug, Auto, Gebäude, usw.) klassifiziert. 1 zeigt ein Beispiel für eine semantische Segmentierung bei der Arbeit. Ein Eingabebild wird in eines oder mehrere maschinelle Lernmodelle eingespeist, die eine Vorhersagemaske ausgeben. Die Vorhersagemaske ist ein Bild, das die verschiedenen Elemente, die in dem Eingabebild zu sehen sind, in mehrere Segmente aufteilt, und jedes Segment in eine Klasse klassifiziert. Gleiche Klassen können mit gleichen Farben oder Schattierungen gefärbt oder schattiert werden. Die semantische Segmentierung ermöglicht es den autonomen Fahrzeugsystemen, besser zu verstehen, welche Objekte sich um das Fahrzeug herum befinden, so dass das Fahrzeug so gesteuert werden kann, dass es sicher fährt.
Gegenwärtige visuelle Analyselösungen für autonomes Fahren konzentrieren sich hauptsächlich auf die Objekterkennung, und semantische Segmentierungsmodelle werden in diesem Bereich weniger untersucht. Es ist schwierig, zu bewerten und zu diagnostizieren, wann und warum semantische Segmentierungsmodelle kritische Objekte möglicherweise nicht erkennen. In der Regel müssen umfangreiche Datensätze getestet werden, und daher ist es schwierig, Fehlerfälle schnell zu identifizieren und die Grundursache dieser Fehler zu diagnostizieren, insbesondere im Zusammenhang mit dem Szenenkontext. Beispielsweise kann ein Fußgänger von den semantischen Segmentierungsmodellen übersehen werden, weil er im Kontext Kleidung mit ähnlichen Farben wie ein Leitkegel trägt. Obwohl ein Modell die meisten Objekte in ihrem üblichen Kontext sieht, wie etwa Fußgänger auf offenen Flächen und Bürgersteigen, gibt es ferner einige zuvor nicht gesehene kontextabhängige Orte, wie etwa eine Person zwischen einem Lastwagen und einem Pfosten, die von dem semantischen Segmentierungsmodell möglicherweise nicht erkannt werden. Es ist eine Herausforderung, diese potenziellen Risiken aufzudecken und die räumliche Robustheit des Objektdetektors über diese Grenzfälle hinweg zu bewerten.
Tiefe neuronale Faltungsnetze (CNNs) haben eine zunehmend wichtige Rolle in Wahrnehmungssystemen für autonomes Fahren gespielt, wie etwa in der Objekterkennung und semantischen Segmentierung. Trotz der überlegenen Leistung von CNNs ist aufgrund von Sicherheitsbedenken eine gründliche Bewertung erforderlich, bevor sie in autonomen Fahrzeugen eingesetzt werden, für die häufig visuelle Analysen verwendet werden, um das Verhalten komplexer CNNs zu analysieren, zu interpretieren und zu verstehen. Zur Analyse von CNNs wurden einige visuelle Analyseansätze vorgeschlagen, die sich hauptsächlich auf die Interpretation und Diagnose von Modellen konzentrieren. Die Modellinterpretation zielt darauf ab, die Black Box von CNNs zu öffnen indem entweder die neuronalen und Merkmalskarten direkt visualisiert werden oder erklärbare Ersatzmodelle (z. B. lineare Modelle) verwendet werden. Die Modelldiagnose konzentriert sich auf die Bewertung und das Verständnis der Leistung von Modellen, indem die Vorhersageergebnisse der Modelle zusammengefasst und verglichen werden und potenzielle Schwachstellen analysiert werden.
In hier offenbarten Ausführungsformen lernt das System zunächst eine kontextbewusste räumliche Darstellung von Objekten, wie etwa Position, Größe und Seitenverhältnis, aus gegebenen Fahrszenen. Mit dieser räumlichen Darstellung kann das System (1) die Verteilung der räumlichen Informationen von Objekten (z. B. mögliche Positionen, Größen und Seitenverhältnisse) in verschiedenen Fahrszenen schätzen, (2) die Leistung der Modelle bezüglich der räumlichen Informationen der Objekte zusammenfassen und interpretieren, und (3) neue Testfälle erzeugen, indem neue Objekte in Fahrszenen geeignet eingefügt werden, indem Szenenkontexte berücksichtigt werden. In Ausführungsformen verwendet das System dann auch kontradiktorisches Lernen, um ungesehene Testbeispiele effizient zu erzeugen, indem es die Position und Größe von Objekten innerhalb der erlernten räumlichen Darstellungen stört oder ändert. Anschließend visualisiert und analysiert ein visuelles Analysesystem die Leistung der Modelle sowohl bei natürlichen als auch bei kontradiktorischen Daten, und leitet umsetzbare Erkenntnisse ab, um die Genauigkeit und räumliche Robustheit der Modelle zu verbessern. All dies geschieht in einem interaktiven visuellen Analysesystem, das von einem Menschen bedient werden kann.
Genauer gesagt, und wie weiter unten in Bezug auf die Figuren beschrieben wird, wird hier ein visuelles Analysesystem zum Bewerten, Interpretieren und Verbessern eines semantischen Segmentierungsmodells zur Erkennung kritischer Objekte beim autonomen Fahren offenbart. Das visuelle Analysesystem verwendet kontextbewusstes Darstellungslernen (4), um die räumliche Verteilung bewegbarer Objekte in einer bestimmten Szene zu lernen. Das Modell lernt räumliche Informationen, indem es die Begrenzungskastenkoordinaten in einen niedrigdimensionalen Latenzraum codiert, und die Kästchen dann mit einem Decodierer rekonstruiert. Das System verwendet die semantische Maske auch als bedingte Eingabe, um zu erzwingen, dass die räumliche Verteilung vom Szenenkontext abhängig ist. Auf diese Weise nehmen die latenten Dimensionen interpretierbare räumliche Verteilungen bewegbarer Objekte auf. Dies hilft dem System, einem Benutzer ein visuelles Werkzeug bereitzustellen, um dabei zu helfen, Informationen über das Objekt, wie etwa seine Position (z. B. von links nach rechts, oder nah bis weit entfernt), visuell zu verstehen. Es hilft auch bei der Interpretation der Gesamtleistung des Objekts. Wie noch beschrieben wird, weist das System auch ein räumlich-kontradiktorisches maschinelles Lernmodell (5) auf, um ungesehene Objekte an unterschiedlichen Orten innerhalb eines Kontexts zu erzeugen und die Robustheit des Modells zu testen. Bei einer gegebenen Fahrszene kann das System ein anderes bewegbares Objekt erzeugen, um den Detektor durch kleine sinnvolle Änderungen seiner Position fehlschlagen zu lassen. Dies kann erfolgen, indem ein möglicher Ort für ein Objekt aus dem räumlichen Latenzraum abgetastet wird. Dieser Ort ist durch die gegebene Szenenmaske bedingt. Die latenten Dimensionen können geändert werden, um einen neuen Ort zu erzeugen, der den Detektor fehlschlagen lassen kann. Eine kontradiktorische Gradientenschätzung kann dies erreichen. Die minimale Menge an Änderung über latente Dimensionen kann die räumliche Robustheit anzeigen. Mit den ursprünglichen Daten und den erzeugten kontradiktorischen Daten kann das visuelle Analysesystem Benutzerschnittstellen erzeugen, um es einem Menschen zu ermöglichen, die semantischen Segmentierungsmodelle zu analysieren und zu verbessern (6 bis 8). Diese Figuren werden nachstehend ausführlicher beschrieben.
2 zeigt ein Gesamtsystem 100, das dazu fähig und ausgebildet ist, die hier offenbarten Systeme auszuführen, einschließlich der visuellen Analysewerkzeuge und ihrer zugrundeliegenden maschinellen Lernmodelle. Das System 100 kann mindestens ein Computersystem 102 aufweisen. Das Computersystem 102 kann mindestens einen Prozessor 104 aufweisen, der operativ mit einer Speichereinheit 108 oder einem Speicher verbunden ist. Der Prozessor 104 kann eine oder mehrere integrierte Schaltungen aufweisen, die die Funktionalität einer zentralen Verarbeitungseinheit (CPU) 106 implementieren. Die CPU 106 kann eine im Handel erhältliche Verarbeitungseinheit sein, die einen Befehlssatz, wie etwa eine der x86-, ARM-, Power-, oder MIPS-Befehlssatzfamilien, implementiert. Während des Betriebs kann die CPU 106 gespeicherte Programmanweisungen ausführen, die aus der Speichereinheit 108 abgerufen werden. Die gespeicherten Programmanweisungen können Software aufweisen, die den Betrieb der CPU 106 steuert, um die hierin beschriebene Operation durchzuführen. In einigen Beispielen kann der Prozessor 104 ein System auf einem Chip (SoC) sein, das eine Funktionalität der CPU 106, der Speichereinheit 108, einer Netzwerkschnittstelle und von Eingabe-/Ausgabeschnittstellen in einer einzigen integrierten Vorrichtung integriert. Das Computersystem 102 kann ein Betriebssystem zum Verwalten verschiedener Aspekte des Betriebs implementieren.
Die Speichereinheit 108 kann einen flüchtigen Speicher und einen nichtflüchtigen Speicher zum Speichern von Befehlen und Daten aufweisen. Der nichtflüchtige Speicher kann Festkörperspeicher, wie etwa NAND-Flash-Speicher, magnetische und optische Speichermedien, oder jede andere geeignete Datenspeichervorrichtung aufweisen, die Daten behält, wenn das Computersystem 102 deaktiviert wird oder seine elektrische Energie verliert. Der flüchtige Speicher kann einen statischen und dynamischen Direktzugriffsspeicher (RAM) aufweisen, der Programmanweisungen und Daten speichert. Beispielsweise kann die Speichereinheit 108 ein maschinelles Lernmodell 110 oder einen Algorithmus, einen Trainingsdatensatz 112 für das maschinelle Lernmodell 110, und einen Rohquellendatensatz 115 speichern.
Das Computersystem 102 kann eine Netzwerkschnittstellenvorrichtung 122 aufweisen, die dazu ausgebildet ist, eine Kommunikation mit externen Systemen und Vorrichtungen bereitzustellen. Beispielsweise kann die Netzwerkschnittstellenvorrichtung 122 eine drahtgebundene und/oder drahtlose Ethernet-Schnittstelle aufweisen, wie sie durch die IEEE- (Institute of Electrical and Electronics Engineers) Normenfamilie 802.11 definiert ist. Die Netzwerkschnittstellenvorrichtung 122 kann eine zellulare Kommunikationsschnittstelle zum Kommunizieren mit einem zellularen Netzwerk (z. B. 3G, 4G, 5G) aufweisen. Die Netzwerkschnittstellenvorrichtung 122 kann ferner dazu ausgebildet sein, eine Kommunikationsschnittstelle zu einem externen Netzwerk 124 oder einer Cloud bereitzustellen.
Das externe Netzwerk 124 kann als das World Wide Web oder das Internet bezeichnet werden. Das externe Netzwerk 124 kann ein Standard-Kommunikationsprotokoll zwischen Computervorrichtungen einrichten. Das externe Netzwerk 124 kann ermöglichen, die Informationen und Daten leicht zwischen Computervorrichtungen und Netzwerken auszutauschen. Einer oder mehrere Server 130 können mit dem externen Netzwerk 124 kommunizieren. Der eine oder die mehreren Server 130 können den Speicher und die Prozessoren aufweisen, die dazu ausgebildet sind, die hier offenbarten Systeme auszuführen.
Das Computersystem 102 kann eine Eingabe/Ausgabe- (E/A) Schnittstelle 120 aufweisen, die dazu ausgebildet sein kann, digitale und/oder analoge Eingaben und Ausgaben bereitzustellen. Die E/A-Schnittstelle 120 kann zusätzliche serielle Schnittstellen zum Kommunizieren mit externen Vorrichtungen (z. B. eine USB- (Universal Serial Bus) Schnittstelle) aufweisen.
Das Computersystem 102 kann eine HMI- (Mensch-Maschine-Schnittstellen-) Vorrichtung 118 aufweisen, die eine beliebige Vorrichtung aufweisen kann, die es dem System 100 ermöglicht, Steuereingaben zu empfangen. Beispiele für Eingabevorrichtungen können Schnittstellen für menschliche Eingaben, wie etwa Tastaturen, Mäuse, Touchscreens, Spracheingabevorrichtungen und andere, ähnliche Vorrichtungen aufweisen. Das Computersystem 102 kann eine Anzeigevorrichtung 132 aufweisen. Das Computersystem 102 kann Hardware und Software zum Ausgeben von Grafik- und Textinformationen an die Anzeigevorrichtung 132 aufweisen. Die Anzeigevorrichtung 132 kann einen elektronischen Anzeigebildschirm, einen Projektor, einen Drucker oder eine andere geeignete Vorrichtung zum Anzeigen von Informationen für einen Benutzer oder Bediener, und um dem Benutzer zu ermöglichen, als ein Mensch-Maschine-Interaktion-Bediener zu agieren, um die maschinellen Lernmodelle über das visuelle Analysesystem interaktiv zu diagnostizieren, aufweisen. Das Computersystem 102 kann ferner dazu ausgebildet sein, eine Interaktion mit entfernten HMI- und entfernten Anzeigevorrichtungen über die Netzwerkschnittstellenvorrichtungen 122 zu ermöglichen. Die HMI 118 und die Anzeige 132 können zusammen eine Benutzerschnittstelle (z. B. die visuelle Komponente zu dem Analysesystem) für den Benutzer bereitstellen, was eine Interaktion zwischen dem menschlichen Benutzer und dem/den Prozessor(en) 104 ermöglicht.
Das System 100 kann unter Verwendung eines oder mehrerer Computersysteme implementiert werden. Während das Beispiel ein einzelnes Computersystem 102 darstellt, das alle beschriebenen Merkmale implementiert, ist beabsichtigt, dass verschiedene Merkmale und Funktionen getrennt und durch mehrere miteinander kommunizierende Computereinheiten implementiert werden können. Die spezielle ausgewählte Systemarchitektur kann von einer Vielzahl von Faktoren abhängig sein, und das in 1 dargestellte System ist lediglich ein Beispiel.
Das System 100 kann einen maschinellen Lernalgorithmus 110 implementieren, der dazu ausgebildet ist, den Rohquellendatensatz 115 zu analysieren. Der Rohquellendatensatz 115 kann rohe oder unverarbeitete Sensordaten oder Bilddaten aufweisen, die für einen Eingabedatensatz für ein maschinelles Lernsystem repräsentativ sein können. Der Rohquellendatensatz 115 kann Video, Videosegmente, Bilder, textbasierte Informationen, und rohe oder teilweise verarbeitete Sensordaten (z. B. Radarkarte von Objekten) aufweisen. In einigen Beispielen kann der maschinelle Lernalgorithmus 110 ein Algorithmus eines neuronalen Netzes sein, der dafür ausgelegt ist, eine vorbestimmte Funktion auszuführen. Beispielsweise kann der Algorithmus eines neuronalen Netzes in Automobilanwendungen ausgebildet werden, um Elemente (z. B. Fußgänger, Schilder, Gebäude, Himmel, Straße usw.) in Bildern oder Bildserien (z. B. Video) zu identifizieren, und die Bilder sogar mit Anmerkungen versehen, die Labels solcher Elemente aufweisen. Der maschinelle Lernalgorithmus 110 kann sich (beispielsweise) auf CNNs stützen oder diese aufweisen, um diese Funktionen auszuführen.
Das Computersystem 100 kann einen Trainingsdatensatz 112 für den maschinellen Lernalgorithmus 110 speichern. Der Trainingsdatensatz 112 kann einen Satz zuvor konstruierter Daten zum Trainieren des maschinellen Lernalgorithmus 110 darstellen. Der Trainingsdatensatz 112 kann von dem maschinellen Lernalgorithmus 110 zum Lernen von Gewichtungsfaktoren verwendet werden, die einem Algorithmus eines neuronalen Netzes zugeordnet sind. Der Trainingsdatensatz 112 kann einen Satz von Quelldaten aufweisen, die entsprechende Ergebnisse oder Ergebnisse aufweisen, die der maschinelle Lernalgorithmus 110 über den Lernprozess zu duplizieren versucht. In diesem Beispiel kann der Trainingsdatensatz 112 Quellbilder oder -videos mit und ohne Elemente in der Szene und entsprechende Anwesenheits- und Standortinformationen des Elemente aufweisen.
Der maschinelle Lernalgorithmus 110 kann in einem Lernmodus unter Verwendung des Trainingsdatensatzes 112 als Eingabe betrieben werden. Der maschinelle Lernalgorithmus 110 kann über eine Anzahl von Iterationen unter Verwendung der Daten aus dem Trainingsdatensatz 112 ausgeführt werden. Bei jeder Iteration kann der maschinelle Lernalgorithmus 110 interne Gewichtungsfaktoren basierend auf den erzielten Ergebnissen aktualisieren. Beispielsweise kann der maschinelle Lernalgorithmus 110 Ausgabeergebnisse (z. B. Anmerkungen, latente Variablen, Störgeräusche usw.) mit denen vergleichen, die in dem Trainingsdatensatz 112 enthalten sind. Da der Trainingsdatensatz 112 die erwarteten Ergebnisse aufweist, kann der maschinelle Lernalgorithmus 110 bestimmen, wann die Leistung akzeptabel ist. Nachdem der maschinelle Lernalgorithmus 110 ein vorbestimmtes Leistungsniveau (z. B. 100 % Übereinstimmung mit den mit dem Trainingsdatensatz 112 verknüpften Ergebnissen) erreicht hat, kann der maschinelle Lernalgorithmus 110 unter Verwendung von Daten ausgeführt werden, die nicht in dem Trainingsdatensatz 112 enthalten sind. Der trainierte maschinelle Lernalgorithmus 110 kann auf neue Datensätze angewendet werden, um kommentierte Daten zu erzeugen.
3 stellt einen Überblick über ein visuelles Analysesystem 300 bereit, das dazu ausgebildet ist, die Genauigkeit und Robustheit von semantischen Segmentierungsmodellen bezüglich bewegbarer Objekte zu diagnostizieren und zu verbessern. Im Allgemeinen weist das System 300 sowohl ein kontextbewusstes räumlich-kontradiktorisches maschinelles Lernmodell als auch ein räumlich-kontradiktorisches maschinelles Lernmodell, um ein interaktives visuelles Analysesystem zu erzeugen, auf. Das System 300 verwendet bei 302 ursprünglichen Daten, die Grundwahrheit-Begrenzungskästchen aufweisen, die über erkannten Objekten platziert sind, und eine entsprechende Maske, die aus den ursprünglichen Daten gemäß den hierin beschriebenen Verfahren erstellt ist. Das System 300 verwendet ein kontextbewusstes Darstellungslernmodell 304 zum Lernen der räumlichen Verteilung bewegbarer Objekte in einer gegebenen Szene. Das System 300 verwendet auch ein maschinellen Lernmodell 306 mit kontextbewusster räumlicher Darstellung, das ungesehene Objekte an unterschiedlichen Orten innerhalb eines Kontexts erzeugt (z. B. kontradiktorische Daten 308 ), um die Robustheit des Modells zu testen. Mit den ursprünglichen Daten 302 und den erzeugten kontradiktorischen Daten 308 erzeugt das System 300 eine interaktive visuelle analytische Benutzerschnittstelle 310, um es einem Benutzer zu ermöglichen, semantische Segmentierungsmodelle mit Mensch-Maschine-Interaktion bezüglich des Gesamtsystems 300 zu analysieren und zu verbessern. Jedes/jede von dem maschinellen Lernmodells 304 mit kontextbewusster räumlicher Darstellung, dem räumlich-kontradiktorischen maschinellen Lernmodell 306, und der interaktiven visuellen analytischen Benutzerschnittstelle 310 wird weiter unten beschrieben.
Das maschinellen Lernmodell 304 mit kontextbewusster räumlicher Darstellung wird in 4 detaillierter gezeigt. Das maschinelle Lernmodell 304 mit kontextbewusster räumlicher Darstellung lernt räumliche Informationen, indem es zuerst (z. B. über einen Codierer) die Begrenzungskastenkoordinaten in einen niedriger dimensionalen Latenzraum codiert, und dann die Kästchen mit einem Decodierer rekonstruiert. Insbesondere ist das Modell 304 dazu ausgelegt, eine latente Darstellung der räumlichen Informationen der bewegbaren Objekte - wie etwa Position, Größe und Seitenverhältnis - in Abhängigkeit von gegebenen Fahrszenen zu extrahieren. Ein bedingter Variations-Autoencoder (CVAE) ist dazu angepasst, kontextbewusstes räumliches Darstellungslernen durchzuführen, das zwei Hauptkomponenten aufweist: einen Codierer e_θ und einen Decodierer d_φ, wobei θ und φ Gewichte jeweiliger tiefer neuronaler Netze sind. Bei einem gegebenen Objekt in einer Fahrszene wird sein Begrenzungskästchen $b_{i} = [x_{i}^{m i n}, y_{i}^{m i n}, x_{i}^{m a x}, y_{i}^{m a x}]$
über den Codierer in einen latenten Vektor z_i 402 codiert, mit der Segmentierung der Fahrszenen Grundwahrheit (z. B. eine Maske mit einem semantischen Klassenlabel an jeder Pixelposition), m_i als Bedingung. Der latente Vektor z_i wird dann unter Verwendung des Decodierers d_φ, der auch auf der semantischen Segmentierungsmaske m_i bedingt ist, in ein rekonstruiertes Begrenzungskästchen b̂_i abgebildet. Die Bedingungseingabe m_i ermöglicht somit dem Modell, eine kontextbewusste räumliche Darstellung zu lernen. Mit anderen Worten, die semantische Maske wird als bedingte Eingabe verwendet, um zu erzwingen, dass die räumliche Verteilung vom Kontext der Szene abhängig ist. Auf diese Weise nehmen die latenten Dimensionen interpretierbare räumliche Verteilungen bewegbarer Objekte auf.
In einer Ausführungsform kann das CVAE mit zwei Verlusten trainiert werden, die einen Rekonstruktionsverlust ℓ_r und eine latenten Verlust ℓ_l aufweisen. Der Rekonstruktionsverlust wird verwendet, um die Differenz zwischen dem eingegebenen Begrenzungskästchen b_i und dem rekonstruierten Begrenzungskästchen b̂_i zu messen, für die der mittlere absolute Fehler zwischen b_i und b̂_i als $l_{r} = \frac{| b_{i} - {\hat{b}}_{i} |}{4}$
bestimmt wird. Der latente Verlust kann die Kullback-Leibler-Divergenz DKL zwischen der angenäherten Posterior-Verteilung und dem Gaußschen Prior sein. Der Trainer kann (3-VAE verwenden, um die latenten Darstellungen zu entwirren, was den Rekonstruktionsverlust ℓ_r und den latenten Verlust ℓ_l mit einem Gewicht β kombiniert, nämlich ℓ = ℓ_r + βℓ_l. In einer durch Experimente entdeckten Ausführungsform kann β auf 2e-3 gesetzt werden, um die Rekonstruktionsgenauigkeit und die Entwirrung der latenten Darstellungen auszugleichen.
Nach dem Training können der Codierer und der Decodierer zur Datenzusammenfassung und -erzeugung verwendet werden. Mit dem Codierer kann jedes Begrenzungskästchen auf einen latenten Vektor 402 abgebildet werden, der seine räumlichen Informationen, wie etwa Position und Größe, relativ zur Fahrszene aufnimmt. Die Dimensionen der latenten Vektoren haben auch semantische Bedeutungen, wie etwa von links nach rechts, von nah zu fern, und von klein zu groß. Dies ist als Beispiel bei 312 gezeigt, das innerhalb oder als Teil der interaktiven visuellen analytischen Benutzerschnittstelle 310 bereitgestellt werden kann, in der die y-Achse eine erste latente Dimension dessen sein kann, wie nah oder fern das Objekt ist, und die x-Achse eine zweite latente Dimension von links nach rechts sein kann. Die latenten Vektoren werden verwendet, um die Leistung semantischer Segmentierungsmodelle bezüglich der räumlichen Informationen von Objekten zusammenzufassen. Bei gegebenen Proben, die aus dem Latenzraum gezogen wurden, kann der Decodierer die möglichen Positionen und Größen von Objekten (z. B. die in der Maske 404 gezeigten Begrenzungskästchen) in gegebenen Fahrszenen erzeugen, die verwendet werden, um die Erzeugung von kontradiktorischen Beispielen für den Robustheitstest zu leiten.
Unter erneuter Bezugnahme auf 3, die sich auf das räumlich-kontradiktorische maschinelle Lernmodells 306 bezieht, ist das Ziel des räumlich kontradiktorischen maschinellen Lernmodells 306: bei gegebener Fahrszene, Erzeugen eines anderen bewegbaren Objekts, um durch Änderungen seiner Position den Detektor fehlschlagen zu lassen. Kontradiktorische Beispiele können basierend auf der erlernten räumlichen Darstellung erzeugt werden, um die Robustheit von semantischen Segmentierungsmodellen zu testen und zu verbessern. Die kontradiktorischen Beispiele können über zwei Schritte erzeugt werden: (1) passendes Einfügen eines neuen Objekts in eine Fahrszene auf semantisch konsistente Weise, und (2) Stören der latenten Darstellung, um die räumliche Transformation des Objekts (z. B. Position und Größe) in der Szene anzupassen, um das Zielmodell durch kontradiktorisches Lernen zu täuschen. Diese zwei Schritte sind in 5 gezeigt, die eine detailliertere Ansicht des räumlich-kontradiktorischen maschinellen Lernmodells 306 ist. Insbesondere beinhaltet der erste Schritt (z. B. das Einfügen von Einwänden 502) Erhalten einer kontextbewussten möglichen Position eines Objekts durch Abtasten des erlernten räumlichen Latenzraums, um ein neues Objekt einzufügen. Der zweite Schritt (z. B. räumlich-kontradiktorisches Lernen 504) beinhaltet Stören der Position und Größe des Objekts, um das Modell fehlschlagen zu lassen, indem der latente Raum mit kontradiktorischem Lernen durchsucht wird.
Hinsichtlich der Objekteinfügung 502 fügt das System bei einer gegebenen Fahrszene ein neues Objekt für eine kontradiktorische Suche passend in die Szene ein. Vorhandene Objekte werden in der Szene nicht verändert oder bewegt, um unnötige Artefakte zu vermeiden. Um das eingefügte Objekt an die Szenensemantik anzupassen (z. B. sollten Fußgänger nicht am Himmel platziert werden), wird die erlernte räumliche Darstellung genutzt, um eine mögliche Position abzutasten. Beispielsweise wird, wie in 502 gezeigt wird, zuerst eine Probe z_i aus dem Latenzraum gezogen und unter Verwendung des Decodierers d_φ und der semantischen Segmentierungsmaske m_i der Ziel-Fahrszene x_i in ein Begrenzungskästchen b_i abgebildet. Dann werden alle Trainingsdaten (die z. B. in dem hierin beschriebenen Speicher gespeichert sind) durchsucht, um ein Objekt zu finden, das das Begrenzungskästchen hat, das dem erzeugten Kästchen b_i am ähnlichsten ist, und das abgerufene Objekt wird skaliert und übersetzt, um in das Begrenzungskästchen b_i zu passen. Der Grund für die Auswahl eines Objekts mit einem ähnlichen Begrenzungskästchen besteht darin, die Genauigkeit des Objekts nach dem Skalieren und Bewegen beizubehalten. Um das neue Objekt nahtlos in die Fahrszene einzufügen, kann Poisson-Blending verwendet werden, um die Farbe und Beleuchtung des Objekts an den umgebenden Kontext anzupassen. Unterdessen kann eine Gaußsche Unschärfe auf die Grenze des Objekts angewendet werden, um Grenzartefakte abzuschwächen.
In Bezug auf räumliches kontradiktorisches Lernen 504 wird dies durchgeführt, um das eingefügte Objekt in der Szene auf geeignete Weise und effizient zu bewegen, so dass das gesamte objekterkennende maschinelle Lernmodell es nicht korrekt erkennen kann. Die Idee besteht darin, die latente räumliche Darstellung des eingefügten Objekts zu stören, um den schnellsten Weg zu finden, das Objekt zu bewegen, um das Zielmodell zu täuschen. Insbesondere wird in einer Ausführungsform bei einer gegebenen Fahrszene x_i mit einem Objekt o_i, das in einem Begrenzungskästchen bi platziert ist, das kontradiktorische Beispiel erzeugt, indem nach einem neuen Begrenzungskästchen b'_i gesucht wird, um das Objekt so zu platzieren, dass das Modell f dahingehend fehlschlägt, die Segmentierung des transformierten Objekts korrekt vorhersagen. Um zu bestimmten, ob das Modell fehlschlägt, wird es in der neuen Szene x'_i mit dem transformierten Objekt o'_i ausgewertet und mit der neuen semantischen Segmentierungsmaske m'_i verglichen. Die Modellleistung des transformierten Objekts o'_i wird dann berechnet und mit einem Modellleistungs-Schwellenwert verglichen, und das Modell schlägt fehl, wenn die Modellleistung kleiner als der Modellleistungs-Schwellenwert ist.
Um sicherzustellen, dass das neue Begrenzungskästchen b'_i bezüglich der Fahrszene semantisch bedeutsam ist, kann das System die kontradiktorische Suche im Latenzraum durchführen, anstatt das Begrenzungskästchen direkt zu manipulieren. Um einen latenten Vektor z'_i mit einer minimalen Änderung, die ein kontradiktorisches Beispiel erzeugt, zu finden, kann das System das Black-Box-Anfügungs-Verfahren übernehmen, so dass die Architektur des semantischen Segmentierungsmodells nicht explizit bekannt sein muss. Zunächst wird ein Gradientenschätzungsansatz mit natürlichen Evolutionsstrategien verwendet, um die Gradientenrichtung im Latenzraum, die die Modellleistung am schnellsten sinken lässt, zu finden. Dann kann der latente Vektor z_i iterativ mit einer vordefinierten Schrittweite entlang der Gradientenrichtung bewegt bzw. verschoben werden, bis die Modellleistung kleiner als der Schwellwert ist. Beim Bewegen des Objekts muss nur die Gaußsche Unschärfe angewendet werden, um das Objekt mit der Fahrszene zu verschmelzen, da der Fokus auf der Leistungsänderung des Modells liegen sollte, die durch die Änderung der räumlichen Informationen des Objekts verursacht wird, und nicht auf der durch Poisson-Blending eingeführten Farbverschiebung.
Mit den kontradiktorischen Beispielen kann das System die Robustheit eines Zielmodells interpretieren. Zu diesem Zweck wird für jedes Objekt o_i ein räumlicher Robustheitswert s_ri, der als mittlerer absoluter Fehler zwischen den latenten Vektoren z_i und z'_i definiert ist, durch die Standardabweichung jeder latenten Dimension, nämlich sr_i = |z_i - z'_i|/|z_std|, normalisiert. Diese Punktzahl erfasst, wie viel Änderung im Latenzraum erforderlich ist, um das Modell fehlschlagen zu lassen.
Nach der Datenvorverarbeitung (z. B. Darstellungs- und kontradiktorisches Lernen) kann das System die ursprünglichen (nämlich Trainings-, Validierungs- und Test-) und kontradiktorischen Daten zusammen mit der Vorhersage des Modells sammeln, um die dem Benutzer bereitgestellte Benutzerschnittstelle des visuellen Analysesystems zu steuern. Insbesondere werden für jedes Objekt seine räumlichen Informationen (z. B. ein Begrenzungskästchen, die Größe, latente Darstellung) extrahiert, und Leistungsmetriken (z. B. die Modellleistung, die Grundwahrheit-Klasse, und die Vorhersageklasse) werden extrahiert. In einer Ausführungsform könnten die Pixel eines Objekts als unterschiedliche Klassen vorhergesagt werden, für die die Vorhersageklasse des Objekts als die Klasse mit der maximalen Anzahl von Pixeln definiert ist. Für das kontradiktorische Lernen können die Robustheit und die Gradientenrichtung extrahiert werden, um die Angriffsmuster zu analysieren.
Unter erneuter Bezugnahme auf 3 kann das System mit den ursprünglichen Daten 302 und den erzeugten kontradiktorischen Daten 308 über die HMI-Vorrichtung 118, die Anzeige 132, und dergleichen, dem Benutzer die Benutzerschnittstelle 310 des visuellen Analysesystems präsentieren. Die in 3 gezeigte Benutzerschnittstelle 310 ist eine allgemeine Übersicht oder ein Schema davon, wie die Benutzerschnittstelle für den Benutzer auf dem Bildschirm erscheinen kann. Im Allgemeinen gibt es drei Bereiche zur Interaktion und Betrachtung durch den Benutzer: einen Übersichtsbereich 320, einen matrixartigen Bereich 322, sowie den Fahrszenenbereich 324, wie unten detailliert beschrieben wird. Jeder dieser Bereiche kann in einem einzelnen Fenster oder Bereich auf der Anzeige 132 bereitgestellt werden, oder jeder Bereich kann bewegt oder minimiert werden, so dass der Benutzer Anpassungen vornehmen kann, wann und wo jeder Bereich auf der Benutzerschnittstelle angezeigt wird.
Der Zusammenfassungsbereich 320 weist eine Zusammenfassung von Datenkonfigurationen und Statistiken von Schlüsseleigenschaften von Objekten auf. Die angezeigten Daten können grundlegende Konfigurationen der Daten aufweisen, einschließlich der Datenaufteilungen, der Instanzklassen und der interessierenden Modelle. Darüber hinaus werden Balkendiagramme verwendet, um ein Histogramm der wichtigsten Eigenschaften von Objekten anzuzeigen, einschließlich der Größe des entwickelten Objekts (oberes Diagramm), der Modellleistung (mittleres Diagramm) und der Modellrobustheit (unteres Diagramm). Der Zusammenfassungsbereich 320 bietet einen Überblick über die Leistung der Modelle und ermöglicht es dem Benutzer, Daten für eine detaillierte Analyse in dem matrixartigen Bereich 322 zu filtern. Beispielsweise kann der Benutzer verschiedene Instanzklassen (z. B. Fußgänger, Auto, Lastwagen, Bus, Zug, Gebäude, usw.) innerhalb des Zusammenfassungsbereichs, der die in dem matrixartigen Bereich 322 angezeigten Daten interaktiv aktualisiert, auswählen. Benutzer können auch über die Balkendiagramme wischen, um die Daten weiter zu filtern, indem sie den Bereich der Objektgröße, Modellleistung und/oder Robustheit einschränken.
Der matrixartige Bereich 322 wird detaillierter in den 6-7 dargestellt. Der matrixartige Bereich 322 zeigt die Leistungslandschaft zahlreicher Objekte aus unterschiedlichen Aspekten von Datenattributen (6, Bereich a) und auf unterschiedlichen Detailebenen (6, Bereiche b und c). Diese Ansicht soll Benutzern dabei helfen, interessante Teilmengen von Daten zu identifizieren, indem die Leistung von Modellen über unterschiedliche semantische Klassen, Datenquellen und Modellversionen hinweg verglichen wird, sowie um die Leistung von Modellen gegenüber räumlichen Informationen von Objekten im Kontext zu verstehen.
6 zeigt eine schematische Darstellung des Designs des matrixartigen Bereichs 322 gemäß einer Ausführungsform. Objekte mit unterschiedlichen Arten von Attributen werden (a) zunächst basierend auf unterschiedlichen kategorialen Attributen gruppiert, und als Matrix von Blöcken (b) visualisiert. Die Objekte können in Gruppen unterteilt werden, um einen Überblick über die Leistung der Objekte in Bezug auf vom Benutzer ausgewählte kategoriale Attribute, wie etwa Grundwahrheit-/Vorhersageklasse, Datenquelle oder Modellversion, zu geben. Beim Gruppieren der Objekte beispielsweise basierend auf ihren Grundwahrheit-Klassen (z. B. Fußgänger, Auto, usw.) und Vorhersageklassen können die Benutzer eine Konfusionsmatrixansicht (b1) der Modellleistung haben, in der die Größe jedes Blocks für die Anzahl der darin enthaltenen Objekte steht, und die Farbe für die durchschnittliche Modellleistung oder den Robustheitswert dieser Objekte steht. Benutzer können die Leistung von Modellen über unterschiedliche Datenquellen oder Modellversionen hinweg in einem Daten-/Modellvergleich (b2) vergleichen, der die Grundwahrheit-Klasse nach Datenquelle oder Modell organisiert. Benutzer können die Objekte auch basierend auf nur einem kategorialen Attribut gruppieren, um die Datenverteilung zu visualisieren (b3). Beispielsweise kann die Verteilung der Objektklassen erhalten werden, indem die Objekte basierend auf der Grundwahrheit-Klasse gruppiert werden, wie in (b3) gezeigt.
Nach der Identifizierung interessanter Datenblöcke innerhalb der Matrizen kann der Benutzer irgendeines der Kästchen für eine detailliertere Ansicht hervorheben oder auswählen. 6 zeigt ein Beispiel, in dem der Benutzer das untere rechte Kästchen der Konfusionsmatrix (b1) ausgewählt hat, die die Leistung des Modells einer bestimmten Grundwahrheit-Klasse und einer bestimmten Vorhersageklasse darstellt. Das Ergebnis ist die matrixartigen Ansicht, die eine detailliertere Ansicht bietet (c). Die in der Detailansicht angezeigten Objekte werden basierend auf den numerischen Attributen (c1), wie etwa der erlernten latenten Darstellung, Größe und Modellleistung, in Bins aggregiert. Ähnlich wie bei der Blockansicht in (b) können Benutzer die numerischen Attribute ändern, um die Objekte zu aggregieren. Beispielsweise können Benutzer zwei der latenten Dimensionen auswählen, und die latente Darstellung der Objekte in diesen Dimensionen dazu verwenden, um die Objekte zu aggregieren. Nach der Aggregation kann das räumliche Muster der Modellleistung visualisiert werden, indem ein repräsentatives Objekt für jeden Bin ausgewählt wird und das Objekt unter Verwendung unterschiedlicher visueller Codierungen oder Darstellungen, wie etwa der Modellleistung oder Robustheit (c3), Bildausschnitt (c3) und semantischer Segmentierungsausschnitt (c4), visualisiert wird. Benutzer können definieren, wie das repräsentative Objekt jedes Bins ausgewählt wird. Darüber hinaus kann, wenn nur ein numerisches Attribut verwendet wird, die Datenverteilung des ausgewählten Attributs für jeden Block (z. B. in einem Histogramm) visualisiert werden (c5).
7 zeigt ein Beispiel einer Leistungslandschaftsansicht eines semantischen Segmentierungsmodells für städtische Fahrszenen als ein Beispiel der matrixförmigen Ansicht. Die Blockansicht (a) ist als Konfusionsmatrix organisiert, basierend auf den Objekt-Grundwahrheit- und Vorhersageklassen. In diesem Beispiel weisen die Klassen (sowohl Grundwahrheit als auch Vorhersage) Auto, Fußgänger, Fahrrad, Fahrer, Motorrad, Lastwagen, Bus, Gebäude, Zug, Vegetation, Straße, Zaun, Pfahl, Bürgersteig, Verkehrszeichen, Wand bzw. Mauer, Gelände, Verkehr Licht und Himmel auf. Natürlich können von den hier offenbarten Systemen unterschiedliche, mehr, oder weniger Klassen verwendet werden. Die Größe jedes Blocks steht für die Anzahl der darin enthaltenen Objekte, und die Farbe steht für die durchschnittliche Modellleistung oder Robustheitsbewertung dieser Objekte. In diesem Beispiel hat der Benutzer das Kästchen ausgewählt, das die Grundwahrheit-Klasse von Fußgängern und die Vorhersageklasse von Fußgängern vergleicht. Durch Auswählen dieses Kästchens kann dem Benutzer die Leistungslandschaft einzelner Objekte in der Detailansicht (b) visuell bereitgestellt werden. In diesem Beispiel werden die Objekte basierend auf den zwei Dimensionen der erlernten räumlichen Darstellung aggregiert, so dass die räumliche Verteilung der Objekte visualisiert und zusammengefasst werden kann. Beispielsweise repräsentiert eine erste Dimension (latente Dim. 1) die horizontale Position von Fußgängern, und die andere Dimension (latente Dim. 3) repräsentiert den Abstand der Fußgänger zu dem Fahrzeug. Unterschiedliche visuelle Kodierungen können verwendet werden, um die Objekte zu visualisieren, wie etwa Leistungsbewertungen (gezeigt in b), wobei jede Farbe die Modellleistung bei diesen latenten Dimensionen darstellt, Bildausschnitt (c), und semantischer Segmentierungsausschnitt (d), was dem Benutzer das Verständnis des räumlichen Muster der Leistung von Modellen erleichtert. Der Benutzer kann mit der Maus über einen beliebigen Block in der in (b) gezeigten Leistungsbewertungsmatrix fahren, oder ihn auswählen, und die Benutzerschnittstelle kann eine Straßenansicht des Bildes ausgeben, in dem dieses Objekt erkannt wird, mit einem Begrenzungskästchen um das Objekt herum. Dies ermöglicht es dem Benutzer, einfach durch unterschiedliche Kästchen innerhalb der in (b) gezeigten Matrix zu klicken, und das reale Bild zu sehen, das eine solche resultierende Leistungsbewertung erzeugt hat. Die Korrelation zwischen den latenten Dimensionen (von links nach rechts, und von nah zu fern) und der tatsächlichen Position des erkannten Objekts wird durch die Vielfalt der in 7 ausgewählten Bilder gezeigt.
Um die Benutzer beim Vergleichen der Datengruppen in der Blockansicht zu unterstützen, können die Zeilen und Spalten basierend auf der Gesamtanzahl von Objekten, die sie enthalten, oder der Varianz der Anzahl von Objekten innerhalb der Blöcke geordnet werden. Beispielsweise zeigt 8 eine Blockansicht der Leistung des Modells für die Fußgängererkennung für zwei Datensätze, wobei jede Zeile einen Datensatz darstellt (z. B. einen Trainings-/ursprünglichen Datensatz und einen kontradiktorischen Datensatz) und jede Spalte die Vorhersageklasse der Fußgänger darstellt. Die Spalten werden basierend auf dem Unterschied zwischen dem ursprünglichen Datensatz und dem kontradiktorischen Datensatz geordnet, so dass die Benutzer die Klassen, in denen sich die beiden Datensätze am effizientesten unterscheiden, identifizieren können.
Um die Leistung des Modells bei der Segmentierung von Fußgängern in diesem veranschaulichten Beispiel zu untersuchen, kann der Benutzer der Blockansicht (a) aus 8 entnehmen, dass die kontradiktorischen Daten mehr Fußgänger aufweisen, die fälschlicherweise als spezifische Klassen klassifiziert wurden, im Vergleich zu den ursprünglichen-/Trainingsdaten, wie etwa Fahrer, Vegetation, Gebäude, Pfahl und Zaun. Durch Zoomen oder Auswählen dieser einzelnen Blöcke in den kontradiktorischen Daten und Visualisieren der Grundwahrheit-Segmentierungen, wie in (b) gezeigt wird, kann der Benutzer sehen, dass der größte Teil der Fehlklassifizierung durch die Interaktion zwischen dem Fußgänger und dem Umgebungskontext verursacht wurde. Beispielsweise wurden die Fußgänger vor Gebäuden, Masten und Zäunen platziert, um das Modell fehlschlagen zu lassen. Um die Leistung des Modells für Fußgänger zu verbessern, die mit diesen Klassen interagieren, können mehr Fußgänger, die mit diesen Klassen interagieren, erzeugt werden und zum erneuten Trainieren des Modells verwendet werden.
9 zeigt ein Flussdiagramm, das durch den/die hierin beschriebenen Prozessor(en) implementiert werden kann, indem auf die gespeicherten Bilder, die maschinellen Lernmodell-Programmanweisungen, und dergleichen, die in dem hierin offenbarten Speicher gespeichert sind, zugegriffen wird. Bei 902 wird ein Eingabebild aus dem Speicher abgerufen. Das Eingabebild kann ein Rohbild sein, das von einer Kamera aufgenommen wurde, und/oder eine zugeordnete Vorhersagemaske, die von dem Eingabebild abgeleitet ist (siehe beispielsweise 2). Bei 904 leitet der Prozessor eine räumliche Verteilung bewegbarer Objekte innerhalb der Szene ab. Dies kann unter Verwendung des maschinellen Lernmodells 304 zur kontextbewussten räumlichen Darstellung erfolgen. Dabei kann der Prozessor so programmiert sein, dass er Koordinaten der bewegbaren Objekte in den Latenzraum codiert und die Koordinaten mit einem Decodierer rekonstruiert (siehe beispielsweise 4). Die Koordinaten der bewegbaren Objekte können Koordinaten von den bewegbaren Objekten zugeordneten Begrenzungskästchen sein, die in der semantischen Maske um die Objekte platziert wurden. Bei 906 wird der Prozessor programmiert, um ein ungesehenes Objekt in der Szene zu erzeugen, das in dem Eingabebild nicht enthalten ist. Mit anderen Worten, ein neues Objekt, das nicht in dem Eingabebild gezeigt ist, wie es von der Kamera gesehen wird, wird in das Bild eingefügt. Dies kann unter Verwendung des räumlich-kontradiktorischen maschinellen Lernmodells 306 durchgeführt werden. Dabei kann der Prozessor dazu programmiert sein, latente Raumkoordinaten eines Teils der Szene abzutasten, um ein Begrenzungskästchen abzubilden, ein Objekt mit ähnlichen Begrenzungskastenkoordinaten aus dem Speicher abzurufen, und das Objekt in dem Begrenzungskästchen zu platzieren (siehe beispielsweise 5). Bei 910 ist der Prozessor dazu programmiert, das ungesehene Objekt an andere Orte zu bewegen, um zu versuchen, das objekterkennende maschinelle Lernmodell fehlschlagen zu lassen. Dies kann unter Verwendung des räumlich-kontradiktorischen maschinellen Lernmodells erfolgen, indem räumliche latente Darstellungen des ungesehenen Objekts gestört werden, und eine Gradientenrichtung im Latenzraum gefunden wird, die einer nachteiligen Leistung des objekterkennenden maschinellen Lernmodells entspricht. Mit anderen Worten, das neue Objekt wird an Orte bewegt, an denen es für das objekterkennende maschinelle Lernmodell schwierig ist, das neue Objekt in seiner Eigenschaft zu identifizieren und zu klassifizieren. Bei 910 kann der Prozessor eine interaktive Benutzerschnittstelle ausgeben, von der Beispiele in den 6-8 gezeigt sind und unter Bezugnahme darauf diskutiert werden.
Obwohl oben beispielhafte Ausführungsformen beschrieben wurden, ist es nicht beabsichtigt, dass diese Ausführungsformen alle möglichen Formen beschreiben, die von den Ansprüchen umfasst sind. Die in der Beschreibung verwendeten Worte sind eher beschreibende als einschränkende Worte, und es versteht sich, dass verschiedene Änderungen vorgenommen werden können, ohne dabei vom Geist und Umfang der Offenbarung abzuweichen. Wie zuvor beschrieben wurde, können die Merkmale verschiedener Ausführungsformen kombiniert werden, um weitere Ausführungsformen der Erfindung zu bilden, die hier möglicherweise nicht explizit beschrieben oder dargestellt werden. Während verschiedene Ausführungsformen als vorteilhaft beschrieben wurden oder gegenüber anderen Ausführungsformen oder Implementierungen des Standes der Technik in Bezug auf eine oder mehrere gewünschte Eigenschaften bevorzugt werden könnten, erkennt ein durchschnittlicher Fachmann, dass eines oder mehrere Merkmale oder Eigenschaften betroffen sein können, um die gewünschten allgemeinen Systemattributen zu erreichen, die von der spezifischen Anwendung und Implementierung abhängig sind. Diese Attribute können Kosten, Festigkeit, Haltbarkeit, Lebenszykluskosten, Marktfähigkeit, Aussehen, Verpackung, Größe, Wartungsfreundlichkeit, Gewicht, Herstellbarkeit, Einfachheit der Montage, usw. aufweisen, sind aber nicht darauf beschränkt. Somit liegen, soweit beliebige Ausführungsformen in Bezug auf eine oder mehrere Eigenschaften als weniger wünschenswert als andere Ausführungsformen oder Implementierungen nach dem Stand der Technik beschrieben sind, diese Ausführungsformen nicht außerhalb des Umfangs der Offenbarung, und können für bestimmte Anwendungen wünschenswert sein.

Claims

Computer-implementiertes Verfahren zur Diagnose eines objekterkennenden maschinellen Lernmodells für autonomes Fahren, wobei das computer-implementierte Verfahren umfasst: Empfangen eines Eingabebildes von einer Kamera, das eine Szene zeigt; Ableiten einer räumlichen Verteilung von bewegbaren Objekten innerhalb der Szene unter Verwendung eines maschinellen Lernmodells mit kontextbewusster räumlicher Darstellung; Erzeugen eines ungesehenen Objekts in der Szene, das nicht in dem Eingabebild enthalten ist, unter Verwendung eines räumlich-kontradiktorischen maschinellen Lernmodells; über das räumlich-kontradiktorische maschinelle Lernmodell, Bewegen des ungesehenen Objekts an unterschiedliche Orte, um das objekterkennende maschinelle Lernmodell fehlschlagen zu lassen; und Ausgeben einer interaktiven Benutzerschnittstelle, die es einem Benutzer ermöglicht, die Leistung des objekterkennenden maschinellen Lernmodells bezüglich der Szene ohne das ungesehene Objekt und der Szene mit dem ungesehenen Objekt zu analysieren.
Computer-implementiertes Verfahren nach Anspruch 1, wobei der Schritt des Ableitens Codieren von Koordinaten der bewegbaren Objekte im Latenzraum, und Rekonstruieren der Koordinaten mit einem Decodierer aufweist.
Computer-implementiertes Verfahren nach Anspruch 2, ferner umfassend Erzeugen einer semantischen Maske der Szene, wobei die semantische Maske als eine Eingabe für den Schritt des Ableitens verwendet wird, so dass die räumliche Verteilung der bewegbaren Objekte auf der semantischen Maske basiert.
Computer-implementiertes Verfahren nach Anspruch 3, wobei die Koordinaten der bewegbaren Objekte Koordinaten von Begrenzungskästchen sind, die den bewegbaren Objekten zugeordnet sind.
Computer-implementiertes Verfahren nach Anspruch 4, wobei die Koordinaten der Begrenzungskästchen in einen latenten Vektor codiert werden, der basierend auf semantischen Klassenlabels von Pixeln innerhalb der semantischen Maske konditioniert ist.
Computer-implementiertes Verfahren nach Anspruch 1, wobei der Schritt des Erzeugens (i) Abtasten latenter Raumkoordinaten eines Teils der Szene zum Abbilden eines Begrenzungskästchens, (ii) Abrufen eines Objekts mit ähnlichen Begrenzungskastenkoordinaten aus dem Speicher, und (iii) Platzieren des Objekts in dem Begrenzungskästchen aufweist.
Computer-implementiertes Verfahren nach Anspruch 6, ferner umfassend Verwenden von Poisson-Blending, um das Objekt in die Szene einzublenden.
Computer-implementiertes Verfahren nach Anspruch 1, wobei der Schritt des Bewegens Stören räumlicher latenter Darstellungen des ungesehenen Objekts umfasst.
Computer-implementiertes Verfahren nach Anspruch 8, wobei der Schritt des Bewegens Finden einer Gradientenrichtung in dem Latenzraum umfasst, die einer stärksten Reduzierung der Leistung des objekterkennenden maschinellen Lernmodells entspricht.
Verfahren nach Anspruch 1, wobei die interaktive Benutzerschnittstelle eine Tabelle aufweist, die die Leistung des objekterkennenden maschinellen Lernmodells bezüglich Grundwahrheit-Klassen von Objekten und entsprechenden vorhergesagten Klassen der Objekte zeigt.
System zur Diagnose eines objekterkennenden maschinellen Lernmodells für autonomes Fahren mit Mensch-Maschine-Interaktion, wobei das System umfasst: eine Benutzerschnittstelle; einen Speicher, der ein von einer Kamera empfangenes Eingabebild speichert, das eine Szene außerhalb eines Fahrzeugs zeigt, wobei der Speicher ferner Programmanweisungen speichert, die einem maschinellen Lernmodell mit kontextbewusster räumlicher Darstellung entsprechen, das dazu ausgebildet ist, räumliche Informationen von Objekten innerhalb der Szene zu bestimmen, und der Speicher ferner Programmanweisungen speichert, die einem räumlich-kontradiktorischen maschinellen Lernmodell entsprechen, das dazu ausgebildet ist, ungesehene Objekte zu erzeugen und in die Szene einzufügen; und einen Prozessor, der kommunikativ mit dem Speicher gekoppelt ist und programmiert ist zum: Erzeugen einer semantischen Maske der Szene durch semantische Segmentierung, Bestimmen einer räumlichen Verteilung von bewegbaren Objekten innerhalb der Szene basierend auf der semantischen Maske unter Verwendung des maschinellen Lernmodells mit kontextbewusster räumlicher Darstellung, Erzeugen eines ungesehenen Objekts in der Szene, das nicht in dem Eingabebild enthalten ist, unter Verwendung des räumlich-kontradiktorischen maschinellen Lernmodells, Bewegen des ungesehenen Objekts an unterschiedliche Orte unter Verwendung des räumlich-kontradiktorischen maschinellen Lernmodells, um das objekterkennende maschinelle Lernmodell fehlschlagen zu lassen, und Auszugeben, auf der Benutzerschnittstelle, von visuellen Analysen, die es einem Benutzer ermöglichen, die Leistung des objekterkennenden maschinellen Lernmodells bezüglich der Szene ohne das ungesehene Objekt und der Szene mit dem ungesehenen Objekt zu analysieren.
System nach Anspruch 11, wobei der Prozessor ferner dazu programmiert ist, Koordinaten der bewegbaren Objekte in dem Latenzraum zu codieren, und die Koordinaten mit einem Decodierer zu rekonstruieren, um die räumliche Verteilung der bewegbaren Objekte zu bestimmen.
System nach Anspruch 12, wobei die Koordinaten der bewegbaren Objekte Koordinaten von Begrenzungskästchen sind, die den bewegbaren Objekten zugeordnet sind.
System nach Anspruch 13, wobei die Koordinaten der Begrenzungskästchen in einen latenten Vektor codiert sind, der basierend auf semantischen Klassenlabels von Pixeln innerhalb der semantischen Maske konditioniert ist.
System nach Anspruch 11, wobei der Prozessor ferner programmiert ist zum: Abtasten latenter Raumkoordinaten eines Teils der Szene, um ein Begrenzungskästchen abzubilden, Abrufen eines Objekts mit ähnlichen Begrenzungskastenkoordinaten aus dem Speicher, und Platzieren des Objekts in dem Begrenzungskästchen.
System nach Anspruch 15, wobei der Prozessor ferner dazu programmiert ist, Poisson-Blending zu verwenden, um das Objekt in die Szene einzublenden.
System nach Anspruch 11, wobei der Prozessor ferner dazu programmiert ist, räumliche latente Darstellungen des ungesehenen Objekts zu stören.
System nach Anspruch 17, wobei der Prozessor ferner dazu programmiert ist, eine Gradientenrichtung in dem Latenzraum zu bestimmen, die der Leistung des objekterkennenden maschinellen Lernmodells entspricht.
System nach Anspruch 11, wobei der Prozessor ferner dazu programmiert ist, auf der Benutzerschnittstelle eine Tabelle anzuzeigen, die die Leistung des objekterkennenden maschinellen Lernmodells bezüglich Grundwahrheit-Klassen von Objekten und entsprechenden vorhergesagten Klassen der Objekte zeigt.
System, umfassend: Speicher zum Speichern (i) eines von einer Kamera empfangenen Eingabebilds, das eine Szene außerhalb eines Fahrzeugs zeigt, (ii) einer semantischen Maske, die dem Eingabebild zugeordnet ist, (iii) von Programmanweisungen, die einem maschinellen Lernmodell mit kontextbewusster räumlicher Darstellung entsprechen, das dazu ausgebildet ist, räumliche Informationen von Objekten innerhalb der Szene zu bestimmen, und (iv) Programmanweisungen, die einem räumlich-kontradiktorischen maschinellen Lernmodell entsprechen, das dazu ausgebildet ist, ungesehene Objekte zu erzeugen und in die Szene einzufügen; und einen oder mehrere Prozessoren, die mit dem Speicher kommunizieren und programmiert sind zum: über das maschinelle Lernmodell mit kontextbewusster räumlicher Darstellung, Codieren von Koordinaten bewegbarer Objekte innerhalb der Szene in den Latenzraum, und Rekonstruieren der Koordinaten mit einem Decodierer, um eine räumliche Verteilung der bewegbaren Objekte zu bestimmen, über das räumlich-kontradiktorische maschinelle Lernmodell, Erzeugen eines ungesehenen Objekts in der Szene, das nicht in dem Eingabebild enthalten ist, durch (i) Abtasten latenter Raumkoordinaten eines Teils der Szene, um ein Begrenzungskästchen abzubilden, (ii) Abrufen, aus dem Speicher, eines Objekts mit ähnlichen Begrenzungskastenkoordinaten, und (iii) Platzieren des Objekts in dem Begrenzungskästchen, über das räumlich-kontradiktorische maschinelle Lernmodell, Bewegen des ungesehenen Objekts unter Verwendung des räumlich-kontradiktorischen maschinellen Lernmodells an unterschiedliche Orte, um zu versuchen, ein objekterkennendes maschinelle Lernmodell fehlschlagen zu lassen, und Ausgeben, auf einer Benutzerschnittstelle, von visuellen Analysen, die es einem Benutzer ermöglichen, die Leistung des objekterkennenden maschinellen Lernmodells bezüglich der Szene ohne das ungesehene Objekt und der Szene mit dem ungesehenen Objekt zu analysieren.