DE102023104342A1

DE102023104342A1 - Vorrichtung und Verfahren zum Modifizieren der Grundwahrheit zur Überprüfung der Genauigkeit eines Maschinenlernmodells

Info

Publication number: DE102023104342A1
Application number: DE102023104342.0A
Authority: DE
Inventors: Linyu SUN
Original assignee: Woven by Toyota Inc
Current assignee: Woven by Toyota US Inc
Priority date: 2022-03-07
Filing date: 2023-02-22
Publication date: 2023-09-07

Abstract

Es werden ein Verfahren und eine Vorrichtung zum Modifizieren von Grundwahrheitsdaten zum Testen der Genauigkeit eines Maschinenlernmodells zur Objekterkennung bereitgestellt. Das Verfahren umfasst: Erhalten von Bilddaten eines Bilderfassungsbereichs aus einer Kameraperspektive; Erhalten von Grundwahrheitsdaten bezüglich Objekten in dem Bilderfassungsbereich; Bestimmen einer Sichtbarkeitsrate eines Objekts, das in den erhaltenen Bilddaten enthalten ist; und Modifizieren der Grundwahrheitsdaten basierend auf der bestimmten Sichtbarkeitsrate.

Description

HINTERGRUND
1. Technisches Gebiet
Diese Erfindung bezieht sich auf maschinelle Lernmodelle bzw. Maschinenlernmodelle und insbesondere auf Ground-Truth-Daten bzw. Grundwahrheitsdaten zum Testen der Genauigkeit von Maschinenlernmodellen.
2. Beschreibung des Standes der Technik
Autonome Fahranwendungen analysieren typischerweise Daten, die von Sensoren erfasst werden, um Entscheidungen zu treffen. Zum Beispiel kann eine autonome Fahranwendung Bilddaten verwenden, die von einer Kamera erfasst wurden. Diese Bilddaten können in ein Maschinenlernmodell eingegeben werden, das mit Trainingsdatensätzen trainiert wird, um Objekte in der Umgebung des Fahrzeugs zu erkennen.
Unter Bezugnahme auf 8 werden beispielsweise Objekte (d. h. Fahrzeuge 101, 102, Motorradfahrer 103 und Fußgänger 104) aus den von einer Kamera erfassten Bilddaten wahrgenommen oder erkannt und können in separate Kategorien (d. h. Fahrzeuge, Fußgänger, Motorradfahrer usw.) klassifiziert werden. Basierend auf den erkannten Objekten wird eine Entscheidung getroffen, z. B. wird eine Position und/oder Geschwindigkeit des Fahrzeugs autonom geändert oder korrigiert, um eine Kollision mit dem erkannten Objekt zu vermeiden.
Wie oben beschrieben, kann ein Maschinenlernmodell zur Erkennung von Objekten in einem Bild verwendet werden. Zum Beispiel erkennt die elektronische Vorrichtung in der US 2018/0 336 424 A1 ein Objekt in einem Bild und erkennt eine Position des Objekts unter Verwendung eines ersten trainierten Modells und einer Videosequenz, die eine Vielzahl von Bildern enthält, die während der Fahrt eines Fahrzeugs erhalten wurden. In den automatischen Trainingsdatensatz-Generatoren der US 2020/0 074 230 A1 erzeugen die Generatoren Trainingsdatensätze zur Verwendung in realen autonomen Fahranwendungen basierend auf virtuellen Umgebungen. Die Trainingsdatensätze können mit dem Training des Maschinenlernmodells zur Steuerung von realen autonomen Fahrzeugen verbunden sein.
Maschinenlernmodelle aus dem Stand der Technik werden basierend auf Testdaten verfeinert und aktualisiert, um die Genauigkeit des Modells, z. B. der Trainingsdaten, zu prüfen bzw. testen. Beim Testen der Genauigkeit des Modells wird ein Bild aus dem Testdatensatz in das Maschinenlernmodell eingegeben. Das Maschinenlernmodell gibt dann in der Regel Ergebnisse aus, wie z. B. zweidimensionale oder dreidimensionale Begrenzungsrahmen, Klassen von Zielobjekten im Bild (z. B. Fahrzeuge, Fußgänger, Motorräder usw.), Bildsegmentierung usw. Um die Genauigkeit des Modells zu testen, werden diese Ergebnisse mit den Daten der Grundwahrheit (d. h. den tatsächlichen Klassifizierungen, Segmentierungen usw.) der Zielobjekte im Bild verglichen.
Im Zusammenhang mit Bilddaten, die von einem Simulator erzeugt werden, z. B. ein Bild einer virtuellen Welt, die ein Fahrzeugmodell umgibt und von einem Kamerasensormodell eines autonomen Fahrsimulators erfasst wird, ist die Position aller Zielobjekte in der Grundwahrheit (z. B. Grundwahrheitsdaten oder -signal) enthalten. Mit anderen Worten, die vom Simulator erzeugten oder ausgegebenen Grundwahrheitsdaten enthalten auch verborgene Zielobjekte. Beispielsweise gibt der Simulator Grundwahrheitsdaten aus, die ein Fahrzeug enthalten, das in dem von den Sensoren erfassten Bild der virtuellen Welt versteckt ist oder sich hinter einem Motorrad befindet. Wird diese Grundwahrheit verwendet, um die Genauigkeit des Maschinenlernmodells zu testen oder um die Zielvariablen eines Trainingsdatensatzes zu definieren, ist die Genauigkeit jedoch gering und wird unterschätzt. Dies liegt daran, dass das Maschinenlernmodell versteckte Objekte wahrscheinlich nicht erkennt, während die von einem Simulator ausgegebene Grundwahrheit versteckte Objekte enthält.
In 8 beispielsweise ist es unwahrscheinlich, dass das Maschinenlernmodell das hinter dem Fahrzeug 101 befindliche Fahrzeug 102 erkennt, während die Grundwahrheitssegmentierung das gesamte Fahrzeug 102 umfasst.
KURZFASSUNG
Die vorliegende Erfindung hat zur Aufgabe, eine Vorrichtung und ein Verfahren zum genaueren Testen eines Maschinenlernmodells bereitzustellen, das beim autonomen Fahren und in autonomen Fahrsimulatoren verwendet wird, indem eine Sichtbarkeitsrate für Zielobjekte einbezogen wird, die in einer Grundwahrheitssegmentierung von Testdaten enthalten sind.
Ein Aspekt der vorliegenden Erfindung schafft ein Verfahren zum Modifizieren von Grundwahrheitsdaten zum Testen der Genauigkeit eines Maschinenlernmodells zur Objekterkennung. Das Verfahren umfasst: Erhalten von Bilddaten eines Bilderfassungsbereichs aus einer Kameraperspektive; Erhalten von Grundwahrheitsdaten bezüglich Objekten in dem Bilderfassungsbereich; Bestimmen einer Sichtbarkeitsrate eines Objekts, das in den erhaltenen Bilddaten enthalten ist; und Modifizieren der Grundwahrheitsdaten basierend auf der bestimmten Sichtbarkeitsrate.
Das Bestimmen der Sichtbarkeitsrate kann umfassen: Bestimmen einer Gesamtgröße des Objekts; Berechnen einer Größe eines sichtbaren Bereichs des Objekts in den erhaltenen Bilddaten; und Dividieren der Größe des sichtbaren Bereichs durch die Gesamtgröße des Objekts, um die Sichtbarkeitsrate zu erhalten.
Das Bestimmen der Gesamtgröße des Objekts kann beinhalten: vollständiges individuelles Rendern des Objekts; und Berechnen einer Fläche des individuell gerenderten Objekts.
Das Bestimmen der Gesamtgröße des Objekts kann beinhalten: Erhalten einer Grundwahrheits-Objektsegmentierung für eine vollständige Szene des Bilderfassungsbereichs; und Berechnen einer Fläche des Objekts in der Grundwahrheits-Objektsegmentierung.
Das Berechnen der Größe des sichtbaren Bereichs des Objekts in den erhaltenen Bilddaten kann das Bestimmen der Anzahl der in dem sichtbaren Bereich enthaltenen Pixel, oder das Bestimmen einer Fläche eines Polygons, das den sichtbaren Bereich begrenzt, umfassen.
Das Erhalten der Bilddaten des Bilderfassungsbereichs kann das Erhalten der Bilddaten umfassen, die von einem Kamerasensormodell eines autonomen Fahrsimulators erzeugt werden.
Ein weiterer Aspekt der vorliegenden Erfindung schafft eine Vorrichtung zum Modifizieren der Grundwahrheit von Bilddaten zum Testen der Genauigkeit eines Maschinenlernmodells zur Objekterkennung. Die Vorrichtung umfasst: einen Speicher, der Anweisungen speichert; und mindestens einen Prozessor, der so konfiguriert ist, dass er die Anweisungen ausführt, um: Bilddaten eines Bilderfassungsbereichs aus einer Kameraperspektive zu erhalten; Grundwahrheitsdaten bezüglich Objekten in dem Bilderfassungsbereich zu erhalten; eine Sichtbarkeitsrate eines Objekts, das in den erhaltenen Bilddaten enthalten ist, zu bestimmen; und die Grundwahrheitsdaten basierend auf der bestimmten Sichtbarkeitsrate zu modifizieren.
Der mindestens eine Prozessor kann ferner so konfiguriert sein, dass er die Anweisungen ausführt, um: eine Gesamtgröße des Objekts zu bestimmen; eine Größe eines sichtbaren Bereichs des Objekts in den erhaltenen Bilddaten zu berechnen; und die Größe des sichtbaren Bereichs durch die Gesamtgröße des Objekts zu dividieren, um die Sichtbarkeitsrate zu erhalten.
Der mindestens eine Prozessor kann ferner so konfiguriert sein, dass er die Anweisungen ausführt, um: das Objekt vollständig individuell zu rendern; und als Gesamtgröße des Objekts eine Fläche des individuell gerenderten Objekts zu berechnen.
Der mindestens eine Prozessor kann ferner so konfiguriert sein, dass er die Anweisungen ausführt, um: eine Grundwahrheits-Objektsegmentierung für eine vollständige Szene des Bilderfassungsbereichs zu erhalten; und als Gesamtgröße des Objekts eine Fläche des Objekts in der Grundwahrheits-Objektsegmentierung zu berechnen.
Der mindestens eine Prozessor kann ferner so konfiguriert sein, dass er die Anweisungen ausführt, um die Größe des sichtbaren Bereichs des Objekts in den erhaltenen Bilddaten zu berechnen, indem er die Anzahl der in dem sichtbaren Bereich enthaltenen Pixel bestimmt oder eine Fläche eines Polygons bestimmt, das den sichtbaren Bereich begrenzt.
Der mindestens eine Prozessor kann ferner so konfiguriert sein, dass er die Anweisungen ausführt, um die von einem Kamerasensormodell eines autonomen Fahrsimulators erzeugten Bilddaten zu erhalten.
Ein weiterer Aspekt der vorliegenden Erfindung stellt ein nicht-transitorisches computerlesbares Speichermedium bereit, auf dem Anweisungen gespeichert sind, die von mindestens einem Prozessor ausgeführt werden können, um ein Verfahren zum Modifizieren der Grundwahrheit von Bilddaten zum Testen der Genauigkeit eines Maschinenlernmodells zur Objekterkennung durchzuführen. Das Verfahren umfasst: Erhalten von Bilddaten eines Bilderfassungsbereichs aus einer Kameraperspektive; Erhalten von Grundwahrheitsdaten bezüglich Objekten in dem Bilderfassungsbereich; Bestimmen einer Sichtbarkeitsrate eines Objekts, das in den erhaltenen Bilddaten enthalten ist; und Modifizieren der Grundwahrheitsdaten basierend auf der bestimmten Sichtbarkeitsrate.
Das Bestimmen der Sichtbarkeitsrate kann umfassen: Bestimmen einer Gesamtgröße des Objekts; Berechnen einer Größe eines sichtbaren Bereichs des Objekts in den erhaltenen Bilddaten; und Dividieren der Größe des sichtbaren Bereichs durch die Gesamtgröße des Objekts, um die Sichtbarkeitsrate zu erhalten.
Das Bestimmen der Gesamtgröße des Objekts kann umfassen: vollständiges individuelles Rendern des Objekts; und Berechnen einer Fläche des individuell gerenderten Objekts.
Das Bestimmen der Gesamtgröße des Objekts kann beinhalten: Erhalten einer Grundwahrheits-Objektsegmentierung für eine vollständige Szene des Bilderfassungsbereichs; und Berechnen einer Fläche des Objekts in der Grundwahrheits-Objektsegmentierung.
Das Berechnen der Größe des sichtbaren Bereichs des Objekts in den erhaltenen Bilddaten kann das Bestimmen der Anzahl von Pixeln, die in dem sichtbaren Bereich enthalten sind, oder das Bestimmen einer Fläche eines Polygons, das den sichtbaren Bereich begrenzt, umfassen.
Das Erhalten der Bilddaten des Bilderfassungsbereichs kann das Erhalten der Bilddaten umfassen, die von einem Kamerasensormodell eines autonomen Fahrsimulators erzeugt werden.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Die Merkmale und Vorteile sowie die technische und wirtschaftliche Bedeutung von beispielhaften Ausführungsformen der Erfindung werden im Folgenden unter Bezugnahme auf die beigefügten Zeichnungen beschrieben, in denen gleiche Zeichen gleiche Elemente bezeichnen, hierbei zeigt:

1 ein Flussdiagramm, das ein Verfahren zum Modifizieren von Grundwahrheitsdaten gemäß einer Ausführungsform darstellt;
2 ein Flussdiagramm, das ein Verfahren zum Bestimmen einer Sichtbarkeitsrate eines Objekts gemäß einer Ausführungsform darstellt;
3 ein Flussdiagramm, das ein Verfahren zum Erhalten einer Gesamtgröße des Objekts gemäß einer ersten Ausführungsform illustriert;
4 ein Flussdiagramm, das ein Verfahren zum Erhalten einer Gesamtgröße des Objekts gemäß einer zweiten Ausführungsform illustriert;
5 ein Beispiel für Bilddaten, die von einem Kamerasensormodell eines autonomen Fahrsimulators erzeugt werden;
6 eine schematische Ansicht eines Beispiels einer Sichtbarkeitsratenbestimmung für Objekte gemäß einer Ausführungsform;
7 ein Blockdiagramm einer Vorrichtung zum Modifizieren von Grundwahrheitsdaten gemäß einer Ausführungsform; und
8 ein Beispiel für Bilddaten, die von einem Kamerasensormodell eines autonomen Fahrsimulators erzeugt werden.

DETAILLIERTE BESCHREIBUNG
Nachfolgend werden spezifische Ausführungsformen, auf die die vorliegende Erfindung angewandt wird, unter Bezugnahme auf die Zeichnungen im Detail beschrieben. Die vorliegende Erfindung ist nicht auf die folgenden Ausführungsformen beschränkt. Darüber hinaus sind die folgende Beschreibung und die Zeichnungen der Klarheit halber vereinfacht.
Ein Verfahren zum Modifizieren der Grundwahrheit gemäß einer Ausführungsform wird nun unter Bezugnahme auf die 1 bis 6 beschrieben. 1 zeigt ein Flussdiagramm, das ein Verfahren zum Modifizieren von Grundwahrheitsdaten gemäß der ersten Ausführungsform illustriert.
Unter Bezugnahme auf 1 werden in Schritt S100 Bilddaten, die einem Kamerablickwinkel entsprechen, erhalten. Das heißt, die Bilddaten sind von einem Bilderfassungsbereich, der für die Kamera sichtbar ist. Bei den Bilddaten kann es sich um Testdaten zum Testen eines Maschinenlernmodells handeln, das zur Identifizierung von Objekten (z. B. Begrenzungsrahmen, Klassen, Segmentierungen usw.) in einer autonomen Fahranwendung trainiert wurde. Die Bilddaten können zum Beispiel von einem Kamerasensormodell eines autonomen Fahrsimulators erzeugt werden. Das Kamerasensormodell kann in den autonomen Fahrsimulator eingebettet sein oder mit diesem zusammenarbeiten, ist aber hierauf nicht beschränkt. Der autonome Fahrsimulator kann jeden Simulator umfassen, der zum Testen von Anwendungen und Algorithmen für autonomes Fahren verwendet wird.
Der autonome Fahrsimulator kann mindestens einen Prozessor enthalten, der so konfiguriert ist, dass er Anweisungen ausführt, die in einem oder mehreren computerlesbaren Speichermedien gespeichert sind. Diese Anweisungen können einen Kernsimulator, einen Fahrzeugsimulator und einen Sensorsimulator definieren oder ausgeführt werden, um diese zu implementieren. Der Kernsimulator ist das Simulationswerkzeug, das ein Szenario erstellt, bearbeitet und/oder ausführt, in dem die Simulation abläuft. Über den Kernsimulator können die virtuelle Welt der Simulation (d. h. die Grundwahrheit) sowie die Akteure und deren Bewegungen definiert werden. Der Fahrzeugsimulator simuliert ein autonom fahrendes Fahrzeug (Ego-Fahrzeug) und enthält einen Fahrzeugcontroller, der die Position des Fahrzeugs anhand der umgebenden Objekte steuert. Der Sensorsimulator simuliert verschiedene Sensoren des Ego-Fahrzeugs und enthält ein Kamerasensormodell zur Erfassung von Bildern der Umgebung des Ego-Fahrzeugs in der virtuellen Welt.
Die von dem Kamerasensormodell erzeugten Bilddaten können Bilddaten enthalten, die von einem einzelnen Kamerasensor oder einer Vielzahl von Kamerasensoren gewonnen werden, die an einer Vielzahl von Positionen auf dem autonom fahrenden Fahrzeug innerhalb des Simulators angeordnet sind. Diese Positionen können mindestens eine von einer Vorderseite des Fahrzeugs, einer Seite des Fahrzeugs, einer Rückseite des Fahrzeugs, einer Oberseite des Fahrzeugs oder einer Kombination hiervon umfassen. Die Bilddaten sind ein Bild des Bilderfassungsbereichs der virtuellen Welt, das von dem Kamerasensormodell aufgenommen wurde.
Darüber hinaus ist das Fahrzeug nicht auf ein Auto beschränkt, sondern kann jeden Mechanismus zur Beförderung von Personen oder Gütern umfassen (d. h. Lastwagen, Busse, Motorräder, Traktoren, Elektroroller usw.) und autonom gefahren werden.
Grundwahrheitsdaten bzw. Ground-Truth-Daten bezüglich aller Objekte (einschließlich versteckter Objekte) im Bilderfassungsbereich werden in Schritt S101 ermittelt. Die Grundwahrheitsdaten werden beispielsweise vom Simulator (z. B. dem Kernsimulator) oder von einem beliebigen Werkzeug, Modell oder Gerät erhalten, das Kenntnisse über die in der virtuellen Welt enthaltenen Objekte hat (oder Objektdaten speichert). Zu den Grundwahrheitsdaten können die tatsächlichen Klassifizierungen, Segmentierungen usw. der Objekte (z. B. andere Fahrzeuge, Fußgänger, physische Hindernisse usw.) in dem den Bilddaten entsprechenden Bilderfassungsbereich gehören. Die Grundwahrheitsdaten umfassen alle Objekte des Bilderfassungsbereichs in ihrer Gesamtheit, einschließlich der Objekte, die aus dem Blickwinkel der Kamera (z. B. des Kamerasensors im Kamerasensormodell) teilweise oder vollständig in den Bilddaten verborgen sind. Beispielsweise kann eine Grundwahrheitssegmentierung die Gesamtheit eines Fußgängers umfassen und klassifizieren, der sich hinter einem geparkten Fahrzeug befindet. Unter Bezugnahme auf 8 würde die Grundwahrheit das gesamte Segment des zweiten Fahrzeugs 102 klassifizieren, obwohl es sich hinter dem ersten Fahrzeug 101 befindet.
Erneut auf 1 Bezug nehmend, wird in Schritt S102 eine Sichtbarkeitsrate eines Objekts in den Bilddaten aus dem Blickwinkel der Kamera bestimmt.
2 zeigt ein Flussdiagramm eines Verfahrens zur Bestimmung einer Sichtbarkeitsrate eines Objekts gemäß einer Ausführungsform. Unter Bezugnahme auf 2 wird in Schritt S201 eine Gesamtgröße des Objekts (d.h. eine Originalgröße in den Grundwahrheitsdaten, einschließlich aller verdeckten Teile) bestimmt. Die Gesamtgröße des Objekts kann je nach Ausführungsform auf verschiedene Weise bestimmt werden. Beispielsweise kann die Gesamtgröße durch individuelles Rendern des Objekts gemäß einer ersten Ausführungsform (im Folgenden unter Bezugnahme auf 3 beschrieben) oder unter Verwendung einer Grundwahrheitssegmentierung (im Folgenden unter Bezugnahme auf 4 beschrieben) bestimmt werden.
3 ist ein Flussdiagramm, das ein Verfahren zum Ermitteln der Gesamtgröße des Objekts gemäß einer ersten Ausführungsform zeigt. Unter Bezugnahme auf 3 wird das Objekt im Bilderfassungsbereich in Schritt S301 vollständig individuell gerendert. Beispielsweise kann das Objekt unter Verwendung von Objektdefinitionen für die virtuelle Welt gerendert werden, die über den Kernsimulator erstellt oder eingebunden werden. Es versteht sich, dass nur das bestimmte Zielobjekt individuell gerendert werden kann, oder jedes der Objekte im Bilderfassungsbereich in Schritt S301 individuell gerendert werden kann. Ferner kann jedes einzelne Objekt gemäß einer Ausführungsform individuell gerendert werden. So können beispielsweise vollständig und/oder teilweise verdeckte Objekte individuell gerendert werden, oder Objekte mit einer bestimmten Klassifizierung (z. B. Fußgänger und/oder Fahrzeuge) können in verschiedenen Ausführungsformen individuell gerendert werden. Als nächstes kann in Schritt S302 eine Gesamtfläche des individuell gerenderten Objekts berechnet oder erhalten werden. Beispielsweise kann die Gesamtfläche durch Bestimmen der Anzahl der Pixel, aus denen das gerenderte Objekt besteht, oder durch Berechnung der Fläche eines Polygons, das das gerenderte Objekt begrenzt, erhalten werden.
4 ist ein Flussdiagramm, das ein Verfahren zur Ermittlung der Gesamtgröße des Objekts gemäß einer zweiten Ausführungsform zeigt. Gemäß der zweiten Ausführungsform kann die Gesamtgröße des Objekts in Schritt S201 über eine typische Grundwahrheitssegmentierung bestimmt werden. Unter Bezugnahme auf 4 kann eine Grundwahrheitssegmentierung für den Bilderfassungsbereich in Schritt S401 erhalten werden, und eine Gesamtfläche jedes Objekts oder eines oder mehrerer bestimmter Objekte wird in Schritt S402 berechnet oder erhalten. Die Gesamtfläche kann beispielsweise durch Bestimmen der Anzahl der Pixel, aus denen das Objekt in der Grundwahrheitssegmentierung besteht, oder durch Berechnung der Fläche eines Polygons, das das Objekt in der Grundwahrheitssegmentierung umgrenzt, erhalten werden. Darüber hinaus können die Flächen aller Objekte in der Bildsegmentierung erhalten werden, es kann nur die Fläche eines Objekts von Interesse (z. B. eines bestimmten Zielobjekts, das teilweise oder vollständig verdeckt ist) erhalten werden, oder es können nur die Flächen bestimmter Objekte (z. B. Objekte mit einer bestimmten Klassifizierung wie Fußgänger und/oder Fahrzeuge, Zielobjekte, die teilweise verdeckt sind, und/oder Zielobjekte, die vollständig verdeckt sind) erhalten werden.
Erneut auf 2 Bezug nehmend wird in Schritt S202 ein sichtbarer Bereich des Objekts in den Bilddaten (d.h. aus der Sensorperspektive) bestimmt. Der sichtbare Bereich kann durch Verwendung einer Objektsegmentierung der Bilddaten bestimmt werden. In diesem Fall können die Bilddaten normal gerendert werden, wobei der sichtbare Bereich der darin enthaltenen Objekte gerendert wird. Dann können die sichtbaren Teile der Objekte in dem gerenderten Bild segmentiert werden (z. B. durch Verwendung einer Grundwahrheitssegmentierung) und ein Bereich (d. h. der sichtbare Bereich) eines segmentierten Objekts kann bestimmt werden. Unter Bezugnahme auf 5 kann beispielsweise der sichtbare Bereich des Objekts 12 (eines geparkten Lieferwagens), das teilweise hinter einem anderen Objekt 11 (einem Fußgänger) verborgen ist, aus einem Segmentierungsbild für die Objekte aus der Sensorperspektive berechnet werden.
Der sichtbare Bereich des Objekts aus dem gerenderten Bild kann berechnet werden, indem die Anzahl der Pixel des sichtbaren Teils des Objekts berechnet wird, oder indem ein Polygon berechnet wird, das eine ähnliche Größe wie der sichtbare Bereich des Objekts hat (z. B. das den sichtbaren Bereich des Objekts begrenzt). Die Berechnung des sichtbaren Bereichs des Objekts ist jedoch hierauf nicht beschränkt und kann jede beliebige Formel oder jeden beliebigen Algorithmus umfassen, die/der zur Berechnung des Bereichs eines Objekts in einem Bild verwendet werden kann. Es versteht sich, dass die Schritte S201 und S202 in beliebiger Reihenfolge oder gleichzeitig, im Wesentlichen gleichzeitig oder teilweise gleichzeitig durchgeführt werden können.
Die Sichtbarkeitsrate des Objekts wird in Schritt S203 bestimmt. Die Sichtbarkeitsrate kann berechnet werden, indem die Größe des in Schritt S202 bestimmten sichtbaren Bereichs des Objekts durch die in Schritt S201 bestimmte Gesamtgröße des Objekts geteilt bzw. dividiert wird. Beispielsweise kann die Anzahl der Pixel des sichtbaren Bereichs des Objekts durch die Anzahl der Pixel der Gesamtgröße des Objekts dividiert werden, was einen Prozentsatz des Objekts (d. h. die Sichtbarkeitsrate) ergibt, der aus der Sensorperspektive sichtbar ist. In einem anderen Beispiel kann die Sichtbarkeitsrate berechnet werden, indem die Fläche des Polygons des sichtbaren Bereichs des Objekts durch die Fläche des Polygons der Gesamtgröße des Objekts dividiert wird.
Erneut auf 1 Bezug nehmend wird die Sichtbarkeitsrate verwendet, um die Grundwahrheitsdaten in Schritt S103 zu modifizieren. Wenn die Sichtbarkeitsrate beispielsweise 50 % beträgt, werden die Grundwahrheitsdaten um diese Rate für das einzelne Objekt modifiziert. In diesem Fall kann die Sichtbarkeitsrate in die Grundwahrheitsdaten durch eine Schnittmenge über die Vereinigung (IOU), eine mittlere durchschnittliche Genauigkeit (mAP) oder eine andere Bewertungsmetrik einbezogen werden. Beträgt die Sichtbarkeitsrate 0 % (oder weniger als ein vorgegebener Schwellenwert), kann das Objekt aus den Grundwahrheitsdaten entfernt werden. Zusätzlich können gemäß einer Ausführungsform nur Sichtbarkeitsraten für Objekte, die unter einem vorbestimmten Schwellenwert liegen (z. B. unter 85 % oder 75 %), zum Modifizieren der Grundwahrheitsdaten verwendet werden.
Bezug nehmend auf das Beispiel von 6 werden die Sichtbarkeitsraten für die Objekte 2, 3 und 4 wie gezeigt bestimmt. Das heißt, die Objekte 2 und 4 haben eine Sichtbarkeitsrate von 100 %, während das Objekt 3 eine Sichtbarkeitsrate von 20 % hat. Wie oben beschrieben, kann die Sichtbarkeitsrate von Objekt 3 bestimmt werden, indem das Objekt 3 individuell gerendert wird, um dessen Gesamtgröße gemäß der ersten Ausführungsform zu berechnen, oder indem seine Gesamtgröße aus einem Segmentierungsbild für die gesamte Szene des Bilderfassungsbereichs (d. h. eine Grundwahrheitssegmentierung) gemäß der zweiten Ausführungsform ermittelt wird. Die Gesamtgröße des Objekts 3 kann als 300 Pixel bestimmt werden. Ferner wird der sichtbare Bereich des Objekts 3 durch Segmentierung des Objekts in den vom Sensor erfassten Bilddaten bestimmt. In diesem Beispiel kann der sichtbare Bereich des Objekts 3 als 60 Pixel bestimmt werden. Somit kann die Sichtbarkeitsrate von 20 % ermittelt werden, indem die Größe des sichtbaren Bereichs (60 Pixel) durch die Gesamtgröße des Objekts (300 Pixel) dividiert wird.
Die Grundwahrheitsdaten können dann basierend auf der Sichtbarkeitsrate für jedes der Objekte 2, 3 und 4 in 6 modifiziert werden. Diese Modifikation berücksichtigt die verborgenen Teile der Objekte, die in den Grundwahrheitsdaten enthalten sind, und modifiziert die Grundwahrheitsdaten entsprechend. Die modifizierten Grundwahrheitsdaten können verwendet werden, um die Ergebnisse eines Maschinenlernmodells zu bewerten (z. B. durch Vergleich der modifizierten Grundwahrheitsdaten mit den Ergebnissen des Maschinenlernmodells), wenn die Genauigkeit der Objekterkennung unter Verwendung des Maschinenlernmodells getestet wird, was zu einem genaueren Test führt.
7 ist ein Blockdiagramm einer Vorrichtung 700 zum Modifizieren von Grundwahrheitsdaten gemäß einer Ausführungsform. Die Vorrichtung 700 kann als oder innerhalb eines Arbeitsplatzrechners, eines Laptops, eines mobilen Geräts, einer Workstation, eines Client-Terminals, eines Servers usw. implementiert werden. Unter Bezugnahme auf 7 umfasst die Vorrichtung 700 einen Speicher 710, der Anweisungen und/oder Softwarecode speichert, und einen Prozessor 720 (z. B. mindestens einen Prozessor), der so konfiguriert ist, dass er diese Anweisungen und/oder diesen Code ausführt, um eines oder mehrere der oben unter Bezugnahme auf die 1 bis 4 beschriebenen Verfahren zu implementieren. Der Prozessor 720 kann als eine anwendungsspezifische integrierte Schaltung (ASIC), ein eingebetteter Prozessor, ein Mikroprozessor, eine Hardware-Steuerlogik, eine Hardware-Finite-State-Machine (FSM), ein digitaler Signalprozessor (DSP), ein Prozessor für neuronale Netze (NPU) oder Ähnliches implementiert sein. Der Prozessor 720 kann eine zentrale Verarbeitungseinheit (CPU), eine Grafikverarbeitungseinheit (GPU), eine Hauptverarbeitungseinheit (MPU) oder Ähnliches umfassen. Darüber hinaus kann der Prozessor 720 einen oder mehrere Prozessoren enthalten.
Der Speicher 710 kann einen Halbleiterspeicher, wie z. B. einen Flash-Speicher, ein magnetisches Speichermedium, wie z. B. eine Festplatte, oder Ähnliches umfassen. Der Speicher 710 kann sich auf einen flüchtigen oder nichtflüchtigen Speicher, einen Festwertspeicher (ROM), einen Direktzugriffsspeicher (RAM), der mit dem Prozessor 110 kommunikativ verbunden ist, oder eine Speicherkarte (z. B. eine Micro-SD-Karte, ein Memory Stick) beziehen, die mit der Vorrichtung 700 verbunden werden kann. Der Speicher 710 kann verschiedene Softwaremodule oder Codes für den Betrieb der Vorrichtung 700 speichern, und der Prozessor 720 kann den Betrieb der Vorrichtung 700 durch Ausführen verschiedener Softwaremodule steuern, die im Speicher 710 gespeichert sind. Das heißt, der Prozessor 720 kann auf den Speicher 710 zugreifen, um Daten zu lesen, aufzuzeichnen, zu ändern, zu löschen, zu aktualisieren oder Ähnliches. Ferner kann der Speicher 710 ausführbare Anweisungen, Code, Datenobjekte usw. speichern.
Darüber hinaus kann die Vorrichtung 700 eine Anzeige 730 und eine Eingabeschnittstelle 740 umfassen. Gemäß einer Ausführungsform kann die Anzeige 730 jedes der oben beschriebenen Bilder ausgeben. Zum Beispiel kann die Anzeige 730 die Bilddaten des Aufnahmebereichs aus der Perspektive der Kamera, individuell gerenderte Objekte und/oder eine Grundwahrheitssegmentierung ausgeben. Die Eingabeschnittstelle 740 kann eine Benutzereingabe zur Auswahl eines Zielobjekts in dem angezeigten Bild empfangen, für das die Sichtbarkeitsrate berechnet und/oder die Grundwahrheitsdaten modifiziert werden sollen.
Die Anzeige 730 kann als Flüssigkristallanzeige (LCD), als organische Leuchtdiode (OLED), als flexible Anzeige, als Touchscreen, als transparente Anzeige oder Ähnliches ausgeführt sein. Der Prozessor 720 kann die Anzeige 730 steuern, um Bildsignale anzuzeigen.
Die Eingabeschnittstelle 740 kann so konfiguriert sein, dass sie eine Eingabe von einem Benutzer oder anderen Geräten empfängt, und der Prozessor 720 kann über die Eingabeschnittstelle 740 einen Benutzerbefehl zur Steuerung des Betriebs der Vorrichtung 700 empfangen. Die Eingabe-/Ausgabeschnittstelle 740 kann beispielsweise ein Mikrofon, eine Kamera, eine Fernbedienung, eine Tastatur, eine Maus, einen Touchscreen oder Ähnliches umfassen.
Gemäß einer Ausführungsform können ein hierin offenbartes Verfahren und eine Vorrichtung als Software eines Computerprogrammprodukts bereitgestellt werden. Ein Computerprogrammprodukt kann in Form eines maschinenlesbaren Speichermediums (z.B. Compact Disc Read Only Memory (CD-ROM)) verteilt werden oder online über einen Anwendungsspeicher oder direkt zwischen zwei Geräten verteilt werden. Im Falle der Online-Verteilung kann zumindest ein Teil des Computerprogrammprodukts (z. B. eine herunterladbare App) vorübergehend oder zumindest zeitweise in einem Speichermedium wie einem Server des Herstellers, einem Server in einem Anwendungsspeicher oder einem Speicher in einem Relay-Server gespeichert werden.
Vorstehend wurden Ausführungsformen der Erfindung gezeigt und beschrieben, jedoch sind die Ausführungsformen der Erfindung nicht auf die oben erwähnten spezifischen Ausführungsformen beschränkt. Es kann davon ausgegangen werden, dass verschiedene Modifikationen, Substitutionen und Verbesserungen von denjenigen vorgenommen werden können, die über entsprechende Fachkenntnisse auf dem technischen Gebiet verfügen, zu dem die Erfindung gehört, ohne von der Idee der Erfindung abzuweichen, die durch die beigefügten Ansprüche beansprucht wird. Es ist davon auszugehen, dass solche Modifikationen, Substitutionen und Verbesserungen in den Schutzbereich der Erfindung fallen und nicht unabhängig von der technischen Idee oder der Perspektive der Erfindung zu verstehen sind.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 20180336424 A1 [0004]
US 20200074230 A1 [0004]

Claims

Verfahren zum Modifizieren der Grundwahrheit von Bilddaten zum Testen der Genauigkeit eines Maschinenlernmodells zur Objekterkennung, wobei das Verfahren aufweist: Erhalten von Bilddaten eines Bilderfassungsbereichs aus einer Kameraperspektive; Erhalten von Grundwahrheitsdaten bezüglich Objekten in dem Bilderfassungsbereich; Bestimmen einer Sichtbarkeitsrate eines Objekts, das in den erhaltenen Bilddaten enthalten ist; und Modifizieren der Grundwahrheitsdaten basierend auf der bestimmten Sichtbarkeitsrate.
Verfahren nach Anspruch 1, wobei das Bestimmen der Sichtbarkeitsrate aufweist: Bestimmen einer Gesamtgröße des Objekts; Berechnen einer Größe eines sichtbaren Bereichs des Objekts in den erhaltenen Bilddaten; und Dividieren der Größe des sichtbaren Bereichs durch die Gesamtgröße des Objekts, um die Sichtbarkeitsrate zu erhalten.
Verfahren nach Anspruch 2, wobei das Bestimmen der Gesamtgröße des Objekts aufweist: vollständiges individuelles Rendern des Objekts; und Berechnen einer Fläche des individuell gerenderten Objekts.
Verfahren nach Anspruch 2, wobei das Bestimmen der Gesamtgröße des Objekts aufweist: Erhalten einer Grundwahrheits-Objektsegmentierung für eine vollständige Szene des Bilderfassungsbereichs; und Berechnen einer Fläche des Objekts in der Grundwahrheits-Objektsegmentierung.
Verfahren nach einem der Ansprüche 2 bis 4, wobei das Berechnen der Größe des sichtbaren Bereichs des Objekts in den erhaltenen Bilddaten das Bestimmen der Anzahl der in dem sichtbaren Bereich enthaltenen Pixel oder das Bestimmen einer Fläche eines Polygons, das den sichtbaren Bereich begrenzt, aufweist.
Verfahren nach einem der Ansprüche 1 bis 5, wobei das Erhalten der Bilddaten des Bilderfassungsbereichs das Erhalten der von einem Kamerasensormodell eines autonomen Fahrsimulators erzeugten Bilddaten aufweist.
Vorrichtung zum Modifizieren der Grundwahrheit von Bilddaten zum Testen der Genauigkeit eines Maschinenlernmodells zur Objekterkennung, wobei die Vorrichtung aufweist: einen Speicher, der Anweisungen speichert; und mindestens einen Prozessor, der so konfiguriert ist, dass er die Anweisungen ausführt, um: Bilddaten eines Bilderfassungsbereichs aus einer Kameraperspektive zu erhalten; Grundwahrheitsdaten bezüglich Objekten in dem Bilderfassungsbereich zu erhalten; eine Sichtbarkeitsrate eines Objekts, das in den erhaltenen Bilddaten enthalten ist, zu bestimmen; und Grundwahrheitsdaten basierend auf der bestimmten Sichtbarkeitsrate zu modifizieren.
Vorrichtung nach Anspruch 7, wobei der mindestens eine Prozessor ferner so konfiguriert ist, dass er die Anweisungen ausführt, um: eine Gesamtgröße des Objekts zu bestimmen; eine Größe eines sichtbaren Bereichs des Objekts in den erhaltenen Bilddaten zu berechnen; und die Größe des sichtbaren Bereichs durch die Gesamtgröße des Objekts zu dividieren, um die Sichtbarkeitsrate zu erhalten.
Vorrichtung nach Anspruch 8, wobei der mindestens eine Prozessor ferner so konfiguriert ist, dass er die Anweisungen ausführt, um: das Objekt vollständig individuell zu rendern; und als Gesamtgröße des Objekts eine Fläche des individuell gerenderten Objekts zu berechnen.
Vorrichtung nach Anspruch 8, wobei der mindestens eine Prozessor ferner so konfiguriert ist, dass er die Anweisungen ausführt, um eine Grundwahrheits-Objektsegmentierung für eine vollständige Szene des Bilderfassungsbereichs zu erhalten; und als Gesamtgröße des Objekts eine Fläche des Objekts in der Grundwahrheits-Objektsegmentierung zu berechnen.
Vorrichtung nach einem der Ansprüche 8 bis 10, wobei der mindestens eine Prozessor ferner so konfiguriert ist, dass er die Anweisungen ausführt, um die Größe des sichtbaren Bereichs des Objekts in den erhaltenen Bilddaten zu berechnen, indem er die Anzahl der in dem sichtbaren Bereich enthaltenen Pixel bestimmt oder eine Fläche eines Polygons bestimmt, das den sichtbaren Bereich begrenzt.
Vorrichtung nach einem der Ansprüche 7 bis 11, wobei der mindestens eine Prozessor ferner so konfiguriert ist, dass er die Anweisungen ausführt, um die von einem Kamerasensormodell eines autonomen Fahrsimulators erzeugten Bilddaten zu erhalten.
Nicht-transitorisches, computerlesbares Speichermedium, auf dem Anweisungen gespeichert sind, die von mindestens einem Prozessor ausgeführt werden können, um ein Verfahren zum Modifizieren der Grundwahrheit von Bilddaten zum Testen der Genauigkeit eines Maschinenlernmodells zur Objekterkennung durchzuführen, wobei das Verfahren aufweist: Erhalten von Bilddaten eines Bilderfassungsbereichs aus einer Kameraperspektive; Erhalten von Grundwahrheitsdaten bezüglich Objekten in dem Bilderfassungsbereich; Bestimmen einer Sichtbarkeitsrate eines Objekts, das in den erhaltenen Bilddaten enthalten ist; und Modifizieren der Grundwahrheitsdaten basierend auf der bestimmten Sichtbarkeitsrate.
Nicht-transitorisches computerlesbares Speichermedium nach Anspruch 13, wobei das Bestimmen der Sichtbarkeitsrate aufweist: Bestimmen einer Gesamtgröße des Objekts; Berechnen einer Größe eines sichtbaren Bereichs des Objekts in den erhaltenen Bilddaten; und Dividieren der Größe des sichtbaren Bereichs durch die Gesamtgröße des Objekts, um die Sichtbarkeitsrate zu erhalten.
Nicht-transitorisches computerlesbares Speichermedium nach Anspruch 14, wobei das Bestimmen der Gesamtgröße des Objekts aufweist: vollständiges individuelles Rendern des Objekts; und Berechnen einer Fläche des individuell gerenderten Objekts.
Nicht-transitorisches, computerlesbares Speichermedium nach Anspruch 14, wobei das Bestimmen der Gesamtgröße des Objekts aufweist: Erhalten einer Grundwahrheits-Objektsegmentierung für eine vollständige Szene des Bilderfassungsbereichs; und Berechnen einer Fläche des Objekts in der Grundwahrheits-Objektsegmentierung.
Nicht-transitorisches computerlesbares Speichermedium nach einem der Ansprüche 14 bis 16, wobei das Berechnen der Größe des sichtbaren Bereichs des Objekts in den erhaltenen Bilddaten das Bestimmen der Anzahl der in dem sichtbaren Bereich enthaltenen Pixel oder das Bestimmen einer Fläche eines Polygons, das den sichtbaren Bereich begrenzt, aufweist.
Nicht-transitorisches computerlesbares Speichermedium nach einem der Ansprüche 13 bis 17, wobei das Erhalten der Bilddaten des Bilderfassungsbereichs das Erhalten der von einem Kamerasensormodell eines autonomen Fahrsimulators erzeugten Bilddaten aufweist.