DE102022110766A1

DE102022110766A1 - Verbessertes maschinelles lernen

Info

Publication number: DE102022110766A1
Application number: DE102022110766.3A
Authority: DE
Inventors: Shiqi Qiu; Kalyani Purushottam Sonawane; Fling Tseng; Johannes Geir Kristinsson
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2021-05-04
Filing date: 2022-05-02
Publication date: 2022-11-10
Also published as: US11734909B2; CN115285134A; US20220358315A1

Abstract

Ein System umfasst einen Bildsensor mit einem Sichtfeld einer Außenseite eines Fahrzeugs; eine Mensch-Maschine-Schnittstelle (HMI) in dem Fahrzeug, die dazu angeordnet ist, Bilder auf Grundlage von Daten von dem Bildsensor anzuzeigen; und einen ersten Computer, der einen Prozessor und einen Speicher beinhaltet. Der erste Computer ist dazu programmiert, einem Programm des maschinellen Lernens, das einen Begrenzungsrahmen um ein Objekt ausgibt, Daten von dem Bildsensor bereitzustellen; zu veranlassen, dass der Begrenzungsrahmen um das Objekt über die HMI angezeigt wird; und Objektdaten, die eine eingegebene Markierung beinhalten, die das Objekt identifiziert, an einen zweiten Computer zu übertragen, der von dem Fahrzeug entfernt ist.

Description

GEBIET DER TECHNIK
Die Offenbarung betrifft ein verbessertes maschinelles Lernen.
ALLGEMEINER STAND DER TECHNIK
Daten von Bildsensoren, wie etwa optischen Kameras und Lidar, können von einem Computer verwendet werden, der ein trainiertes Programm des maschinellen Lernens ausführt, um Objekte zu erfassen und zu identifizieren. Objektdaten können in verschiedenen Maschinen verwendet werden, wie etwa Fahrzeugen, Fertigungsrobotern, Lagerrobotern usw. Zum Beispiel können Daten von Bildsensoren in einem Fahrzeug einem Fahrzeugcomputer bereitgestellt werden, der Objekte auf Grundlage eines Programms des maschinellen Lernens erfassen und/oder identifizieren kann, wobei dem Computer beim Steuern und/oder Unterstützen von Fahrzeugvorgängen geholfen wird. Das Trainieren eines Programms des maschinellen Lernens zum Erfassen und Identifizieren von Objekten macht typischerweise einen großen Korpus von Trainingsdaten erforderlich und kann große Mengen an Computerverarbeitungszyklen und -zeit erforderlich machen.
KURZDARSTELLUNG
Das Trainieren eines Programms des maschinellen Lernens zur Objekterfassung und/oder - identifizierung stützt sich auf eine sehr große Anzahl richtig markierter Bilder, d. h. Bilddaten, die von Markierungen oder Tags begleitet sind, die ein in den Bilddaten dargestelltes Objekt vorgeben. Wie in dieser Schrift offenbart, ist es vorteilhafterweise möglich, große Sätze von markierten Bilddaten zu erhalten und darüber hinaus eine Verarbeitung, wie etwa eine Kreuzvalidierung empfangener Sätze von markierten Bilddaten, durchzuführen, um dadurch einen zuverlässigen Satz von markierten Bilddaten zum Trainieren eines DNN bereitzustellen. Wie nachfolgend genauer erläutert, kann ein Computer in einer Erfassungsplattform für bewegliche Objekte, wie etwa einem Fahrzeug, Objekte erfassen, die dann über eine Anzeige auf einer Mensch-Maschine-Schnittstelle (human machine interface - HMI) eines Fahrzeugs einem Benutzer dargestellt werden können. Der Benutzer kann eine Markierung für das angezeigte Objekt über eine Eingabe an der HMI bereitstellen. Von einem Benutzer bereitgestellte Markierungen und zugeordnete Bilddaten können dann einem zentralen Server zum Trainieren eines Programms des maschinellen Lernens, wie etwa eines tiefen neuronalen Netzes (deep neural network - DNN), bereitgestellt werden. Das DNN kann dann z. B. an Fahrzeugen eingesetzt werden, um eine Obj ekterfassung bereitzustellen, die als Grundlage zum Betreiben einer Maschine, wie etwa eines Fahrzeugs, bereitgestellt werden kann.
Ein System umfasst einen Bildsensor mit einem Sichtfeld einer Außenseite eines Fahrzeugs; eine Mensch-Maschine-Schnittstelle (HMI) in dem Fahrzeug, die dazu angeordnet ist, Bilder auf Grundlage von Daten von dem Bildsensor anzuzeigen; und einen ersten Computer, der einen Prozessor und einen Speicher beinhaltet. Der erste Computer ist dazu programmiert, einem Programm des maschinellen Lernens, das einen Begrenzungsrahmen um ein Objekt ausgibt, Daten von dem Bildsensor bereitzustellen; zu veranlassen, dass der Begrenzungsrahmen um das Objekt über die HMI angezeigt wird; und Objektdaten, die eine eingegebene Markierung beinhalten, die das Objekt identifiziert, an einen zweiten Computer zu übertragen, der von dem Fahrzeug entfernt ist.
Das Programm des maschinellen Lernens kann ferner eine oder mehrere Kandidatenmarkierungen für das Objekt ausgeben und der erste Computer kann dazu programmiert sein, eine Eingabe zu empfangen, die eine Benutzerauswahl von einer der einen oder mehreren Kandidatenmarkierungen vorgibt.
Das Objekt kann ein erstes Objekt in einer Vielzahl von Objekten sein und der Begrenzungsrahmen ist ein erster Begrenzungsrahmen in einer Vielzahl von Begrenzungsrahmen. Das Programm des maschinellen Lernens kann ferner die Vielzahl von Begrenzungsrahmen ausgeben, die den ersten Begrenzungsrahmen und mindestens einen zweiten Begrenzungsrahmen beinhaltet. Jeder der Begrenzungsrahmen kann dann um ein entsprechendes Objekt in der Vielzahl von Objekten bereitgestellt werden, die das erste Objekt und mindestens ein zweites Objekt beinhaltet.
Die Objektdaten können ferner Daten zu einer Umgebung um das Fahrzeug beinhalten, die einem Zeitpunkt zugeordnet sind, zu dem die eingegebene Markierung eingegeben wurde.
Die Daten von dem Bildsensor können eine Vielzahl von Videoeinzelbildern beinhalten, die das Objekt beinhaltet und über ein Zeitintervall aufgenommen wird, während sich das Fahrzeug bewegt. Die eingegebene Markierung kann eine erste eingegebene Markierung sein und einem ersten Zeitpunkt in dem Zeitintervall zugeordnet sein und die Objektdaten können eine oder mehrere zweite eingegebene Markierungen beinhalten, die jeweils einem oder mehreren zweiten Zeitpunkten in dem Zeitintervall zugeordnet sind.
Das Fahrzeug kann ein erstes Fahrzeug in einer Vielzahl von Fahrzeugen sein und die Objektdaten können ein erster Satz von Objektdaten in einer Vielzahl von Sätzen von Objektdaten sein, wobei die eingegebene Markierung eine von einer Vielzahl von eingegebenen Markierungen in den entsprechenden Sätzen von Objektdaten ist. Das System kann ferner den zweiten Computer umfassen, wobei der zweite Computer einen zweiten Prozessor und einen zweiten Speicher beinhaltet und dazu programmiert ist, die Vielzahl von Sätzen von Objektdaten von entsprechenden Fahrzeugen in der Vielzahl von Fahrzeugen zu empfangen. Der zweite Computer kann ferner dazu programmiert sein, eine Kreuzvalidierung durchzuführen, um Markierungen in einem oder mehreren der Sätze von Objektdaten zu verifizieren oder abzulehnen. Der zweite Computer kann ferner dazu programmiert sein, abgelehnte Markierungen aus den Objektdaten zu entfernen. Der zweite Computer kann ferner dazu programmiert sein, durch Einstellen einer Regel zum Anfordern einer Benutzereingabe auf Grundlage eines Ergebnisses der Kreuzvalidierung ein aktualisiertes Datensammelprogramm bereitzustellen; und dem Fahrzeug das aktualisierte Datensammelprogramm bereitzustellen. Der zweite Computer kann ferner dazu programmiert sein, einen Benutzer, der einem der Sätze von Objektdaten zugeordnet ist, auf Grundlage des Ergebnisses der Kreuzvalidierung zu klassifizieren; wobei die Regel vorgibt, ob der Benutzer dazu berechtigt ist, die eingegebenen Daten bereitzustellen, und das Einstellen der Regel Bestimmen, dass der Benutzer nicht dazu berechtigt ist, die eingegebenen Daten bereitzustellen, beinhaltet. Der zweite Computer kann ferner dazu programmiert sein, eine Art von einem der Objekte in den Sätzen von Objektdaten zu bestimmen, wobei die Regel eine Häufigkeit vorgibt, mit der ein Benutzer, der die eingegebene Markierung für das eine der Objekte bereitstellt, aufgefordert wird, eine Eingabe bereitzustellen, wenn eine Kandidatenmarkierung die Art vorgibt, und das Einstellen der Regel Einstellen des Programms des maschinellen Lernens beinhaltet, um Objekte der Art einem Benutzer, der die eingegebene Markierung bereitstellt, auf Grundlage eines Ergebnisses der Kreuzvalidierung häufiger oder weniger häufig darzustellen. Der zweite Computer kann ferner dazu programmiert sein, die entsprechenden eingegebenen Markierungen mit Kartendaten zu vergleichen, um eine Verifizierung von einem von den eingegebenen Markierungen oder den Kartendaten durchzuführen.
Das Programm des maschinellen Lernens kann ein erstes Programm des maschinellen Lernens sein und der zweite Computer kann ferner dazu programmiert sein, ein zweites Programm des maschinellen Lernens auf Grundlage der Vielzahl von Sätzen von Objektdaten zu generieren, um eine Objektidentifizierung durchzuführen. Der zweite Computer kann ferner dazu programmiert sein, einem oder mehreren Fahrzeugen in der Vielzahl von Fahrzeugen oder einem anderen Fahrzeug das zweite Programm des maschinellen Lernens bereitzustellen. Der erste Computer kann ferner dazu programmiert sein, das zweite Programm des maschinellen Lernens zu empfangen und das Fahrzeug gemäß der Objektidentifizierungsausgabe von dem zweiten Programm des maschinellen Lernens zu betreiben.
Figurenliste

1 ist ein Blockdiagramm eines beispielhaften Objekterfassungssystems.
2 veranschaulicht eine beispielhafte Mensch-Maschine-Schnittstelle in einem Fahrzeug.
3 veranschaulicht ein weiteres Beispiel für eine Mensch-Maschine-Schnittstelle in einem Fahrzeug.
4 ist ein Blockdiagramm eines beispielhaften tiefen neuronalen Netzes.
5 ist ein Prozessablaufdiagramm eines beispielhaften Prozesses zum Trainieren und Einsetzen eines Objekterfassungsmoduls.
6 ist ein Prozessablaufdiagramm, das Details zum Sammeln von Daten zum Trainieren und Trainieren des Objekterfassungsmoduls beinhaltet.

DETAILLIERTE BESCHREIBUNG
Unter Bezugnahme auf 1 kann ein Objekterfassungssystem 100 eine Vielzahl von Objekterfassungsplattformen beinhalten, d. h. mobile Maschinen, die Elemente wie die hierin erörterten beinhalten, wodurch die Plattform Bilddaten an einer Vielzahl von Standorten erhalten kann. Beispielhafte in dieser Schrift veranschaulichte und erörterte Objekterfassungsplattformen sind herkömmliche Bodenfahrzeuge 102. Wie in 1 zu sehen ist, kann ein Fahrzeug 102 eine Vielfalt von Elementen beinhalten, einschließlich eines Computers 104 des Fahrzeugs 102, der dazu angeordnet ist, über ein Fahrzeugnetzwerk 106 mit anderen Komponenten des Fahrzeugs 102, einschließlich eines Sensors, verschiedenen Fahrzeugteilsystemen 110 und einem Kommunikationsmodul 120 zu kommunizieren. Ferner veranschaulicht 1 eine Vielzahl von Fahrzeugen 102, die verschiedene der hierin beschriebenen Elemente beinhalten kann, wenngleich 1 die verschiedenen Elemente zur Vereinfachung der Veranschaulichung in Bezug auf nur eines der dargestellten Fahrzeuge 102 ausführlich beschreibt.
Das Fahrzeug 102 beinhaltet typischerweise eine Vielzahl von Rechenvorrichtungen, einschließlich eines Computers 104 des Fahrzeugs 102, die bereitgestellt ist, um Objekterfassungsvorgänge auszuführen. Der Computer 104 des Fahrzeugs 102 kann verschiedene Programmmodule beinhalten, d. h. Computerprogramme, bei denen es sich um Sätze von Programmanweisungen zum Ausführen vorgegebener Vorgänge oder Algorithmen handelt, wie nachstehend beschrieben. Um zum Beispiel Objekterfassungsvorgänge zu unterstützen, kann der Computer 104 ein Datensammelmodul 122 und/oder ein Objekterfassungsmodul 124 beinhalten.
Das Datensammelmodul 122 kann ein erstes Programm des maschinellen Lernens beinhalten, das dazu trainiert ist, Kandidatenobjekte 132 und möglicherweise auch Kandidatenmarkierungen 136 zu identifizieren, die einem Benutzer dargestellt werden können, z.B. auf einer HMI 118 des Fahrzeugs 102, wie nachstehend beschrieben. In dem Datensammelmodul 122 gesammelte Objektdaten können einem entfernten Server 128 bereitgestellt werden, um ein zweites Modell des maschinellen Lernens zu trainieren, das in einem Objekterfassungsmodul 124 eingeschlossen sein kann, das an einem oder mehreren Fahrzeugen 102 eingesetzt werden kann, um eine Objektidentifizierung durchzuführen. Wie in 1 veranschaulicht, beinhaltet ein Fahrzeug 102 102 sowohl ein Sammelmodul 122 als auch ein Erfassungsmodul 124, wenngleich in der tatsächlichen Umsetzung ein Fahrzeug 102 ein Sammelmodul 122 ohne ein Erfassungsmodul 124 oder ein Erfassungsmodul 124 ohne ein Sammelmodul 122 beinhalten könnte. Nach dem Trainieren kann das Erfassungsmodul 124 einem oder mehreren Fahrzeugen 102 bereitgestellt werden, z. B. von dem entfernten Server 128 heruntergeladen werden. Ein Computer 104 des Fahrzeugs 102 kann das Objekterfassungsmodul 124, einschließlich des zweiten Programms des maschinellen Lernens, empfangen und kann dann das Fahrzeug 102 gemäß der Objektidentifizierungsausgabe von dem zweiten Programm des maschinellen Lernens betreiben.
Das Datensammelmodul 122 kann Programmanweisungen beinhalten, Bilddaten über das Fahrzeugnetzwerk 106 von einem oder mehreren Bildsensoren 108 in dem Fahrzeug 102 zu empfangen und die HMI 118 dazu zu veranlassen, die Bilder anzuzeigen. Der Computer 104 kann ferner Programmanweisungen beinhalten, Daten von dem Bildsensor einem in dem Datensammelmodul 122 eingeschlossenen Programm des maschinellen Lernens bereitzustellen, das ein Objekt erfasst und einen Begrenzungsrahmen 134 für das Objekt ausgibt, der um das Objekt angezeigt werden kann. Zum Beispiel kann der Computer 104 ferner dazu programmiert sein, dann zu bewirken, dass der Begrenzungsrahmen 134 um das Objekt über die HMI 118 angezeigt wird. Über die HMI 118 kann der Computer 104 eine Benutzereingabe empfangen, um das Objekt zu markieren (d. h., der Computer 104 kann eine eingegebene Markierung empfangen). Das Programm des maschinellen Lernens in dem Datensammelmodul 122 kann ein DNN 138 sein, wie nachstehend genauer beschrieben.
Das Erfassungsmodul 124 kann ein zweites Programm des maschinellen Lernens beinhalten, das dazu trainiert ist, Objekte zu identifizieren (oder zu klassifizieren), um einen Betrieb eines Fahrzeugs 102 zu unterstützen. Zum Beispiel kann das zweite Programm des maschinellen Lernens ein DNN 138, wie nachstehend beschrieben, beinhalten, das dazu trainiert ist, Bilddaten als Eingabe (d. h. eingegebene Bilddaten) anzunehmen und eine Objektklassifizierung oder -identifizierung auszugeben. Das zweite Programm des maschinellen Lernens in dem Erfassungsmodul 124 ist nicht notwendigerweise mit Daten trainiert, die von Sammelmodulen 122 in entsprechenden Fahrzeugen 102 bereitgestellt werden, kann jedoch mindestens teilweise damit trainiert sein.
Die Bildsensoren 108 zum Bereitstellen von Bilddaten, die in das Datensammelmodul 122 und/oder das Erfassungsmodul 124 eingegeben werden sollen, sind in oder an dem Fahrzeug 102 eingeschlossen und weisen ein Sichtfeld einer Außenseite eines Fahrzeugs 102 auf. Auf Grundlage von Bilddaten von einem oder mehreren Bildsensoren, die dem Computer über das Fahrzeugnetzwerk bereitgestellt werden, kann das Erfassungsmodul Kandidatenobjekte 132 identifizieren. Ein Kandidatenobjekt ist durch einen Satz von Pixeln in einem Bild definiert, wobei der Satz von Pixeln durch das in dem Sammelmodul 122 eingeschlossene Programm des maschinellen Lernens als zu einem Objekt gehörend identifiziert wird.
Die HMI 118 kann eines oder mehrere von einer Anzeige, einer Touchscreen-Anzeige, einem Mikrofon, einem Lautsprecher usw. beinhalten. Alternativ oder zusätzlich könnte eine Anzeige der HMI 118 eine Augmented-Reality-(AR-)Anzeige beinhalten, um z. B. Bilder und Daten in einem Fahrzeug 102 anzuzeigen, einschließlich der in dieser Schrift beschriebenen, z. B. könnte die HMI ein Heads-up-Display (HUD) oder dergleichen beinhalten, um Inhalte auf einem Fenster oder einer Frontscheibe (Windschutzscheibe) usw. des Fahrzeugs 102 anzuzeigen. Der Benutzer kann eine Eingabe an Vorrichtungen, wie etwa den Computer 104, über die HMI 118 bereitstellen. Die HMI 118 kann mit dem Computer 104 über das Fahrzeugnetzwerk 106 kommunizieren, z. B. kann die HMI 118 eine Nachricht, welche die Benutzereingabe beinhaltet, die über einen Touchscreen, ein Mikrofon, eine Kamera, die eine Geste aufnimmt, usw. bereitgestellt wird, an einen Computer 104 senden, und/oder kann diese eine Ausgabe anzeigen, z. B. über einen Bildschirm, einen Lautsprecher usw.
Somit kann eine in einem Fahrzeug 102 bereitgestellte HMI 118 dazu angeordnet sein, Bilder auf Grundlage von Daten von dem Bildsensor, die Kandidatenobjekte 132 beinhalten, anzuzeigen. Ferner veranlasst der Computer 104 in einigen Umsetzungen die HMI 118 dazu, Kandidatenmarkierungen 136 für ein Kandidatenobjekt 132 anzuzeigen. Das Programm des maschinellen Lernens kann die Kandidatenmarkierung 136 zusätzlich zum Bestimmen des Objekts und des Begrenzungsrahmens 134 für das Objekt in den Bilddaten ausgeben. Der Computer 104 kann dazu programmiert sein, eine Eingabe zu empfangen, die eine Benutzerauswahl von einer der einen oder mehreren Kandidatenmarkierungen 136 vorgibt, entweder als Reaktion auf eine Liste, die über die HMI 118 bereitgestellt wird, und/oder durch einen Benutzer, z. B. über Spracheingabe (z. B. „Auto“ oder „Baum“) als Reaktion auf ein Bild, das einen Begrenzungsrahmen 134 beinhaltet. In einigen Umsetzungen gibt das Programm des maschinellen Lernens unter Umständen keine Kandidatenmarkierungen 136 aus und/oder zeigt die HMI 118 diese unter Umständen nicht an. Ferner kann, unabhängig davon, ob die HMI 118 Kandidatenmarkierungen 136 anzeigt oder nicht, der Computer 104 ferner dazu programmiert sein, eine Benutzereingabe bezüglich der Kandidatenmarkierungen 136 über die HMI 118 zu empfangen, z. B. eine Spracheingabe.
In einigen Umsetzungen kann das Programm des maschinellen Lernens eine Vielzahl von Objekten (d. h. zwei oder mehr) in einem Bild erfassen und kann entsprechende Begrenzungsrahmen 134 für jedes der erfassten Objekte bereitstellen. Der Benutzer kann dann eines der Objekte zur Markierung auswählen und kann dann eine Kandidatenmarkierung 136 bereitstellen, wie vorstehend beschrieben. Zum Beispiel könnten die zwei Kandidatenobjekte 132, die jeweils in 2 und 3 gezeigt sind, in einem derartigen Beispiel einem Benutzer zusammen auf einer Anzeige dargestellt werden. Der Benutzer könnte eines der Objekte auswählen, z. B. durch Eingabe an einem Touchscreen oder eine Spracheingabe (z. B. „Markierung links“ oder „Markierung rechts“), und kann dann eine Kandidatenmarkierung 136 bereitstellen, wie gerade beschrieben.
Das Sammelmodul 122 in dem Computer 104 des Fahrzeugs 102 beinhaltet ferner typischerweise eine Programmierung zum Übertragen von Objektdaten, d. h. von Bildern, die Objekte und zugeordnete eingegebene Kandidatenmarkierungen 136 beinhalten, an einen zweiten Computer 104, d. h. über ein Weitverkehrsnetzwerk 126 an einen entfernten Server 128. Alternativ oder zusätzlich könnten Objektdaten von dem Computer 104 des Fahrzeugs 102 über andere geeignete Mechanismen erhalten werden, z. B. den Zugriff durch einen Datenanschluss, der an dem Fahrzeug 102 bereitgestellt ist, wie etwa einen USB-(Universal-Serial-Bus-)Anschluss.
In einer Umsetzung können Objektdaten zusätzlich zu Bilddaten und eingegebenen Kandidatenmarkierungen 136 ferner Umgebungsdaten beinhalten, die einem Zeitpunkt zugeordnet sind, zu dem die eingegebene Kandidatenmarkierung 136 eingegeben wurde; Umgebungsdaten sind Daten, die Messungen von Phänomenen außerhalb eines Fahrzeugs 102, d. h. in einer Umgebung um das Fahrzeug 102, bereitstellen. Somit können Fahrzeugumgebungsdaten Straßendaten, Wetterdaten, Verkehrsdichtedaten und dergleichen beinhalten. Ferner werden Umgebungsdaten typischerweise durch die Sensoren 108 des Fahrzeugs 102 gesammelt, könnten aber alternativ oder zusätzlich auf Grundlage eines Zeitpunktes oder von Zeitpunkten, zu denen sich das Fahrzeug 102 an einem vorgegebenen Standort befindet oder durch diesen fährt, von einer Quelle außerhalb des Fahrzeugs 102 bereitgestellt werden, z. B. einer entfernten Quelle, wie etwa einem Server 128.
Der Bildsensor kann eine Vielzahl von Videoeinzelbildern beinhalten, die das Objekt beinhaltet und über ein Zeitintervall aufgenommen wird, während sich das Fahrzeug 102 bewegt. In einem derartigen Beispiel kann ein Bild eines Objekts, das einem Benutzer über die HMI 118 des Fahrzeugs 102 dargestellt wird, ein Standbild sein, z. B. eines der Einzelbilder. Die dem entfernten Server 128 bereitgestellten Objektdaten können jedoch die Vielzahl von Einzelbildern, z. B. Einzelbilder für einen Zeitraum, wie etwa fünf Sekunden, 10 Sekunden usw., zusammen mit der eingegebenen Kandidatenmarkierung 136 beinhalten. Durch das Bereitstellen einer Vielzahl von Einzelbildern, die während eines Zeitintervalls gesammelt werden und ein Objekt beinhalten, das einer eingegebenen Kandidatenmarkierung 136 zugeordnet ist, wird vorteilhafterweise ein umfangreicherer Markierungsdatensatz zum Trainieren eines Programms des maschinellen Lernens zur Objekterkennung bereitgestellt, als aus einzelnen Einzelbildern bereitgestellt werden könnte, d. h. Einzelbildern, die ein Objekt zu einem einzigen Zeitpunkt bereitstellen.
Eine eingegebene Kandidatenmarkierung 136 kann eine erste eingegebene Kandidatenmarkierung 136 sein, die einem ersten Zeitpunkt in dem Zeitintervall zugeordnet ist; die Objektdaten können dann eine oder mehrere zweite eingegebene Kandidatenmarkierungen 136 beinhalten, die jeweils einem oder mehreren zweiten Zeitpunkten in dem Zeitintervall zugeordnet sind. Dies bedeutet, dass eingegebene Kandidatenmarkierungen 136 unterschiedlichen Zeitintervallen zugeordnet sein können. Zum Beispiel kann ein Bild eines Objekts nach einem ersten Zeitintervall über die HMI 118 angezeigt werden und kann eine von einem Benutzer eingegebene Kandidatenmarkierung 136 erhalten werden. Dann kann ein Bild des Objekts nach einem zweiten Zeitintervall über die HMI 118 angezeigt werden und kann eine zweite von einem Benutzer eingegebene Kandidatenmarkierung 136 für das Objekt erhalten werden. Entsprechende Sätze von Objektdaten, d. h. für jedes von dem ersten und zweiten Zeitintervall, können dann dem entfernten Server 128 bereitgestellt und in einer Objektdatenbank 130, die sich in dem Server 128 befindet oder auf die dieser zugreifen kann, gespeichert werden.
Wie vorstehend angegeben, beinhaltet das Objekterfassungssystem 100 typischerweise eine Vielzahl von Fahrzeugen 102. Objekterfassungsdaten, die dem entfernten Server 128 von einem ersten Fahrzeug 102 bereitgestellt werden, können somit der Einfachheit halber als ein erster Satz von Objektdaten in einer Vielzahl von Sätzen von Objektdaten bezeichnet werden. Bei einer eingegebenen Kandidatenmarkierung 136, die in einem ersten Satz von Objektdaten eingeschlossen ist, handelt es sich um eine von einer Vielzahl von eingegebenen Kandidatenmarkierungen 136 in Sätzen von Objektdaten von entsprechenden Fahrzeugen 102 in der Vielzahl von Fahrzeugen 102. Somit kann der Zentralserver 128 dazu programmiert sein, die Vielzahl von Sätzen von Objektdaten von entsprechenden Fahrzeugen 102 in der Vielzahl von Fahrzeugen 102 zu empfangen.
Der Server 128 kann dazu programmiert sein, eine Kreuzvalidierung gemäß einer beliebigen geeigneten Kreuzvalidierungstechnik durchzuführen, um Markierungen in einem oder mehreren der Sätze von Objektdaten zu verifizieren oder abzulehnen. Ein Vorteil des Empfangens von Daten von einer Vielzahl von Fahrzeugen 102 und/oder von einer Vielzahl von Benutzern besteht darin, dass eine Kreuzvalidierung verwendet werden kann, um Eingaben von entsprechenden Fahrzeugen 102 und/oder Benutzern auszuwerten. Zum Beispiel könnten Objektdaten von einer Vielzahl von Fahrzeugen 102 gesammelt werden und es könnte bestimmt werden, dass diese sich auf ein und dasselbe Objekt beziehen, d. h. auf Grundlage davon, dass die Zeitpunkte der Sammlung der entsprechenden Objektdaten innerhalb eines vorbestimmten Intervalls liegen und die Objektdaten an entsprechenden Standorten innerhalb eines vorbestimmten Schwellenwertes (z. B. fünf Meter oder 10 Meter) voneinander gesammelt werden. Kreuzvalidierungstechniken könnten dann verwendet werden, um das Training eines Programms des maschinellen Lernens unter Verwendung der Objektdaten auszuwerten. Ferner könnten Kreuzvalidierungstechniken verwendet werden, um Daten, die von einer spezifischen Quelle, z. B. einem Fahrzeug 102 und/oder einem Benutzer, bereitgestellt werden, zurückzuhalten und dann eine eingegebene Kandidatenmarkierung 136 in den zurückgehaltenen Objektdaten mit einem Ergebnis des Trainings des Programms des maschinellen Lernens zu vergleichen. Dann, wenn der Vergleich angibt, dass ein Satz von Objektdaten auf Grundlage von Ergebnissen des Trainings des Programms des maschinellen Lernens anhand anderer Objektdaten eine abgelehnte Markierung beinhaltet, z. B., dass eine Quelle eine falsche Markierung für ein Objekt beinhaltet, kann der Server 128 dann eine als falsch angesehene Markierung ablehnen. Abgelehnte Markierungen können aus den Objektdaten entfernt werden, die dann zum Trainieren des Programms des maschinellen Lernens verwendet werden.
Ferner kann der Server 128 eine Klassifizierung für eine Quelle von Objektdaten, z. B. einen Benutzer und/oder ein Fahrzeug 102, auf Grundlage des Annehmens oder Ablehnens von Markierungen in Objektdaten von einer Objektdatenquelle generieren. Die Klassifizierung könnte gemäß einer Punktzahl oder Bewertung für die Obj ektdatenquelle erfolgen. Wenn zum Beispiel Objektdaten von einer Quelle eine Markierung beinhalten, die als richtig oder falsch bestimmt wurde, z. B. auf Grundlage einer Kreuzvalidierung, kann der Server 128 dazu programmiert sein, eine Klassifizierung, z. B. eine Bewertung, für diese Quelle zu aktualisieren. Eine Bewertung ist in diesem Zusammenhang ein numerischer Wert, der verwendet werden kann, um eine Gewichtung zuzuweisen, die einer eingegebenen Kandidatenmarkierung 136 in Objektdaten von einer Quelle gegeben werden soll. Die Bewertung kann eine Konfidenz angeben, dass eine Markierung von der Quelle korrekt ist, d. h. mit der Ground Truth übereinstimmt. Zum Beispiel könnte einer Quelle anfangs ein Standard- oder Normalwert zugewiesen werden, z. B. 0,8 oder 80 %. Der Server 128 könnte dann dazu programmiert sein, die Standardbewertung nach oben oder unten anzupassen, wenn davon ausgegangen wird, dass eine falsche oder richtige Markierung bereitgestellt wurde. Ferner könnte der Server 128 dazu programmiert sein, eine Standartbewertung nach oben oder unten anzupassen, wenn davon ausgegangen wird, dass eine Gesamtanzahl von falschen oder richtigen Markierungen von einer Quelle bereitgestellt wurde. Eine Gesamtanzahl von richtigen oder falschen Markierungen muss möglicherweise eine Schwellenanzahl überschreiten, z. B. 10 Markierungen, 100 Markierungen usw., und könnte durch Zuweisen eines positiven Wertes zu richtigen Markierungen und eines negativen Wertes zu falschen Markierungen und dann Bestimmen der Gesamtanzahl als eine Summe der Werte, die richtigen und falschen Markierungen zugewiesen sind, bestimmt werden.
Eine Bewertung eines Benutzers könnte verwendet werden, um dem Benutzer eine Belohnung bereitzustellen, z. B. könnten einer Benutzervorrichtung Token oder dergleichen bereitgestellt werden, um Käufe zu tätigen, Rabatte zu erhalten usw. Eine Bewertung könnte außerdem verwendet werden, um einem Benutzer eine Ermutigung, sich zu verbessern, um eine Belohnung zu erhalten, bereitzustellen. Ferner könnte der Computer 104 des Servers 128 einem Fahrzeug 102 ein aktualisiertes Datensammelmodul 122 bereitstellen, indem eine Regel zum Anfordern einer Benutzereingabe auf Grundlage eines Ergebnisses der Kreuzvalidierung eingestellt wird, z. B. auf Grundlage von Einstellen einer Bewertung für eine Objektdatenquelle, z. B. ein Fahrzeug 102 oder einen Benutzer des Fahrzeugs 102. Zum Beispiel könnte eine Klassifizierung für eine Objektdatenquelle auf Grundlage einer Bewertung vorgeben, dass der Benutzer dazu berechtigt ist, eingegebene Kandidatenmarkierungen 136 bereitzustellen, oder nicht. Eine aktualisierte Regel in einem Datensammelmodul 122 könnte vorgeben, dass ein Benutzer, der zuvor zum Bereitstellen eingegebener Kandidatenmarkierungen 136 berechtigt war, nicht mehr dazu berechtigt ist, eingegebene Kandidatenmarkierungen 136 bereitzustellen, und/oder dass Kandidatenmarkierungen 136, die von diesem Benutzer eingegeben werden, ignoriert werden sollen, z. B. nicht in Objektdaten von einem Fahrzeug 102 für den entfernten Server 128 bereitgestellt werden.
Ferner kann eine Klassifizierung einer Objektdatenquelle, wie etwa eines Benutzers, eine Bewertung der Quelle für eine spezifische Art von Objekt beinhalten. Unter einer Art von Objekt ist eine Klassifizierung des Objekts zu verstehen, die durch ein Programm des maschinellen Lernens ausgegeben werden kann, z. B. sind Fahrzeuge 102, Steine, Verkehrsschilder, Fußgänger, Fahrräder, Zäune usw. Arten von Objekten. Der Computer des Servers 128 kann dazu programmiert sein, eine Art von einem der Objekte in den Sätzen von Objektdaten zu bestimmen, z. B. gemäß einem Programm des maschinellen Lernens. Auf Grundlage einer identifizierten Art eines Objekts von einem Programm des maschinellen Lernens und einer Kreuzvalidierung der Identifizierung der Art des Objekts in einem Satz von Objektdaten von einer Quelle kann eine Regel in einem Datensammelmodul 122 aktualisiert werden, um eine Häufigkeit (z. B. auf einer Skala von null bis eins, wobei null „nie“ ist und eins „immer“ ist) vorzugeben, mit der ein Benutzer, der die eingegebene Kandidatenmarkierung 136 für das eine der Objekte bereitstellt, aufgefordert wird, eine Eingabe bereitzustellen, wenn eine Kandidatenmarkierung 136 die Art vorgibt.
In einigen Umsetzungen kann der Computer des Servers 128 dazu programmiert sein, eingegebene Kandidatenmarkierungen 136 in entsprechenden Sätzen von Objektdaten mit Kartendaten zu vergleichen, um eine Verifizierung von einem von den eingegebenen Kandidatenmarkierungen 136 oder den Kartendaten durchzuführen. Wie vorstehend erwähnt, beinhalten Objektdaten typischerweise Standortdaten, die einen Standort vorgeben, an dem ein in den Objektdaten eingeschlossenes Bild gesammelt wurde. Der Standort in den Objektdaten kann mit einem auf einer Karte vorgegebenen Standort verglichen werden, um eine eingegebene Kandidatenmarkierung 136 zu verifizieren. Wenn ein Standort in den Objektdaten innerhalb eines vorbestimmten Schwellenwertes eines Standortes liegt, der auf einer Karte für ein Objekt vorgegeben ist, und die eingegebene Kandidatenmarkierung 136 eine Art von Objekt identifiziert, z. B. ein Verkehrsschild, eine Ampel usw., die für den auf der Karte vorgegebenen Standort für das Objekt angegeben ist, kann die eingegebene Kandidatenmarkierung 136 als verifiziert bestimmt werden. Somit kann ein Vergleich einer eingegebenen Kandidatenmarkierung 136 mit Kartendaten verwendet werden, um Markierungen zu verbessern, die zum Trainieren eines Erfassungsmoduls 124 verwendet werden, und/oder kann ein alternativer oder zusätzlicher Mechanismus zu der vorstehend beschriebenen Kreuzvalidierung zum Einstellen einer Bewertung für eine Objektquelle sein. Wie vorstehend erwähnt, kann ein Erfassungsmodul 124 verwendet werden, um eine Ausgabe zum Betreiben von einem oder mehreren Fahrzeugteilsystemen 110 bereitzustellen, einschließlich verschiedener Komponenten, wie etwa eines Bremsteilsystems 112, eines Antriebsteilsystems 114, eines Lenkteilsystems 116 und der HMI 118 des Fahrzeugs 102. Das Bremsteilsystem 112 wirkt der Bewegung des Fahrzeugs 102 entgegen, um dadurch das Fahrzeug 102 abzubremsen und/oder anzuhalten. Das Bremsteilsystem 112 kann Folgendes beinhalten: Reibungsbremsen, wie etwa Scheibenbremsen, Trommelbremsen, Bandbremsen und so weiter; Nutzbremsen; eine beliebige andere geeignete Art von Bremsen; oder eine Kombination. Das Bremsteilsystem 112 steht mit dem Computer 104 und/oder einem menschlichen Bediener in Kommunikation und empfängt Eingaben von diesen/diesem. Der menschliche Bediener kann das Bremsteilsystem 112 z. B. über ein Bremspedal steuern. Das Lenkteilsystem 116 steuert das Drehen der Räder. Das Lenkteilsystem 116 steht mit einem Lenkrad und/oder dem Computer 104 in Kommunikation und empfängt Eingaben von diesen/diesem. Das Lenkteilsystem 116 kann ein Zahnstangensystem mit elektrischer Servolenkung, ein elektrisches Lenksystem, wie sie z. B. bekannt sind, oder ein beliebiges anderes geeignetes System beinhalten. Das Antriebsteilsystem 114 kann eines oder mehrere von einer Brennkraftmaschine, einem elektrischen Motor, einem Hybridmotor usw. beinhalten. 2 und 3 veranschaulichen entsprechende Beispiele für eine HMI 118 in einem Fahrzeug 102, die ein Kandidatenobjekt 132, das von einem Begrenzungsrahmen 134 umgeben ist, und einen Satz von Kandidatenmarkierungen 136 für das Kandidatenobjekt 132 beinhaltet. Wenn ein Sammelmodul 122 in dem Fahrzeug 102 ausgeführt wird, empfängt das Erfassungsmodul 122 Daten von den Sensoren 108 des Fahrzeugs 102, die in das Programm des maschinellen Lernens in dem Erfassungsmodul 122 eingegeben werden, das dann das Kandidatenobjekt 132 zusammen mit einem Begrenzungsrahmen 134 für das Kandidatenobjekt 132 ausgibt. In einigen Umsetzungen gibt das Programm des maschinellen Lernens in dem Erfassungsmodul ferner eine oder mehrere Kandidatenmarkierungen aus, die in der HMI eingeschlossen sein können, damit ein Benutzer in dem Fahrzeug 102 diese auswählen und/oder bestätigen kann.
4 ist ein Blockdiagramm eines beispielhaften tiefen neuronalen Netzes oder DNN 138. Bei einem DNN 138 kann es sich beispielsweise um ein Softwareprogramm handeln, das in den Speicher geladen und durch einen Prozessor, der in einem Computer 104 eingeschlossen ist, ausgeführt werden kann. In einer beispielhaften Umsetzung kann das DNN 138 unter anderem ein Faltungs-DNN 138 (convolutional neural network - CNN), R-CNN (regionenbasiertes CNN), Fast-R-CNN und Faster-R-CNN beinhalten. Das DNN 138 beinhaltet mehrere Knoten und die Knoten sind so angeordnet, dass das DNN 138 eine Eingabeschicht, eine oder mehrere verborgene Schichten und eine Ausgabeschicht beinhaltet. Jede Schicht des DNN 138 kann eine Vielzahl von Knoten beinhalten. Während drei verborgene Schichten veranschaulicht sind, versteht es sich, dass das DNN 138 zusätzliche oder weniger verborgene Schichten beinhalten kann. Die Eingabe- und die Ausgabeschicht können auch mehr als einen Knoten beinhalten.
Die Knoten werden gelegentlich als künstliche Neuronen 140 bezeichnet, da sie dazu ausgebildet sind, biologische, z. B. menschliche, Neuronen nachzuahmen. Ein Satz von Eingaben (durch die Pfeile dargestellt) an jedem Neuron 140 wird jeweils mit entsprechenden Gewichtungen multipliziert. Die gewichteten Eingaben können dann in einer Eingabefunktion summiert werden, um eine, möglicherweise um eine Vorspannung angepasste, Nettoeingabe bereitzustellen. Die Nettoeingabe kann dann an einer Aktivierungsfunktion bereitgestellt werden, durch die wiederum eine Ausgabe an einem verbundenen Neuron 140 bereitgestellt wird. Bei der Aktivierungsfunktion kann es sich um eine Vielfalt von geeigneten Funktionen handeln, die typischerweise auf Grundlage einer empirischen Analyse ausgewählt werden. Wie durch die Pfeile in der Figur veranschaulicht, können die Ausgaben des Neurons 140 dann zur Aufnahme in einen Satz von Eingaben für ein oder mehrere Neuronen 140 in einer nächsten Schicht bereitgestellt werden.
Als ein Beispiel kann das DNN 138 mit Ground-Truth-Daten trainiert werden, d. h. Daten zu einer/einem realen Bedingung oder Zustand. Zum Beispiel kann das DNN 138 mit Ground-Truth-Daten trainiert und/oder mit zusätzlichen Daten aktualisiert werden. Die Gewichtungen können zum Beispiel durch das Verwenden einer Gauß-Verteilung initialisiert werden und eine systematische Messabweichung für j eden Knoten kann auf null gesetzt werden. Das Trainieren des DNN 138 kann Aktualisieren von Gewichtungen und systematische Messabweichungen durch geeignete Techniken beinhalten, wie etwa Fehlerrückführung mit Optimierungen. Unter Ground-Truth-Daten sind Daten zu verstehen, von denen ausgegangen wird, dass sie eine reale Umgebung darstellen, z. B. Bedingungen und/oder Objekte in der Umgebung. Somit können Ground-Truth-Daten Sensordaten beinhalten, die eine Umgebung, z. B. ein Objekt in einer Umgebung, zusammen mit einer Markierung oder Markierungen, welche die Umgebung beschreiben, z. B. einer Markierung, die das Objekt beschreibt, darstellen. Ground-Truth-Daten können ferner Metadaten beinhalten, wie etwa einen Standort oder Standorte, an denen die Ground-Truth-Daten erhalten wurden, einen Zeitpunkt des Erhaltens der Ground-Truth-Daten usw., oder durch diese vorgegeben sein.
Im vorliegenden Zusammenhang kann es sich bei einem ersten Programm des maschinellen Lernens, das in einem Sammelmodul 122 eingeschlossen ist, um ein DNN 138 handeln, das mit einer Ground-Truth-Datenmarkierung trainiert ist, um reale Objekte vorzugeben, z. B. Autos, Lastwagen, Bäume, Verkehrsschilder, Ampeln usw. Das DNN 138 kann trainiert werden, um ein Kandidatenobjekt 132 und einen Begrenzungsrahmen 134 für ein Kandidatenobjekt 132 zusammen mit einer oder mehreren Kandidatenmarkierungen 136 auszugeben. Zum Beispiel kann das DNN 138 trainiert werden, um wahrscheinliche Objekte in Bildern einer Umgebung des Fahrzeugs 102 auf Grundlage von Pixeln, die Objekte darstellen, und Pixeln, die einen Rest einer Umgebung des Fahrzeugs 102 darstellen, zu identifizieren, z. B. unter Verwendung von Kantenerfassungstechniken oder dergleichen. Ferner kann das DNN 138 trainiert werden, um eine vorläufige Klassifizierung oder vorläufige Klassifizierungen eines Objekts bereitzustellen, d. h. solche, die als eine oder mehrere Kandidatenmarkierungen 136 bereitgestellt werden können.
Das zweite Programm des maschinellen Lernens, das in einem Erfassungsmodul 124 eingeschlossen ist, kann dann unter Verwendung von Objektdaten trainiert werden, die durch ein Sammelmodul 122 gesammelt werden, welches das erste Programm des maschinellen Lernens beinhaltet. Zum Beispiel kann der Computer 104 des Fahrzeugs 102 dann, nachdem eine Kandidatenmarkierung 136 als Reaktion auf eine Anzeige eines Bildes, das ein Objekt beinhaltet, durch einen Benutzer in eine HMI 118 des Fahrzeugs 102 eingegeben wird, Objektdaten senden, die einen durch einen Begrenzungsrahmen 134 definierten Abschnitt des Bildes, der gelegentlich als ein „zugeschnittenes“ Bild bezeichnet wird, zusammen mit der ausgewählten Kandidatenmarkierung 136 beinhalten. Das zugeschnittene Bild kann dann ein Bild sein, das bereitgestellt wird, um das zweite Programm des maschinellen Lernens zu trainieren. Ferner können, wie vorstehend angemerkt, die Objektdaten andere Daten beinhalten, wie etwa einen Standort des Fahrzeugs 102 zu dem Zeitpunkt der Aufnahme des Bildes, Umgebungsdaten usw.
5 ist ein Prozessablaufdiagramm eines beispielhaften Prozesses 150 zum Trainieren und Einsetzen eines Objekterfassungsmoduls 124.
Der Prozess 150 kann bei einem Block 152 beginnen, bei dem ein erstes Programm des maschinellen Lernens, z. B. ein DNN 138, trainiert wird, um die Kandidatenobjekte 132 und die zugeordneten Begrenzungsrahmen 134 zu identifizieren, wie vorstehend beschrieben.
Als Nächstes wird bei einem Block 154 das Sammelmodul 122 in einem oder mehreren Fahrzeugen 102 eingesetzt, typischerweise in Dutzenden, Hunderten oder Tausenden von Fahrzeugen 102.
Als Nächstes werden bei einem Block 156 gesammelte Objektdaten von dem/den Sammelmodul(en) 122, das/die wie vorstehend beschrieben eingesetzt wird/werden, dem entfernten Server 128 bereitgestellt und in diesem empfangen, z. B. in einer Objektdatenbank 130 gespeichert, bei der es sich um eine relationale Datenbank, ein Dateisystem usw. handeln kann. Verschiedene Fahrzeuge 102 können gesammelte Daten zu verschiedenen Zeitpunkten bereitstellen, z. B., wenn auf das Weitverkehrsnetzwerk 126 zugegriffen werden kann, wenn sich das Fahrzeug 102 nahe oder in einem Servicecenter befindet, zu einem geplanten Zeitpunkt usw.
Als Nächstes kann bei einem Block 158 ein Erfassungsmodul 124 an dem Server 128 generiert und/oder aktualisiert werden. Dies bedeutet, dass das Erfassungsmodul 124 wie vorstehend beschrieben ein zweites DNN 138 beinhalten kann, das dazu trainiert ist, Objekte zu erfassen, d. h. zu identifizieren und/oder zu klassifizieren. Das DNN 138 des Erfassungsmoduls 124 kann mit den Obj ektdaten trainiert werden, die wie vorstehend beschrieben gesammelt werden. Als Nächstes kann bei einem Block 160 das Erfassungsmodul 124 einem oder mehreren Fahrzeugen 102 bereitgestellt werden. Es ist anzumerken, dass, wenngleich ein Fahrzeug 102 in 1 so veranschaulicht ist, dass es sowohl ein Sammelmodul 122 als auch ein Erfassungsmodul 124 beinhaltet, es möglich und sogar wahrscheinlich ist, dass verschiedene Fahrzeuge 102 eines von dem Erfassungsmodul 122 und dem Erfassungsmodul beinhalten 124, jedoch nicht beide.
Bei einem Block 162 können ein oder mehrere Fahrzeuge 102 unter Verwendung einer Eingabe von dem Erfassungsmodul 124 mindestens teilweise mit dem Computer 104 des Fahrzeugs 102 betrieben werden, um den Betrieb des Fahrzeugs 102 zu unterstützen. Zum Beispiel kann das Erfassungsmodul 124 eine Identifizierung eines Objekts bereitstellen, woraufhin der Computer 104 des Fahrzeugs 102 ein Fahrzeugteilsystem 110 auf Grundlage der Objektidentifizierung oder -klassifizierung betätigen kann. Zum Beispiel kann der Computer 104 ein Fahrzeug 102 dazu veranlassen, eine Geschwindigkeit oder Richtung zu ändern, d. h. als Reaktion auf eine Objektidentifizierung, die durch das Erfassungsmodul 124 bereitgestellt wird, eines oder mehrere von einem Bremsteilsystem 112, einem Antriebsteilsystem 114 und einem Lenkteilsystem 116 zu betreiben.
Nach dem Block 162 endet der Prozess 150.
6 ist ein Prozessablaufdiagramm, das Details eines beispielhaften Prozesses 170 zum Ausführen eines Sammelmoduls 122 zum Trainieren und Trainieren des Objekterfassungsmoduls 124 beinhaltet.
Der Prozess 170 beginnt bei einem Block 172, bei dem ein Sammelmodul 122 in einem Fahrzeug 102 eine Umgebung des Fahrzeugs 102 auf Kandidatenobjekte 132 überwacht. Wie vorstehend erwähnt, kann das Sammelmodul 122 ein erstes Programm des maschinellen Lernens beinhalten, um Kandidatenobjekte 132 zu erfassen. Das Sammelmodul 122 kann ferner eine Programmierung beinhalten, um mit dem Überwachen zu beginnen, z. B., wenn sich eine Zündung eines Fahrzeugs 102 in einem „Ein“-Zustand befindet, wenn sich ein Fahrzeug 102 bewegt, wenn das Sammelmodul 122 gemäß einer Benutzereingabe aktiviert ist, wenn das Sammelmodul 122 auf Grundlage eines GPS-Sensors des Fahrzeugs 102 aktiviert ist, der vorgibt, dass sich das Fahrzeug 102 an einem Standort in einem Bereich befindet, für dessen Überwachung das Erfassungsmodul 122 programmiert ist usw. Das Erfassungsmodul 122 kann ferner eine Programmierung zum Anzeigen eines Bildes eines Kandidatenobjekts 132 und eines Begrenzungsrahmens 134 und möglicherweise außerdem Kandidatenmarkierungen 136 für ein Kandidatenbild beinhalten, wenn das Programm des maschinellen Lernens in dem Erfassungsmodul 122 das Kandidatenobjekt 132 und den Begrenzungsrahmen 134 ausgibt.
Als Nächstes kann bei einem Block 174 ein Computer 104 des Fahrzeugs 102 bestimmen, ob das Sammelmodul 122 ein Kandidatenobjekt 132 ausgegeben hat. Falls dies der Fall ist, wird als Nächstes ein Block 176 ausgeführt. Andernfalls geht der Prozess 170 zu einem Block 180 über.
Bei dem Block 176 kann der Computer 104 bewirken, dass das Kandidatenobjekt 132 und der zugeordnete Begrenzungsrahmen 134 auf einer Anzeige einer HMI 118 des Fahrzeugs 102 angezeigt werden, wie z. B. in 2 und 3 gezeigt.
Als Nächstes kann der Computer 104 110 bei einem Block 178 eine Eingabe empfangen, z. B. über die HMI 118 des Fahrzeugs 102, die eine Kandidatenmarkierung 136 bereitstellt. Zum Beispiel kann ein Benutzer eine Kandidatenmarkierung 136 aus einer bereitgestellten Liste auswählen, wie in 2 und 3 gezeigt. Alternativ oder zusätzlich könnte der Computer 104 110 dazu programmiert sein, eine Kandidatenmarkierung 136 anzunehmen, die von einem Benutzer ohne eine Liste von einem oder mehreren aussagekräftigen Markierungen vorgegeben wird. Dies bedeutet, dass die Listen der Kandidatenmarkierungen 136 aus 2 und 3 weggelassen werden könnten, oder, selbst wenn sie nicht eingeschränkt wären, ein Benutzer eine Eingabe bereitstellen könnte, z. B. eine Spracheingabe, die eine Markierung vorgibt, z. B. „Auto“, „Baum“, "„ Fahrrad "usw., ohne Berücksichtigung einer Liste von Kandidatenmarkierungen 136.
Im Anschluss an Block 174 oder 178 wird bei einem Block 180 bestimmt, ob der Prozess 170 fortgesetzt werden soll. Zum Beispiel könnte eine Benutzereingabe bereitgestellt werden, um den Prozess anzuhalten, könnte ein Fahrzeug 102 in einen „Aus“-Zustand überführt werden usw. Wenn der Prozess 170 fortgesetzt werden soll, wird als Nächstes der Block 172 ausgeführt. Andernfalls geht der Prozess 170 zu einem Block 182 über.
Bei dem Block 182 werden bei dem Block 178 gesammelte und gespeicherte Objektdaten an einen Server 128 ausgelagert, z. B. an einen Datenspeicher in einer Objektdatenbank 130 zur Verwendung beim Trainieren eines Erfassungsmoduls 124. Wie vorstehend erwähnt, beinhalten die Objektdaten typischerweise Bilder, die durch Begrenzungsrahmen 134 definiert sind, die Kandidatenobjekte 132 beinhalten, zusammen mit Kandidatenmarkierung 136 für die Objekte und möglicherweise zusammen mit anderen Daten, wie etwa Umgebungsdaten. Objektdaten können von einem Computer 104 des Fahrzeugs 102 über verschiedene Mechanismen ausgelagert werden, z. B. über eine geplante Übertragung über das Weitverkehrsnetzwerk 126, durch Zugreifen auf einen Datenanschluss an dem Fahrzeug 102 usw.
Im Anschluss an den Block 182 endet das Verfahren 170.
Die Verwendung von „als Reaktion auf, „auf Grundlage von“ und „bei Bestimmen“ in dieser Schrift gibt eine kausale Beziehung an, nicht nur eine rein temporale Beziehung.
Der Ausdruck „beispielhaft“ wird in dieser Schrift in dem Sinne verwendet, dass er ein Beispiel angibt, z. B. sollte eine Bezugnahme auf ein „beispielhaftes Gerät“ einfach als Bezugnahme auf ein Beispiel für ein Gerät gelesen werden.
Ausführbare Anweisungen für einen Computer können von Computerprogrammen zusammengestellt oder interpretiert werden, die unter Verwendung einer Vielfalt von Programmiersprachen und/oder -techniken erstellt wurden, darunter unter anderem, entweder allein oder in Kombination, Java™, C, C++, Visual Basic, Java Script, Perl, HTML usw. Im Allgemeinen empfängt ein Prozessor (z. B. ein Mikroprozessor) Anweisungen, z. B. von einem Speicher, einem computerlesbaren Medium usw., und führt diese Anweisungen aus, wodurch er einen oder mehrere Prozesse durchführt, darunter einen oder mehrere der in dieser Schrift beschriebenen Prozesse. Derartige Anweisungen und andere Daten können unter Verwendung einer Vielfalt von computerlesbaren Medien gespeichert und übertragen werden. Eine Datei in einer vernetzten Vorrichtung ist im Allgemeinen eine Sammlung von Daten, die auf einem computerlesbaren Medium, wie etwa einem Speichermedium, einem Direktzugriffsspeicher usw., gespeichert sind. Ein computerlesbares Medium beinhaltet ein beliebiges Medium, das an der Bereitstellung von Daten (z. B. Anweisungen) beteiligt ist, die von einem Computer gelesen werden können. Ein derartiges Medium kann viele Formen annehmen, die unter anderem nicht flüchtige Medien, flüchtige Medien usw. beinhalten können. Nicht flüchtige Medien beinhalten zum Beispiel optische oder magnetische Festplatten und andere Dauerspeicher. Flüchtige Medien beinhalten dynamischen Direktzugriffsspeicher (dynamic random access memory - DRAM), der typischerweise einen Hauptspeicher darstellt. Zu gängigen Formen computerlesbarer Medien gehören zum Beispiel eine Diskette, eine Folienspeicherplatte, eine Festplatte, ein Magnetband, ein beliebiges anderes magnetisches Medium, eine CD-ROM, eine DVD, ein beliebiges anderes optisches Medium, ein beliebiges anderes physisches Medium mit Lochmustern, ein RAM, ein PROM, ein EPROM, ein FLASH-EEPROM, ein beliebiger anderer Speicherchip oder eine beliebige andere Speicherkassette oder ein beliebiges anderes Medium, das durch einen Computer ausgelesen werden kann.
In den Zeichnungen geben gleiche Bezugszeichen die gleichen Elemente an. Ferner könnten einige oder alle dieser Elemente verändert werden. Hinsichtlich der in dieser Schrift beschriebenen Medien, Prozesse, Systeme, Verfahren usw. versteht es sich, dass, wenngleich die Schritte derartiger Prozesse usw. als gemäß einer gewissen geordneten Abfolge erfolgend beschrieben worden sind, die beschriebenen Schritte bei der Ausführung derartiger Prozesse in einer Reihenfolge durchgeführt werden könnten, bei der es sich nicht um die in dieser Schrift beschriebene Reihenfolge handelt, es sei denn, es ist etwas anderes angegeben oder erschließt sich aus dem Zusammenhang. Gleichermaßen versteht es sich ferner, dass gewisse Schritte gleichzeitig durchgeführt werden können, dass andere Schritte hinzugefügt oder dass gewisse, in dieser Schrift beschriebene Schritte ausgelassen werden können. Anders ausgedrückt, werden die Beschreibungen von Prozessen in dieser Schrift zur Veranschaulichung gewisser Ausführungsformen bereitgestellt und sollten keinesfalls dahingehend ausgelegt werden, dass sie die beanspruchte Erfindung einschränken.
Die Offenbarung wurde auf veranschaulichende Weise beschrieben und es versteht sich, dass die Terminologie, die verwendet wurde, beschreibenden und nicht einschränkenden Charakters sein soll. In Anbetracht der vorstehenden Lehren sind viele Modifikationen und Variationen der vorliegenden Offenbarung möglich und kann die Offenbarung anders als konkret beschrieben umgesetzt werden. Die vorliegende Erfindung soll lediglich durch die folgenden Ansprüche eingeschränkt sein.
Gemäß der vorliegenden Erfindung ist ein System bereitgestellt, das Folgendes aufweist: einen Bildsensor mit einem Sichtfeld einer Außenseite eines Fahrzeugs; eine Mensch-Maschine-Schnittstelle (HMI) in dem Fahrzeug, die dazu angeordnet ist, Bilder auf Grundlage von Daten von dem Bildsensor anzuzeigen; und einen ersten Computer, der einen Prozessor und einen Speicher beinhaltet und zu Folgendem programmiert ist: Bereitstellen von Daten von dem Bildsensor an ein Programm des maschinellen Lernens, das einen Begrenzungsrahmen um ein Objekt ausgibt; Veranlassen, dass der Begrenzungsrahmen um das Objekt über die HMI angezeigt wird; und Übertragen von Objektdaten, die eine eingegebene Markierung beinhalten, die das Objekt identifiziert, an einen zweiten Computer, der von dem Fahrzeug entfernt ist. Gemäß einer Ausführungsform gibt das Programm des maschinellen Lernens ferner eine oder mehrere Kandidatenmarkierungen für das Objekt aus und ist der erste Computer dazu programmiert, eine Eingabe zu empfangen, die eine Benutzerauswahl von einer der einen oder mehreren Kandidatenmarkierungen vorgibt.
Gemäß einer Ausführungsform ist das Objekt ein erstes Objekt in einer Vielzahl von Objekten und ist der Begrenzungsrahmen ein erster Begrenzungsrahmen in einer Vielzahl von Begrenzungsrahmen; gibt das Programm des maschinellen Lernens ferner die Vielzahl von Begrenzungsrahmen aus, die den ersten Begrenzungsrahmen und mindestens einen zweiten Begrenzungsrahmen beinhaltet; und wobei ferner jeder der Begrenzungsrahmen um ein entsprechendes Objekt in der Vielzahl von Objekten bereitgestellt ist, die das erste Objekt und mindestens ein zweites Objekt beinhaltet.
Gemäß einer Ausführungsform beinhalten die Objektdaten ferner Daten zu einer Umgebung um das Fahrzeug, die einem Zeitpunkt zugeordnet sind, zu dem die eingegebene Markierung eingegeben wurde.
Gemäß einer Ausführungsform beinhalten die Daten von dem Bildsensor eine Vielzahl von Videoeinzelbildern, die das Objekt beinhaltet und über ein Zeitintervall aufgenommen wird, während sich das Fahrzeug bewegt.
Gemäß einer Ausführungsform ist die eingegebene Markierung eine erste eingegebene Markierung und ist diese einem ersten Zeitpunkt in dem Zeitintervall zugeordnet und beinhalten die Objektdaten eine oder mehrere zweite eingegebene Markierungen, die jeweils einem oder mehreren zweiten Zeitpunkten in dem Zeitintervall zugeordnet sind.
Gemäß einer Ausführungsform ist das Fahrzeug ein erstes Fahrzeug in einer Vielzahl von Fahrzeugen und sind die Objektdaten ein erster Satz von Objektdaten in einer Vielzahl von Sätzen von Objektdaten, wobei die eingegebene Markierung eine von einer Vielzahl von eingegebenen Markierungen in den entsprechenden Sätzen von Objektdaten ist; und das System ferner den zweiten Computer umfasst, wobei der zweite Computer einen zweiten Prozessor und einen zweiten Speicher beinhaltet und dazu programmiert ist, die Vielzahl von Sätzen von Objektdaten von entsprechenden Fahrzeugen in der Vielzahl von Fahrzeugen zu empfangen.
Gemäß einer Ausführungsform ist der zweite Computer ferner dazu programmiert, eine Kreuzvalidierung durchzuführen, um Markierungen in einem oder mehreren der Sätze von Objektdaten zu verifizieren oder abzulehnen.
Gemäß einer Ausführungsform ist der zweite Computer ferner dazu programmiert, abgelehnte Markierungen aus den Objektdaten zu entfernen.
Gemäß einer Ausführungsform ist der zweite Computer ferner dazu programmiert, durch Einstellen einer Regel zum Anfordern einer Benutzereingabe auf Grundlage eines Ergebnisses der Kreuzvalidierung ein aktualisiertes Datensammelprogramm bereitzustellen; und dem Fahrzeug das aktualisierte Datensammelprogramm bereitzustellen.
Gemäß einer Ausführungsform ist der zweite Computer ferner dazu programmiert, einen Benutzer, der einem der Sätze von Objektdaten zugeordnet ist, auf Grundlage des Ergebnisses der Kreuzvalidierung zu klassifizieren; wobei die Regel vorgibt, ob der Benutzer dazu berechtigt ist, die eingegebenen Daten bereitzustellen; und das Einstellen der Regel Bestimmen, dass der Benutzer nicht dazu berechtigt ist, die eingegebenen Daten bereitzustellen, beinhaltet.
Gemäß einer Ausführungsform ist der zweite Computer ferner dazu programmiert, eine Art von einem der Objekte in den Sätzen von Objektdaten zu bestimmen; wobei die Regel eine Häufigkeit vorgibt, mit der ein Benutzer, der die eingegebene Markierung für das eine der Objekte bereitstellt, aufgefordert wird, eine Eingabe bereitzustellen, wenn eine Kandidatenmarkierung die Art vorgibt; und das Einstellen der Regel Einstellen des Programms des maschinellen Lernens beinhaltet, um Objekte der Art einem Benutzer, der die eingegebene Markierung bereitstellt, auf Grundlage eines Ergebnisses der Kreuzvalidierung häufiger oder weniger häufig darzustellen.
Gemäß einer Ausführungsform ist der zweite Computer ferner dazu programmiert, die entsprechenden eingegebenen Markierungen mit Kartendaten zu vergleichen, um eine Verifizierung von einem von den eingegebenen Markierungen oder den Kartendaten durchzuführen.
Gemäß einer Ausführungsform ist das Programm des maschinellen Lernens ein erstes Programm des maschinellen Lernens und ist der zweite Computer ferner dazu programmiert, ein zweites Programm des maschinellen Lernens auf Grundlage der Vielzahl von Sätzen von Objektdaten zu generieren, um eine Objektidentifizierung durchzuführen.
Gemäß einer Ausführungsform ist der zweite Computer ferner dazu programmiert, einem oder mehreren Fahrzeugen in der Vielzahl von Fahrzeugen oder einem anderen Fahrzeug das zweite Programm des maschinellen Lernens bereitzustellen.
Gemäß einer Ausführungsform ist der erste Computer ferner dazu programmiert, das zweite Programm des maschinellen Lernens zu empfangen und das Fahrzeug gemäß der Objektidentifizierungsausgabe von dem zweiten Programm des maschinellen Lernens zu betreiben.

Claims

System, umfassend: einen Bildsensor mit einem Sichtfeld einer Außenseite eines Fahrzeugs; eine Mensch-Maschine-Schnittstelle (HMI) in dem Fahrzeug, die dazu angeordnet ist, Bilder auf Grundlage von Daten von dem Bildsensor anzuzeigen; und einen ersten Computer, der einen Prozessor und einen Speicher beinhaltet und zu Folgendem programmiert ist: Bereitstellen von Daten von dem Bildsensor an ein Programm des maschinellen Lernens, das einen Begrenzungsrahmen um ein Objekt ausgibt; Veranlassen, dass der Begrenzungsrahmen um das Objekt über die HMI angezeigt wird, und Übertragen von Objektdaten, die eine eingegebene Markierung beinhalten, die das Objekt identifiziert, an einen zweiten Computer, der von dem Fahrzeug entfernt ist.
System nach Anspruch 1, wobei das Programm des maschinellen Lernens ferner eine oder mehrere Kandidatenmarkierungen für das Objekt ausgibt und der erste Computer dazu programmiert ist, eine Eingabe zu empfangen, die eine Benutzerauswahl von einer der einen oder mehreren Kandidatenmarkierungen vorgibt.
System nach Anspruch 1, wobei: das Objekt ein erstes Objekt in einer Vielzahl von Objekten ist und der Begrenzungsrahmen ein erster Begrenzungsrahmen in einer Vielzahl von Begrenzungsrahmen ist, das Programm des maschinellen Lernens ferner die Vielzahl von Begrenzungsrahmen ausgibt, die den ersten Begrenzungsrahmen und mindestens einen zweiten Begrenzungsrahmen beinhaltet; und wobei ferner jeder der Begrenzungsrahmen um ein entsprechendes Objekt in der Vielzahl von Objekten bereitgestellt ist, die das erste Objekt und mindestens ein zweites Objekt beinhaltet.
System nach Anspruch 1, wobei die Objektdaten ferner Daten zu einer Umgebung um das Fahrzeug beinhalten, die einem Zeitpunkt zugeordnet sind, zu dem die eingegebene Markierung eingegeben wurde.
System nach Anspruch 1, wobei die Daten von dem Bildsensor eine Vielzahl von Videoeinzelbildern beinhalten, die das Objekt beinhaltet und über ein Zeitintervall aufgenommen wird, während sich das Fahrzeug bewegt, wobei die eingegebene Markierung eine erste eingegebene Markierung ist und einem ersten Zeitpunkt in dem Zeitintervall zugeordnet ist und die Objektdaten eine oder mehrere zweite eingegebene Markierungen beinhalten, die jeweils einem oder mehreren zweiten Zeitpunkten in dem Zeitintervall zugeordnet sind.
System nach Anspruch 1, wobei das Fahrzeug ein erstes Fahrzeug in einer Vielzahl von Fahrzeugen ist und die Objektdaten ein erster Satz von Objektdaten in einer Vielzahl von Sätzen von Objektdaten sind, wobei die eingegebene Markierung eine von einer Vielzahl von eingegebenen Markierungen in den entsprechenden Sätzen von Objektdaten ist; und das System ferner den zweiten Computer umfasst, wobei der zweite Computer einen zweiten Prozessor und einen zweiten Speicher beinhaltet und dazu programmiert ist, die Vielzahl von Sätzen von Objektdaten von entsprechenden Fahrzeugen in der Vielzahl von Fahrzeugen zu empfangen.
System nach Anspruch 6, wobei der zweite Computer ferner dazu programmiert ist, eine Kreuzvalidierung durchzuführen, um Markierungen in einem oder mehreren der Sätze von Objektdaten zu verifizieren oder abzulehnen.
Sensorsystem nach Anspruch 7, wobei der zweite Computer ferner zu Folgendem programmiert ist: Bereitstellen eines aktualisierten Datensammelprogramms durch Einstellen einer Regel zum Anfordern einer Benutzereingabe auf Grundlage eines Ergebnisses der Kreuzvalidierung; und Bereitstellen des aktualisierten Datensammelprogramms an das Fahrzeug.
System nach Anspruch 7, wobei: der zweite Computer ferner dazu programmiert ist, einen Benutzer, der einem der Sätze von Objektdaten zugeordnet ist, auf Grundlage des Ergebnisses der Kreuzvalidierung zu klassifizieren; die Regel vorgibt, ob der Benutzer dazu berechtigt ist, die eingegebenen Daten bereitzustellen; und das Einstellen der Regel Bestimmen, dass der Benutzer nicht dazu berechtigt ist, die eingegebenen Daten bereitzustellen, beinhaltet.
System nach Anspruch 7, wobei: der zweite Computer ferner dazu programmiert ist, eine Art von einem der Objekte in den Sätzen von Objektdaten zu bestimmen; die Regel eine Häufigkeit vorgibt, mit der ein Benutzer, der die eingegebene Markierung für das eine der Objekte bereitstellt, aufgefordert wird, eine Eingabe bereitzustellen, wenn eine Kandidatenmarkierung die Art vorgibt; und das Einstellen der Regel Einstellen des Programms des maschinellen Lernens beinhaltet, um Objekte der Art einem Benutzer, der die eingegebene Markierung bereitstellt, auf Grundlage eines Ergebnisses der Kreuzvalidierung häufiger oder weniger häufig darzustellen.
System nach Anspruch 6, wobei der zweite Computer ferner dazu programmiert ist, die entsprechenden eingegebenen Markierungen mit Kartendaten zu vergleichen, um eine Verifizierung von einem von den eingegebenen Markierungen oder den Kartendaten durchzuführen.
System nach Anspruch 6, wobei das Programm des maschinellen Lernens ein erstes Programm des maschinellen Lernens ist und der zweite Computer ferner dazu programmiert ist, ein zweites Programm des maschinellen Lernens auf Grundlage der Vielzahl von Sätzen von Objektdaten zu generieren, um eine Objektidentifizierung durchzuführen.
System nach Anspruch 12, wobei der zweite Computer ferner dazu programmiert ist, einem oder mehreren Fahrzeugen in der Vielzahl von Fahrzeugen oder einem anderen Fahrzeug das zweite Programm des maschinellen Lernens bereitzustellen; und der erste Computer ferner dazu programmiert ist, das zweite Programm des maschinellen Lernens zu empfangen und das Fahrzeug gemäß der Objektidentifizierungsausgabe von dem zweiten Programm des maschinellen Lernens zu betreiben.
System nach Anspruch 1, umgesetzt in einem Fahrzeug.
Verfahren, umfassend: Bereitstellen von einem Bildsensor in einem Fahrzeug an ein Programm des maschinellen Lernens, das einen Begrenzungsrahmen um ein Objekt ausgibt; Veranlassen, dass der Begrenzungsrahmen um das Obj ekt über eine Mensch-Maschine-Schnittstelle (HMI) in dem Fahrzeug angezeigt wird; und Übertragen von Objektdaten, die eine eingegebene Markierung beinhalten, die das Objekt identifiziert, an einen zweiten Computer, der von dem Fahrzeug entfernt ist.