DE102016122190A1

DE102016122190A1 - Verfahren und Systeme zur Stixel-Schätzung

Info

Publication number: DE102016122190A1
Application number: DE102016122190.2A
Authority: DE
Inventors: Shuqing Zeng
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2015-11-20
Filing date: 2016-11-18
Publication date: 2017-05-24
Also published as: CN107038723B; US10482331B2; US20170147888A1; CN107038723A

Abstract

Es werden Verfahren und Systeme zur Erfassung eines Objekts zur Verfügung gestellt. Bei einer Ausführungsform umfasst ein Verfahren: Empfangen, durch einen Prozessor, von Bilddaten von einem Bildsensor; Empfangen, durch einen Prozessor, von Radardaten von einem Radarsystem; Verarbeiten, durch den Prozessor, der Bilddaten von dem Bildsensor und der Radardaten von dem Radarsystem unter Verwendung eines Verfahrens zum tiefgehenden Lernen; und Erfassen, durch den Prozessor, eines Objekts auf Grundlage der Verarbeitung.

Description

QUERVERWEIS AUF ZUGEHÖRIGE ANMELDUNGEN
Die vorliegende Anmeldung beansprucht den Zeitrang der provisorischen U. S.-Anmeldung Nr. 62/258,303, eingereicht am 20. November 2015.
TECHNISCHES GEBIET
Das technische Gebiet betrifft allgemein Systeme und Verfahren zur Erfassung von Objekten, und spezieller Objekt-Erfassungssysteme und zugehörige Verfahren, die einen Stixel oder mehrere in einer Szene schätzen, und Objekte auf Grundlage der geschätzten Stixel erfassen.
HINTERGRUND
Verschiedene Systeme verarbeiten Daten zur Erfassung von Objekten in der Nähe des Systems. So erfassen beispielsweise einige Fahrzeugsysteme Objekte in der Nähe zum Fahrzeug und verwenden die Information über das Objekt zum Alarmieren des Fahrers in Bezug auf das Vorhandensein des Objekts und/oder zum Steuern des Fahrzeugs. Die Fahrzeugsysteme erfassen das Objekt auf Grundlage von Sensoren, die um den Umfang des Fahrzeugs herum angeordnet sind. Es sind beispielsweise mehrere Kameras an der Rückseite, der Seite und/oder der Vorderseite des Fahrzeugs angeordnet, um Objekte zu erfassen. Bilder von den mehreren Kameras werden zur Erfassung des Objekts auf Grundlage von Stereo-Szenen verwendet. Das Implementieren mehrerer Kameras in einem Fahrzeug oder irgendeinem System erhöht die Gesamtkosten.
Es ist daher wünschenswert, Verfahren und Systeme zur Verfügung zu stellen, welche Objekte in einem Bild auf Grundlage einer einzigen Kamera erfassen. Darüber hinaus werden andere wünschenswerte Merkmale und Eigenschaften der vorliegenden Erfindung aus der nachfolgenden detaillierten Beschreibung und den beigefügten Ansprüchen deutlich werden, im Zusammenhang mit den beigefügten Zeichnungen und der voranstehenden Schilderung des technischen Gebiets und des Hintergrunds.
ZUSAMMENFASSUNG
Das Ziel der vorliegenden Erfindung wird durch den Gegenstand der unabhängigen Ansprüche erreicht; weitere Ausführungsformen sind in den abhängigen Ansprüchen angegeben.
Es werden Verfahren und Systeme zur Erfassung eines Objekts zur Verfügung gestellt. Bei einer Ausführungsform umfasst ein Verfahren: Empfangen, durch einen Prozessor, von Bilddaten von einem Bildsensor; Empfangen, durch einen Prozessor, von Radardaten von einem Radarsystem; Verarbeiten, durch den Prozessor, der Bilddaten von dem Bildsensor und der Radardaten von dem Radarsystem unter Verwendung eines Verfahrens zum tiefgehenden Lernen (deep learning); und Erfassen, durch den Prozessor, eines Objekts auf Grundlage der Verarbeitung.
BESCHREIBUNG DER ZEICHNUNGEN
Die beispielhaften Ausführungsformen werden nachstehend im Zusammenhang mit den folgenden Zeichnungsfiguren beschrieben, in welchen gleiche Bezugszeichen gleiche Elemente angeben, wobei:
1 eine Darstellung eines Fahrzeugs ist, welches ein Objekt-Erfassungssystem gemäß verschiedenen Ausführungsformen aufweist;
2 ein Flussdiagramm ist, welches ein Objekt-Erfassungsverfahren erläutert, das von dem Objekt-Erfassungssystem gemäß verschiedenen Ausführungsformen durchgeführt werden kann; und
3–6 Darstellungen von Bildszenen und Verarbeitungsverfahren gemäß verschiedenen Ausführungsformen sind.
DETAILLIERTE BESCHREIBUNG
Die folgende detaillierte Beschreibung ist nur als Beispiel zu verstehen und soll nicht die Anwendung und Einsätze einschränken. Darüber hinaus wird nicht angestrebt, durch irgendeine ausdrückliche oder implizierte Theorie eingeschränkt zu werden, die voranstehend bei dem technischen Gebiet, dem Hintergrund, der kurzen Zusammenfassung präsentiert wurde, oder in der folgenden, detaillierten Beschreibung. Es wird darauf hingewiesen, dass in den gesamten Zeichnungen entsprechende Bezugszeichen gleiche oder entsprechende Teile und Merkmale bezeichnen. Der hier verwendete Begriff Modul betrifft eine anwendungsspezifische integrierte Schaltung (ASIC), eine Elektronikschaltung, einen Prozessor (geteilt, speziell, oder Gruppe) und einen Speicher, der ein oder mehrere Software- oder Firmware-Programme ausführt, eine Kombinationslogikschaltung, und/oder andere geeignete Komponenten, welche die geschilderte Funktionalität zur Verfügung stellen.
Es wird nunmehr Bezug auf 1 genommen, in welcher ein Fahrzeug 10 dargestellt ist, das ein Objekt-Erfassungssystem 12 gemäß verschiedenen Ausführungsformen aufweist. Das Objekt-Erfassungssystem 12 schätzt eine Stixel- und Freiraum-Darstellung einer äußeren Umgebung unter Verwendung von Eingaben von zwei oder mehr unterschiedlichen Sensoren, beispielsweise von einer einäugigen Kamera und einem Radarsystem. Es wird darauf hingewiesen, dass das gezeigte und beschriebene Objekt-Erfassungssystem 12 in verschiedenen Systemen implementiert sein kann, einschließlich nicht-mobiler Plattformen oder mobiler Plattformen, beispielsweise, jedoch nicht hierauf beschränkt, Automobile, Lastkraftfahrzeuge, Busse, Motorräder, Züge, Wasserfahrzeuge, Luftfahrzeuge, Hubschrauber, Roboter, Roboterplattformen und dergleichen. Als Beispiel wird die Offenbarung im Zusammenhang des Objekt-Erfassungssystems 12 diskutiert, das in dem Fahrzeug 10 implementiert ist. Obwohl die hier gezeigten Figuren ein Beispiel mit bestimmten Anordnungen von Elementen, zusätzlichen dazwischenliegenden Elementen, Geräten, Merkmalen, ein Beispiel mit bestimmten Anordnungen von Elementen zeigen, können bei tatsächlichen Ausführungsformen zusätzliche dazwischenliegende Elemente vorgesehen sein, Geräte, Merkmale, oder Komponenten. Weiterhin wird darauf hingewiesen, dass 1 nur zur Erläuterung dient, und nicht maßstabsgetreu sein muss.
Bei verschiedenen Ausführungsformen weist das Objekt-Erfassungssystem 12 einen Bildsensor 14 (beispielsweise eine Kamera oder ein anderes Bildabtastungsgerät) auf und ein Radarsystem 15, die einem Objekt-Erfassungsmodul 16 zugeordnet sind. Der Bildsensor 14 kann irgendwo innerhalb oder außerhalb des Fahrzeugs 10 angeordnet sein, einschließlich, jedoch nicht hierauf beschränkt, an einer Vorderseite des Fahrzeugs 10, an einer linken Seite des Fahrzeugs 10, an einer rechten Seite des Fahrzeugs 10, und an einer Rückseite des Fahrzeugs 10. Es wird darauf hingewiesen, dass mehrere Bildsensoren 14 auf dem Fahrzeug 10 implementiert sein können, jeweils einer für die Vorderseite des Fahrzeugs 10, die linke Seite des Fahrzeugs 10, die rechte Seite des Fahrzeugs 10, und die Rückseite des Fahrzeugs 10, oder jeweils einer für eine Kombination dieser Seiten. Zum Zwecke der Erläuterung wird die Offenbarung diskutiert in dem Zusammenhang des Fahrzeugs 10, welches nur einen Bildsensor 14 aufweist, der an der Vorderseite des Fahrzeugs 10 vorgesehen ist.
Der Bildsensor 14 tastet einen Bereich ab, der dem Fahrzeug 10 zugeordnet ist, und erzeugt auf dieser Grundlage Sensorsignale. Bei verschiedenen Ausführungsformen enthalten die Sensorsignale Bilddaten. Die Bilddaten stellen dann, wenn sie angeordnet sind, eine Szene dar, beispielsweise die Außenseite des Fahrzeugs 10. Das Radarsystem 15 kann überall innerhalb oder außerhalb des Fahrzeugs 10 angeordnet sein, einschließlich, jedoch nicht hierauf beschränkt, an einer Vorderseite des Fahrzeugs 10, einer linken Seite des Fahrzeugs 10, einer rechten Seite des Fahrzeugs 10, und einer Rückseite des Fahrzeugs 10. Es wird darauf hingewiesen, dass mehrere Radarsensoren 15 bei dem Fahrzeug 10 implementiert sein können, jeweils einer für die Vorderseite des Fahrzeugs 10, die linke Seite des Fahrzeugs 10, die rechte Seite des Fahrzeugs 10, und die Rückseite des Fahrzeugs 10, oder jeweils einer für eine Kombination dieser Seiten. Zum Zwecke der Erläuterung wird die Offenbarung in dem Zusammenhang des Fahrzeugs 10 diskutiert, welches nur ein Radarsystem 15 aufweist, das sich an der Vorderseite des Fahrzeugs 10 befindet.
Das Radarsystem 15 erzeugt Wellensignale entlang einem Weg oder mehrerer Wege und empfängt Wellensignale, die von dem Weg bzw. den Wegen reflektiert werden. Das Objekt-Erfassungsmodul 16 empfängt die Signale von dem Bildsensor 14 und dem Radarsystem 15, und verarbeitet die Signale, um ein Objekt zu erfassen. Das Objekt-Erfassungsmodul 16 erfasst das Objekt auf Grundlage von Verfahren und Systemen zur Bildverarbeitung gemäß der vorliegenden Offenbarung. Allgemein gesprochen, verarbeitet das Objekt-Erfassungsmodul 16 die Bilddaten unter Verwendung von Modellen zum tiefgehenden Lernen (deep learning), um Stixel in einer Szene zu bestimmen. Die Modelle zum tiefgehenden Lernen (deep learning) können, wobei sie nicht darauf beschränkt sind, neuronale Netzwerke wie etwa Faltungsnetzwerke umfassen, oder andere Modelle zum tiefgehenden Lernen, beispielsweise deep-belief-Netzwerke. Die Modelle zum tiefgehenden Lernen werden vortrainiert auf Grundlage einer Vielfalt von Abtastbilddaten.
Bei verschiedenen Ausführungsformen erzeugt das Objekt-Erfassungsmodul 16 selektiv Signale auf Grundlage der Erfassung des Objekts. Die Signale werden von einem Steuermodul 18 und/oder einem Alarmmodul 20 empfangen, um selektiv das Fahrzeug 10 zu steuern und/oder den Fahrer in Bezug auf das Objekt zu alarmieren und/oder um das Fahrzeug 10 zu steuern.
Es wird nunmehr Bezug auf sowohl 1 als auch 2 genommen, wobei 2 ein Flussdiagramm zeigt, welches ein Objekt-Erfassungsverfahren 100 erläutert, das von dem Objekt-Erfassungssystem 12 von 1 durchgeführt werden kann, gemäß verschiedenen Ausführungsformen. Aus der Offenbarung wird deutlich, dass die Reihenfolge der Operationen in dem Verfahren 100 nicht auf die aufeinanderfolgende Ausführung beschränkt ist, die in 2 dargestellt ist, sondern in einer oder mehreren variierenden Reihenfolge(n) je nach Anwendung durchgeführt werden kann, entsprechend der vorliegenden Offenbarung.
Weiterhin wird darauf hingewiesen, dass das Verfahren von 2 so getaktet sein kann, dass es in vorbestimmten Zeitintervallen während des Betriebs des Fahrzeugs 10 abläuft, und/oder so getaktet sein kann, dass es auf Grundlage vorbestimmter Ereignisse abläuft.
Bei einem Beispiel kann das Verfahren bei 105 beginnen. Bei 110 werden die Bilddaten von dem Bildsensor 14 sowie die Radardaten von dem Radarsystem 15 empfangen. Die Bilddaten werden bei 120 verarbeitet, um Stixel-Daten zu bestimmen. Beispielsweise werden, wie in den 3 und 4 gezeigt, die Bilddaten empfangen und wird aus diesen eine Szene ausgebildet. Ein Fenster eines interessierenden Bereichs (ROI) wird ausgebildet (also das schraffierte Rechteck von der obersten Zeile zur untersten Zeile, das nicht durch die Fahrzeugkarosserie (gezeigt in 3) verdeckt wird), als die Eingabeschicht zum Faltungsneuronalnetzwerk (CNN). Das CNN bestimmt, ob die Zentrumslinie des ROI einen Stixel enthält, und berichtet die Wahrscheinlichkeit, den Ort (rV, rV), die Höhe h, und die Klassenmarkierung I, zu welcher der Stixel gehört. Das ROI-Fenster wird im Bild von links nach rechts bewegt, um aufeinanderfolgend ein Vorhandensein von Stixeln für jeden ROI-Fensterort zu bestimmen.
Die markierten Daten werden dazu verwendet, den Stixel-Detektor unter Verwendung von CNN zu trainieren, welches automatisch eine Sichtmerkmalsdarstellung erzeugt.
In 2 verarbeitet bei 130 das Objekt-Erfassungsmodul 16 die Radardaten, um Radar-Vorhandenseinsvektoren zu bestimmen. Beispielsweise werden, wie in den 3 und 4 gezeigt, sämtliche Radarpunkte auf eine Bildebene projiziert. Die Bildebene wird in ROIs unterteilt, und die ROIs werden in vertikale Scheiben unterteilt, wobei jede vertikale Scheibe ein Stixel-Kandidat ist. Das Vorhandensein eines Radarpunktes wird in den Scheiben bestimmt, und der Zeilenindex wird dem entsprechenden Element in dem Vorhandensvektor zugeordnet. (Es wird darauf hingewiesen, dass der Standardwert für nicht vorhandene Elemente gleich Null ist).
In 2 verschmilzt bei 140 das Objekt-Erfassungsmodul 16 dann die Radarpunkte mit den identifizierten Stixeln in der Szene. Beispielsweise werden, wie in den 3 und 4 gezeigt, der Radar-Vorhandenseinsvektor und die Sichtmerkmalsdarstellung den klassisch vollständig verbundenen Schichten zur Verfügung gestellt, welche schließlich die Wahrscheinlichkeit für das Vorhandensein des Stixels ausgeben, sowie den Ort (r_V), die Höhe (h) des Stixels, sowie den angepassten Radarpunkt (d). Wie in 5 gezeigt, werden Stixel in einem eindimensionalen Feld gespeichert, das durch die Spalte c indiziert ist. Unter der Voraussetzung, dass die Kamera kalibriert ist, kann ein Punkt p = (x, y) in der xy-Ebene auf einen Punkt in der Bildebene q = (r, c) in Einheiten von Bildpixeln abgebildet werden: q = H(p) und umgekehrt p = H^–1(q). Jeder Stixel weist folgende Attribute auf:
Spalte (Bild): c
Zeile (Bild): r
Höhe (Bild): h
zweidimensionale Position in der xy-Ebene: p kann abgeleitet werden aus q = (r, c) und der zweidimensionalen Radarposition p_R:
wobei σ_V die Genauigkeit der Positionsmessung unter Verwendung von Signalen von der Stixel-Position ist, und σ_R die Genauigkeit der Positionsmessung unter Verwendung von Signalen vom Radar ist;
Radar-Dopplermessung: d
Die Indices 0 und 1 bezeichnen die Attribute von demselben Pixel, geschätzt zum Zeitpunkt t₀ und t₁. Hieraus ergibt sich ein Zeitintervall Δt = t₀ – t₁.
In 2 bestimmt dann bei 150 das Objekt-Erfassungsmodul eine 2d-Geschwindigkeit in der xy-Ebene: v für jeden Stixel. Beispielsweise bezeichnet, wie in den 5 und 6 gezeigt, ohne Beeinträchtigung der Allgemeinheit, c₁, c₀ denselben Stixel von einem Objekt zur Zeit t₁ und t₀. Die Stixel-Bewegungsschätzung wird formuliert als die Zuordnung von Bewegung m (in Bildspalten) zum Stixel c₁, so dass sich ergibt c₁ = c₀ + m. Sind der Stixel c₁ und die Bewegungszuordnung m in Bezug auf den Stixel c₀ des vorherigen Zeitrahmens gegeben, so ist die zweidimensionale Geschwindigkeit (v₁, c₁)) für den Stixel c₁ das Minimum des quadratischen Ausdrucks: minL(c₁, m) und
wobei die Funktion H(v₁, p₁(c₁)) die zweidimensionale Geschwindigkeit am Ort p₁ (c₁) in der xy-Ebene auf die Bildebene abbildet, und sich folgender optischer Flussvektor ergibt:
wobei σ_D die Radar-Dopplergenauigkeit ist, und σ_V die Genauigkeit des optischen Flusses ist, für die Stixel in Einheiten von Pixeln. Daher ist die geschätzte zweidimensionale Geschwindigkeit eine Funktion der Bewegungszuordnung m, geschrieben als v₁(c₁, m).
In 2 bestimmt dann bei 160 und 170 das Objekt-Erfassungsmodul 16 die optimale Spaltenverschiebung im Pixel m·(c₁) über eine Standard-Dynamikprogrammierminimierung, und bestimmt Objekte auf Grundlage der geschätzten Verschiebung. Beispielsweise sei C₁ die Gruppe sämtlicher Spalten, welche gültige Stixel in dem Eingaberahmen enthalten. Das Minimierungsproblem besteht darin, folgende Gleichung zu lösen:
Die dynamische Programmierung wird in zwei Phasen durchgeführt. Die dynamische Programmiermatrix D wird so ausgebildet, dass die Spalten sämtliche geeignete Orte von Stixeln sind (also C₁), und die Zeilen sämtliche geeignete Bewegungen sind (also M(c₁) für c₁ ∈ C₁).
Zur Vereinfachung der Darstellung wird der Index bei dem momentanen Stixel c₁ für die folgende Berechnung der dynamischen Programmiermatrix D ignoriert.
In dem ersten Durchgang wird D(c, m) rekursiv (von rechts nach links) folgendermaßen berechnet:
wobei c_max der am weitesten rechts liegende Stixel in C₁ ist.
Andernfalls gilt für sämtliche m ∈ M(c) und c ∈ C₁. Zur Vereinfachung wird darauf hingewiesen, dass c den Stixel in der Spalte c im Zeitrahmen t1 bezeichnet. Die Stixel-Bewegungsschätzungen m(c) können durch Rückverfolgung in der zweiten Phase (von links nach rechts) ermittelt werden:
Bei verschiedenen Ausführungsformen können die Anpassungskosten eines Stixels c₁ und c₀ folgendermaßen sein:
wobei h_i(c) die Höhe, in Metern, des Stixels in der Spalte c auf dem Rahmen t_i ist; a, b und γ Skalierungsparameter sind; d_i(c) die Dopplermessung, in der xy-Ebene, des Stixels in der Spalte x auf dem Rahmen t_i ist. Die Gruppe M(c₁) enthält die Verschiebung sämtlicher geeigneter Spalten des Stixels c₁ in Bezug auf den vorhergehenden Zeitrahmen. Sie hängt von der Position des Stixels ab sowie von der Rahmenrate, mit welcher die Bilder aufgenommen werden. So ist beispielsweise für einen Stixel in der Nähe dessen entsprechender Wert |M(c₁)| größer, und nimmt ab, wenn er sich weit entfernt von dem Bildsensor 14 bewegt. Der Term für die Kosten c_null ist der Standard-Kostenwert für nicht-gültige Bewegungen, in der voranstehenden Gleichung eingestellt auf den maximal möglichen Kostenwert. SAD(c₁, m) ist die Summe pro Pixel von Absolutdifferenzen über RGB-Farbkanäle zwischen dem Stixel c₁ bei t₁ und dem Stixel c₀ = c₁ – m bei t₀.
Bei verschiedenen Ausführungsformen können benachbarte Stixel entweder demselben Objekt oder getrennten Objekten entsprechen. Wenn die Stixel demselben Objekt entsprechen, sollten sie eine ähnliche Bewegung aufweisen: Reg(m(c1), m(c1 + 1)) = ks|m(c1) – m(c1 + 1)|.
Der Skalierungsfaktor ks hängt von der Ähnlichkeit der benachbarten Stixel (also c₁ und c₁ + 1) ab, die zu demselben Objekt gehören. ks ist groß, wenn Stixel c₁ und c₁ + 1 zum selben Objekt gehören, und ks ist klein, wenn sie zu unterschiedlichen Objekten gehören.
Bei verschiedenen Ausführungsformen können Objekte in einer Szene unterschiedliche Orientierungen in Bezug auf die Kamera aufweisen. Abhängig von der Objektorientierung können unterschiedliche Teile desselben Objekts unterschiedliche Tiefenwerte aufweisen. Es gibt jedoch eine räumliche Kontinuität bezüglich der Tiefe in kleinen Nachbarschaften des Objekts. Daher kann angenommen werden, dass Nachbar-Stixel innerhalb einer kleinen Nachbarschaft ähnliche Tiefenwerte aufweisen.
Stixel in einer kleinen Nachbarschaft, welche ähnliche Tiefenwerte aufweisen, können immer noch zu unterschiedlichen Objekten gehören (beispielsweise Fußgänger gegenüber Fahrzeug in einer Szene, in welcher ein Fußgänger nahe bei einem geparkten Fahrzeug steht). Für diesen Fall sind die semantischen Markierungen (beispielsweise Fußgänger, Fahrzeug, usw.) informative Hinweise zum Trennen von Stixeln in Bezug auf unterschiedliche Objekte.
Für Szenen von Kraftfahrzeuganwendungen stellen Radar-Dopplermessungen einen weiteren schwachen Hinweis dazu dar, Stixel auf Objekte zu unterteilen.
Daher ist folgendes Design für den Skalierungsfaktor möglich: k_s = β_x + β_l + β_d wobei
(mit [depth cue] = Hinweis auf Tiefe; [semantic label cue] = Hinweis auf semantische Markierung; [Doppler cue] = Doppler-Hinweis)
wobei x₁(c₁) die x-Koordinate des Stixels c₁ in der xy-Ebene angibt, folgende Definition gilt
und Δx und Δd maximal mögliche Differenzen für die Tiefe und Doppler für benachbarte Stixel entsprechend denselben Objekten sind.
Bei einer Ausführungsform sind vorgesehen ax = 0,1, a_l = 0,5, a_d = 0,2, Δx = 3, Δd = 2, und sind k_x, k_l, und k_d ähnlich normiert wie die Skalierungsparameter a, b, und γ in der Anpassungskostenfunktion.
Bei verschiedenen Ausführungsformen ist die Bewegung von Stixeln glatt für Kraftfahrzeugszenen. Daher kann über die räumliche Randbedingung hinaus die folgende zeitliche Randbedingung für den Stixel c₁ hinzugefügt werden, um die Glattheit der Bewegung sicherzustellen: Temp(c₁, m) = k_t|v₁(c₁, m) – v₀(c₀)| wobei v₁(c₁, m) die zweidimensionale Geschwindigkeitsabschätzung ist, als vorgegebene Annahme für Bewegungszuordnung m zum Stixel, und kt der Gewichtsskalierungsfaktor ist.
Weiterhin wird ein Verfahren zur Erfassung eines Objekts zur Verfügung gestellt, bei welchem vorgesehen sind:
Empfangen, durch einen Prozessor, von Bilddaten von einem Bildsensor;
Empfangen, durch einen Prozessor, von Radardaten von einem Radarsystem;
Verarbeiten, durch den Prozessor, der Bilddaten von dem Bildsensor und der Radardaten von dem Radarsystem unter Verwendung eines Verfahrens mit tiefgehendem Lernen (deep learning); und
Erfassen, durch den Prozessor, eines Objekts auf Grundlage der Verarbeitung.
Bei einem Beispiel umfasst die Verarbeitung die Verarbeitung der Bilddaten zur Bestimmung eines Stixels oder mehrerer Stixel, wobei das Verfahren mit tiefgehendem Lernen den einen Stixel oder die mehreren Stixel verwendet.
Bei einem Beispiel umfasst die Verarbeitung:
Ausbildung eines Fensters für einen interessierenden Bereich (ROI) eines Bildes auf Grundlage der Bilddaten; und Bewegung des ROI-Fensters zu mehreren Orten, von einer linken Seite des Bildortes zu einer rechten Seite des Bildes, um aufeinanderfolgend ein Vorhandensein eines Stixels an jedem Ort zu bestimmen.
Bei einem Beispiel umfasst die Verarbeitung:
Ausbildung eines Fensters für einen interessierenden Bereich (ROI) auf Grundlage der Bilddaten;
Bestimmung, ob eine Zentrumslinie des ROI-Fensters einen Stixel enthält, unter Einsatz eines Faltungsneuronalnetzwerks; und
Berichten einer Wahrscheinlichkeit, eines Ortes, einer Höhe, und einer Klassenmarkierung, wenn ein Stixel bestimmt wird.
Bei einem Beispiel umfasst die Verarbeitung:
Verarbeiten der Radardaten von dem Radarsystem zur Bestimmung eines oder mehrerer Vorhandenseinsvektoren, wobei das Verfahren zum tiefgehenden Lernen den einen oder die mehreren Vorhandenseinsvektor(en) verwendet.
Bei einem Beispiel umfasst die Verarbeitung das Verschmelzen von Stixeln der Bilddaten und von Vorhandenseinsvektoren der Radardaten unter Verwendung der Verfahren zum tiefgehenden Lernen.
Bei einem Beispiel umfasst das Verfahren weiterhin, eine Geschwindigkeit für jeden der verschmolzenen Stixel und Vorhandenseinsvektoren zu bestimmen, wobei die Erfassung des Objekts auf der Geschwindigkeit jedes der verschmolzenen Stixel und Vorhandenseinsvektoren beruht.
Bei einem Beispiel umfasst das Verfahren weiterhin die Bestimmung einer Verschiebung für jeden der verschmolzenen Stixel und Vorhandenseinsvektoren, wobei die Erfassung des Objekts auf der Verschiebung jedes der verschmolzenen Stixel und Vorhandenseinsvektoren beruht.
Weiterhin wird ein System zur Erfassung eines Objekts zur Verfügung gestellt, wobei vorgesehen sind:
ein Bildsensor, der Bilddaten erzeugt;
ein Radarsystem, welches Radardaten erzeugt; und
ein Computermodul, das durch einen Prozessor die Bilddaten und die Radardaten verarbeitet, unter Verwendung eines Verfahrens zum tiefgehenden Lernen (deep learning), und ein Objekt auf Grundlage der Verarbeitung erfasst.
Bei einem Beispiel verarbeitet das Computermodul die Bilddaten zur Bestimmung eines Stixels oder mehrerer Stixel, wobei das Verfahren zum tiefgehenden Lernen den einen Stixel oder die mehreren Stixel verwendet.
Bei einem Beispiel bildet das Computermodul ein Fenster eines interessierenden Bereichs (ROI) eines Bildes auf Grundlage der Bilddaten; und bewegt das ROI-Fenster zu mehreren Orten, von einer linken Seite des Bildortes zu einer rechten Seite des Bildes, um aufeinanderfolgend ein Vorhandensein eines Stixels an jedem Ort zu bestimmen.
Bei einem Beispiel bildet das Computermodul ein Fenster für einen interessierenden Bereich (ROI) auf Grundlage der Bilddaten, bestimmt, ob eine Zentrumslinie des ROI-Fensters einen Stixel enthält, unter Verwendung eines Faltungsneuronalnetzwerks, und berichtet eine Wahrscheinlichkeit, einen Ort, eine Höhe, und eine Klassenmarkierung, wenn ein Stixel bestimmt wird.
Bei einem Beispiel verarbeitet das Computermodul die Radardaten von dem Radarsystem zur Bestimmung eines oder mehrerer Vorhandenseinsvektoren, und verwendet das Verfahren zum tiefgehenden Lernen den einen oder die mehreren Vorhandenseinsvektor(en).
Bei einem Beispiel verschmilzt das Computermodul Stixel der Bilddaten und Vorhandenseinsvektoren der Radardaten unter Verwendung der Verfahren zum tiefgehenden Lernen (deep learning).
Bei einem Beispiel bestimmt das Computermodul eine Geschwindigkeit für jeden der verschmolzenen Stixel und Vorhandenseinsvektoren, und erfasst das Objekt auf Grundlage der Geschwindigkeit jedes der verschmolzenen Stixel und Vorhandenseinsvektoren.
Bei einem Beispiel bestimmt das Computermodul eine Verschiebung für jeden der verschmolzenen Stixel und Vorhandenseinsvektoren, und erfasst das Objekt auf Grundlage der Verschiebung jedes der verschmolzenen Stixel und Vorhandenseinsvektoren.
Bei einem Beispiel sind der Bildsensor und das Radarsystem einem Fahrzeug zugeordnet, wobei das Steuermodul das Objekt in der Nähe des Fahrzeugs erfasst.
Es wird darauf hingewiesen, dass Ausführungsformen der Erfindung unter Bezugnahme auf unterschiedliche Gegenstände beschrieben werden. Insbesondere werden einige Ausführungsformen unter Bezugnahme auf Verfahrensansprüche beschrieben, wogegen andere Ausführungsformen unter Bezugnahme auf Vorrichtungsansprüche beschrieben werden. Allerdings wird ein Fachmann auf diesem Gebiet aus der voranstehenden und der folgenden Beschreibung erkennen, dass – falls nicht ausdrücklich anders angegeben – zusätzlich zu jeder Kombination von Merkmalen, die zu einer Art von Gegenstand gehören, auch jede Kombination zwischen Merkmalen, die zu unterschiedlichen Gegenständen gehören, von dieser Anmeldung offenbart sein soll. Allerdings können sämtliche Merkmale kombiniert werden, wobei Synergie-Effekte zur Verfügung gestellt werden, welche über die einfache Summierung der Merkmale hinausgehen.
Zwar wurde zumindest eine beispielhafte Ausführungsform in der voranstehenden detaillierten Beschreibung präsentiert, jedoch wird darauf hingewiesen, dass eine große Anzahl an Variationen vorhanden ist. Weiterhin wird darauf hingewiesen, dass die beispielhafte Ausführungsform oder beispielhafte Ausführungsformen nur Beispiele darstellen, und nicht den Umfang, die Einsetzbarkeit, oder die Konfiguration der Offenbarung auf irgendeine Art und Weise einschränken sollen. Stattdessen stellt die voranstehende, detaillierte Beschreibung Fachleuten auf diesem Gebiet eine bequeme Road-Map zum Implementieren der beispielhaften Ausführungsform oder der beispielhaften Ausführungsformen zur Verfügung. Es wird darauf hingewiesen, dass verschiedene Änderungen in Bezug auf die Funktion und Anordnung von Elementen vorgenommen werden können, ohne vom Umfang der Offenbarung abzuweichen, wie sie in den beigefügten Ansprüchen und deren rechtlichen Äquivalenten angegeben ist.

Claims

Verfahren zur Erfassung eines Objekts, bei welchem vorgesehen sind: Empfangen, durch einen Prozessor, von Bilddaten von einem Bildsensor; Empfangen, durch einen Prozessor, von Radardaten von einem Radarsystem; Verarbeitung, durch den Prozessor, der Bilddaten von dem Bildsensor und der Radardaten von dem Radarsystem unter Verwendung eines Verfahrens zum tiefgehenden Lernen (deep learning); und Erfassung, durch den Prozessor, eines Objekts auf Grundlage der Verarbeitung.
Verfahren nach Anspruch 1, bei welchem die Verarbeitung die Verarbeitung der Bilddaten zur Bestimmung eines Stixels oder mehrerer Stixel umfasst, und bei welchem das Verfahren zum tiefgehenden Lernen den einen Stixel oder die mehreren Stixel verwendet.
Verfahren nach Anspruch 1 oder 2, bei welchem die Verarbeitung umfasst: Bildung eines Fensters eines interessierenden Bereichs (ROI) eines Bildes auf Grundlage der Bilddaten; und Bewegung des ROI-Fensters zu mehreren Orten, von einer linken Seite des Bildortes zu einer rechten Seite des Bildes, um aufeinanderfolgend ein Vorhandensein eines Stixels an jedem Ort zu bestimmen.
Verfahren nach Anspruch 1 oder 2, bei welchem die Verarbeitung umfasst: Bildung eines Fensters eines interessierenden Bereichs (ROI) auf Grundlage der Bilddaten; Bestimmung, ob eine Zentrumslinie des ROI-Fensters einen Stixel enthält, unter Verwendung eines Faltungsneuronalnetzwerks; und Berichten einer Wahrscheinlichkeit, eines Orts, einer Höhe, und einer Klassifizierungsmarkierung, wenn ein Stixel festgestellt wird.
Verfahren nach einem der voranstehenden Ansprüche, bei welchem die Verarbeitung umfasst: Verarbeitung der Radardaten von dem Radarsystem zur Bestimmung eines oder mehrerer Vorhandenseinsvektoren, wobei das Verfahren zum tiefgehenden Lernen den einen oder die mehreren Vorhandenseinsvektor(en) verwendet.
Verfahren nach einem der voranstehenden Ansprüche, bei welchem die Verarbeitung umfasst, Stixel der Bilddaten und Vorhandenseinsvektoren der Radardaten unter Verwendung der Verfahren zum tiefgehenden Lernen zu verschmelzen.
Verfahren nach Anspruch 6, welches weiterhin umfasst, eine Geschwindigkeit für jeden der verschmolzenen Stixel und Vorhandenseinsvektoren zu bestimmen, wobei die Erfassung des Objekts beruht auf der Geschwindigkeit jedes der verschmolzenen Stixel und Vorhandenseinsvektoren.
Verfahren nach Anspruch 6 oder 7, welches weiterhin umfasst, eine Verschiebung für jeden der verschmolzenen Stixel und Vorhandenseinsvektoren zu bestimmen, wobei die Erfassung des Objekts beruht auf der Verschiebung jedes der verschmolzenen Stixel und Vorhandenseinsvektoren.
System zur Erfassung eines Objekts, wobei vorgesehen sind: ein Bildsensor, welcher Bilddaten erzeugt; ein Radarsystem, welches Radardaten erzeugt; und ein Computermodul, das durch einen Prozessor die Bilddaten und die Radardaten unter Verwendung eines Verfahrens zum tiefgehenden Lernen verarbeitet, und ein Objekt auf Grundlage der Verarbeitung erfasst.
System nach Anspruch 9, bei welchem das Computermodul die Bilddaten zur Bestimmung eines Stixels oder mehrerer Stixel verarbeitet, wobei das Verfahren zum tiefgehenden Lernen den einen Stixel oder die mehreren Stixel verwendet.