DE112016006213T5

DE112016006213T5 - System und Verfahren zum Fusionieren von Ausgängen von Sensoren, die unterschiedliche Auflösungen aufweisen

Info

Publication number: DE112016006213T5
Application number: DE112016006213.3T
Authority: DE
Inventors: Ulugbek Kamilov; Juan Castorena; Petros Boufounos
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2016-01-12
Filing date: 2016-12-20
Publication date: 2018-10-18
Also published as: CN108603933B; CN108603933A

Abstract

Ein Verfahren zum Fusionieren von Messungen von Sensoren, die unterschiedliche Auflösungen aufweisen, führt eine Kalibrierung der Sensoren und eine Fusion ihrer Messungen gemeinsam durch, um Kalibrierungsparameter zu produzieren, die eine geometrische Abbildung zwischen Koordinatensystemen der Sensoren und einen fusionierten Satz von Messungen, der die Modalität eines Sensors mit einer Auflösung, die größer ist als seine Auflösung, definieren. Die Kalibrierung und die Fusion werden gemeinsam durchgeführt, um die Kalibrierungsparameter und die fusionierte Menge von Messungen in Abhängigkeit voneinander zu aktualisieren.

Description

[Technisches Gebiet]
Diese Erfindung betrifft Abtastsysteme und -verfahren und insbesondere das Fusionieren von Ausgängen von Sensoren, die unterschiedliche Auflösungen aufweisen.
[Stand der Technik]
Sensorfusion ist ein Prozess des Kombinierens der sensorischen Daten, die von unterschiedliche Sensoren erlangt wurden. Da eine steigende Anzahl von Sensoren und Sensormodalitäten zum Erlangen von Szenen verwendet werden, wird eine Konsolidierung oder Fusion der Sensordaten immer wichtiger. Eine Sensorfusion nutzt die verschiedenen Sensormodalitäten aus, um ergänzende Informationen über die Umgebung bereitzustellen, Hardware-Beschränkungen zu überwinden oder Datenunklarheiten aufgrund einzelner Sensoren zu reduzieren. Zum Beispiel kann die Sensorfusion die Auflösung von Daten, die durch einen Sensor gemessen wurden unter Verwendung von Messungen eines anderen Sensors vergrößern, d. h. die Abtastrate erhöhen. Zusätzlich oder alternativ kann die Sensorfusion die durch einen Sensor gemessenen Daten mit den Messungen eines anderen Sensors kommentieren.
Zum Beispiel ist die Tiefenabtastung eine Technologie zum Messen von Tiefen in einer Szene, d. h. die Abstände von einem Sensor zu Punkten in der Szene. Arten der Tiefenabtastung weisen Messungen unter Verwendung von Streifenlichtkameras, Stereokameras und Tiefenabtastungskameras basierend auf TOF-Messungen (engl. time of flight) des von der Szene reflektierten Lichtes auf. Einige Tiefensensoren, wie etwa ein LIDAR-Sensor, weisen nicht genügend Auflösung für praktische Anwendungen auf. Zu diesem Zweck kann die Fusion für die Tiefensuperauflösung verwendet werden, d. h. die niedrig aufgelösten Tiefendaten von einem LIDAR-Sensor können mit einem Bild von einer optischen Kamera fusioniert werden, um ein höher aufgelöstes Tiefenbild zu produzieren.
Die Sensorfusion verwendet eine extrinsische Kalibrierung, die die Kalibrierungsparameter jedes Sensors, wie etwa Position und Orientierung eines jeden Sensors zueinander, bestimmt. Während der Fusion werden die Kalibrierungsparameter verwendet, um die geometrische Transformation zu berechnen, die den Ausgang jedes Sensors in einem üblichen Referenzrahmen abbildet.
Zum Beispiel führen einige Verfahren eine Offline-Kalibrierung unter Verwendung bekannter Abgleichziele durch. Das Durchführen der Offline-Kalibrierung ist jedoch für einige Anwendungen nicht möglich oder praktizierbar. Dieses Problem ist besonders offensichtlich, wenn die Sensoren am sich bewegenden Fahrzeug installiert sind. Dies rührt daher, dass solche Sensoren anfällig dafür sind, die Kalibrierung aufgrund der potenziellen Rauheit der Straßenbedingungen zu verlieren, und die Kalibrierungen müssen für ständig wechselnde Szenen online durchgeführt werden.
Andere Verfahren führen eine Kalibrierung online unter Verwendung von Kanten der Gegenstände in den unterschiedlichen Bildern durch. In einigen Anwendungen ist die Kalibrierung auf der Basis von Kantenabgleich jedoch wegen der geringen Auflösung der Sensormessungen ungenau.
Demgemäß besteht ein Bedarf, ein System und ein Verfahren zum Fusionieren von Ausgängen von Sensoren, die unterschiedliche Auflösungen aufweisen, bereitzustellen.
[KURZFASSUNG DER ERFINDUNG]
Einige Ausführungsformen der Erfindung basieren auf einer Ausgestaltung dergestalt, dass Fusion und Kalibrierung sich ergänzende Prozesse sind und Verbesserungen in einem davon zur Steigerung der Leistung des anderen verwendet werden können. Somit kann ein gemeinsames Kalibrierungs- und Fusionsverfahren den Endausgang verbessern. Im Gegensatz zu vorhandenen Ansätzen, welche typischerweise entweder die Kalibrierung oder die Fusion angehen, aber nicht beide, arbeitet die gemeinsame Verarbeitung auf ein gemeinschaftliches Ziel hin: Verbessern des Endausgangs der Sensorfusion als eine Funktion von Kalibrierungsparametern.
Dementsprechend führen einige Ausführungsformen der Erfindung die Kalibrierung der Sensoren und die Fusion ihrer Ausgänge gemeinsam durch. Zum Beispiel optimieren einige Ausführungsformen der Erfindung die Kalibrierungsparameter und den Fusionsausgang gemeinsam unter Verwendung der im jeweiligen Fall passenden Kostenfunktion. Zum Beispiel aktualisiert eine Ausführungsform die Kalibrierungsparameter und die fusionierte Menge von Messungen in Abhängigkeit voneinander. Zum Beispiel kann eine gemeinsame Kalibrierung und Fusion eine Kostenfunktion der fusionierten Menge von Messungen in Anbetracht der Kalibrierungsparameter optimieren.
Eine Ausführungsform der Erfindung offenbart ein Verfahren zum Fusionieren von Messungen von Sensoren, die unterschiedliche Auflösungen aufweisen. Das Verfahren weist Folgendes auf: Erlangen einer ersten Menge von Messungen einer durch einen ersten Sensor gemessenen Szene; Erlangen einer zweiten Menge von Messungen der durch einen zweiten Sensor gemessenen Szene, wobei sich eine Modalität des ersten Sensors von einer Modalität des zweiten Sensors unterscheidet und wobei eine Auflösung des ersten Sensors geringer ist als eine Auflösung des zweiten Sensors; und gemeinsames Durchführen einer Kalibrierung des ersten und des zweiten Sensors und einer Fusion der ersten und der zweiten Menge von Messungen, um Kalibrierungsparameter zu produzieren, die eine geometrische Abbildung zwischen Koordinatensystemen des ersten und des zweiten Sensors und eine fusionierte Menge von Messungen, die die Modalität des ersten Sensors mit einer Auflösung größer als die Auflösung des ersten Sensors aufweist, definieren, wobei die Kalibrierung und die Fusion gemeinsam durchgeführt werden, um die Kalibrierungsparameter und die fusionierte Menge von Messungen in Abhängigkeit voneinander zu aktualisieren. Die Schritte des Verfahrens werden unter Verwendung eines Prozessors durchgeführt.
Eine weitere Ausführungsform offenbart ein System, das Folgendes aufweist: einen ersten Sensor, um eine Szene zu messen, um eine erste Menge von Messungen der Szene zu produzieren; einen zweiten Sensor, um die Szene zu messen, um eine zweite Menge von Messungen der Szene zu produzieren, wobei eine Auflösung des ersten Sensors geringer ist als eine Auflösung des zweiten Sensors; und einen Prozessor zum gemeinsamen Durchführen einer Kalibrierung des ersten und des zweiten Sensors und einer Fusion der ersten und der zweiten Menge von Messungen, um Kalibrierungsparameter zu produzieren, die eine geometrische Abbildung zwischen Koordinatensystemen des ersten und des zweiten Sensors und eine fusionierte Menge von Messungen, die eine Modalität des ersten Sensors mit einer Auflösung größer als die Auflösung des ersten Sensors aufweist, definieren, wobei die Kalibrierung und die Fusion gemeinsam durchgeführt werden, um die Kalibrierungsparameter und die fusionierte Menge von Messungen in Abhängigkeit voneinander zu aktualisieren.
Noch eine weitere Ausführungsform offenbart ein Verfahren zum Fusionieren von Ausgängen von unkalibrierten Sensoren, das Folgendes aufweist: Erlangen einer ersten Menge von Messungen einer Szene von einem ersten Sensor; Erlangen einer zweiten Menge von Messungen der Szene von einem zweiten Sensor, wobei eine Auflösung des ersten Sensors geringer ist als eine Auflösung des zweiten Sensors; Fusionieren der ersten Menge von Messungen unter Verwendung der zweiten Menge von Messungen, um eine fusionierte Menge von Messungen zu produzieren, die eine Modalität des ersten Sensors und eine Auflösung größer als die Auflösung des ersten Sensors aufweist, wobei das Fusionieren Kalibrierungsparameter verwendet, die eine geometrische Abbildung zwischen einem Koordinatensystem des ersten Sensors und einem Koordinatensystem des zweiten Sensors definieren; Vergleichen der fusionierten Menge von Messungen mit der zweiten Menge von Messungen, um einen Fehler der Kalibrierungsparameter zu bestimmen; Aktualisieren der Kalibrierungsparameter, um den Fehler zu reduzieren; und Wiederholen des Fusionierens, des Vergleichens und des Aktualisierens, bis eine Beendigungsbedingung erfüllt ist.
Figurenliste

[1A] 1A ist ein Blockdiagramm von Verfahren zum gemeinsamen Durchführen der Kalibrierung der Sensoren und der Fusion von Messungen der Sensoren gemäß unterschiedlichen Ausführungsformen der Erfindung.
[1B] 11B ist ein Blockdiagramm von Verfahren zum gemeinsamen Durchführen der Kalibrierung der Sensoren und der Fusion von Messungen der Sensoren gemäß unterschiedlichen Ausführungsformen der Erfindung.
[1C] 1C ist ein Blockdiagramm von Verfahren zum gemeinsamen Durchführen der Kalibrierung der Sensoren und der Fusion von Messungen der Sensoren gemäß unterschiedlichen Ausführungsformen der Erfindung.
[2] 2 ist ein Blockdiagramm eines Fusionsverfahrens zum Bestimmen der fusionierten Menge von Messungen gemäß einigen Ausführungsformen der Erfindung.
[3] 3 ist ein Schema eines Systems gemäß einer Ausführungsform der Erfindung.
[4] 4 ist ein Blockdiagramm eines beispielhaften Systems zum Fusionieren von Ausgängen der Sensoren gemäß einigen Ausführungsformen der Erfindung.

[Beschreibung von Ausführungsformen]
1A zeigt ein Blockdiagramm eines Verfahrens zum gemeinsamen Durchführen der Kalibrierung der Sensoren und der Fusion von Messungen der Sensoren gemäß unterschiedlichen Ausführungsformen der Erfindung. Das Verfahren erlangt 120 eine erste Menge von Messungen einer Szene 105 von einem ersten Sensor 110 und erlangt 125 auch eine zweite Menge von Messungen der Szene 105 von einem zweiten Sensor 115.
Schritte des Verfahrens werden unter Verwendung eines Prozessors, wie etwa eines sich innerhalb oder außerhalb von einem der Sensoren befindlichen Prozessors, durchgeführt. Die Messungen können direkt von den Sensoren oder indirekt z.B. von einem Speicher und/oder über einen drahtgebundenen oder drahtlosen Kommunikationskanal erlangt werden. In einigen Ausführungsformen ist eine Auflösung des ersten Sensors geringer als eine Auflösung des zweiten Sensors. Zusätzlich unterscheidet sich in einigen Ausführungsformen die Modalität des ersten Sensors von einer Modalität des zweiten Sensors.
Einige Ausführungsformen identifizieren Informationen über eine Szene unter Verwendung unterschiedlicher Arten und/oder Modalitäten von Sensordaten. Eine Szene kann irgendeine physische Fläche sein, für die Sensormessungen erzeugt werden können. Zum Beispiel kann in nicht einschränkender Weise eine Szene eine Fläche in einer Stadt, eine Nachbarschaft, eine Fläche in einem Wald, ein Unterwasserbereich, ein Bereich des Luftraums, eine Fläche in einer Produktionsanlage, ein Raum, eine Oberfläche einer Struktur oder irgendeine andere geeignete Art von Szene sein.
Die unterschiedlichen Modalitäten des ersten und zweiten Sensors weisen in nicht einschränkender Weise akustische Daten, biometrische Daten, Bilddaten, Spannungsablesungen, Vibrationsdaten und andere geeignete Arten von Sensordaten auf. Diese unterschiedlichen Modalitäten von Sensordaten können beim Durchführen von Operationen verwendet werden, wie etwa Detektieren des Vorhandenseins von Gegenständen in der Szene, Identifizieren der Gegenstände in der Szene, Verfolgen der Bewegung von Gegenständen in der Szene, Detektieren von Veränderungen in einer Umgebung der Szene, Messen von Abständen zwischen Gegenständen in der Szene und anderen geeigneten Operationen.
In einem Beispiel können unterschiedliche Arten von Bilddaten zum Detektieren, Identifizieren und/oder Verfolgen von Gegenständen in einer Szene verwendet werden. Die unterschiedlichen Arten von Bilddaten können zum Beispiel elektro-optische (EO) Bilder, Infrarot(IR)-Bilder, Wärmebilder, Radarbilder, ultraviolette Bilder und andere geeignete Arten von Bilddaten aufweisen.
Zum Beispiel ist in einer Ausführungsform der erste Sensor ein Tiefensensor, wie etwa ein LIDAR-Sensor, der einen Abstand durch Beleuchten eines Zieles mit einem Laser und Analysieren des reflektierten Lichts misst. Ein Beispiel für einen zweiten Sensor ist eine optische Kamera zum Aufnehmen von Intensitäten der Bilder der Szene.
Einige Ausführungsformen der Erfindung basieren auf der Erkennung, dass eine Sensorfusion eine Kalibrierung erfordert, die die geometrischen Parameter eines jeden Sensors, wie etwa Position und Orientierung in Bezug auf die anderen, bestimmt. Zum Beispiel versucht die Kalibrierung von zwei Sensoren, eine perspektivische Projektion des Referenzrahmens von einem System auf den Referenzrahmen des anderen zu bestimmen. Diese Projektion kann durch eine Anzahl von Parametern, auch als Freiheitsgrade bekannt, beschrieben werden. In einem Beispiel bestimmt eine Ausführungsform der Erfindung eine Transformation mit sechs Freiheitsgraden: drei Winkeldrehungen (Schräglage, Steigung und Gier) und drei Parallelverschiebungen (entlang der x -, y - und z -Achsen). In dieser Ausführungsform sind die Kalibrierungsparameter θ = θ_roll, θ_pitch, θ_yaw, θ_x, θ_y, θ_z). Andere Ausführungsformen können jedoch auch weniger oder mehr Freiheitsgrade in Betracht ziehen. Zum Beispiel zieht eine Ausführungsform keine Drehungen in Betracht. Zusätzlich oder alternativ bestimmt eine andere Ausführungsform relative Vergrößerungs- und Verzerrungsfaktoren der Sensoren. Es werden hierin jene Parameter als Kalibrierungsparameter bezeichnet, die eine geometrische Abbildung zwischen einem Koordinatensystem des ersten Sensors und einem Koordinatensystem des zweiten Sensors definieren. Das Koordinatensystem des Sensors kann als Referenzrahmen zum Durchführen der Fusion der Sensormessungen verwendet werden.
Der Einfachheit halber fällt der globale Referenzrahmen typischerweise mit dem Referenzrahmen von einem der Sensoren zusammen. Im Ausführungsbeispiel stellt der Sensor mit der höheren Auflösung 115 den globalen Referenzrahmen bereit. Nachdem die Kalibrierungsparameter bekannt sind, kann die Geometrie auf irgendeinen Referenzrahmen, einschließlich desjenigen des Sensors mit der geringeren Auflösung 110, trivial abgebildet werden.
Die erste Menge von Messungen 120 in seinem Referenzrahmen wird als ψ ∈ ℝ^M bezeichnet, wobei M die Anzahl von Messungen in der ersten Menge ist. Wenn zum Beispiel der Sensor mit der niedrigeren Auflösung einem LIDAR-System entspricht, stellt ψ eine Punktewolke dar, d.h. eine Menge von (x, y, z) kartesischen Koordinaten, aus denen eine LIDAR-Reflexion aufgezeichnet wurde.
Die zweite Menge von Messungen 125 in seinem Referenzrahmen wird als u ∈ ℝ^N bezeichnet, wobei N die Gesamtanzahl von Messungen in der zweiten Menge ist. Wenn zum Beispiel der Sensor mit der höheren Auflösung einer optischen Kamera entspricht, weist die zweite Menge von Messungen eine Gesamtzahl von N = N_x * N_y Messungen auf, wobei N_x und N_y die Anzahl von horizontalen bzw. vertikalen Pixeln ist. Diese Offenbarung verwendet n ∈ {1, ...,N}, um die Elemente von u und anderen ähnlich dimensionieren Daten zu indexieren, im Wesentlichen zu vektorisieren.
In Anbetracht der Kalibrierungsparameter θ kann die erste Menge von Messungen auf den Rahmen des Sensors mit der höheren Auflösung unter Verwendung eine linearen 3D-Starrkörpertransformation abgebildet werden $P_{θ} {Ψ} = P Ψ,$
wobei P die Projektionsmatrix ist, die durch die Kalibrierungsparameter θ gekennzeichnet ist.
Einige Ausführungsformen basieren auf der Ausgestaltung, dass die Kalibrierung und die Fusion sich ergänzende Prozesse sind und Verbesserungen in der einen zur Steigerung der Leistung der anderen verwendet werden können. Zu diesem Zweck führen 160 die Ausführungsformen eine gemeinsame Kalibrierung des ersten und des zweiten Sensors und eine Fusion der ersten und der zweiten Menge von Messungen durch, um Kalibrierungsparameter 163 zu produzieren, die eine geometrische Abbildung zwischen einem Koordinatensystem des ersten Sensors und einem Koordinatensystem des zweiten Sensors und eine fusionierte Menge von Messungen 165, die die Modalität des ersten Sensors aufweist und eine Auflösung größer als die Auflösung des ersten Sensors hat, definieren. Wie hierin verwendet, aktualisieren die gemeinsame Kalibrierung und Fusion sowohl die Kalibrierungsparameter 163 als auch die fusionierte Menge von Messungen 165 in Abhängigkeit 167 voneinander.
Zum Beispiel aktualisiert in einer Ausführungsform die gemeinsame Kalibrierung und Fusion 160 die Kalibrierungsparameter und die fusionierte Menge von Messungen rekursiv, bis ein Beendigungskriterium erfüllt ist, so dass die Kalibrierungsparameter als Reaktion auf eine Veränderung der fusionierten Menge von Messungen aktualisiert werden und die fusionierte Menge von Messungen als Reaktion auf eine Veränderung der Kalibrierungsparameter aktualisiert wird.
Zum Beispiel schätzt die Kalibrierung die Kalibrierungsparameter θ direkt aus der ersten und der zweiten Menge von Messungen $\hat{θ} = f_{K a l i b r i e r u n g} (u, Ψ) .$
Die erste Menge von Messungen weist im Gegensatz zur zweiten Menge von Messungen eine wesentlich geringere Auflösung auf. In Anbetracht der Kalibrierungsparameter integriert die Fusion 130 die Daten von beiden Sensoren, um Daten zu produzieren, die Informationen von beiden kombinieren. In einigen Ausführungsformen ist zum Beispiel ein Fusionsziel, hochauflösende Daten ϕ_θ ∈ ℝ^N zu schätzen, wobei jedes Element von ϕ die Modalität des ersten Sensors im Referenzrahmen des zweiten Sensors aufweist $\hat{ϕ} = f_{F u s i o n} (u, Ψ, θ) .$
Die Qualität des Ausgangs des Fusionsprozesses kann typischerweise aus den fusionierten Daten unter Verwendung einer Kostenfunktion, die niedrigere oder höhere Werte nimmt, wenn sich die Fusionsqualität verbessert, geschätzt werden.
1B zeigt ein Blockdiagramm eines Verfahrens zum gemeinsamen Durchführen der Kalibrierung der Sensoren und der Fusion ihrer Ausgänge gemäß einer Ausführungsform der Erfindung. In dieser Ausführungsform wird die Kalibrierung und die Fusion gemeinsam durchgeführt durch Optimieren 170 einer Kostenfunktion 175 der fusionierten Menge von Messungen in Anbetracht der Kalibrierungsparameter.
Beispielsweise nutzen zum Schätzen der Kalibrierungsparameter einige Ausführungsformen der Erfindung den Ausgang des Fusionsprozesses sowie die Kosten, die die Fusionsqualität darstellen und aus den fusionierten Daten geschätzt werden. Insbesondere verwendet eine Ausführungsform ϕ_θ = f_Fusion (u, ψ, θ), um die fusionierte Menge von Messungen in Anbetracht der Kalibrierungsparameter θ kompakt zu bezeichnen. Die Kalibrierungsparameter werden durch Optimierung einer Kostenfunktion auf ϕ_θ geschätzt, was der Kostenfunktion entspricht, die zur Bewertung der Qualität des Fusionsprozesses verwendet wurde. In einer Ausführungsform enthält die Optimierung das Erhöhen oder Verringern der Kostenfunktion, bis eine Beendigungsbedingung erfüllt ist.
In den Ausführungsformen, in denen die Optimierung das Verringern der Kostenfunktion aufweist, bestraft das Optimierungsverfahren Fehlabgleichungen zwischen Kanten der fusionierten Menge von Messungen und der zweiten Menge von Messungen $\hat{θ} = {argmin}_{θ} {F (θ)},$

wobei $F (θ) = \sum_{k} \frac{A_{k} (ϕ_{θ})}{N_{k} (ϕ_{θ})} .$
Zum Beispiel misst der Zähler A_k(ϕ_θ) die gewichtete ℓ₁ Gesamtschwankung (TV, total variation) der fusionierten Menge von Messungen, die wie folgt definiert werden kann $A_{k} (ϕ_{θ}) = \sum_{n \in Ω_{θ}} w_{k, n} | {[\nabla_{k} ϕ_{θ}]}_{n} |$
wobei k die Richtung und ∇_k den Gradienten, der auf ϕ_θ entlang der Richtung k arbeitet, bezeichnet. Wenn zum Beispiel ϕ_θ den niedrig aufgelösten LIDAR-Daten, die mit hoch aufgelösten Kameradaten fusioniert wurden, entspricht, ist k entweder die horizontale x- oder vertikale y- Richtung. Die Gewichtungen w_k,n werden unter Verwendung der zweiten Menge von Messungen $w_{k, n} = e^{- γ | {[\nabla_{k} u]}_{n} |},$
spezifiziert, wodurch der Abgleich von Kanten zwischen der zweiten Menge von Messungen und der fusionierten Menge von Messungen, wie durch den laufenden Parameter γ ≥ 0 gesteuert, gefördert wird. In einigen Ausführungsformen entsprechen Daten LIDAR- und Kameramessungen und die Kanten entsprechen den Begrenzungen von Gegenständen in den entsprechenden Bildern.
In einer Ausführungsform bezeichnet die Menge Ω_θ ≠ ∅ die Teilmenge von Positionen, die den Messungen des niedrig auflösenden Sensors entsprechen. Das Einschränken des Verlustes auf jene Punkte stellt sicher, dass nur die Bereiche, in denen die fusionierte Menge von Messungen zuverlässig ist, in Betracht gezogen wird. Es ist anzumerken, dass auch wenn die Funktion nur in diesen Punkten berechnet wird, eine Durchführung der Fusion erforderlich ist, damit die Gradienten in diesen Positionen berechnet werden können.
Zusätzlich oder alternativ wird in Anbetracht einer Kante in der zweiten Menge von Messungen eine große y eine entsprechende Kante in der fusionierten Menge von Messungen nicht bestrafen. Somit werden nur Kanten in der fusionierten Menge von Messungen, die keine entsprechenden Kanten in der zweiten Messungsmenge haben, d. h. nicht ordnungsgemäß abgeglichen sind, bestraft. Ein kleines y reduziert andererseits die Wirkung der zweiten Messungsmenge, und bestraft somit Kanten in der fusionierten Menge von Messungen in ähnlicher Weise; ungeachtet dessen, ob die zweite Menge von Messungen eine entsprechende Kante aufweist.
Der Nenner ist ein notwendiger Normalisierungsfaktor, der den Unterschied in der Anzahl von Punkten in Ω_θ, die in der Bewertung gegebener unterschiedlicher Parametermengen θ enthalten sind, in Betracht zieht $N_{k} (ϕ_{θ}) = (\sum_{n \in Ω_{θ}} w_{k, n}) (\sum_{n \in Ω_{θ}} | {[\nabla_{k} ϕ_{θ}]}_{n} |) .$
1C zeigt ein Blockdiagramm eines Verfahrens zum gemeinsamen Durchführen der Kalibrierung der Sensoren und der Fusion ihrer Ausgänge gemäß einer weiteren Ausführungsform der Erfindung. In dieser Ausführungsform werden die Daten von den zwei Sensoren unter Verwendung des aktuellen Wertes der Kalibrierungsparameter fusioniert und des Ausgang der Fusion wird mit der zweiten Menge von Messungen verglichen, um den Fehler in der Fusion, die verwendet wird, um die Kalibrierungsparameter zu aktualisieren, zu bestimmen.
Zum Beispiel fusioniert die Ausführungsform 130 die erste Menge von Messungen 120 unter Verwendung der zweiten Menge von Messungen 125, um eine fusionierte Menge von Messungen 135 mit der Modalität des ersten Sensors und einer Auflösung, die größer ist als die Auflösung des ersten Sensors, zu produzieren. Die Ausführungsform vergleicht 140 die fusionierte Menge von Messungen 135 mit den zweiten Mengenmessungen 125, um einen Fehler 155 der Kalibrierungsparameter zu bestimmen. Die Ausführungsform aktualisiert 145 die Kalibrierungsparameter 150, um den Fehler 155 zu reduzieren. In einigen Implementierungen ist der Fehler 155 als Kostenfunktion 175 ausgestaltet, so dass der Fehler die Qualität des Fusionsprozesses und der Kalibrierung misst.
Der Prozess wird unter Verwendung der aktualisierten Kalibrierungsparameter 150 iteriert, bis ein Beendigungskriterium erfüllt ist. Das Verfahren gibt die geschätzten Kalibrierungsparameter oder die fusionierten Daten oder beide, wie durch die nachfolgende Verarbeitung gefordert, aus. Ein abschließender Fusionsschritt kann optional unter Verwendung der geschätzten Kalibrierungsparameter durchgeführt werden.
Sensorfusion
In Anbetracht eines festen Parametervektors θ, schätzt die Fusion ϕ̂_θ unter Verwendung der zweiten Menge von Messungen u und der Projektion der ersten Menge von Messungen auf den globalen Referenzrahmen P_θ {ψ}.
In einer Ausführungsform bestimmt die Fusion Daten höherer Auflösung, die der Modalität des Sensors mit der geringeren Auflösung entsprechen. Die Qualität der Daten hoher Auflösung kann auf vielfältige Weise geschätzt werden. Eine Ausführungsform verwendet eine ℓ₂-Strafe, um eine Konsistenz der resultierenden fusionierten Menge von Messungen mit den projizierten Daten zu fördern. Mit anderen Worten, die Ausführungsform misst die Datenwiedergabetreue D(Φ) oder den Fehler unter Verwendung von $D (ϕ) = \frac{1}{2} {‖ P_{θ} {Ψ} - H ϕ ‖}_{l_{2}}^{2},$
wobei H: ℝ^N → ℝ^M ein Maskierungsoperator ist, der nur die Indexe auswählt, in denen wir Daten in der Projektion Pθ{ψ} haben.
Da die erste Menge von Messungen eine niedrigere Auflösung aufweist, reguliert eine Ausführungsform die Fusion unter Verwendung der gewichteten isotropischen Gesamtschwankung (TV) der ersten Menge von Messungen $R (ϕ) = \sum_{n = 1}^{N} w_{n} {‖ {[\nabla ϕ]}_{n} ‖}_{l_{2}}$
welche schärfere Kanten gemäß der Gewichtung w_n fördert.
Die Fusion kombiniert die Datentreue und die Regularisierungsbedingungen zu einer einzigen Kostenfunktion, die die Fusionsqualität schätzt. Die Fusion gibt fusionierte Daten aus, die diese Kosten wie folgt minimieren ${\hat{ϕ}}_{θ} = \underset{ϕ \in Φ}{argmin} {D (ϕ) + λ R (ϕ)}$
wobei ϕ ⊆ ℝ^N verwendet wird, um gewisse physische Zwangsbedingungen bei der fusionierten Menge von Messungen durchzusetzen, und λ > 0 steuert den Umfang der Regularisierung. Wenn zum Beispiel die erste Menge von Messungen einer Tiefe entspricht, setzt ϕ eine Nichtnegativität der fusionierten Tiefendaten durch.
2 zeigt ein Fusionsverfahren zum Bestimmen der fusionierten Menge von Messungen gemäß einigen Ausführungsformen der Erfindung. Die erste Menge von Messungen 120 wird auf den Referenzrahmen der zweiten Menge von Messungen 205 abgebildet, und die abgebildete erste Menge von Messungen wird 208 auf eine Abtastrate der Ziel-Auflösung erhöht. Zum Beispiel kann die Ziel-Auflösung die Auflösung der zweiten Menge von Messungen sein.
In einigen Ausführungsformen nutzt die Fusion die zweite Menge von Messungen, um den Fusionsausgang durch Gewichtungen w_n zu verbessern. Zu diesem Zweck bestimmt eine Ausführungsform 210 die Gewichtung w_n 210 unter Verwendung der zweiten Menge von Messungen u 125. Zum Beispiel wählen einige Ausführungsformen die Gewichtungen als eine Funktion des Gradienten der zweiten Menge von Messungen an jedem Standort aus, so dass entsprechende Kanten im Tiefenbild nicht bestraft werden.
Einige Ausführungsformen basieren auf dem Verständnis, dass wenn die Kalibrierungsparameter nicht korrekt sind, diese Gewichtung störende Kanten einführen kann, die die nachfolgende Kalibrierung verwaschen. Somit wird in einigen Ausführungsformen während der Durchführung der Kalibrierung die Gewichtung als w_n = 1 ausgewählt. Nachdem die Kalibrierungsparameter geschätzt wurden, kann ein abschließender Fusionsschritt unter Verwendung verschiedener Gewichtungen, wie etwa w_n = exp(-τ||[∇u]_n||_ℓ2) für eine Konstante τ > 0 , durchgeführt werden. Alternative Ausführungsformen verwenden Gewichtungen, die kleine Werte nehmen, wenn [∇u]_n groß ist, und große Werte, wenn [∇u]_n klein ist.
Die Ausführungsform bestimmt 220 die fusionierte Menge von Messungen durch Berechnen einer Richtung, die die Kostenfunktion D(ϕ) + λR(ϕ) reduziert, und aktualisiert 240 die fusionierte Menge von Messungen gemäß der Richtung. Zum Beispiel verwendet eine Implementierung ein Verfahren des steilsten Abstiegs, um die Aktualisierung 240 gemäß $ϕ^{t} \leftarrow ϕ^{t - 1} - ν H^{T} (H ϕ^{t - 1} - P Ψ) - ν \tilde{\nabla} R (ϕ^{t - 1})$
durchzuführen, wobei v > 0 die Schrittgröße ist, ∇̃R ein Teilgradient von R ist, ϕ^t-1 und ϕ^t alte bzw. neue fusionierte Mengen von Messungen sind.
Um physische Zwangsbedingungen 230 durchzusetzen, setzt eine Ausführungsform die Verletzungswerte auf die naheliegendste Zwangsbedingung ein. Um zum Beispiel eine Nichtnegativität der fusionierten Tiefendaten durchzusetzen, setzt die Ausführungsform die negativen Tiefenwerte auf 0. Die resultierende Schätzung der fusionierten Menge von Messungen wird verwendet, um die Stufen 220, 230 und 240 zu iterieren, bis ein Stoppkriterium erreicht wird, und eine endgültige fusionierte Menge von Messungen 250 auszugeben.
Ausführungsbeispiele
3 zeigt ein Schema eines Systems gemäß einer Ausführungsform der Erfindung. Das System weist einen ersten Sensor 310 auf, um eine Szene zu messen, um eine erste Menge von Messungen der Szene zu produzieren, und einen zweiten Sensor 320, um die Szene zu messen, um eine zweite Menge von Messungen der Szene zu produzieren. Zum Beispiel ist der erste Sensor 310 ein LIDAR, und der zweite Sensor 320 ist eine Kamera. Der LIDAR-Sensor 310 ist der niedrig auflösende erste Sensor und die Kamera 320 ist der hoch auflösende zweite Sensor.
Das System weist auch einen Prozessor 302 auf, um eine Kalibrierung des ersten und des zweiten Sensors und eine Fusion der ersten und der zweiten Menge von Messungen gemäß Prinzipien, die von verschiedenen Ausführungsformen der Erfindung genutzt werden, gemeinsam durchzuführen. Zum Beispiel sind in einer Ausführungsform der erste und der zweite Sensor an einem Fahrzeug 301 installiert, und der Prozessor 302 bildet einen Teil eines Rechensystems des Fahrzeugs. Zusätzlich oder alternativ kann der Prozessor 302 der Prozessor der Sensoren 310 und/oder 320 sein.
Der LIDAR zeichnet den Abstand von Gegenständen gemäß seinem Referenzrahmen auf und stellt die Daten in der Form einer Punktwolke 315 bereit. In einigen Ausführungsformen zeichnet der LIDAR auch das Reflektivität von Gegenständen auf. Typische LIDAR-Sensoren tasten horizontal ab, mit wenigen vertikalen Richtungen in einem Bereich zwischen 1 und 64, obgleich mehr Richtungen möglich sind. Somit kann LIDAR zwar genaue Tiefeninformationen bereitstellen, aber diese Informationen weisen eine niedrige räumliche Auflösung auf.
Die Kamera zeichnet die Reflektivität von Gegenständen gemäß ihrem Referenzrahmen auf und stellt die Messungen in der Form eines Bildes 325 bereit. Im Gegensatz zu LIDAR sind hoch auflösende Kameras nicht teuer. Somit können Kameras hoch aufgelöste Informationen über die Reflektivität von Gegenständen bereitstellen. Kameras geben jedoch keine Tiefeninformationen.
Der Unterschied bei der Auflösung und die Art von Informationen, durch die zwei Sensoren aufgezeichnet werden, macht eine Fusion sehr reizvoll. Beim Fusionieren der Daten von den zwei Sensoren gibt eine Ausführungsform eine Tiefenkarte mit hoher räumlicher Auflösung und präzisen Tiefeninformationen für alle Gegenstände in der Szene aus. Die Tiefenkarte wird abgeglichen und entspricht der Intensitätskarte, die durch die hochauflösende Kamera aufgezeichnet wurde, womit Tiefeninformationen zu den von der Kamera aufgezeichneten Intensitätsinformationen bereitgestellt werden. Mit anderen Worten, eine Ausführungsform verwendet eine gemeinsame Kalibrierung und Fusion 330, um beide Sensoren zu verbessern, d. h., die Auflösung des LIDAR-Ausgangs 335 zu erhöhen und hoch aufgelöste Tiefeninformationen in den Kameraausgang einzubringen. Das Ergebnis der Fusion kann auf einer Anzeige 340 dargestellt oder an unterschiedliche Anwendungen 350, z.B. an eine Gegenstandsverfolgungsanwendung geliefert werden.
Wenn die Kamera und LIDAR montiert sind, um dieselbe Szene zu beobachten, sind ihre Referenzrahmen unterschiedlich. Wenn nach der Montage der Sensoren deren Referenzrahmen konstant bleibt, kann die extrinsische Kalibrierung vor der Fusion praktisch sein. Wenn sich zum Beispiel die Kamera auch nur leicht bewegt, sollte die Offline-Kalibrierungsprozedur mit bekannten Zielen zu erheblichen Kosten und Ausfallzeit wiederholt werden.
In der Praxis ist die Kalibrierung der Sensoren nicht fest. Im Allgemeinen können Sensoren mit der Zeit abweichen, da sich Befestigungskomponenten deformieren oder lockern. Zufälliger Kontakt kann die Orientierung der Sensoren ebenfalls erheblich verändern. Deshalb kalibriert das Ausführungsbeispiel die zwei Sensoren ständig automatisch, wenn sie arbeiten, ohne dass eine Notwendigkeit für die manuelle Offline-Kalibrierung besteht. Insbesondere arbeitet der gemeinsame Fusions- und Kalibrierungsprozess ständig, wobei sowohl die Kalibrierungsparameter als auch die fusionierten Daten geschätzt werden.
In unterschiedlichen Ausführungsformen, um Berechnungen zu reduzieren, wird der gemeinsame Kalibrierungs- und Fusionsprozess intermittierend, z.B. ein Mal pro Sekunde, Minute oder Stunde (oder weniger oft) durchgeführt, um die Kalibrierungsparameter zu aktualisieren. Dazwischen wird nur eine Fusion unter Verwendung der letzten berechneten Kalibrierungsparameter durchgeführt. Dieser Ansatz geht davon aus, dass die Sensororientierung, und deshalb die Kalibrierungsparameter, während des Zeitabschnittes, in dem nur eine Fusion durchgeführt wird, z.B. über eine Sekunde, Minute bzw. Stunde, in etwa unverändert bleiben. Wenn sich die Sensororientierung während dieser Zeit verändert, dann wird die Fusion mit falschen Parametern durchgeführt und könnte falsche Ergebnisse produzieren.
Solche Ausführungsformen sind in Automobilanwendungen und autonomen Navigationssystemen besonders nützlich. Solche Systeme stützen sich auf LIDAR und Kamera, die auf einem Fahrzeug 301 installiert sind, um die Umgebung zu verstehen und ihre Aktionen zu berechnen. Zum Beispiel kann ein Fahrerassistenz-Sicherheitssystem den Fusionsausgang der Ausführungsform verwenden, um ein Fahrzeug abzubremsen oder die Spur zu wechseln, wenn der vorausgehende Verkehr plötzlich stoppt. In ähnlicher Weise kann ein autonomes Fahrzeug oder ein Roboter so fusionierte Informationen ausnutzen, um seine Position und die Hindernisse auf seinem Weg zu bestimmen und die passende Navigationsroute zu bestimmen. Damit solche Systeme jedoch ordnungsgemäß arbeiten, müssen die Sensoren kalibriert werden. Unterschiedliche Ausführungsformen der Erfindung sichern die Genauigkeit der, ohne dass häufige Ausfallzeiten für die Offline-Rekalibrierung erforderlich sind.
4 zeigt ein Blockdiagramm eines beispielhaften Systems 400, das zum Fusionieren von Ausgängen der Sensoren gemäß einigen Ausführungsformen der Erfindung konfiguriert ist. Das System 400 kann intern im ersten und/oder dem zweiten Sensor implementiert sein. Zusätzlich oder alternativ kann das System 400, zur Durchführung der Fusion, kommunikativ mit den Sensoren verbunden sein.
Das System 400 kann eine Kamera oder eine Kombination einer Kamera 410, eine inertiale Messeinheit (IMU) 430, einen Prozessor 450, einen Speicher 460, einen Sendeempfänger 470 und eine Anzeige/einen Bildschirm 480 aufweisen, welche durch Verbindungen 420 mit anderen Komponenten wirkgekoppelt sein können. Die Verbindungen 420 können Busse, Leitungen, Fasern, Verknüpfungen oder eine Kombination daraus umfassen.
Der Sendeempfänger 470 kann zum Beispiel einen Sender aufweisen, der ein oder mehrere Signale über eine oder mehrere Arten von drahtlosen Kommunikationsnetzen übertragen kann, und einen Empfänger, um ein oder mehrere Signale zu empfangen, die über die eine oder mehrere Arten von drahtlosen Kommunikationsnetzwerken übertragen werden. Der Sendeempfänger 470 kann eine Kommunikation mit drahtlosen Netzwerken basierend auf einer Vielfalt von Technologien ermöglichen, wie etwa u.a. Femtozellen, Wi-Fi-Netzwerke oder drahtlose lokale Netze (WLANs), die auf der IEEE 802.11-Standardfamilie basieren können, drahtlose Netzwerke für den persönlichen Bereich (WPANS) wie Bluetooth, Nahfeldkommunikation (NFC), Netzwerke basierend auf der IEEE 802.15x-Standardfamilie und/oder drahtlose Fernnetzwerke (WWANs), wie etwa LTE, WiMAX usw. Das System 400 kann auch einen oder mehrere Anschlüsse zur Kommunikation über drahtgebundene Netzwerke aufweisen.
In einigen Ausführungsformen kann das System 400 Bildsensoren, wie etwa CCD- oder CMOS-Sensoren, Laser und/oder Kamera 410 umfassen, die nachstehend als „Sensor 410“ bezeichnet werden. Zum Beispiel kann der Sensor 410 ein optisches Bild in ein elektronisches oder digitales Bild umwandeln und kann erlangte Bilder an den Prozessor 450 senden. Zusätzlich oder alternativ kann der Sensor 410 das Licht abtasten, das von einem Ziel-Gegenstand in einer Szene reflektiert wird, und die Intensitäten des erfassten Lichts an den Prozessor 450 liefern.
Zum Beispiel kann der Sensor 410 Farb- oder Graustufenkameras aufweisen, die „Farbinformationen“ bereitstellen. Der hierin verwendete Begriff „Farbinformationen“ bezieht sich auf Farb- und/oder Graustufeninformationen. Im Allgemeinen kann ein Farbbild oder Farbinformationen, wie hierin verwendet, als 1 bis N Kanäle umfassend angesehen werden, wobei N eine ganze Zahl ist, die abhängig ist vom Farbraum, der für die Speicherung des Bildes benutzt wird. Zum Beispiel umfasst ein RGB-Bild drei Kanäle, mit jeweils einem Kanal für Rot-, Blau- und Grün-Informationen.
Zum Beispiel kann der Sensor 410 einen Tiefensensor aufweisen, um „Tiefeninformationen“ bereitzustellen. Die Tiefeninformationen können auf eine Vielfalt von Arten unter Verwendung von Tiefensensoren erlangt werden. Der Begriff „Tiefensensor“ wird verwendet, um Funktionseinheiten zu bezeichnen, die verwendet werden können, um Tiefeninformationen unabhängig und/oder in Verbindung mit einigen anderen Kameras zu erhalten. Zum Beispiel können in einigen Ausführungsformen der Tiefensensor und die optische Kamera Teil des Sensors 410 sein. Zum Beispiel weist in einigen Ausführungsformen der Sensor 410 RGBD-Kameras auf, die Tiefe-pro-Pixel(D)-Informationen gewinnen können, wenn der Tiefensensor dazu in der Lage ist, zusätzlich zu Farb(RGB)- Bildern.
Als weiteres Beispiel kann in einigen Ausführungsformen der Sensor 410 eine 3D-TOF-Kamera (3D-Time-of-Flight-Kamera) aufweisen. In Ausführungsformen mit 3DTOF-Kamera kann der Tiefensensor die Form eines mit der 3DTOF-Kamera gekoppelten Blitzlichtes annehmen, das Gegenstände in einer Szene beleuchten kann, und reflektiertes Licht kann durch einen CCD/CMOS-Sensor im Sensor 410 erfasst werden. Tiefeninformationen können durch Messen der Zeit, die die Lichtimpulse brauchen, um zu den Gegenständen und zurück zum Sensor zu kommen, erhalten werden.
Als weiteres Beispiel kann der Tiefensensor die Form einer Lichtquelle, die mit dem Sensor 410 gekoppelt ist, annehmen. In einer Ausführungsform projiziert die Lichtquelle ein strukturiertes oder texturiertes Lichtmuster, das ein oder mehrere schmale Bänder von Licht aufweisen kann, auf Gegenstände in einer Szene. Tiefeninformationen werden durch Ausnutzung geometrischer Verzerrungen des projizierten Musters, veranlasst durch die Oberflächenform des Gegenstandes, erhalten. Eine Ausführungsform bestimmt Tiefeninformationen aus Stereosensoren, wie etwa eine Kombination aus einem Projektor mit infrarotem strukturiertem Licht und einer Infrarot-Kamera, die mit einer RGB-Kamera ausgerichtet ist.
In einigen Ausführungsformen weist der Sensor 410 stereoskopische Kameras auf. Zum Beispiel kann ein Tiefensensor Teil eines passiven Stereoskopiesensors sein, der zwei oder mehrere Kameras verwenden kann, um Tiefeninformationen für eine Szene zu erhalten. Die Pixelkoordinaten von Punkten, die beiden Kameras in einer erfassten Szene gemein sind, können zusammen mit Kamerastellungsinformationen und/oder Triangulationstechniken verwendet werden, um Tiefeninformationen pro Pixel zu erhalten.
In einigen Ausführungsformen kann das System 400 mit mehreren Sensoren 410 wirkverbunden sein, wie etwa Dual-Front-Kameras und/oder Front- und Rückkameras, die auch verschiedene Sensoren enthalten können. In einigen Ausführungsformen können die Sensoren 410 sowohl Standbilder als auch Videobilder erfassen. In einigen Ausführungsformen kann der Sensor 410 RGBD- oder stereoskopische Videokameras aufweisen, die fähig sind, Bilder mit z.B. 30 Rahmen pro Sekunde (fps, frames per second) zu erfassen. In einer Ausführungsform können durch den Sensor 410 erfasste Bilder in einem rohen unkomprimierten Format sein und können vor ihrer Verarbeitung und/oder Speicherung im Speicher 460 komprimiert werden. In einigen Ausführungsformen kann eine Bild-Komprimierung durch den Prozessor 450 unter Verwendung verlustfreier oder verlustbehafteter Komprimierungstechniken durchgeführt werden.
In einigen Ausführungsformen kann der Prozessor 450 auch eine Eingabe von der IMU 430 empfangen. In anderen Ausführungsformen kann die IMU 430 einen oder mehrere 3-Achsen-Beschleunigungsmesser, 3-Achsen-Gyroskop(e) und/oder ein oder mehrere Magnetometer umfassen. Die IMU 430 kann dem Prozessor 450 Geschwindigkeit, Orientierung und/oder andere positionsbezogene Informationen bereitstellen. In einigen Ausführungsformen kann die IMU 430 gemessene Informationen in Synchronisation mit der Erfassung eines jeden Bildrahmens durch den Sensor 410 ausgeben. In einigen Ausführungsformen wird der Ausgang des IMU 430 teilweise durch den Prozessor 450 verwendet, um die Sensormessungen zu fusionieren und/oder die fusionierten Messungen weiter zu verarbeiten.
Das System 400 kann auch einen Bildschirm oder eine Anzeige 480 aufweisen, die Bilder wiedergeben, wie etwa Farb- und/oder Tiefenbilder. In einigen Ausführungsformen kann die Anzeige 480 verwendet werden, um Live-Bilder, die durch den Sensor 410 erfasst werden, fusionierte Bilder, wie etwa das Bild 335, Augmented-Reality(AR)-Bilder, grafische Benutzeroberflächen (GUIs) und andere Programmausgaben anzuzeigen. In einigen Ausführungsformen kann die Anzeige 480 einen Berührungsbildschirm aufweisen und/oder darin beherbergt sein, um Benutzern die Eingabe von Daten über eine Kombination von virtuellen Tastaturen, Symbolen, Menüs oder anderen GUIs, Benutzergesten und/oder Eingabegeräten, wie etwa Schreibstifte und andere Schreibutensilien zu erlauben. In einigen Ausführungsformen kann die Anzeige 480 unter Verwendung einer Flüssigkristallanzeige(LCD)-Anzeige oder einer Leuchtdioden(LED)-Anzeige, wie etwa eine organische LED (OLED)-Anzeige implementiert werden. In anderen Ausführungsformen kann die Anzeige 480 eine tragbare Anzeige sein.
In einigen Ausführungsformen kann das Ergebnis der Fusion auf der Anzeige 480 dargestellt oder an unterschiedliche Anwendungen, die sich innerhalb oder außerhalb des Systems 400 befinden können, geliefert werden. Zum Beispiel kann eine auf dem Prozessor 450 laufende Computer-Vision(CV)-Anwendung 455 (zu Deutsch etwa: maschinelles Sehen) eine computer-vision-basierte Verfolgung, ein modellbasiertes Verfolgen und/oder ein gleichzeitiges Lokalisierungs- und Abbildungs(SLAM)-Verfahren implementieren und ausführen.
Das beispielhafte System 400 kann auch auf verschiedene Arten modifiziert werden, auf eine Weise, die mit der Offenbarung im Einklang steht, wie etwa durch Hinzufügen, Kombinieren oder Weglassen von einem oder mehreren gezeigten funktionalen Blocks. Zum Beispiel weist in einigen Ausgestaltungen das System 400 keine IMU 430 oder keinen Sendeempfänger 470 auf. Ferner weist das System 400 in gewissen beispielhaften Implementierungen eine Vielfalt anderer Sensoren (nicht gezeigt), wie etwa einen Umgebungslichtsensor, Mikrofone, akustische Sensoren, Überschallsensoren, Laserentfernungsmesser usw. auf. In einigen Ausführungsformen nehmen Abschnitte des Systems 400 die Form eines oder mehrerer Chipsätze und/oder dergleichen an.
Der Prozessor 450 kann unter Verwendung einer Kombination von Hardware, Firmware und Software implementiert werden. Der Prozessor 450 kann eine oder mehrere Schaltungen darstellen, die konfigurierbar sind, um mindestens einen Abschnitt einer Rechenprozedur oder eines Prozesses durchzuführen, welche die Sensorfusion und/oder Verfahren für die weitere Verarbeitung der fusionierten Messungen betreffen. Der Prozessor 450 fragt Befehle und/oder Daten aus dem Speicher 460 ab. Der Prozessor 450 kann unter Verwendung einer oder mehrerer anwendungsspezifischer integrierter Schaltungen (ASICs), zentraler und/oder grafischer Verarbeitungseinheiten (CPUs und/oder GPUs), Digitalsignalprozessoren (DSPs), Digitalsignalverarbeitungsvorrichtungen (DSPDs), programmierbaren Logikvorrichtungen (PLDs), feldprogrammierbaren Gate-Arrays (FPGAs), Steuereinrichtungen, Mikrosteuereinrichtungen, Mikroprozessoren, eingebetteten Prozessorkernen, elektronischen Vorrichtungen, anderer elektronischer Einheiten, die zur Durchführung der hierin beschriebenen Funktionen ausgelegt sind, oder einer Kombination daraus implementiert werden.
Der Speicher 460 kann innerhalb des Prozessors 450 und/oder außerhalb des Prozessors 450 implementiert sein. Wie hierin verwendet, bezieht sich der Begriff „Speicher“ auf irgendeine Art von Langzeitspeicher, Kurzzeitspeicher, flüchtigem oder anderen Speicher und soll auf keine bestimmte Art von Speicher oder Anzahl von Speichern oder Art von physischen Medien, auf dem ein Speicher gespeichert ist, beschränkt werden. In einigen Ausführungsformen hält der Speicher 460 Programmcode, der die Sensorfusion und/oder eine oder mehrere Bildverarbeitungs-, SLAM-Durchführungs-, Verfolgungs-, 3D-Rekonstruktions- und andere Aufgaben, die durch CV 455 auf dem Prozessor 450 durchgeführt werden, erleichtert.
Zum Beispiel kann der Speicher 460 die Messungen der Sensoren, wie etwa Standbilder, Tiefeninformationen, Videorahmen, Programmergebnisse, sowie Daten, die durch die IMU 430 und andere Sensoren bereitgestellt werden, speichern. Im Allgemeinen kann der Speicher 460 irgendeinen Datenspeichermechanismus darstellen. Der Speicher 460 kann zum Beispiel einen primären Speicher und/oder einen sekundären Speicher aufweisen. Der primäre Speicher kann zum Beispiel, einen Direktzugriffsspeicher, Nurlesepeicher usw. aufweisen. Zwar wird der primäre Speicher in 4 als separat von den Prozessoren 450 dargestellt, aber es sollte sich verstehen, dass alles oder ein Teil eines primären Speichers innerhalb oder in anderer Weise am selben Ort befindlich und/oder an die Prozessoren 450 gekoppelt bereitgestellt werden kann.
Ein sekundärer Speicher kann zum Beispiel dieselbe oder eine ähnliche Art von Speicher wie der primäre Speicher und/oder ein oder mehrere Datenspeichergeräte oder -systeme, wie etwa, zum Beispiel, Flash/USB-Speicherlaufwerke, Speicherkartenlaufwerke, Plattenlaufwerke, optische Plattenlaufwerke, Bandlaufwerke, Festkörperlaufwerke, hybride Laufwerke usw. aufweisen. In gewissen Implementierungen kann der sekundäre Speicher operativ empfänglich sein für, oder anderweitig konfigurierbar sein für ein nichtvergängliches computerlesbares Medium in einem entfernbaren Medienlaufwerk (nicht gezeigt). In einigen Ausführungsformen bildet das nichtvergängliche, computerlesbare Medium Teil des Speichers 460 und/oder des Prozessors 450.
In einigen Ausführungsformen kann das CV 455 verschiedene Computer-Vision-Verfahren implementieren und/oder durch den Sensor 410 erfasste Bilder verarbeiten. Zum Beispiel kann das CV 455 zum Verarbeiten von einem oder mehreren durch den Sensor 410 erfassten Bildern konfiguriert sein, um eine Rekonstruktion einer Umgebung durchzuführen, die unter Verwendung der Tiefeninformationen, die mit den erfassten Bilder verknüpft sind, modelliert wird.
Basierend auf den Tiefendaten kann während der Rekonstruktion jedem Pixel eine 3D-Koordinate zugeteilt werden. In einer Ausführungsform verfolgt das CV 455 auf dem Prozessor 450 die Position der Kamera 410 unter Verwendung eines monokularen (einzelne Kamera), visuellen SLAM-Systems, um eine grobe Karte der Umgebung um die MS für eine genaue und robuste 6DOF-Verfolgung der Kamera 410 aufzubauen. Der Begriff monokular bezieht sich auf die Verwendung einer einzelnen nichtstereoskopischen Kamera zum Erfassen von Bildern oder auf ohne Tiefeninformationen erfasste Bilder. Ein anderes Rekonstruktionsverfahren kann dann die Kamerapositionierung und Tiefeninformationen pro Pixel verwenden, um die erfassten Bild(er) entlang einer Betrachtungsrichtung zu extrudieren. Zum Beispiel ist in einer Ausführungsform der Prozessor 450 konfiguriert, um einen Gegenstand in der Szene unter Verwendung der fusionierten Menge von Messungen zu verfolgen.
Die oben beschriebenen Ausführungsformen der vorliegenden Erfindung können auf irgendeine von zahlreichen Arten implementiert werden. Zum Beispiel können die Ausführungsformen unter Verwendung von Hardware, Software oder eine Kombination daraus implementiert werden. Im Falle der Implementierung in Software kann der Softwarecode auf irgendeinem geeigneten Prozessor oder Sammlung von Prozessoren ausgeführt werden, ob in einem einzelnen Computer bereitgestellt oder unter mehreren Computern verteilt. Solche Prozessoren können als integrierte Schaltungen mit einem oder mehreren Prozessoren in einer integrierten Schaltungskomponente implementiert sein. Ein Prozessor kann jedoch unter Verwendung von Beschaltung irgendeines geeigneten Formats implementiert werden.
Auch können die Ausführungsformen der Erfindung als ein Verfahren ausgeführt sein, ein Beispiel dafür wurde bereitgestellt. Die als Teil des Verfahrens durchgeführten Handlungen können auf irgendeine geeignete Weise geordnet werden. Entsprechend können Ausführungsformen konstruiert werden, in denen Handlungen in einer Reihenfolge durchgeführt werden, die sich von der veranschaulichten unterscheidet die das gleichzeitige Durchführen einiger Handlungen aufweisen kann, auch wenn diese in veranschaulichenden Ausführungsformen als aufeinanderfolgende Handlungen gezeigt werden.
Die Verwendung von Aufzählungsbegriffen, wie etwa „erste“, „zweite“ in den Ansprüchen, um ein Anspruchselement zu modifizieren, impliziert allein keinerlei Vorrang, Priorität oder Reihenfolge eines Anspruchselements über ein anderes Anspruchselement oder auch keine zeitliche Reihenfolge, in der Aktionen eines Verfahrens durchgeführt werden, sondern diese Begriffe werden lediglich als Kennzeichen verwendet, um ein einen bestimmten Namen aufweisendes Anspruchselement von einem anderen Element zu unterscheiden, das einen gleichen Namen (bis auf die Verwendung des Aufzählungsbegriffs) aufweist, um die Anspruchselemente zu unterscheiden.

Claims

Verfahren zum Fusionieren von Messungen von Sensoren, die unterschiedliche Auflösungen aufweisen, umfassend: Erlangen einer ersten Menge von Messungen einer durch einen ersten Sensor gemessenen Szene; Erlangen einer zweiten Menge von Messungen der durch einen zweiten Sensor gemessenen Szene, wobei sich eine Modalität des ersten Sensors von einer Modalität des zweiten Sensors unterscheidet und wobei eine Auflösung des ersten Sensors geringer ist als eine Auflösung des zweiten Sensors; und gemeinsames Durchführen einer Kalibrierung des ersten und des zweiten Sensors und einer Fusion der ersten und der zweiten Menge von Messungen, um Kalibrierungsparameter, die eine geometrische Abbildung zwischen Koordinatensystemen des ersten und des zweiten Sensors definieren, und eine fusionierte Menge von Messungen zu erzeugen, die die Modalität des ersten Sensors mit einer Auflösung größer als die Auflösung des ersten Sensors aufweist, wobei die Kalibrierung und die Fusion gemeinsam durchgeführt werden, um die Kalibrierungsparameter und die fusionierte Menge von Messungen in Abhängigkeit voneinander zu aktualisieren, wobei Schritte des Verfahrens unter Verwendung eines Prozessors durchgeführt werden.
Verfahren gemäß Anspruch 1, wobei die Kalibrierung und die Fusion Folgendes umfassen: Optimieren einer Kostenfunktion der fusionierten Menge von Messungen in Anbetracht der Kalibrierungsparameter.
Verfahren gemäß Anspruch 2, wobei die Kostenfunktion unter Verwendung eines Verfahrens des steilsten Abstiegs optimiert wird, das Folgende umfassend: Bestimmen einer Richtung, die die Kostenfunktion reduziert; und Aktualisieren der fusionierten Menge von Messungen gemäß der Richtung.
Verfahren gemäß Anspruch 1, wobei die Kalibrierung und die Fusion Folgendes umfassen: Aktualisieren der Kalibrierungsparameter und der fusionierten Menge von Messungen rekursiv, bis ein Beendigungskriterium erfüllt ist, so dass die Kalibrierungsparameter in Antwort auf eine Änderung der fusionierten Menge von Messungen aktualisiert werden und die fusionierte Menge von Messungen in Reaktion auf eine Veränderung der Kalibrierungsparameter aktualisiert wird.
Verfahren gemäß Anspruch 1, wobei die Kalibrierung und die Fusion Folgendes umfassen: Fusionieren der ersten Menge von Messungen unter Verwendung der zweiten Menge von Messungen, um die fusionierte Menge von Messungen zu erzeugen, wobei die erste und die zweite Menge von Messungen gemäß den Kalibrierungsparametern aufeinander abgebildet werden; Vergleichen der fusionierten Menge von Messungen mit der zweiten Menge von Messungen, um einen Fehler der Kalibrierungsparameter zu bestimmen; Aktualisieren der Kalibrierungsparameter, um den Fehler zu reduzieren; und Wiederholen des Fusionierens, des Vergleichens und des Aktualisierens, bis eine Beendigungsbedingung erfüllt ist.
Verfahren gemäß Anspruch 5, wobei der Fehler einen Wert einer Kostenfunktion der fusionierten Menge von Messungen aufweist, der in Anbetracht der Kalibrierungsparameter optimiert ist.
Verfahren gemäß Anspruch 5, wobei das Fusionieren Folgendes umfasst: Abbilden der ersten Menge von Messungen auf das Koordinatensystem des zweiten Sensors unter Verwendung der Kalibrierungsparameter, um eine abgebildete Menge von Messungen zu bilden; Erhöhung der Abtastrate der abgebildeten Menge von Messungen unter Verwendung der zweiten Menge von Messungen, um die fusionierte Menge von Messungen zu produzieren.
Verfahren gemäß Anspruch 7, wobei die Erhöhung der Abtastrate die Konsistenz von Messungen, die ursprünglich durch den ersten Sensor erlangt wurden, bewahrt.
Verfahren gemäß Anspruch 7, wobei die Erhöhung der Abtastrate ein Qualitätsmaß der fusionierten Menge von Messungen maximiert.
Verfahren gemäß Anspruch 7, wobei die Erhöhung der Abtastrate ein Unähnlichkeitsmaß zwischen der fusionierten Menge von Messungen und der zweiten Menge von Messungen minimiert.
Verfahren gemäß Anspruch 1, wobei der erste und der zweite Sensor an einem Fahrzeug zum Erlangen der ersten und der zweiten Menge von Messungen installiert sind.
Verfahren gemäß Anspruch 1, wobei der erste Sensor ein Tiefensensor ist und der zweite Sensor eine Kamera ist, wobei die erste Menge von Messungen ein Tiefenbild mit der Auflösung des Tiefensensors ist, wobei die zweite Menge von Messungen ein Intensitätsbild mit der Auflösung der Kamera ist und wobei die fusionierte Menge von Messungen ein Tiefenbild mit der Auflösung der Kamera ist.
System, umfassend: einen ersten Sensor, um eine Szene zu messen, um eine erste Menge von Messungen der Szene zu produzieren; einen zweiten Sensor, um die Szene zu messen, um eine zweite Menge von Messungen der Szene zu produzieren, wobei eine Auflösung des ersten Sensors geringer ist als eine Auflösung des zweiten Sensors; und einen Prozessor zum gemeinsamen Durchführen einer Kalibrierung des ersten und des zweiten Sensors und einer Fusion der ersten und der zweiten Menge von Messungen, um Kalibrierungsparameter, die eine geometrische Abbildung zwischen Koordinatensystemen des ersten und des zweiten Sensors definieren, und eine fusionierte Menge von Messungen, die eine Modalität des ersten Sensors mit einer Auflösung größer als die Auflösung des ersten Sensors aufweist, zu erzeugen, wobei die Kalibrierung und die Fusion gemeinsam durchgeführt werden, um die Kalibrierungsparameter und die fusionierte Menge von Messungen in Abhängigkeit voneinander zu aktualisieren.
System gemäß Anspruch 13, wobei der Prozessor konfiguriert ist, einen Gegenstand in der Szene unter Verwendung der fusionierten Menge von Messungen zu verfolgen.
System gemäß Anspruch 13, wobei der Prozessor eine Kostenfunktion der fusionierten Menge von Messungen bei gegebenen Kalibrierungsparametern optimiert.
System gemäß Anspruch 13, wobei der erste und der zweite Sensor an einem Fahrzeug zum Erlangen der ersten und der zweiten Menge von Messungen installiert sind, und wobei der Prozessor einen Teil eines Rechensystems des Fahrzeugs bildet.
System gemäß Anspruch 13, wobei der erste Sensor ein Tiefensensor ist und der zweite Sensor eine Kamera ist, wobei die erste Menge von Messungen ein Tiefenbild mit der Auflösung des Tiefensensors ist, wobei die zweite Menge von Messungen ein Intensitätsbild mit der Auflösung der Kamera ist und wobei die fusionierte Menge von Messungen ein Tiefenbild mit der Auflösung der Kamera ist.
Verfahren zum Fusionieren von Ausgängen von unkalibrierten Sensoren, umfassend: Erlangen einer ersten Menge von Messungen einer Szene von einem ersten Sensor; Erlangen einer zweiten Menge von Messungen der Szene von einem zweiten Sensor, wobei eine Auflösung des ersten Sensors geringer ist als eine Auflösung des zweiten Sensors; Fusionieren der ersten Menge von Messungen unter Verwendung der zweiten Menge von Messungen, um eine fusionierte Menge von Messungen zu produzieren, die eine Modalität des ersten Sensors und eine Auflösung größer als die Auflösung des ersten Sensors aufweist, wobei das Fusionieren Kalibrierungsparameter verwendet, die eine geometrische Abbildung zwischen einem Koordinatensystem des ersten Sensors und einem Koordinatensystem des zweiten Sensors definieren; Vergleichen der fusionierten Menge von Messungen mit der zweiten Menge von Messungen, um einen Fehler der Kalibrierungsparameter zu bestimmen; Aktualisieren der Kalibrierungsparameter, um den Fehler zu reduzieren; und Wiederholen des Fusionierens, des Vergleichens und des Aktualisierens, bis eine Beendigungsbedingung erfüllt ist.
Verfahren gemäß Anspruch 18, wobei sich die Modalität des ersten Sensors von einer Modalität des zweiten Sensors unterscheidet, wobei die fusionierte Menge von Messungen Daten aufweist, die die Modalität des ersten Sensors und die Modalität des zweiten Sensors haben, und eine Auflösung des zweiten Sensors aufweist.
Verfahren gemäß Anspruch 19, wobei der erste Sensor ein Tiefensensor ist und der zweite Sensor eine Kamera ist.