DE102023001304A1

DE102023001304A1 - Verfahren zum Tracking von Objekten

Info

Publication number: DE102023001304A1
Application number: DE102023001304.8A
Authority: DE
Inventors: Simon Doll; Niklas Hanselmann; Lukas Schneider; Richard Schulz
Original assignee: Mercedes Benz Group AG
Current assignee: Mercedes Benz Group AG
Priority date: 2023-04-03
Filing date: 2023-04-03
Publication date: 2023-06-15

Abstract

Die Erfindung betrifft ein Verfahren zum Tracking von Objekten (O1 bis On) in einer Umgebung eines Fahrzeugs (2), wobei die Umgebung erfasst wird, mittels eines Transformer-basierten Detektors (1) eine Hypothese (Q1 bis Qn) pro Objekt (O1 bis On) in einem hochdimensionalen Raum erzeugt und interpretiert wird, die als Prior-Hypothesen ((Q1 bis Qn)t-1) für eine Detektion der Objekte (O1 bis On) zu einem nächsten Zeitschritt verwendet und die detektierten Objekte (O1 bis On) in den nächsten Zeitschritt weiter verfolgt und/oder in dem nächsten Zeitschritt assoziiert werden, eine zwischen Zeitschritten stattfindende Eigenbewegung (EB) des Fahrzeugs (2) und/oder stattfindende Bewegungen (BE) der Objekte (O1 bis On) in der erfassten Umgebung basierend auf dreidimensionalen Referenzpunkten (RP) kompensiert werden, indem jeder latenten Hypothese(Q1 bis Qn) ein Referenzpunkt (RP), zu welchem die Hypothese (Q1 bis Qn) relativ definiert wird, zugeordnet wird, wobei anhand der Eigenbewegung (EB) des Fahrzeugs (2) und/oder der Bewegung (BE) der Objekte (O1 bis On) die Referenzpunkte (RP) geometrisch transformiert werden, und latente Hypothesen-Vektoren (V1 bis Vn), welche jeweils einer Hypothese (Q1 bis Qn) zugeordnet sind, in Abhängigkeit der Eigenbewegung (EB) des Fahrzeugs (2) und/oder der Bewegung (BE) der Objekte (O1 bis On) zwischen zwei Zeitschritten in den nächsten Zeitschritt transformiert werden.

Description

Die Erfindung betrifft ein Verfahren zum Tracking von Objekten.
Aus "Ruppel, F. et al.: Tansformers for Multi-Object Tracking on Point Clouds; In: arXiv:2205.15730v1 [cs.CV] 31 May 2022" ist ein Transformer-basierter, Ende-zu-Ende trainierbarer Online-Tracker und -Detektor für Punktwolkendaten bekannt. Hierbei wird ein Modell verwendet, welches einen Cross- und einen Self-Attention-Mechanismus nutzt und auf Lidar-Daten im automobilen Kontext sowie auf andere Datentypen anwendbar ist. Sowohl eine Verwaltung von Tracks als auch eine Erkennung neuer Tracks werden von demselben Transformator-Dekodermodul durchgeführt und ein Trackingzustand wird in einem Merkmalsraum kodiert. Mittels eines Moduls werden Trackinginformationen von einem Frame zu einem nächsten Frame auf Merkmals-Ebene transformiert.
Der Erfindung liegt die Aufgabe zu Grunde, ein neuartiges Verfahren zum Tracking von Objekten anzugeben.
Die Aufgabe wird erfindungsgemäß gelöst durch ein Verfahren, welches die im Anspruch 1 angegebenen Merkmale aufweist.
Vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche.
In dem erfindungsgemäßen Verfahren zum Tracking von Objekten in einer Umgebung eines Fahrzeugs wird die Umgebung erfasst, wobei mittels eines Transformer-basierten Detektors eine Hypothese pro Objekt in einem hochdimensionalen Raum erzeugt und interpretiert wird. Die als Prior-Hypothesen für eine Detektion der Objekte zu einem nächsten Zeitschritt verwendet und die detektierten Objekte in den nächsten Zeitschritt weiter verfolgt und/oder in dem nächsten Zeitschritt assoziiert. Eine zwischen Zeitschritten stattfindende Eigenbewegung des Fahrzeugs und/oder stattfindende Bewegungen der Objekte in der erfassten Umgebung werden/wird basierend auf dreidimensionalen Referenzpunkten kompensiert, indem jeder latenten Hypothese ein Referenzpunkt, zu welchem die Hypothese relativ definiert wird, zugeordnet wird, wobei anhand der Eigenbewegung des Fahrzeugs und/oder der Bewegung der Objekte die Referenzpunkte geometrisch transformiert werden. Weiterhin werden latente Hypothesen-Vektoren, welche jeweils einer Hypothese zugeordnet sind, in Abhängigkeit der Eigenbewegung des Fahrzeugs und/oder der Bewegung der Objekte zwischen zwei Zeitschritten in den nächsten Zeitschritt transformiert.
Beim Tracking von Objekten werden Hypothesen eines vorhergegangenen Zeitschritts in einen aktuellen Zeitschritt überführt. Geometrische Merkmale der Objekte, wie beispielsweise Objektpunkte, so genannte Objekt-Bounding-Boxes, Meshes etc., können durch Transformationen entsprechend der Eigenbewegung des Fahrzeugs und der Bewegung des entsprechenden Objekts korrigiert werden. Für hochdimensionale abstrakte Objektrepräsentationen, wie sie beispielsweise in so genannten End-to-End Tracking Systemen gelemt werden, ist dies nicht trivial, da die Hypothesen neben geometrischen Merkmalen auch semantische Merkmale, wie zum Beispiel eine Erscheinung des jeweiligen Objekts, enthalten. Mittels des vorliegenden Verfahrens können latente Bewegungsmodelle verwendet werden, um eine beliebige geometrische Transformation auf latente abstrakte Objektrepräsentationen anwenden zu können.
Um eine Objektverfolgung durchzuführen, ist es notwendig, neue Beobachtungen bzw. Objektdetektionen mit einer modellbasierten Vorhersage darüber zu verknüpfen, wie sich eine Szene aus der Vergangenheit entwickelt hat. Ein latentes Bewegungsmodell verwendet eine geometrische Transformation, die aus einer vorhergesagten Objektbewegung und einer Ego-Fahrzeugbewegung berechnet wird, und wendet die Transformation auf eine hochdimensionale Objekthypothese an. Dies erlaubt es, eine Objekthypothese von einem Zeitschritt zu einem nächsten Zeitschritt unter Verwendung der vorhergesagten Bewegungen zu bewegen. Im Vergleich zu einer rein geometrischen Vorhersage ermöglicht dies eine Aktualisierung eines jeweiligen Erscheinungsbilds der Objekte, um die Zuordnung zu hochdimensionalen Detektionen zum jeweiligen Zeitschritt zu erleichtern. Dies führt sowohl zu einer erhöhten Verfolgungsleistung als auch zu einer erhöhten Detektionsleistung, da die prognostizierten Objekthypothesen als nützliche Prioren dienen. Somit können eine verbesserte Tracking-Performance durch erhöhte temporale Konsistenz und ein verbessertes Tracking unter teilweiser Verdeckung erzielt werden. Auch kann eine Reduzierung von so genannten Identity-Switches erzielt werden.
Ausführungsbeispiele der Erfindung werden im Folgenden anhand von Zeichnungen näher erläutert.
Dabei zeigen:

1 schematisch ein Tracking von Objekten mittels eines Transformer-basierten Detektors zu verschiedenen Zeitpunkten und
2 schematisch ein weiteres Tracking von Objekten mittels eines Transformer-basierten Detektors zu verschiedenen Zeitpunkten.

Einander entsprechende Teile sind in allen Figuren mit den gleichen Bezugszeichen versehen.
In 1 ist in Anlehnung an „Zhang, Tianyuan, et al.: MUTR3D - A Multi-camera Tracking Framework via 3D-to-2D Queries; In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022“ ein Tracking von Objekten O1 bis On mittels eines Transformer-basierten Detektors 1 zu verschiedenen Zeitpunkten t, t+1 dargestellt.
Klassische Objekt-Tracking Ansätze basieren typischerweise auf dem Prinzip, ObjektDetektionen, beispielsweise repräsentiert als so genannte Objekt-Bounding-Boxes OBB mit Position, Größe, Rotation und Geschwindigkeit, zwischen zwei Zeitpunkten t, t+1 zu assoziieren.
Im Gegensatz hierzu wird gemäß der Darstellung die Assoziation implizit als Teil des Detektors 1 gelöst, beispielsweise wie in „Zhang, Tianyuan, et al.: MUTR3D - A Multi-camera Tracking Framework via 3D-to-2D Queries; In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022“ beschrieben.
Hierbei wird mittels eines Transformer-basierten Detektors 1, wie beispielsweise aus „Wang, Yue, et al: Detr3d - 3d object detection from multi-view images via 3d-to-2d queries; In: Conference on Robot Learning. PMLR, 2022“ bekannt, in Abhängigkeit von in einer Umgebungserfassung eines Fahrzeugs 2 erfassten Daten D1 bis Dm, beispielsweise Kameradaten, eine Hypothese Q1 bis Qn pro Objekt O1 bis On im hochdimensionalen Raum erzeugt.
Während die Hypothesen Q1 bis Qn pro Zeitschritt dann jeweils zu einer interpretierbaren Objekt-Bounding-Box OBB dekodiert werden, werden sie gleichzeitig als Prior-Hypothesen (Q1 bis Qn)^t-1 für die Detektion der Objekte O1 bis On im nächsten Zeitschritt berücksichtigt. Somit wird jedes detektierte Objekt O1 bis On direkt im nächsten Zeitschritt weiterverfolgt und assoziiert. Nicht mehr aktive Hypothesen Q1 bis Qn werden in einem Ausgang AA verworfen.
2 zeigt ein Tracking von Objekten O1 bis On mittels eines Transformer-basierten Detektors 1 zu verschiedenen Zeitpunkten t, t+1.
Um eine Eigenbewegung EB des Fahrzeugs 2 sowie eine Bewegung BE dynamischer Objekte O1 bis On in der Szene zu kompensieren und somit eine Abweichung einer Prior-Hypothese (Q1 bis Qn)^t-1 des letzten Zeitschritts hinsichtlich ihrer tatsächlichen Position im nächsten Zeitschritt auflösen zu können, wird ausgehend von 1 zusätzlich eine Korrektur basierend auf Referenzpunkten RP vorgenommen. Dies kann beispielsweise gemäß „Zhang, Tianyuan, et al.: MUTR3D - A Multi-camera Tracking Framework via 3D-to-2D Queries; In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022“ durchgeführt werden. Hierbei erhält jede latente Hypothese Q1 bis Qn in einem latenten Bewegungsmodell 3 einen dreidimensionalen Referenzpunkt RP, zu welchem sie relativ definiert wird. Durch Schätzung der Bewegung BE der Objekte O1 bis On und Messung der Eigenbewegung EB des Fahrzeugs 2 kann somit der Referenzpunkt RP entsprechend geometrisch transformiert werden, um die Objekte O1 bis On und die zugehörigen Hypothesen Q1 bis Qn zu korrigierten Objekten O1' bis On' und korrigierten Hypothesen Q1' bis Qn' zu korrigieren und diese im folgenden Zeitschritt t+1 dem Detektor 1 zuzuführen.
Es werden jedoch nicht nur die Referenzpunkte RP angepasst, um die dynamischen Bewegungen zu korrigieren bzw. zu kompensieren, sondern es wird auch ein latenter Hypothesen-Vektor V1 bis Vn bei gegebener Transformation zwischen den beiden Zeitpunkten t, t+1 in ein nächstes Frame transformiert. Das heißt, latente Hypothesen-Vektoren V1 bis Vn, welche jeweils einer Hypothese Q1 bis Qn zugeordnet sind, werden in Abhängigkeit der Eigenbewegung EB des Fahrzeugs 2 und/oder der Bewegung BE der Objekte O1 bis On zwischen zwei Zeitschritten in den nächsten Zeitschritt transformiert.
Durch die zusätzliche Transformation der latenten Hypothesen-Vektoren V1 bis Vn wird eine verbesserte Assoziations-Leistung erzielt, da eine latente Erscheinung E1 bis En des jeweiligen Objekts O1 bis On besser an in der Umgebungserfassung erfasste Daten D1 bis Dm des folgenden Zeitschritts angepasst werden kann. Von einer Anpassung latenter Objektmerkmale können insbesondere Transformer-basierte Detektoren 1, welche auf Query-Key Similarity basieren und beispielsweise in „Doll, Simon, et al.: SpatialDETR - Robust Scalable Transformer-Based 3D Object Detection From Multi-view Camera Images With Global Cross-Sensor Attention; European Conference on Computer Vision. Springer, Cham, 2022“ beschrieben sind oder ein Query-Feature in einer Attention nutzen, wie beispielsweise in „Li, Zhiqi, et al.: BEVFormer - Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers; In: arXiv preprint arXiv:2203.17270 (2022)“ beschrieben, profitieren. Somit kann eine Verwechslung von Objekten O1 bis On zwischen mehreren Zeitschritten, so genannten Id-Switches, verringert werden, da eine Anpassung der Objektmerkmale eventuelle Änderungen von der Erscheinung E1 bis En, beispielsweise aufgrund anderer Perspektiven bei der Erfassung, abbilden kann.

Claims

Verfahren zum Tracking von Objekten (O1 bis On) in einer Umgebung eines Fahrzeugs (2), wobei - die Umgebung erfasst wird, - mittels eines Transformer-basierten Detektors (1) eine Hypothese (Q1 bis Qn) pro Objekt (O1 bis On) in einem hochdimensionalen Raum erzeugt und interpretiert wird, - die als Prior-Hypothesen ((Q1 bis Qn)^t-1) für eine Detektion der Objekte (O1 bis On) zu einem nächsten Zeitschritt verwendet und die detektierten Objekte (O1 bis On) in den nächsten Zeitschritt weiter verfolgt und/oder in dem nächsten Zeitschritt assoziiert werden, - eine zwischen Zeitschritten stattfindende Eigenbewegung (EB) des Fahrzeugs (2) und/oder stattfindende Bewegungen (BE) der Objekte (O1 bis On) in der erfassten Umgebung basierend auf dreidimensionalen Referenzpunkten (RP) kompensiert werden, indem jeder latenten Hypothese(Q1 bis Qn) ein Referenzpunkt (RP), zu welchem die Hypothese (Q1 bis Qn) relativ definiert wird, zugeordnet wird, wobei anhand der Eigenbewegung (EB) des Fahrzeugs (2) und/oder der Bewegung (BE) der Objekte (O1 bis On) die Referenzpunkte (RP) geometrisch transformiert werden, und - latente Hypothesen-Vektoren (V1 bis Vn), welche jeweils einer Hypothese (Q1 bis Qn) zugeordnet sind, in Abhängigkeit der Eigenbewegung (EB) des Fahrzeugs (2) und/oder der Bewegung (BE) der Objekte (O1 bis On) zwischen zwei Zeitschritten in den nächsten Zeitschritt transformiert werden.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass mittels der Hypothesen (Q1 bis Qn) geometrische Merkmale und/oder semantische Merkmale der zugehörigen Objekte (O1 bis On) beschrieben werden.