DE102023001304A1 - Verfahren zum Tracking von Objekten - Google Patents

Verfahren zum Tracking von Objekten Download PDF

Info

Publication number
DE102023001304A1
DE102023001304A1 DE102023001304.8A DE102023001304A DE102023001304A1 DE 102023001304 A1 DE102023001304 A1 DE 102023001304A1 DE 102023001304 A DE102023001304 A DE 102023001304A DE 102023001304 A1 DE102023001304 A1 DE 102023001304A1
Authority
DE
Germany
Prior art keywords
objects
hypothesis
movement
vehicle
time step
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE102023001304.8A
Other languages
English (en)
Inventor
Simon Doll
Niklas Hanselmann
Lukas Schneider
Richard Schulz
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mercedes Benz Group AG
Original Assignee
Mercedes Benz Group AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mercedes Benz Group AG filed Critical Mercedes Benz Group AG
Priority to DE102023001304.8A priority Critical patent/DE102023001304A1/de
Publication of DE102023001304A1 publication Critical patent/DE102023001304A1/de
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zum Tracking von Objekten (O1 bis On) in einer Umgebung eines Fahrzeugs (2), wobei die Umgebung erfasst wird, mittels eines Transformer-basierten Detektors (1) eine Hypothese (Q1 bis Qn) pro Objekt (O1 bis On) in einem hochdimensionalen Raum erzeugt und interpretiert wird, die als Prior-Hypothesen ((Q1 bis Qn)t-1) für eine Detektion der Objekte (O1 bis On) zu einem nächsten Zeitschritt verwendet und die detektierten Objekte (O1 bis On) in den nächsten Zeitschritt weiter verfolgt und/oder in dem nächsten Zeitschritt assoziiert werden, eine zwischen Zeitschritten stattfindende Eigenbewegung (EB) des Fahrzeugs (2) und/oder stattfindende Bewegungen (BE) der Objekte (O1 bis On) in der erfassten Umgebung basierend auf dreidimensionalen Referenzpunkten (RP) kompensiert werden, indem jeder latenten Hypothese(Q1 bis Qn) ein Referenzpunkt (RP), zu welchem die Hypothese (Q1 bis Qn) relativ definiert wird, zugeordnet wird, wobei anhand der Eigenbewegung (EB) des Fahrzeugs (2) und/oder der Bewegung (BE) der Objekte (O1 bis On) die Referenzpunkte (RP) geometrisch transformiert werden, und latente Hypothesen-Vektoren (V1 bis Vn), welche jeweils einer Hypothese (Q1 bis Qn) zugeordnet sind, in Abhängigkeit der Eigenbewegung (EB) des Fahrzeugs (2) und/oder der Bewegung (BE) der Objekte (O1 bis On) zwischen zwei Zeitschritten in den nächsten Zeitschritt transformiert werden.

Description

  • Die Erfindung betrifft ein Verfahren zum Tracking von Objekten.
  • Aus "Ruppel, F. et al.: Tansformers for Multi-Object Tracking on Point Clouds; In: arXiv:2205.15730v1 [cs.CV] 31 May 2022" ist ein Transformer-basierter, Ende-zu-Ende trainierbarer Online-Tracker und -Detektor für Punktwolkendaten bekannt. Hierbei wird ein Modell verwendet, welches einen Cross- und einen Self-Attention-Mechanismus nutzt und auf Lidar-Daten im automobilen Kontext sowie auf andere Datentypen anwendbar ist. Sowohl eine Verwaltung von Tracks als auch eine Erkennung neuer Tracks werden von demselben Transformator-Dekodermodul durchgeführt und ein Trackingzustand wird in einem Merkmalsraum kodiert. Mittels eines Moduls werden Trackinginformationen von einem Frame zu einem nächsten Frame auf Merkmals-Ebene transformiert.
  • Der Erfindung liegt die Aufgabe zu Grunde, ein neuartiges Verfahren zum Tracking von Objekten anzugeben.
  • Die Aufgabe wird erfindungsgemäß gelöst durch ein Verfahren, welches die im Anspruch 1 angegebenen Merkmale aufweist.
  • Vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche.
  • In dem erfindungsgemäßen Verfahren zum Tracking von Objekten in einer Umgebung eines Fahrzeugs wird die Umgebung erfasst, wobei mittels eines Transformer-basierten Detektors eine Hypothese pro Objekt in einem hochdimensionalen Raum erzeugt und interpretiert wird. Die als Prior-Hypothesen für eine Detektion der Objekte zu einem nächsten Zeitschritt verwendet und die detektierten Objekte in den nächsten Zeitschritt weiter verfolgt und/oder in dem nächsten Zeitschritt assoziiert. Eine zwischen Zeitschritten stattfindende Eigenbewegung des Fahrzeugs und/oder stattfindende Bewegungen der Objekte in der erfassten Umgebung werden/wird basierend auf dreidimensionalen Referenzpunkten kompensiert, indem jeder latenten Hypothese ein Referenzpunkt, zu welchem die Hypothese relativ definiert wird, zugeordnet wird, wobei anhand der Eigenbewegung des Fahrzeugs und/oder der Bewegung der Objekte die Referenzpunkte geometrisch transformiert werden. Weiterhin werden latente Hypothesen-Vektoren, welche jeweils einer Hypothese zugeordnet sind, in Abhängigkeit der Eigenbewegung des Fahrzeugs und/oder der Bewegung der Objekte zwischen zwei Zeitschritten in den nächsten Zeitschritt transformiert.
  • Beim Tracking von Objekten werden Hypothesen eines vorhergegangenen Zeitschritts in einen aktuellen Zeitschritt überführt. Geometrische Merkmale der Objekte, wie beispielsweise Objektpunkte, so genannte Objekt-Bounding-Boxes, Meshes etc., können durch Transformationen entsprechend der Eigenbewegung des Fahrzeugs und der Bewegung des entsprechenden Objekts korrigiert werden. Für hochdimensionale abstrakte Objektrepräsentationen, wie sie beispielsweise in so genannten End-to-End Tracking Systemen gelemt werden, ist dies nicht trivial, da die Hypothesen neben geometrischen Merkmalen auch semantische Merkmale, wie zum Beispiel eine Erscheinung des jeweiligen Objekts, enthalten. Mittels des vorliegenden Verfahrens können latente Bewegungsmodelle verwendet werden, um eine beliebige geometrische Transformation auf latente abstrakte Objektrepräsentationen anwenden zu können.
  • Um eine Objektverfolgung durchzuführen, ist es notwendig, neue Beobachtungen bzw. Objektdetektionen mit einer modellbasierten Vorhersage darüber zu verknüpfen, wie sich eine Szene aus der Vergangenheit entwickelt hat. Ein latentes Bewegungsmodell verwendet eine geometrische Transformation, die aus einer vorhergesagten Objektbewegung und einer Ego-Fahrzeugbewegung berechnet wird, und wendet die Transformation auf eine hochdimensionale Objekthypothese an. Dies erlaubt es, eine Objekthypothese von einem Zeitschritt zu einem nächsten Zeitschritt unter Verwendung der vorhergesagten Bewegungen zu bewegen. Im Vergleich zu einer rein geometrischen Vorhersage ermöglicht dies eine Aktualisierung eines jeweiligen Erscheinungsbilds der Objekte, um die Zuordnung zu hochdimensionalen Detektionen zum jeweiligen Zeitschritt zu erleichtern. Dies führt sowohl zu einer erhöhten Verfolgungsleistung als auch zu einer erhöhten Detektionsleistung, da die prognostizierten Objekthypothesen als nützliche Prioren dienen. Somit können eine verbesserte Tracking-Performance durch erhöhte temporale Konsistenz und ein verbessertes Tracking unter teilweiser Verdeckung erzielt werden. Auch kann eine Reduzierung von so genannten Identity-Switches erzielt werden.
  • Ausführungsbeispiele der Erfindung werden im Folgenden anhand von Zeichnungen näher erläutert.
  • Dabei zeigen:
    • 1 schematisch ein Tracking von Objekten mittels eines Transformer-basierten Detektors zu verschiedenen Zeitpunkten und
    • 2 schematisch ein weiteres Tracking von Objekten mittels eines Transformer-basierten Detektors zu verschiedenen Zeitpunkten.
  • Einander entsprechende Teile sind in allen Figuren mit den gleichen Bezugszeichen versehen.
  • In 1 ist in Anlehnung an „Zhang, Tianyuan, et al.: MUTR3D - A Multi-camera Tracking Framework via 3D-to-2D Queries; In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022“ ein Tracking von Objekten O1 bis On mittels eines Transformer-basierten Detektors 1 zu verschiedenen Zeitpunkten t, t+1 dargestellt.
  • Klassische Objekt-Tracking Ansätze basieren typischerweise auf dem Prinzip, ObjektDetektionen, beispielsweise repräsentiert als so genannte Objekt-Bounding-Boxes OBB mit Position, Größe, Rotation und Geschwindigkeit, zwischen zwei Zeitpunkten t, t+1 zu assoziieren.
  • Im Gegensatz hierzu wird gemäß der Darstellung die Assoziation implizit als Teil des Detektors 1 gelöst, beispielsweise wie in „Zhang, Tianyuan, et al.: MUTR3D - A Multi-camera Tracking Framework via 3D-to-2D Queries; In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022“ beschrieben.
  • Hierbei wird mittels eines Transformer-basierten Detektors 1, wie beispielsweise aus „Wang, Yue, et al: Detr3d - 3d object detection from multi-view images via 3d-to-2d queries; In: Conference on Robot Learning. PMLR, 2022“ bekannt, in Abhängigkeit von in einer Umgebungserfassung eines Fahrzeugs 2 erfassten Daten D1 bis Dm, beispielsweise Kameradaten, eine Hypothese Q1 bis Qn pro Objekt O1 bis On im hochdimensionalen Raum erzeugt.
  • Während die Hypothesen Q1 bis Qn pro Zeitschritt dann jeweils zu einer interpretierbaren Objekt-Bounding-Box OBB dekodiert werden, werden sie gleichzeitig als Prior-Hypothesen (Q1 bis Qn)t-1 für die Detektion der Objekte O1 bis On im nächsten Zeitschritt berücksichtigt. Somit wird jedes detektierte Objekt O1 bis On direkt im nächsten Zeitschritt weiterverfolgt und assoziiert. Nicht mehr aktive Hypothesen Q1 bis Qn werden in einem Ausgang AA verworfen.
  • 2 zeigt ein Tracking von Objekten O1 bis On mittels eines Transformer-basierten Detektors 1 zu verschiedenen Zeitpunkten t, t+1.
  • Um eine Eigenbewegung EB des Fahrzeugs 2 sowie eine Bewegung BE dynamischer Objekte O1 bis On in der Szene zu kompensieren und somit eine Abweichung einer Prior-Hypothese (Q1 bis Qn)t-1 des letzten Zeitschritts hinsichtlich ihrer tatsächlichen Position im nächsten Zeitschritt auflösen zu können, wird ausgehend von 1 zusätzlich eine Korrektur basierend auf Referenzpunkten RP vorgenommen. Dies kann beispielsweise gemäß „Zhang, Tianyuan, et al.: MUTR3D - A Multi-camera Tracking Framework via 3D-to-2D Queries; In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022“ durchgeführt werden. Hierbei erhält jede latente Hypothese Q1 bis Qn in einem latenten Bewegungsmodell 3 einen dreidimensionalen Referenzpunkt RP, zu welchem sie relativ definiert wird. Durch Schätzung der Bewegung BE der Objekte O1 bis On und Messung der Eigenbewegung EB des Fahrzeugs 2 kann somit der Referenzpunkt RP entsprechend geometrisch transformiert werden, um die Objekte O1 bis On und die zugehörigen Hypothesen Q1 bis Qn zu korrigierten Objekten O1' bis On' und korrigierten Hypothesen Q1' bis Qn' zu korrigieren und diese im folgenden Zeitschritt t+1 dem Detektor 1 zuzuführen.
  • Es werden jedoch nicht nur die Referenzpunkte RP angepasst, um die dynamischen Bewegungen zu korrigieren bzw. zu kompensieren, sondern es wird auch ein latenter Hypothesen-Vektor V1 bis Vn bei gegebener Transformation zwischen den beiden Zeitpunkten t, t+1 in ein nächstes Frame transformiert. Das heißt, latente Hypothesen-Vektoren V1 bis Vn, welche jeweils einer Hypothese Q1 bis Qn zugeordnet sind, werden in Abhängigkeit der Eigenbewegung EB des Fahrzeugs 2 und/oder der Bewegung BE der Objekte O1 bis On zwischen zwei Zeitschritten in den nächsten Zeitschritt transformiert.
  • Durch die zusätzliche Transformation der latenten Hypothesen-Vektoren V1 bis Vn wird eine verbesserte Assoziations-Leistung erzielt, da eine latente Erscheinung E1 bis En des jeweiligen Objekts O1 bis On besser an in der Umgebungserfassung erfasste Daten D1 bis Dm des folgenden Zeitschritts angepasst werden kann. Von einer Anpassung latenter Objektmerkmale können insbesondere Transformer-basierte Detektoren 1, welche auf Query-Key Similarity basieren und beispielsweise in „Doll, Simon, et al.: SpatialDETR - Robust Scalable Transformer-Based 3D Object Detection From Multi-view Camera Images With Global Cross-Sensor Attention; European Conference on Computer Vision. Springer, Cham, 2022“ beschrieben sind oder ein Query-Feature in einer Attention nutzen, wie beispielsweise in „Li, Zhiqi, et al.: BEVFormer - Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers; In: arXiv preprint arXiv:2203.17270 (2022)“ beschrieben, profitieren. Somit kann eine Verwechslung von Objekten O1 bis On zwischen mehreren Zeitschritten, so genannten Id-Switches, verringert werden, da eine Anpassung der Objektmerkmale eventuelle Änderungen von der Erscheinung E1 bis En, beispielsweise aufgrund anderer Perspektiven bei der Erfassung, abbilden kann.

Claims (2)

  1. Verfahren zum Tracking von Objekten (O1 bis On) in einer Umgebung eines Fahrzeugs (2), wobei - die Umgebung erfasst wird, - mittels eines Transformer-basierten Detektors (1) eine Hypothese (Q1 bis Qn) pro Objekt (O1 bis On) in einem hochdimensionalen Raum erzeugt und interpretiert wird, - die als Prior-Hypothesen ((Q1 bis Qn)t-1) für eine Detektion der Objekte (O1 bis On) zu einem nächsten Zeitschritt verwendet und die detektierten Objekte (O1 bis On) in den nächsten Zeitschritt weiter verfolgt und/oder in dem nächsten Zeitschritt assoziiert werden, - eine zwischen Zeitschritten stattfindende Eigenbewegung (EB) des Fahrzeugs (2) und/oder stattfindende Bewegungen (BE) der Objekte (O1 bis On) in der erfassten Umgebung basierend auf dreidimensionalen Referenzpunkten (RP) kompensiert werden, indem jeder latenten Hypothese(Q1 bis Qn) ein Referenzpunkt (RP), zu welchem die Hypothese (Q1 bis Qn) relativ definiert wird, zugeordnet wird, wobei anhand der Eigenbewegung (EB) des Fahrzeugs (2) und/oder der Bewegung (BE) der Objekte (O1 bis On) die Referenzpunkte (RP) geometrisch transformiert werden, und - latente Hypothesen-Vektoren (V1 bis Vn), welche jeweils einer Hypothese (Q1 bis Qn) zugeordnet sind, in Abhängigkeit der Eigenbewegung (EB) des Fahrzeugs (2) und/oder der Bewegung (BE) der Objekte (O1 bis On) zwischen zwei Zeitschritten in den nächsten Zeitschritt transformiert werden.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass mittels der Hypothesen (Q1 bis Qn) geometrische Merkmale und/oder semantische Merkmale der zugehörigen Objekte (O1 bis On) beschrieben werden.
DE102023001304.8A 2023-04-03 2023-04-03 Verfahren zum Tracking von Objekten Ceased DE102023001304A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102023001304.8A DE102023001304A1 (de) 2023-04-03 2023-04-03 Verfahren zum Tracking von Objekten

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102023001304.8A DE102023001304A1 (de) 2023-04-03 2023-04-03 Verfahren zum Tracking von Objekten

Publications (1)

Publication Number Publication Date
DE102023001304A1 true DE102023001304A1 (de) 2023-06-15

Family

ID=86498912

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102023001304.8A Ceased DE102023001304A1 (de) 2023-04-03 2023-04-03 Verfahren zum Tracking von Objekten

Country Status (1)

Country Link
DE (1) DE102023001304A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116740669A (zh) * 2023-08-16 2023-09-12 之江实验室 多目图像检测方法、装置、计算机设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116740669A (zh) * 2023-08-16 2023-09-12 之江实验室 多目图像检测方法、装置、计算机设备和存储介质
CN116740669B (zh) * 2023-08-16 2023-11-14 之江实验室 多目图像检测方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
WO2020109016A1 (de) Verfahren zum gemeinsamen detektieren, verfolgen und klassifizieren von objekten
DE102023001304A1 (de) Verfahren zum Tracking von Objekten
EP3782117A1 (de) Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zur verarbeitung von sensordaten
WO2018215031A1 (de) Verfahren zur erkennung von objekten in einem bild einer kamera
DE102023102316A1 (de) System und verfahren zur robusten erzeugung von pseudo-labels für die halb-überwachte objekterkennung
DE102017209496A1 (de) Verfahren und Vorrichtung zum Klassifizieren eines Objekts für ein Fahrzeug
EP2562681A1 (de) Objektverfolgungsverfahren für ein Kamerabasiertes Fahrerassistenzsystem
DE102020200503A1 (de) Verfahren zum Generieren von gelabelten Daten, insbesondere für das Training eines neuronalen Netzes, mittels Verbesserung initialer Label
DE102021005625B3 (de) Verfahren zur Trajektorienprädiktion und Verfahren zum automatisierten Betrieb eines Fahrzeugs
DE102022000257A1 (de) Verfahren zur Umgebungserfassung für ein Fahrzeug
EP3876157B1 (de) Computerimplementiertes verfahren und system zum erzeugen synthetischer sensordaten und trainingsverfahren
WO2008154989A1 (de) Verfahren zur optimierung eines stereoskopischen bildes
DE102020200876B4 (de) Verfahren zum Verarbeiten von Sensordaten einer Sensorik eines Fahrzeugs
DE102020126690A1 (de) Verfahren zum Bestimmen eines Bewegungsmodells eines Objekts in einer Umgebung eines Kraftfahrzeugs, Computerprogrammprodukt, computerlesbares Speichermedium sowie Assistenzsystem
DE102017207958B4 (de) Verfahren zum Generieren von Trainingsdaten für ein auf maschinellem Lernen basierendes Mustererkennungsverfahren für ein Kraftfahrzeug, Kraftfahrzeug, Verfahren zum Betreiben einer Recheneinrichtung sowie System
DE102020200875A1 (de) Verfahren zum Bereitstellen von Sensordaten durch eine Sensorik eines Fahrzeugs
DE102022205110A1 (de) Verfahren zur Objektverfolgung
DE102022206346A1 (de) Verfahren zur zeitlichen Korrektur multimodaler Daten
WO2023194009A1 (de) Verfahren zur prädiktion von trajektorien von objekten
WO2021004738A1 (de) Vorrichtung und verfahren zum trainieren eines neuronalen netzwerkes
DE102019127306A1 (de) System und Verfahren zum Erfassen von Objekten in einer dreidimensionalen Umgebung eines Trägerfahrzeugs
DE102022110870A1 (de) Verfahren und Trainingseinrichtung zum Trainieren eines Maschinenlernmodells durch effizientes unsicherheitsbasiertes Bereitstellen von Trainingsdaten
DE102023001184A1 (de) Verfahren zu einer hybriden Multisensor-Fusion für automatisiert betriebene Fahrzeuge
DE102023004171A1 (de) Verfahren zur automatischen Zuordnung von Labels und/oder Objekten zu Sensordaten einer Fahrzeugumfeld-Sensorik
DE102021118311A1 (de) Automatische Wahrnehmung und zumindest teilweise automatisches Führen eines Fahrzeugs

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R230 Request for early publication
R016 Response to examination communication
R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final