DE102022211285A1 - Verfahren zum Erfassen von Unsicherheiten bei der Detektion von mehreren Objekten - Google Patents

Verfahren zum Erfassen von Unsicherheiten bei der Detektion von mehreren Objekten Download PDF

Info

Publication number
DE102022211285A1
DE102022211285A1 DE102022211285.7A DE102022211285A DE102022211285A1 DE 102022211285 A1 DE102022211285 A1 DE 102022211285A1 DE 102022211285 A DE102022211285 A DE 102022211285A DE 102022211285 A1 DE102022211285 A1 DE 102022211285A1
Authority
DE
Germany
Prior art keywords
attention
transformer
feature vectors
calculating
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102022211285.7A
Other languages
English (en)
Inventor
Florian Faion
Felicia Ruppel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102022211285.7A priority Critical patent/DE102022211285A1/de
Priority to US18/490,369 priority patent/US20240233170A9/en
Priority to CN202311396841.4A priority patent/CN117932290A/zh
Publication of DE102022211285A1 publication Critical patent/DE102022211285A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/653Three-dimensional objects by matching three-dimensional models, e.g. conformal mapping of Riemann surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zum Erfassen von Unsicherheiten bei der Detektion und/oder Verfolgung von mehreren Objekten (O1, O2, O3, O4, O5) aus Punktwolken-Daten mittels eines Transformers mit Attention-Modell, wobei der Zustand der verfolgten Objekte (O1, O2, O3, O4, O5) im Feature-Space gespeichert ist Es werden folgende Schritte ausgeführt:- Berechnen von Feature-Vektoren aus den Punktwolken-Daten durch ein Backbone (2), wobei die Feature-Vektoren als Key-Vektoren (kt,i, kt+1,i) für den Transformer dienen;- Berechnen von Anker-Positionen (ρt,j, ρt+1,j) aus den Punktwolken-Daten durch eine Sampling-Methode (4);- Ermitteln von Feature-Vektoren aus den Anker-Positionen (ρt,j, ρt+1,j) mittels eines Encodings (5), wobei die Feature-Vektoren als Objekt-Queries (yt,j, yt+1,j) für den Transformer dienen;- Berechnen von Attention-Gewichten (wp,q,i) für Cross-Attention aus den Objekt-Queries (yt,j, yt+1,j) und einer von dem Backbone (2) verwendeten räumlichen Struktur;- Bestimmen (12) der größten Attention-Gewichte (wmax) des Transformers für jedes Objekt-Query (yt,j, yt+1,j);- Berechnen (13) einer Kovarianzmatrix (Ck) für die größten Attention-Gewichte (wmax);- Berechnen (14) der Determinante der Kovarianzmatrix, um eine Attention-Spread (AS) zu erhalten.

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zur Erfassung von Unsicherheiten bei der Detektion und/oder Verfolgung von mehreren Objekten aus Punktwolken-Daten mittels eines Transformers mit Attention-Modell.
  • Stand der Technik
  • Bei bildgebenden Sensoren wird heutzutage Objektdetektion durchgeführt. In der aufgenommenen Umgebung befinden sich typischerweise mehrere Objekte, sodass eine Detektion von mehreren Objekten durchgeführt wird. Beispielsweise wird Objektdetektion bei Sensoren für Fahrzeuge eingesetzt, um andere Fahrzeuge, andere Verkehrsteilnehmer und die Infrastruktur zu erfassen. Diese Daten können für (teil-)automatisiertes oder autonomes Fahren verwendet werden.
  • Neuerdings wird das Konzept verfolgt, Transformer für die Objektdetektion anzuwenden. Transformer werden in dem Paper Ashish Vaswani et al, „Attention is all you need", arXiv preprint arXiv:1706.03762, 2017 beschrieben, zunächst im Kontext von Sprachverarbeitung. Bei der Objektdetektion werden aus einer Messung für jedes Objekt Bounding-Boxen und deren Box-Parameter, die das Objekt beschreiben, also z. B. dessen Position, Ausmaße, Orientierung, Geschwindigkeit und/oder Klassenidentifikator, ermittelt. Die Transformer können auch für nachgelagerte Anwendungen wie beispielsweise Objektverfolgung, Prädiktion oder (Pfad-) Planung verwendet werden. Bei Verwendung von Transformern zur Objektdetektion kann die herkömmlicherweise in der Nachverarbeitung angewendete Unterdrückung von überlappenden Detektionen vernachlässigt werden.
  • Unsicherheiten werden in zwei Klassen aufgeteilt: Epistemische Unsicherheiten rühren von Unsicherheiten im Modell her, beispielsweise, wenn eine Observation gemacht wurde, die nicht in den Trainingsdaten vorhanden ist. Zudem kann ein unstrukturiertes und dynamisches Umfeld zu solchen Unsicherheiten führen, da diese Vielseitigkeit kaum von einem Trainingsdatensatz abgedeckt werden kann. Demgegenüber stehen aleatorische Unsicherheiten, die von Sensorrauschen herrühren und/oder durch schlechte Sicht des Sensors und/oder großen Abstand zum Sensor entstehen.
  • Offenbarung der Erfindung
  • zur Erfassung von Unsicherheiten bei der Detektion und/oder Verfolgung von mehreren Objekten aus Punktwolken-Daten mittels eines Transformers mit Attention-Modell. Die Punktwolken-Daten werden durch einen Sensor, beispielsweise durch ein LiDAR, erfasst. Allerdings ist dieses Verfahren nicht auf LiDAR beschränkt, sondern es können auch andere Sensortypen verwendet werden. Bevorzugt ist der Sensor bzw. das Sensorsystem an einem Fahrzeug angeordnet, sodass die Punktwolken-Daten aus dem Fahrzeug aufgenommen werden.
  • Das Verfahren umfasst die folgenden Schritte: Zu Beginn werden Feature-Vektoren aus den Punktwolken-Daten berechnet. Dies wird nicht von dem Encoder des Transformers durchgeführt, sondern durch ein Backbone. Ein Backbone ist ein neuronales Netz, das dafür verwendet wird, aus gemessenen Daten Features zu extrahieren, bzw. den Input in eine gewisse Feature-Repräsentation zu bringen, die dann weiterverarbeitet werden kann. Somit kann auf den Encoder des Transformers verzichtet werden. Das Backbone überträgt die typischerweise dreidimensionalen Punktwolke-Daten in eine räumliche Struktur. Vorzugsweise wird die Ausgabe des Backbones umformatiert, um eine Folge von Feature-Vektoren mit einer vorgebbaren Länge zu erhalten. Durch die Verwendung des Backbones zur Berechnung der Feature-Vektoren ist die Länge der Eingabesequenz weniger limitiert als mit einem Encoder des Transformers und stattdessen kann bei einem gitterbasierten Backbone, wie PointPillars, eine ausreichend kleine Zellgröße gewählt werden. Die somit berechneten Feature-Vektoren werden dann dem Transformer zugeführt und dienen als Key-Vektoren und Value-Vektoren für die Ermittlung der Cross-Attention. Die ausgegebenen Feature-Vektoren, die als Key-Vektoren und als Value-Vektoren dienen, lassen sich somit jeweils einem Ort im Raum zuordnen.
  • Generell können die Attention-Gewichte einem beliebigen Punkt im Raum zugeordnet werden. Vorzugsweise ist die räumliche Struktur ein Gitter. Das Backbone überträgt die dreidimensionalen Punktwolke-Daten in die Gitterstruktur. Es kodiert den Inhalt jeder Gitterzelle jeweils in einen Feature-Vektor. Es können verschiedene Gitterarten verwendet werden, sowohl zweidimensionale Gitter als auch dreidimensionale Gitter. Ein Gitter aus der Vogelperspektive hat sich als besonders geeignet hervorgetan, um die Szenerie zu repräsentieren.
  • Zudem werden aus den Punktwolken-Daten durch eine Sampling-Methode wie beispielsweise Farthest-Point-Sampling (FPS) erste Anker-Positionen für eine erste Schicht des Transformers berechnet. Aus den ersten Anker-Positionen werden mittels Encodings, beispielsweise Fourier-Encoding, Feature-Vektoren ermittelt. Das Encoding kann insbesondere durch ein Feed-Forward-Netz komplettiert werden. Die somit berechneten Feature-Vektoren dienen als Objekt-Queries für die erste Schicht eines Decoders des Transformers. Die Objekt-Queries der Anker-Positionen dienen als Ausgangspunkte für die Suche nach Objekten. Allerdings ist die Suche nicht auf diese Anker-Positionen beschränkt, sondern es werden auch Objekte in einem Abstand zu diesen Anker-Positionen detektiert. Anker-Positionen entsprechen nicht Anchor-Boxen, wie sie bei anderen Detektionsansätzen verwendet werden. Die Objekt-Queries für den Transformer sind somit von Daten abhängig und nicht wie üblich eingelernt. Dies bietet vor allem bei dünn besetzen Punktwolken Vorteile, da sonst viel Rechenressourcen für das Auffinden von Positionen, die tatsächlich Daten aufweisen, verschwendet wird. Solche dünn besetzen Punktwolken kommen insbesondere bei Messungen mit LiDAR vor. Die aus den Anker-Positionen ermittelten Objekt-Queries dienen als Slots für mögliche Objekte.
  • Zur Detektion der Objekte ermittelt ein Decoder des Transformers mittels Cross-Attention aus den Objekt-Queries, also den vorstehend beschriebenen Feature-Vektoren, und den Key-Vektoren und Value-Vektoren, also den eingangs beschriebenen Feature-Vektoren, Ergebnis-Feature-Vektoren, welche auch als Decoder-Ausgabe-Vektoren bezeichnet werden. Aus den Ergebnis-Feature-Vektoren werden Box-Parameter für Bounding-Boxen, die ein Objekt beschreiben, also z. B. dessen Position bzw. Positions-Unterschiede relativ zu den Anker-Positionen, Ausmaße, Orientierung, Geschwindigkeit und/oder Klassenidentifikator mittels eines Feed-Forward-Netzes berechnet. Hierfür wird bevorzugt ein anderes Feed-Forward-Netz als das vorstehend genannte Feed-Forward-Netz zur Ermittlung der Objekt-Queries verwendet, das sich durch die Gewichtung unterscheidet.
  • Im Decoder des Transformers findet Cross-Attention zwischen den Objekt-Queries und den aus der Ausgabe des Backbones berechneten Key-Vektoren statt. Die Value-Vektoren werden nicht zur Berechnung der Attention-Gewichte benötigt. Dazu wird paarweise für jede Kombination aus Objekt-Query und Key-Vektor ein Attention-Gewicht berechnet. Bevorzugt werden die ohnehin bei der Detektion ermittelten Attention-Gewichte zur Erfassung von Unsicherheiten bei der Detektion verwendet.
  • Die Attention-Gewichte bezüglich jedem Key-Vektor lassen sich in der vom Backbone verwendeten räumlichen Struktur interpretieren. Für den Fall, dass die räumliche Struktur ein Gitter ist, lassen sich die Attention-Gewichte bezüglich jedem Key-Vektor in den Gitterzellen interpretieren, da jeder Key-Vektor einer Gitter-Zelle zugeordnet ist.
  • Die Attention-Gewichte werden vorzugsweise für jede Schicht des Decoders ermittelt. Nach der Berechnung liegen die Attention-Gewichte bevorzugt in Attention-Gewicht-Matrizen vor. Optional können die zweidimensionalen Attention-Gewicht-Matrizen entsprechend den Feature-Vektoren, insbesondere den Key-Vektoren, des Backbone zu dreidimensionalen Matrizen umgeformt werden. Für jedes Objekt, das auf die oben beschriebene Weise detektiert wird, werden somit Attention-Gewicht-Matrizen für jede Schicht des Decoders erhalten. Diese geben Einsicht, auf welche Eingabedaten die jeweilige Abfrage (Query) zugegriffen hat, um dieses Objekt zu erkennen.
  • Für jedes Objekt-Query wird aus den berechneten Attention-Gewichten eine vorgebbare Anzahl k von größten Attention-Gewichte bestimmt, beschrieben durch das Set Sk. Die vorgebbare Anzahl richtet sich nach der gewünschten Genauigkeit und dem aufzubringenden Rechenaufwand. Es müssen somit nicht alle Attention-Gewichte berechnet werden, sondern eine kleine Auswahl der größten Attention-Gewichte ist ausreichend. Generell können die größten Attention-Gewichte aus allen Schichten des Decoders berechnet werden, um ein frühzeitiges und/oder genaues Ergebnis zu erhalten. Bevorzugt werden die größten Attention-Gewichte nur aus der letzten Schicht des Decoders berechnet, um den Rechenaufwand zu minimieren. Aus den größten Attention-Gewichten wird dann eine Attention-Kovarianz mittels einer Kovarianzmatrix CK berechnet: C k = 1 W i S k w i [ ( x i y i ) μ k ] [ ( x i y i ) μ k ] T
    Figure DE102022211285A1_0001

    wobei W = Σi∈SK wi ist und µK der empirische Erwartungswert für die größten Attention-Gewichte für jede Schicht ist und folgendermaßen definiert wird: μ k = 1 W i S k w i ( x i y i )
    Figure DE102022211285A1_0002
  • Der Raum ist hier als zweidimensionale Fläche in x- und y-Richtung angenommen, wie er beispielsweise in der Vogelperspektive repräsentiert wird. Optional kann bei der Berechnung die dritte Dimension (zi) hinzugefügt werden.
  • Für die Berechnung kann auch ein robuster Schätzer wie die Huber-Verlustfunktion Lδ ((Huber loss function) verwendet werden: C k = 1 W i S k w i { [ ( x i y i ) μ k ] [ ( x i y i ) μ k ] T , f u ¨ r   | ( x i y i ) μ k | δ δ ( 2 | ( x i y i ) μ k | δ ) , a n d e r n f a l l s
    Figure DE102022211285A1_0003
    δ stellt einen Schwellenwert dar. Im oberen Fall für kleine Abweichungen vom Erwartungswert µk wird die vorstehend beschriebene Kovarianzmatrix berechnet. Große Ausreiser vom Erwartungswert µk, welche den Schwellenwert übersteigen, werden im unteren Fall berechnet und tragen nur linear und nicht quadratisch zur Kovarianzmatrix bei.
  • Durch Berechnen der Determinante der Kovarianzmatrix Ck, wird schließlich eine Attention-Spread AS erhalten, die als Wert ein Maß für die Unsicherheit darstellt. A S = det C k
    Figure DE102022211285A1_0004
  • Nachfolgend wird der Zusammenhang zwischen der Attention-Spread und dem loU (intersection-overunion) zwischen den ermittelten Bounding-Boxen und den Bounding-Boxen von nächstliegenden Objekt gemäß der Grundwahrheit beschrieben. IoU ist der Quotient aus der Schnittmenge der ermittelten Bounding-Box Be mit der Bounding-Box Bgt gemäß der Grundwahrheit und der Vereinigung dieser: I o U = B e B g t B e B g t
    Figure DE102022211285A1_0005
  • Ein größerer loU-Wert entspricht einer genaueren Detektion des Objekts. Das loU-Maß korreliert mit der epistemischen Unsicherheit. IoU-Werte von Null, bei denen also kein Überlapp vorhanden ist, wurden für den Vergleich entfernt. Aus dem Vergleich geht hervor, dass die Attention-Spread mit steigender loU sinkt. Somit zeigt eine niedrige Attention-Spread einen hohen loU und somit eine niedrige epistemische Unsicherheit und umgekehrt. Die Attention-Spread ist somit ein Indikator für die epistemische Unsicherheit.
  • Des Weiteren wurde das Verhalten der Attention-Spread für unterschiedliche Abstände der Bounding-Boxen zum Sensor, der die Punktwolke erfasst, untersucht. Die Attention-Spread nimmt mit größer werdendem Abstand zu. Somit verhält sich die Attention-Spread entsprechend der aleatorischen Unsicherheit und ist somit ein Indikator für diese.
  • Das Computerprogramm ist eingerichtet, jeden Schritt des Verfahrens durchzuführen, insbesondere, wenn es auf einem Rechengerät oder Steuergerät durchgeführt wird. Es ermöglicht die Implementierung des Verfahrens in einem herkömmlichen elektronischen Steuergerät, ohne hieran bauliche Veränderungen vornehmen zu müssen. Zur Implementierung ist das Computerprogramm auf dem maschinenlesbaren Speichermedium gespeichert.
  • Durch Aufspielen des Computerprogramms auf ein herkömmliches elektronisches Steuergerät, wird das elektronische Steuergerät erhalten, welches eingerichtet ist, ein Erfassen von Unsicherheiten für eine Detektion und/oder Verfolgung von mehreren Objekten aus Punktwolken-Daten durchzuführen.
  • Kurze Beschreibung der Zeichnungen
  • Ausführungsbeispiele der Erfindung sind in den Zeichnungen dargestellt und in der nachfolgenden Beschreibung näher erläutert.
    • 1 zeigt ein Ablaufdiagramm einer Ausführungsform des erfindungsgemäßen Verfahrens.
    • 2 zeigt ein Ablaufdiagramm zur Berechnung der Attention-Spread gemäß einer Ausführungsform der Erfindung.
    • 3 zeigt einen Ausschnitt aus einem Gitter aus der Vogelperspektive, in dem die ermittelten Bounding-Boxen, die Attention-Spread und Bounding-Boxen gemäß der Grundwahrheit dargestellt sind.
  • Ausführungsbeispiele der Erfindung
  • 1 zeigt ein Ablaufdiagramm des erfindungsgemäßen Verfahrens zu zwei aufeinanderfolgenden Zeitpunkten t und t+1. Gleiche Schritte werden mit gleichen Bezugszeichen bezeichnet und nur einmal im Detail beschrieben. Nachfolgend bezeichnen i und k als Indizes Laufvariablen. p und q sind Indizes, die einem Vogelperspektive-Gitter zugeordnet sind. Jeder Index q ist mit einer horizontalen Position in x-Richtung assoziiert und jeder Index p ist mit einer vertikalen Position in y-Richtung des Vogelperspektive-Gitter assoziiert.
  • Die linke Seite betrifft den ersten Zeitpunkt t. Zu Beginn erfasst ein LiDAR-Sensor eines Fahrzeugs F die Umgebung. Eine visuelle Darstellung dieser aufgenommenen Punktwolken-Daten ist mit 1 bezeichnet. Aus den Punktwolken-Daten berechnet ein Backbone 2 Feature-Vektoren. Das Backbone 2 überträgt die dreidimensionalen Punktwolken-Daten in eine Gitterstruktur. Als Beispiel verwendet das Backbone 2 ein Gitter aus der Vogelperspektive mit 128x128 Gitterzellen. Das Backbone 2 kodiert den Inhalt jeder Gitterzelle jeweils in einen Feature-Vektor, z.B. mit einer Dimension von 64, sodass das Ergebnis die Größe 128x128x64 hat. Dieses Ergebnis wird in eine Folge von Feature-Vektoren mit der Größe (128x128)x64 umgeformt. Aus dieser Folge von Feature-Vektoren wird dann durch ein Positions-Encoding 3 Key-Vektoren kt,i und Value-Vektoren vt,i berechnet. Im vorliegenden Beispiel werden somit 128x128 Key-Vektoren kt,i und genauso viele Value-Vektoren vt,i erhalten. Die Anzahl 128x128 wird nachfolgend als N festgelegt, sodass das Gitter eine Größe von N x N
    Figure DE102022211285A1_0006
    aufweist. Die Key-Vektoren kt,i und Value-Vektoren vt,i werden dann einem Decoder 6 des Transformers zugeführt.
  • Gleichzeitig werden aus den Punktwolken-Daten durch eine Sampling-Methode 4, beispielsweise Farthest-Point-Sampling, Anker-Positionen ρt,j zum ersten Zeitpunkt t ermittelt, die dann ein Fourier-Encoding 5 durchlaufen: y j = FFN [ sin ( B ρ j ) , cos ( B ρ j ) ]
    Figure DE102022211285A1_0007
  • B ist dabei eine Matrix, die Einträge der Normalverteilung aufweist, FFN stellt ein Feed-Forward-Netz dar, welches hier aus zwei Schichten mit einer ReLU-Aktivierung (Rectified Linear Unit) besteht. yj sind die berechneten Feature-Vektoren, welche als Objekt-Queries dem Decoder 6 des Transformers zugeführt werden. Die Anzahl der Ankerpositionen beträgt beispielsweise 100 und wird im Folgenden mit M bezeichnet (die Laufvariable j läuft von 1 bis M).
  • Das für den ersten Zeitpunkt t ausgegebene Set von Feature-Vektoren ist mit Yt bezeichnet und bestehen aus den Objekt-Queries yt,j. Jedes Objekt-Query yt,j dient als Slot (In 1 dargestellt durch einzelne Kästchen) für ein mögliches Objekt. Der Decoder 6 des Transformers besteht aus sechs Schichten K mit jeweils acht Attention-Heads. Der Decoder 6 ermittelt zum ersten Zeitpunkt t aus den Objekt-Queries yt,j sowie den Key-Vektoren kt,i und den Value-Vektoren vt,i Ergebnis-Feature-Vektoren y t , j ' .
    Figure DE102022211285A1_0008
    Für die Detektion berechnet der Decoder 6 Attention-Gewichte wp,q,i für jedes Objekt-Query yt, j. Die Attention-Gewichte wp,q,i werden in einer Attention-Gewichte-Matrizen Mw abgespeichert. Da diese Attention-Gewichte wp,q,i in diesem Beispiel auf Basis des Vogelperspektive-Gitter ermittelt wurden, können der Index q mit einer Position xq in x-Richtung des Vogelperspektive-Gitters und der Index p mit einer Position yp in y-Richtung des Vogelperspektive-Gitters assoziiert werden. Im Decoder 6 werden in jeder Schicht K Attention-Gewichte-Matrizen Mw ermittelt. Die Attention-Gewichte wp, a, i bzw. die Attention-Gewichte-Matrizen Mw werden für eine Ermittlung 10 einer Attention-Spread AS verwendet, wie sie nachfolgend im Zusammenhang mit 2 beschrieben wird.
  • Es werden zwei Objekte O1 und O2 zum ersten Zeitpunkt t detektiert. Ein Feed-Forward-Netz 7 berechnet aus den Ergebnis-Feature-Vektoren y t , j '
    Figure DE102022211285A1_0009
    Box-Parameter dj für die Objekte O1, O2. Die Objekte O1, O2 wurden detektiert und sind hier in der mit 8 bezeichneten visuellen Darstellung eingezeichnet.
  • Die Objektverfolgung für ein Objekt O1, O2 wird nur weitergeführt, wenn in dem entsprechenden Zeitschritt die Konfidenz über einem Schwellenwert liegt. Ansonsten wird die Objektverfolgung dieses Objekts ausgesetzt oder beendet.
  • Auf der rechten Seite in 1 ist die Auswertung für einen zweiten Zeitpunkt t+1 dargestellt, der nach einem Zeitschritt, der durch die Wiederholrate der Aufnahme des LiDAR-Sensors definiert ist, dem ersten Zeitpunkt t folgt. Das Fahrzeug F bewegt sich in diesem Zeitschritt mit seiner Eigengeschwindigkeit fort. Dies wirkt sich auf die Auswertung der gemessenen Daten und die relative Position und Geschwindigkeit der Objekte O1, O2 aus. Es wird eine Eigengeschwindigkeitskompensation 9 durchgeführt. Hierbei werden aus den Ergebnis-Feature-Vektoren y t , j '
    Figure DE102022211285A1_0010
    für den ersten Zeitpunkt t, den Anker-Positionen ρt,j, und einer Posenänderung p transformierte Ergebnis-Feature-Vektoren y t , l "
    Figure DE102022211285A1_0011
    erhalten: y t , l " = EMC ( y t , j ' , ρ j , p )
    Figure DE102022211285A1_0012
  • Analog zum ersten Zeitpunkt t erfasst auch hier zu Beginn der LiDAR-Sensor die Umgebung und das Backbone 2 berechnet aus den Punktwolken-Daten Feature-Vektoren, welche durch das Positions-Encoding 3 mittels Sinus und Cosinus augmentiert werden und schließlich als Key-Vektoren kt+1, i und Value-Vektoren vt+1, i für den zweiten Zeitpunkt t+1 dem Decoder 6 des Transformers zugeführt werden. Hierfür verwendet das Backbone dasselbe Gitter wie vorstehend beschrieben. Gleichzeitig werden aus den Punktwolken-Daten durch die Sampling-Methode 4, Anker-Positionen ρt+1, j zum zweiten Zeitpunkt t+1 ermittelt, die dann das Fourier-Encoding 5 gemäß Formel 1 durchlaufen. Es werden Objekt-Queries yt+1, j für den zweiten Zeitpunkt t+1 erhalten.
  • Das für den zweiten Zeitpunkt t+1 ausgegebene Set von Feature-Vektoren ist mit Yt+1 bezeichnet und bestehen aus den Objekt-Queries yt+1, j für den zweiten Zeitpunkt t+1 und den transformierten Ergebnis-Feature-Vektoren y t , l " ,
    Figure DE102022211285A1_0013
    die für den ersten Zeitpunkt t berechnet wurden, und kann als Vereinigung Y t + 1 = { y t , l " } l = 1 L { y t + 1, j } j = 1 M
    Figure DE102022211285A1_0014
    dargestellt werden. Jedes Objekt-Query yt+1, j und jeder transformierte Ergebnis-Feature-Vektor y t , l "
    Figure DE102022211285A1_0015
    dienen als Slot (In 1 dargestellt durch einzelne Kästchen) für ein mögliches Objekt.
  • Der Decoder 6 ermittelt aus den Objekt-Queries yt,j, den transformierten Ergebnis-Feature-Vektoren y t , l "
    Figure DE102022211285A1_0016
    sowie den Key-Vektoren kt+1, i und den Value-Vektoren vt+1, i Ergebnis-Feature-Vektoren y t + 1, j '
    Figure DE102022211285A1_0017
    zum zweiten Zeitpunkt t+1. Auch hier berechnet der Decoder 6 Attention-Gewichte wp,q,i für jedes Objekt-Query yt, j und jeden transformierten Ergebnis-Feature-Vektor y t , l "
    Figure DE102022211285A1_0018
    in jeder Schicht K des Decoders 6. Attention-Gewichte wp, a, i werden ebenfalls in Attention-Gewichte-Matrizen Mw abgespeichert. Die Attention-Gewichte wp, a, i bzw. die Attention-Gewichte-Matrizen Mw werden wiederum für die Ermittlung 10 der Attention-Spread AS verwendet, wie sie nachfolgend im Zusammenhang mit 2 beschrieben wird.
  • Ein neues Objekt O3 wird in den Ergebnis-Feature-Vektoren y t + 1, j '
    Figure DE102022211285A1_0019
    nur verfolgt, wenn die Konfidenz über einem Schwellenwert liegt. Es wird neben den beiden Objekten O1 und O2 ein drittes Objekt O3 detektiert, dessen Pfad weiterverfolgt wird. Das Feed-Forward-Netz 7 berechnet aus den Ergebnis-Feature-Vektoren y t , j '
    Figure DE102022211285A1_0020
    Box-Parameter dj für die Objekte O1, O2, O3. Auch hier sind die Objekte O1, O2, O3 in der mit 8 bezeichneten visuellen Darstellung eingezeichnet. Hierdurch werden die mehreren Objekte O1, O2, O3 zu einem weiteren Zeitschritt t+1 detektiert.
  • In 2 ist eine Ermittlung der Attentions-Spread AS dargestellt. Die zur Detektion der Objekte O1, O2, O3 im Decoder 6 berechneten Attention-Gewichte wp,q,i sind in Attention-Gewichts-Matrizen Mw der Größe NxM, also der Anzahl der Eingangs-Objekt-Queries M und der Länge der Vektoren der Eingangs-Objekt-Queries N, gespeichert. Im vorliegenden Beispiel für 100 Objekt-Queries yj (und zusätzlich den transformierten Ergebnis-Feature-Vektoren y t , l " ,
    Figure DE102022211285A1_0021
    die hier aus Gründen der Übersicht nicht jedes Mal erwähnt werden) erhält man somit eine Attention-Gewichte-Matrix der Größe (128*128)x100. Durch eine Transformation 11 wird die Attention-Gewichts-Matrix Mw in eine transformierte Attention-Gewichts-Matrix Mw der Größe N x N x M
    Figure DE102022211285A1_0022
    umgewandelt, also der Größe des Gitters N x N ,
    Figure DE102022211285A1_0023
    das sich aus den zugehörigen Positionen zu Key-Vektoren ki und Value-Vektoren vi ergibt und der Länge M der Vektoren der Eingangs-Objekt-Queries. In diesem Beispiel ist die Größe 128x128x100. Dies lässt sich auch als ein 1 Gitter der Größe 128x128 pro Objekt-Query yj interpretieren. Somit wird ein Zusammenhang zwischen der transformierten Attention-Gewichts-Matrix M̃w,den Objekt-Queries yj (sowie den transformierten Ergebnis-Feature-Vektoren y t , l "
    Figure DE102022211285A1_0024
    )und dem Gitter hergestellt. Für jedes Objekt-Queries yj wird nun eine vorgebbare Anzahl k von größten Attention-Gewichte aus der transformierten Attention-Gewichts-Matrix M̃w für das jeweilige Objekt-Queries yj ermittelt 12. Die vorgebbare Anzahl k von größten Attention-Gewichten ist in diesem Beispiel 100. Dies kann für alle Schichten K des Decoders 6 durchgeführt werden oder nur für eine einzelne Schicht, insbesondere für die letzte Schicht oder für mehrere Schichten des Decoders. Die größten Attention-Gewichte wmax sind die Attention-Gewichte wp,a,i, für die gilt: p, q ∈ Sk. Anschließend wird für die größten Attention-Gewichten wmax (also für wp,q,i mit p, q ∈ Sk) eine Kovarianzmatrix berechnet 13: C k = 1 W p , q S k w p , q , i [ ( x q y p ) μ k ] [ ( x q y p ) μ k ] T
    Figure DE102022211285A1_0025

    wobei W = Σp,q∈Sk wp,q,i ist, xq die Position in x-Richtung des Gitters ist, yp die Position in y-Richtung des Gitters ist und µk der empirische Erwartungswert für die größten Attention-Gewichte wmax des Decoders 6 ist und folgendermaßen definiert wird: μ k = 1 W p , q S k w p , q , i ( x q y p )
    Figure DE102022211285A1_0026
  • Schließlich wird die Determinante dieser Kovarianzmatrix Ck berechnet 14 und somit als Wert die Attention-Spread AS erhalten. A S = det C k
    Figure DE102022211285A1_0027
  • 3 zeigt ein Gitter aus der Vogelperspektive, welches durch ein Fahrzeug F in 30 bis 50 Entfernung aufgenommen wurde. Das hier nicht gezeigte Fahrzeug F liegt in genannter Entfernung auf der negativen y-Achse. Es sind für fünf Objekte O1, O2, O3, O4 und O5 die ermittelten Bounding-Boxen Be, die Bounding-Boxen Bgt gemäß der Grundwahrheit (ground truth) dargestellt sowie die berechneten Attention-Spread AS als Ellipse eingezeichnet. Für die beiden näher liegenden (unten dargestellten) Objekte O1 und O2 liegen die jeweiligen ermittelten Bounding-Boxen Be auf oder nur knapp neben den Bounding-Boxen Bgt gemäß der Grundwahrheit. Die Attention-Spread AS ist klein, was sich durch die kleine Ellipse ausdrückt. Für die weiter entfernten (oben links dargestellten) Objekte O3 und O4 wurde nur eine Bounding-Box Be ermittelt, nämlich für das Objekt O4. Die Attention-Spread AS ist sehr groß, was sich durch die große Ellipse ausdrückt. Für das ebenfalls weiter entfernte (oben rechts dargestellte) Objekt O5 wurden zwei Bounding-Boxen Be ermittelt, wobei eine ermittelte Bounding-Box Be mit der Bounding-Box Bgt der Grundwahrheit übereinstimmt und die andere ermittelte Bounding-Box Be neben dieser liegt. Die Attention-Spread AS der nebenliegenden ermittelten Bounding-Box Be ragt aber in die andere ermittelte Bounding-Box Be hinein.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • Paper Ashish Vaswani et al, „Attention is all you need“, arXiv preprint arXiv:1706.03762, 2017 [0003]

Claims (9)

  1. Verfahren zum Erfassen von Unsicherheiten bei der Detektion und/oder Verfolgung von mehreren Objekten (O1, O2, O3, O4, O5) aus Punktwolken-Daten mittels eines Transformers mit Attention-Modell, wobei der Zustand der verfolgten Objekte (O1, O2, O3, O4, O5) im Feature-Space gespeichert ist, mit folgenden Schritten: - Berechnen von Feature-Vektoren aus den Punktwolken-Daten durch ein Backbone (2), wobei die Feature-Vektoren als Key-Vektoren (kt,i, kt+1,i) für den Transformer dienen; - Berechnen von Anker-Positionen (ρt,j, ρt+1,j) aus den Punktwolken-Daten durch eine Sampling-Methode (4); - Ermitteln von Feature-Vektoren aus den Anker-Positionen (ρt,j, ρt+1,j) mittels eines Encodings (5), wobei die Feature-Vektoren als Objekt-Queries (yt,j, yt+1,j) für den Transformer dienen; - Berechnen von Attention-Gewichten (wp,q,i) für Cross-Attention aus den Objekt-Queries (yt,j, yt+1,j) und einer von dem Backbone (2) verwendeten räumlichen Struktur; - Bestimmen (12) der größten Attention-Gewichte (wmax) des Transformers für jedes Objekt-Query (yt,j, yt+1); - Berechnen (13) einer Kovarianzmatrix (Ck) für die größten Attention-Gewichte (wmax); - Berechnen (14) der Determinante der Kovarianzmatrix, um eine Attention-Spread (AS) zu erhalten.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Attention-Gewichte (wp,q,i) während einer Ermittlung von Ergebnis-Feature-Vektoren ( y t , j ' )
    Figure DE102022211285A1_0028
    aus den Objekt-Queries (yt,j) und den Key-Vektoren (kt,i, kt+1,i) mittels eines Decoders (6) des Transformers berechnet werden.
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Attention-Gewichte (wp,q,i) für jede Schicht (K) des Decoders (6) ermittelt werden.
  4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass das die vom Backbone (2) verwendete Struktur ein Gitter ist und jedes Attention-Gewicht (wp,q,i) einer Gitterzelle zugeordnet ist.
  5. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass jedes Attention-Gewicht (wp,q,i) einem beliebigen Punkt im Raum zugeordnet ist.
  6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass zur Berechnung der Kovarianzmatrix eine Huber-Verlustfunktion verwendet
  7. Computerprogramm, welches eingerichtet ist, jeden Schritt des Verfahrens nach einem der Ansprüche 1 bis 6 durchzuführen.
  8. Maschinenlesbares Speichermedium, auf welchem ein Computerprogramm nach Anspruch 7 gespeichert ist.
  9. Elektronisches Steuergerät, welches eingerichtet ist, um mittels eines Verfahrens nach einem der Ansprüche 1 bis 6 ein Erfassen von Unsicherheiten bei der Detektion und/oder Verfolgung von mehreren Objekten (O1, O2, O3, O4, O5) aus Punktwolken-Daten mittels eines Transformers mit Attention-Modell durchzuführen.
DE102022211285.7A 2022-10-25 2022-10-25 Verfahren zum Erfassen von Unsicherheiten bei der Detektion von mehreren Objekten Pending DE102022211285A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE102022211285.7A DE102022211285A1 (de) 2022-10-25 2022-10-25 Verfahren zum Erfassen von Unsicherheiten bei der Detektion von mehreren Objekten
US18/490,369 US20240233170A9 (en) 2022-10-25 2023-10-19 Method for identifying uncertainties during the detection of multiple objects
CN202311396841.4A CN117932290A (zh) 2022-10-25 2023-10-25 用于检测探测多个对象中的不可靠度的方法、存储介质和电子控制设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102022211285.7A DE102022211285A1 (de) 2022-10-25 2022-10-25 Verfahren zum Erfassen von Unsicherheiten bei der Detektion von mehreren Objekten

Publications (1)

Publication Number Publication Date
DE102022211285A1 true DE102022211285A1 (de) 2024-04-25

Family

ID=90573067

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022211285.7A Pending DE102022211285A1 (de) 2022-10-25 2022-10-25 Verfahren zum Erfassen von Unsicherheiten bei der Detektion von mehreren Objekten

Country Status (3)

Country Link
US (1) US20240233170A9 (de)
CN (1) CN117932290A (de)
DE (1) DE102022211285A1 (de)

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Paper Ashish Vaswani et al, „Attention is all you need", arXiv preprint arXiv:1706.03762, 2017

Also Published As

Publication number Publication date
CN117932290A (zh) 2024-04-26
US20240233170A9 (en) 2024-07-11
US20240135577A1 (en) 2024-04-25

Similar Documents

Publication Publication Date Title
DE102018116111B4 (de) Ein einheitliches tiefes faltendes neuronales Netzwerk für die Abschätzung von Freiraum, die Abschätzung der Objekterkennung und die der Objektstellung
DE102011117585B4 (de) Systeme und Verfahren zum Verfolgen von Objekten
DE102018200724A1 (de) Verfahren und Vorrichtung zum Verbessern der Robustheit gegen "Adversarial Examples"
DE102017115028A1 (de) Verfahren, Gerät und Vorrichtung zur Erzeugung von Zielerkennungs-Informationen
DE102018124108A1 (de) VERFAHREN UND VORRICHTUNG ZUM ERFASSEN EINER STRAßENBEGRENZUNG
DE112017005651T5 (de) Vorrichtung zur Klassifizierung von Daten
DE102015209186A1 (de) Verfahren zur Ermittlung einer Beschreibung eines Fahrstreifens
DE102018123393A1 (de) Erkennung von Parkflächen
DE102018206806A1 (de) Verfahren und Vorrichtung zur Umsetzung eines Eingangsbildes einer ersten Domäne in ein Ausgangsbild einer zweiten Domäne
DE102019114737A1 (de) Verfahren und Vorrichtung zur Vorhersage des Verhaltens eines Verkehrsteilnehmers
DE102022128437A1 (de) Aggregationsbasierte LIDAR-Datenausrichtung
DE102022211285A1 (de) Verfahren zum Erfassen von Unsicherheiten bei der Detektion von mehreren Objekten
WO2023232351A1 (de) Verfahren und vorrichtung zum bereitstellen von trainingsdatensätzen für ein klassifikationsmodell zur objektidentifikation für ein ultraschall-sensorsystem in einer mobilen einrichtung
DE102015205901A1 (de) Verfahren zur Berechnung einer Route für ein Landfahrzeug
DE102018215288A1 (de) Verfahren und Verarbeitungseinheit zur Verfolgung eines Objektes
DE112021006984T5 (de) Informationsverarbeitungseinrichtung, auswahlausgabe- verfahren und auswahlausgabeprogramm
DE102020116027A1 (de) Verfahren und Vorrichtung zur Ermittlung von Belegungsinformation für einen Umfeldpunkt auf Basis von Radardetektionen
EP0710927A2 (de) Verfahren zur objektorientierten Erkennung bewegter Objekte
DE112020003817T5 (de) Belegungsgitterkarten-managementvorrichtung
DE102022210248A1 (de) Verfahren zur Objektdetektion
DE102015118941A1 (de) Probabilistisches Verfolgungsverfahren für Partikel in einem Fluid
DE102022205110A1 (de) Verfahren zur Objektverfolgung
DE102015223790B3 (de) Verfahren und Vorrichtung zur Modellauswahl bei der Objektverfolgung mit projizierenden Messungen
DE102019216396A1 (de) Verfahren und Vorrichtung zum Kalibrieren eines Fahrzeugsensors
DE102022214233B3 (de) Bestimmen einer Ähnlichkeit von Verkehrsszenen zur Verbesserung maschineller Lernsysteme bzw. Algorithmen zur Trajektorienprädiktion oder Manöverplanung für automatisierte Fahrzeuge