DE102022211285A1

DE102022211285A1 - Verfahren zum Erfassen von Unsicherheiten bei der Detektion von mehreren Objekten

Info

Publication number: DE102022211285A1
Application number: DE102022211285.7A
Authority: DE
Inventors: Florian Faion; Felicia Ruppel
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-10-25
Filing date: 2022-10-25
Publication date: 2024-04-25
Also published as: CN117932290A; US20240233170A9; US20240135577A1

Abstract

Die Erfindung betrifft ein Verfahren zum Erfassen von Unsicherheiten bei der Detektion und/oder Verfolgung von mehreren Objekten (O1, O2, O3, O4, O5) aus Punktwolken-Daten mittels eines Transformers mit Attention-Modell, wobei der Zustand der verfolgten Objekte (O1, O2, O3, O4, O5) im Feature-Space gespeichert ist Es werden folgende Schritte ausgeführt:- Berechnen von Feature-Vektoren aus den Punktwolken-Daten durch ein Backbone (2), wobei die Feature-Vektoren als Key-Vektoren (kt,i, kt+1,i) für den Transformer dienen;- Berechnen von Anker-Positionen (ρt,j, ρt+1,j) aus den Punktwolken-Daten durch eine Sampling-Methode (4);- Ermitteln von Feature-Vektoren aus den Anker-Positionen (ρt,j, ρt+1,j) mittels eines Encodings (5), wobei die Feature-Vektoren als Objekt-Queries (yt,j, yt+1,j) für den Transformer dienen;- Berechnen von Attention-Gewichten (wp,q,i) für Cross-Attention aus den Objekt-Queries (yt,j, yt+1,j) und einer von dem Backbone (2) verwendeten räumlichen Struktur;- Bestimmen (12) der größten Attention-Gewichte (wmax) des Transformers für jedes Objekt-Query (yt,j, yt+1,j);- Berechnen (13) einer Kovarianzmatrix (Ck) für die größten Attention-Gewichte (wmax);- Berechnen (14) der Determinante der Kovarianzmatrix, um eine Attention-Spread (AS) zu erhalten.

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Erfassung von Unsicherheiten bei der Detektion und/oder Verfolgung von mehreren Objekten aus Punktwolken-Daten mittels eines Transformers mit Attention-Modell.
Stand der Technik
Bei bildgebenden Sensoren wird heutzutage Objektdetektion durchgeführt. In der aufgenommenen Umgebung befinden sich typischerweise mehrere Objekte, sodass eine Detektion von mehreren Objekten durchgeführt wird. Beispielsweise wird Objektdetektion bei Sensoren für Fahrzeuge eingesetzt, um andere Fahrzeuge, andere Verkehrsteilnehmer und die Infrastruktur zu erfassen. Diese Daten können für (teil-)automatisiertes oder autonomes Fahren verwendet werden.
Neuerdings wird das Konzept verfolgt, Transformer für die Objektdetektion anzuwenden. Transformer werden in dem Paper Ashish Vaswani et al, „Attention is all you need", arXiv preprint arXiv:1706.03762, 2017 beschrieben, zunächst im Kontext von Sprachverarbeitung. Bei der Objektdetektion werden aus einer Messung für jedes Objekt Bounding-Boxen und deren Box-Parameter, die das Objekt beschreiben, also z. B. dessen Position, Ausmaße, Orientierung, Geschwindigkeit und/oder Klassenidentifikator, ermittelt. Die Transformer können auch für nachgelagerte Anwendungen wie beispielsweise Objektverfolgung, Prädiktion oder (Pfad-) Planung verwendet werden. Bei Verwendung von Transformern zur Objektdetektion kann die herkömmlicherweise in der Nachverarbeitung angewendete Unterdrückung von überlappenden Detektionen vernachlässigt werden.
Unsicherheiten werden in zwei Klassen aufgeteilt: Epistemische Unsicherheiten rühren von Unsicherheiten im Modell her, beispielsweise, wenn eine Observation gemacht wurde, die nicht in den Trainingsdaten vorhanden ist. Zudem kann ein unstrukturiertes und dynamisches Umfeld zu solchen Unsicherheiten führen, da diese Vielseitigkeit kaum von einem Trainingsdatensatz abgedeckt werden kann. Demgegenüber stehen aleatorische Unsicherheiten, die von Sensorrauschen herrühren und/oder durch schlechte Sicht des Sensors und/oder großen Abstand zum Sensor entstehen.
Offenbarung der Erfindung
zur Erfassung von Unsicherheiten bei der Detektion und/oder Verfolgung von mehreren Objekten aus Punktwolken-Daten mittels eines Transformers mit Attention-Modell. Die Punktwolken-Daten werden durch einen Sensor, beispielsweise durch ein LiDAR, erfasst. Allerdings ist dieses Verfahren nicht auf LiDAR beschränkt, sondern es können auch andere Sensortypen verwendet werden. Bevorzugt ist der Sensor bzw. das Sensorsystem an einem Fahrzeug angeordnet, sodass die Punktwolken-Daten aus dem Fahrzeug aufgenommen werden.
Das Verfahren umfasst die folgenden Schritte: Zu Beginn werden Feature-Vektoren aus den Punktwolken-Daten berechnet. Dies wird nicht von dem Encoder des Transformers durchgeführt, sondern durch ein Backbone. Ein Backbone ist ein neuronales Netz, das dafür verwendet wird, aus gemessenen Daten Features zu extrahieren, bzw. den Input in eine gewisse Feature-Repräsentation zu bringen, die dann weiterverarbeitet werden kann. Somit kann auf den Encoder des Transformers verzichtet werden. Das Backbone überträgt die typischerweise dreidimensionalen Punktwolke-Daten in eine räumliche Struktur. Vorzugsweise wird die Ausgabe des Backbones umformatiert, um eine Folge von Feature-Vektoren mit einer vorgebbaren Länge zu erhalten. Durch die Verwendung des Backbones zur Berechnung der Feature-Vektoren ist die Länge der Eingabesequenz weniger limitiert als mit einem Encoder des Transformers und stattdessen kann bei einem gitterbasierten Backbone, wie PointPillars, eine ausreichend kleine Zellgröße gewählt werden. Die somit berechneten Feature-Vektoren werden dann dem Transformer zugeführt und dienen als Key-Vektoren und Value-Vektoren für die Ermittlung der Cross-Attention. Die ausgegebenen Feature-Vektoren, die als Key-Vektoren und als Value-Vektoren dienen, lassen sich somit jeweils einem Ort im Raum zuordnen.
Generell können die Attention-Gewichte einem beliebigen Punkt im Raum zugeordnet werden. Vorzugsweise ist die räumliche Struktur ein Gitter. Das Backbone überträgt die dreidimensionalen Punktwolke-Daten in die Gitterstruktur. Es kodiert den Inhalt jeder Gitterzelle jeweils in einen Feature-Vektor. Es können verschiedene Gitterarten verwendet werden, sowohl zweidimensionale Gitter als auch dreidimensionale Gitter. Ein Gitter aus der Vogelperspektive hat sich als besonders geeignet hervorgetan, um die Szenerie zu repräsentieren.
Zudem werden aus den Punktwolken-Daten durch eine Sampling-Methode wie beispielsweise Farthest-Point-Sampling (FPS) erste Anker-Positionen für eine erste Schicht des Transformers berechnet. Aus den ersten Anker-Positionen werden mittels Encodings, beispielsweise Fourier-Encoding, Feature-Vektoren ermittelt. Das Encoding kann insbesondere durch ein Feed-Forward-Netz komplettiert werden. Die somit berechneten Feature-Vektoren dienen als Objekt-Queries für die erste Schicht eines Decoders des Transformers. Die Objekt-Queries der Anker-Positionen dienen als Ausgangspunkte für die Suche nach Objekten. Allerdings ist die Suche nicht auf diese Anker-Positionen beschränkt, sondern es werden auch Objekte in einem Abstand zu diesen Anker-Positionen detektiert. Anker-Positionen entsprechen nicht Anchor-Boxen, wie sie bei anderen Detektionsansätzen verwendet werden. Die Objekt-Queries für den Transformer sind somit von Daten abhängig und nicht wie üblich eingelernt. Dies bietet vor allem bei dünn besetzen Punktwolken Vorteile, da sonst viel Rechenressourcen für das Auffinden von Positionen, die tatsächlich Daten aufweisen, verschwendet wird. Solche dünn besetzen Punktwolken kommen insbesondere bei Messungen mit LiDAR vor. Die aus den Anker-Positionen ermittelten Objekt-Queries dienen als Slots für mögliche Objekte.
Zur Detektion der Objekte ermittelt ein Decoder des Transformers mittels Cross-Attention aus den Objekt-Queries, also den vorstehend beschriebenen Feature-Vektoren, und den Key-Vektoren und Value-Vektoren, also den eingangs beschriebenen Feature-Vektoren, Ergebnis-Feature-Vektoren, welche auch als Decoder-Ausgabe-Vektoren bezeichnet werden. Aus den Ergebnis-Feature-Vektoren werden Box-Parameter für Bounding-Boxen, die ein Objekt beschreiben, also z. B. dessen Position bzw. Positions-Unterschiede relativ zu den Anker-Positionen, Ausmaße, Orientierung, Geschwindigkeit und/oder Klassenidentifikator mittels eines Feed-Forward-Netzes berechnet. Hierfür wird bevorzugt ein anderes Feed-Forward-Netz als das vorstehend genannte Feed-Forward-Netz zur Ermittlung der Objekt-Queries verwendet, das sich durch die Gewichtung unterscheidet.
Im Decoder des Transformers findet Cross-Attention zwischen den Objekt-Queries und den aus der Ausgabe des Backbones berechneten Key-Vektoren statt. Die Value-Vektoren werden nicht zur Berechnung der Attention-Gewichte benötigt. Dazu wird paarweise für jede Kombination aus Objekt-Query und Key-Vektor ein Attention-Gewicht berechnet. Bevorzugt werden die ohnehin bei der Detektion ermittelten Attention-Gewichte zur Erfassung von Unsicherheiten bei der Detektion verwendet.
Die Attention-Gewichte bezüglich jedem Key-Vektor lassen sich in der vom Backbone verwendeten räumlichen Struktur interpretieren. Für den Fall, dass die räumliche Struktur ein Gitter ist, lassen sich die Attention-Gewichte bezüglich jedem Key-Vektor in den Gitterzellen interpretieren, da jeder Key-Vektor einer Gitter-Zelle zugeordnet ist.
Die Attention-Gewichte werden vorzugsweise für jede Schicht des Decoders ermittelt. Nach der Berechnung liegen die Attention-Gewichte bevorzugt in Attention-Gewicht-Matrizen vor. Optional können die zweidimensionalen Attention-Gewicht-Matrizen entsprechend den Feature-Vektoren, insbesondere den Key-Vektoren, des Backbone zu dreidimensionalen Matrizen umgeformt werden. Für jedes Objekt, das auf die oben beschriebene Weise detektiert wird, werden somit Attention-Gewicht-Matrizen für jede Schicht des Decoders erhalten. Diese geben Einsicht, auf welche Eingabedaten die jeweilige Abfrage (Query) zugegriffen hat, um dieses Objekt zu erkennen.
Für jedes Objekt-Query wird aus den berechneten Attention-Gewichten eine vorgebbare Anzahl k von größten Attention-Gewichte bestimmt, beschrieben durch das Set S^k. Die vorgebbare Anzahl richtet sich nach der gewünschten Genauigkeit und dem aufzubringenden Rechenaufwand. Es müssen somit nicht alle Attention-Gewichte berechnet werden, sondern eine kleine Auswahl der größten Attention-Gewichte ist ausreichend. Generell können die größten Attention-Gewichte aus allen Schichten des Decoders berechnet werden, um ein frühzeitiges und/oder genaues Ergebnis zu erhalten. Bevorzugt werden die größten Attention-Gewichte nur aus der letzten Schicht des Decoders berechnet, um den Rechenaufwand zu minimieren. Aus den größten Attention-Gewichten wird dann eine Attention-Kovarianz mittels einer Kovarianzmatrix C_K berechnet: $C_{k} = \frac{1}{W} {\sum_{i \in S^{k}} w_{i} [(\begin{matrix} x_{i} \\ y_{i} \end{matrix}) - μ_{k}] [(\begin{matrix} x_{i} \\ y_{i} \end{matrix}) - μ_{k}]}^{T}$

wobei W = Σ_i∈SK w_i ist und µ_K der empirische Erwartungswert für die größten Attention-Gewichte für jede Schicht ist und folgendermaßen definiert wird: $μ_{k} = \frac{1}{W} \sum_{i \in S^{k}} w_{i} (\begin{matrix} x_{i} \\ y_{i} \end{matrix})$
Der Raum ist hier als zweidimensionale Fläche in x- und y-Richtung angenommen, wie er beispielsweise in der Vogelperspektive repräsentiert wird. Optional kann bei der Berechnung die dritte Dimension (z_i) hinzugefügt werden.
Für die Berechnung kann auch ein robuster Schätzer wie die Huber-Verlustfunktion L_δ ((Huber loss function) verwendet werden: $C_{k} = \frac{1}{W} \sum_{i \in S^{k}} w_{i} {\begin{matrix} [(\begin{matrix} x_{i} \\ y_{i} \end{matrix}) - μ_{k}] {[(\begin{matrix} x_{i} \\ y_{i} \end{matrix}) - μ_{k}]}^{T}, & f \ddot{u} r | (\begin{matrix} x_{i} \\ y_{i} \end{matrix}) - μ_{k} | \leq δ \\ δ (2 | (\begin{matrix} x_{i} \\ y_{i} \end{matrix}) - μ_{k} | - δ), & a n d e r n f a l l s \end{matrix}$
δ stellt einen Schwellenwert dar. Im oberen Fall für kleine Abweichungen vom Erwartungswert µ_k wird die vorstehend beschriebene Kovarianzmatrix berechnet. Große Ausreiser vom Erwartungswert µ_k, welche den Schwellenwert übersteigen, werden im unteren Fall berechnet und tragen nur linear und nicht quadratisch zur Kovarianzmatrix bei.
Durch Berechnen der Determinante der Kovarianzmatrix C_k, wird schließlich eine Attention-Spread AS erhalten, die als Wert ein Maß für die Unsicherheit darstellt. $A S = {det C}_{k}$
Nachfolgend wird der Zusammenhang zwischen der Attention-Spread und dem loU (intersection-overunion) zwischen den ermittelten Bounding-Boxen und den Bounding-Boxen von nächstliegenden Objekt gemäß der Grundwahrheit beschrieben. IoU ist der Quotient aus der Schnittmenge der ermittelten Bounding-Box B_e mit der Bounding-Box B_gt gemäß der Grundwahrheit und der Vereinigung dieser: $I o U = \frac{B_{e} \cap B_{g t}}{B_{e} \cup B_{g t}}$
Ein größerer loU-Wert entspricht einer genaueren Detektion des Objekts. Das loU-Maß korreliert mit der epistemischen Unsicherheit. IoU-Werte von Null, bei denen also kein Überlapp vorhanden ist, wurden für den Vergleich entfernt. Aus dem Vergleich geht hervor, dass die Attention-Spread mit steigender loU sinkt. Somit zeigt eine niedrige Attention-Spread einen hohen loU und somit eine niedrige epistemische Unsicherheit und umgekehrt. Die Attention-Spread ist somit ein Indikator für die epistemische Unsicherheit.
Des Weiteren wurde das Verhalten der Attention-Spread für unterschiedliche Abstände der Bounding-Boxen zum Sensor, der die Punktwolke erfasst, untersucht. Die Attention-Spread nimmt mit größer werdendem Abstand zu. Somit verhält sich die Attention-Spread entsprechend der aleatorischen Unsicherheit und ist somit ein Indikator für diese.
Das Computerprogramm ist eingerichtet, jeden Schritt des Verfahrens durchzuführen, insbesondere, wenn es auf einem Rechengerät oder Steuergerät durchgeführt wird. Es ermöglicht die Implementierung des Verfahrens in einem herkömmlichen elektronischen Steuergerät, ohne hieran bauliche Veränderungen vornehmen zu müssen. Zur Implementierung ist das Computerprogramm auf dem maschinenlesbaren Speichermedium gespeichert.
Durch Aufspielen des Computerprogramms auf ein herkömmliches elektronisches Steuergerät, wird das elektronische Steuergerät erhalten, welches eingerichtet ist, ein Erfassen von Unsicherheiten für eine Detektion und/oder Verfolgung von mehreren Objekten aus Punktwolken-Daten durchzuführen.
Kurze Beschreibung der Zeichnungen
Ausführungsbeispiele der Erfindung sind in den Zeichnungen dargestellt und in der nachfolgenden Beschreibung näher erläutert.

1 zeigt ein Ablaufdiagramm einer Ausführungsform des erfindungsgemäßen Verfahrens.
2 zeigt ein Ablaufdiagramm zur Berechnung der Attention-Spread gemäß einer Ausführungsform der Erfindung.
3 zeigt einen Ausschnitt aus einem Gitter aus der Vogelperspektive, in dem die ermittelten Bounding-Boxen, die Attention-Spread und Bounding-Boxen gemäß der Grundwahrheit dargestellt sind.

Ausführungsbeispiele der Erfindung
1 zeigt ein Ablaufdiagramm des erfindungsgemäßen Verfahrens zu zwei aufeinanderfolgenden Zeitpunkten t und t+1. Gleiche Schritte werden mit gleichen Bezugszeichen bezeichnet und nur einmal im Detail beschrieben. Nachfolgend bezeichnen i und k als Indizes Laufvariablen. p und q sind Indizes, die einem Vogelperspektive-Gitter zugeordnet sind. Jeder Index q ist mit einer horizontalen Position in x-Richtung assoziiert und jeder Index p ist mit einer vertikalen Position in y-Richtung des Vogelperspektive-Gitter assoziiert.
Die linke Seite betrifft den ersten Zeitpunkt t. Zu Beginn erfasst ein LiDAR-Sensor eines Fahrzeugs F die Umgebung. Eine visuelle Darstellung dieser aufgenommenen Punktwolken-Daten ist mit 1 bezeichnet. Aus den Punktwolken-Daten berechnet ein Backbone 2 Feature-Vektoren. Das Backbone 2 überträgt die dreidimensionalen Punktwolken-Daten in eine Gitterstruktur. Als Beispiel verwendet das Backbone 2 ein Gitter aus der Vogelperspektive mit 128x128 Gitterzellen. Das Backbone 2 kodiert den Inhalt jeder Gitterzelle jeweils in einen Feature-Vektor, z.B. mit einer Dimension von 64, sodass das Ergebnis die Größe 128x128x64 hat. Dieses Ergebnis wird in eine Folge von Feature-Vektoren mit der Größe (128x128)x64 umgeformt. Aus dieser Folge von Feature-Vektoren wird dann durch ein Positions-Encoding 3 Key-Vektoren k_t,i und Value-Vektoren v_t,i berechnet. Im vorliegenden Beispiel werden somit 128x128 Key-Vektoren k_t,i und genauso viele Value-Vektoren v_t,i erhalten. Die Anzahl 128x128 wird nachfolgend als N festgelegt, sodass das Gitter eine Größe von $\sqrt{N} x \sqrt{N}$
aufweist. Die Key-Vektoren k_t,i und Value-Vektoren v_t,i werden dann einem Decoder 6 des Transformers zugeführt.
Gleichzeitig werden aus den Punktwolken-Daten durch eine Sampling-Methode 4, beispielsweise Farthest-Point-Sampling, Anker-Positionen ρ_t,j zum ersten Zeitpunkt t ermittelt, die dann ein Fourier-Encoding 5 durchlaufen: $y_{j} = FFN [sin (B ρ_{j}), cos (B ρ_{j})]$
B ist dabei eine Matrix, die Einträge der Normalverteilung aufweist, FFN stellt ein Feed-Forward-Netz dar, welches hier aus zwei Schichten mit einer ReLU-Aktivierung (Rectified Linear Unit) besteht. y_j sind die berechneten Feature-Vektoren, welche als Objekt-Queries dem Decoder 6 des Transformers zugeführt werden. Die Anzahl der Ankerpositionen beträgt beispielsweise 100 und wird im Folgenden mit M bezeichnet (die Laufvariable j läuft von 1 bis M).
Das für den ersten Zeitpunkt t ausgegebene Set von Feature-Vektoren ist mit Y_t bezeichnet und bestehen aus den Objekt-Queries y_t,j. Jedes Objekt-Query y_t,j dient als Slot (In 1 dargestellt durch einzelne Kästchen) für ein mögliches Objekt. Der Decoder 6 des Transformers besteht aus sechs Schichten K mit jeweils acht Attention-Heads. Der Decoder 6 ermittelt zum ersten Zeitpunkt t aus den Objekt-Queries y_t,j sowie den Key-Vektoren k_t,i und den Value-Vektoren v_t,i Ergebnis-Feature-Vektoren $y_{t, j}^{'} .$
Für die Detektion berechnet der Decoder 6 Attention-Gewichte w_p,q,i für jedes Objekt-Query y_{t, j}. Die Attention-Gewichte w_p,q,i werden in einer Attention-Gewichte-Matrizen M_w abgespeichert. Da diese Attention-Gewichte w_p,q,i in diesem Beispiel auf Basis des Vogelperspektive-Gitter ermittelt wurden, können der Index q mit einer Position x_q in x-Richtung des Vogelperspektive-Gitters und der Index p mit einer Position y_p in y-Richtung des Vogelperspektive-Gitters assoziiert werden. Im Decoder 6 werden in jeder Schicht K Attention-Gewichte-Matrizen M_w ermittelt. Die Attention-Gewichte w_{p, a, i} bzw. die Attention-Gewichte-Matrizen M_w werden für eine Ermittlung 10 einer Attention-Spread AS verwendet, wie sie nachfolgend im Zusammenhang mit 2 beschrieben wird.
Es werden zwei Objekte O₁ und O₂ zum ersten Zeitpunkt t detektiert. Ein Feed-Forward-Netz 7 berechnet aus den Ergebnis-Feature-Vektoren $y_{t, j}^{'}$
Box-Parameter d_j für die Objekte O₁, O₂. Die Objekte O₁, O₂ wurden detektiert und sind hier in der mit 8 bezeichneten visuellen Darstellung eingezeichnet.
Die Objektverfolgung für ein Objekt O₁, O₂ wird nur weitergeführt, wenn in dem entsprechenden Zeitschritt die Konfidenz über einem Schwellenwert liegt. Ansonsten wird die Objektverfolgung dieses Objekts ausgesetzt oder beendet.
Auf der rechten Seite in 1 ist die Auswertung für einen zweiten Zeitpunkt t+1 dargestellt, der nach einem Zeitschritt, der durch die Wiederholrate der Aufnahme des LiDAR-Sensors definiert ist, dem ersten Zeitpunkt t folgt. Das Fahrzeug F bewegt sich in diesem Zeitschritt mit seiner Eigengeschwindigkeit fort. Dies wirkt sich auf die Auswertung der gemessenen Daten und die relative Position und Geschwindigkeit der Objekte O₁, O₂ aus. Es wird eine Eigengeschwindigkeitskompensation 9 durchgeführt. Hierbei werden aus den Ergebnis-Feature-Vektoren $y_{t, j}^{'}$
für den ersten Zeitpunkt t, den Anker-Positionen ρ_t,j, und einer Posenänderung p transformierte Ergebnis-Feature-Vektoren $y_{t, l}^{"}$
erhalten: $y_{t, l}^{"} = EMC (y_{t, j}^{'}, ρ_{j}, p)$
Analog zum ersten Zeitpunkt t erfasst auch hier zu Beginn der LiDAR-Sensor die Umgebung und das Backbone 2 berechnet aus den Punktwolken-Daten Feature-Vektoren, welche durch das Positions-Encoding 3 mittels Sinus und Cosinus augmentiert werden und schließlich als Key-Vektoren k_{t+1, i} und Value-Vektoren v_{t+1, i} für den zweiten Zeitpunkt t+1 dem Decoder 6 des Transformers zugeführt werden. Hierfür verwendet das Backbone dasselbe Gitter wie vorstehend beschrieben. Gleichzeitig werden aus den Punktwolken-Daten durch die Sampling-Methode 4, Anker-Positionen ρ_{t+1, j} zum zweiten Zeitpunkt t+1 ermittelt, die dann das Fourier-Encoding 5 gemäß Formel 1 durchlaufen. Es werden Objekt-Queries y_{t+1, j} für den zweiten Zeitpunkt t+1 erhalten.
Das für den zweiten Zeitpunkt t+1 ausgegebene Set von Feature-Vektoren ist mit Y_t+1 bezeichnet und bestehen aus den Objekt-Queries y_{t+1, j} für den zweiten Zeitpunkt t+1 und den transformierten Ergebnis-Feature-Vektoren $y_{t, l}^{"},$
die für den ersten Zeitpunkt t berechnet wurden, und kann als Vereinigung $Y_{t + 1} = {y_{t, l}^{"}}_{l = 1}^{L} \cup {y_{t + 1, j}}_{j = 1}^{M}$
dargestellt werden. Jedes Objekt-Query y_{t+1, j} und jeder transformierte Ergebnis-Feature-Vektor $y_{t, l}^{"}$
dienen als Slot (In 1 dargestellt durch einzelne Kästchen) für ein mögliches Objekt.
Der Decoder 6 ermittelt aus den Objekt-Queries y_t,j, den transformierten Ergebnis-Feature-Vektoren $y_{t, l}^{"}$
sowie den Key-Vektoren k_{t+1, i} und den Value-Vektoren v_{t+1, i} Ergebnis-Feature-Vektoren $y_{t + 1, j}^{'}$
zum zweiten Zeitpunkt t+1. Auch hier berechnet der Decoder 6 Attention-Gewichte w_p,q,i für jedes Objekt-Query y_{t, j} und jeden transformierten Ergebnis-Feature-Vektor $y_{t, l}^{"}$
in jeder Schicht K des Decoders 6. Attention-Gewichte w_{p, a, i} werden ebenfalls in Attention-Gewichte-Matrizen M_w abgespeichert. Die Attention-Gewichte w_{p, a, i} bzw. die Attention-Gewichte-Matrizen M_w werden wiederum für die Ermittlung 10 der Attention-Spread AS verwendet, wie sie nachfolgend im Zusammenhang mit 2 beschrieben wird.
Ein neues Objekt O₃ wird in den Ergebnis-Feature-Vektoren $y_{t + 1, j}^{'}$
nur verfolgt, wenn die Konfidenz über einem Schwellenwert liegt. Es wird neben den beiden Objekten O₁ und O₂ ein drittes Objekt O₃ detektiert, dessen Pfad weiterverfolgt wird. Das Feed-Forward-Netz 7 berechnet aus den Ergebnis-Feature-Vektoren $y_{t, j}^{'}$
Box-Parameter d_j für die Objekte O₁, O₂, O₃. Auch hier sind die Objekte O₁, O₂, O₃ in der mit 8 bezeichneten visuellen Darstellung eingezeichnet. Hierdurch werden die mehreren Objekte O₁, O₂, O₃ zu einem weiteren Zeitschritt t+1 detektiert.
In 2 ist eine Ermittlung der Attentions-Spread AS dargestellt. Die zur Detektion der Objekte O₁, O₂, O₃ im Decoder 6 berechneten Attention-Gewichte w_p,q,i sind in Attention-Gewichts-Matrizen M_w der Größe NxM, also der Anzahl der Eingangs-Objekt-Queries M und der Länge der Vektoren der Eingangs-Objekt-Queries N, gespeichert. Im vorliegenden Beispiel für 100 Objekt-Queries y_j (und zusätzlich den transformierten Ergebnis-Feature-Vektoren $y_{t, l}^{"},$
die hier aus Gründen der Übersicht nicht jedes Mal erwähnt werden) erhält man somit eine Attention-Gewichte-Matrix der Größe (128*128)x100. Durch eine Transformation 11 wird die Attention-Gewichts-Matrix M_w in eine transformierte Attention-Gewichts-Matrix M_w der Größe $\sqrt{N} x \sqrt{N} x M$
umgewandelt, also der Größe des Gitters $\sqrt{N} x \sqrt{N},$
das sich aus den zugehörigen Positionen zu Key-Vektoren k_i und Value-Vektoren v_i ergibt und der Länge M der Vektoren der Eingangs-Objekt-Queries. In diesem Beispiel ist die Größe 128x128x100. Dies lässt sich auch als ein 1 Gitter der Größe 128x128 pro Objekt-Query y_j interpretieren. Somit wird ein Zusammenhang zwischen der transformierten Attention-Gewichts-Matrix M̃_w,den Objekt-Queries y_j (sowie den transformierten Ergebnis-Feature-Vektoren $y_{t, l}^{"}$
)und dem Gitter hergestellt. Für jedes Objekt-Queries y_j wird nun eine vorgebbare Anzahl k von größten Attention-Gewichte aus der transformierten Attention-Gewichts-Matrix M̃_w für das jeweilige Objekt-Queries y_j ermittelt 12. Die vorgebbare Anzahl k von größten Attention-Gewichten ist in diesem Beispiel 100. Dies kann für alle Schichten K des Decoders 6 durchgeführt werden oder nur für eine einzelne Schicht, insbesondere für die letzte Schicht oder für mehrere Schichten des Decoders. Die größten Attention-Gewichte w_max sind die Attention-Gewichte w_p,a,i, für die gilt: p, q ∈ S^k. Anschließend wird für die größten Attention-Gewichten w_max (also für w_p,q,i mit p, q ∈ S^k) eine Kovarianzmatrix berechnet 13: $C_{k} = \frac{1}{W} \sum_{p, q \in S^{k}} w_{p, q, i} [(\begin{matrix} x_{q} \\ y_{p} \end{matrix}) - μ_{k}] {[(\begin{matrix} x_{q} \\ y_{p} \end{matrix}) - μ_{k}]}^{T}$

wobei W = Σ_p,q∈Sk w_p,q,i ist, x_q die Position in x-Richtung des Gitters ist, y_p die Position in y-Richtung des Gitters ist und µ_k der empirische Erwartungswert für die größten Attention-Gewichte w_max des Decoders 6 ist und folgendermaßen definiert wird: $μ_{k} = \frac{1}{W} \sum_{p, q \in S^{k}} w_{p, q, i} (\begin{matrix} x_{q} \\ y_{p} \end{matrix})$
Schließlich wird die Determinante dieser Kovarianzmatrix C_k berechnet 14 und somit als Wert die Attention-Spread AS erhalten. $A S = {det C}_{k}$
3 zeigt ein Gitter aus der Vogelperspektive, welches durch ein Fahrzeug F in 30 bis 50 Entfernung aufgenommen wurde. Das hier nicht gezeigte Fahrzeug F liegt in genannter Entfernung auf der negativen y-Achse. Es sind für fünf Objekte O₁, O₂, O₃, O₄ und O₅ die ermittelten Bounding-Boxen B_e, die Bounding-Boxen B_gt gemäß der Grundwahrheit (ground truth) dargestellt sowie die berechneten Attention-Spread AS als Ellipse eingezeichnet. Für die beiden näher liegenden (unten dargestellten) Objekte O₁ und O₂ liegen die jeweiligen ermittelten Bounding-Boxen B_e auf oder nur knapp neben den Bounding-Boxen B_gt gemäß der Grundwahrheit. Die Attention-Spread AS ist klein, was sich durch die kleine Ellipse ausdrückt. Für die weiter entfernten (oben links dargestellten) Objekte O₃ und O₄ wurde nur eine Bounding-Box B_e ermittelt, nämlich für das Objekt O₄. Die Attention-Spread AS ist sehr groß, was sich durch die große Ellipse ausdrückt. Für das ebenfalls weiter entfernte (oben rechts dargestellte) Objekt O₅ wurden zwei Bounding-Boxen B_e ermittelt, wobei eine ermittelte Bounding-Box B_e mit der Bounding-Box B_gt der Grundwahrheit übereinstimmt und die andere ermittelte Bounding-Box B_e neben dieser liegt. Die Attention-Spread AS der nebenliegenden ermittelten Bounding-Box B_e ragt aber in die andere ermittelte Bounding-Box B_e hinein.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

Paper Ashish Vaswani et al, „Attention is all you need“, arXiv preprint arXiv:1706.03762, 2017 [0003]

Claims

Verfahren zum Erfassen von Unsicherheiten bei der Detektion und/oder Verfolgung von mehreren Objekten (O₁, O₂, O₃, O₄, O₅) aus Punktwolken-Daten mittels eines Transformers mit Attention-Modell, wobei der Zustand der verfolgten Objekte (O₁, O₂, O₃, O₄, O₅) im Feature-Space gespeichert ist, mit folgenden Schritten: - Berechnen von Feature-Vektoren aus den Punktwolken-Daten durch ein Backbone (2), wobei die Feature-Vektoren als Key-Vektoren (k_t,i, k_t+1,i) für den Transformer dienen; - Berechnen von Anker-Positionen (ρ_t,j, ρ_t+1,j) aus den Punktwolken-Daten durch eine Sampling-Methode (4); - Ermitteln von Feature-Vektoren aus den Anker-Positionen (ρ_t,j, ρ_t+1,j) mittels eines Encodings (5), wobei die Feature-Vektoren als Objekt-Queries (y_t,j, y_t+1,j) für den Transformer dienen; - Berechnen von Attention-Gewichten (w_p,q,i) für Cross-Attention aus den Objekt-Queries (y_t,j, y_t+1,j) und einer von dem Backbone (2) verwendeten räumlichen Struktur; - Bestimmen (12) der größten Attention-Gewichte (w_max) des Transformers für jedes Objekt-Query (y_t,j, y_t+1); - Berechnen (13) einer Kovarianzmatrix (C_k) für die größten Attention-Gewichte (w_max); - Berechnen (14) der Determinante der Kovarianzmatrix, um eine Attention-Spread (AS) zu erhalten.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Attention-Gewichte (w_p,q,i) während einer Ermittlung von Ergebnis-Feature-Vektoren $(y_{t, j}^{'})$
aus den Objekt-Queries (y_t,j) und den Key-Vektoren (k_t,i, k_t+1,i) mittels eines Decoders (6) des Transformers berechnet werden.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Attention-Gewichte (w_p,q,i) für jede Schicht (K) des Decoders (6) ermittelt werden.
Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass das die vom Backbone (2) verwendete Struktur ein Gitter ist und jedes Attention-Gewicht (w_p,q,i) einer Gitterzelle zugeordnet ist.
Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass jedes Attention-Gewicht (w_p,q,i) einem beliebigen Punkt im Raum zugeordnet ist.
Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass zur Berechnung der Kovarianzmatrix eine Huber-Verlustfunktion verwendet
Computerprogramm, welches eingerichtet ist, jeden Schritt des Verfahrens nach einem der Ansprüche 1 bis 6 durchzuführen.
Maschinenlesbares Speichermedium, auf welchem ein Computerprogramm nach Anspruch 7 gespeichert ist.
Elektronisches Steuergerät, welches eingerichtet ist, um mittels eines Verfahrens nach einem der Ansprüche 1 bis 6 ein Erfassen von Unsicherheiten bei der Detektion und/oder Verfolgung von mehreren Objekten (O₁, O₂, O₃, O₄, O₅) aus Punktwolken-Daten mittels eines Transformers mit Attention-Modell durchzuführen.