DE102022211915A1

DE102022211915A1 - Verfahren zum Trainieren eines neuronalen Netzwerks zum Ermitteln von Merkmalen von Objekten für eine Objektverfolgung

Info

Publication number: DE102022211915A1
Application number: DE102022211915.0A
Authority: DE
Inventors: Tillmann Falck; Florian Drews; Florian Faion; Lars Rosenbaum; Koba Natroshvili; Claudius Glaeser
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2024-05-16
Also published as: WO2024099797A1

Abstract

Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Trainieren eines neuronalen Netzwerks zum Ermitteln von Merkmalen von Objekten für eine Objektverfolgung bereitgestellt, aufweisend Erzeugen eines Trainingsdatensatzes mit einer Vielzahl von Trainingsdatenelementen, wobei jedes Trainingsdatenelement einen ersten Satz von Sensordaten bezüglich eines ersten Zustands einer Umgebung mit einer Menge von mehreren Objekten und einen zweiten Satz von Sensordaten bezüglich eines zweiten Zustands der Umgebung, wobei in dem zweiten Zustand die Positionen der Objekte gegenüber dem ersten Zustand zumindest teilweise verändert sind, aufweist, Ermitteln von Merkmalen der Objekte durch Zuführen des ersten Satzes von Sensordaten zu dem neuronalen Netzwerk und Ermitteln von Merkmalen der Objekte durch Zuführen des zweiten Satzes von Sensordaten zu dem neuronalen Netzwerk, Ermitteln eines Verlust abhängig von den erzeugten Merkmalen und Trainieren des neuronalen Netzwerks zum Verringern des Verlusts.

Description

Stand der Technik
Die vorliegende Offenbarung bezieht sich auf Verfahren zum Trainieren eines neuronalen Netzwerks zum Ermitteln von Merkmalen von Objekten für eine Objektverfolgung.
Eine umfassende Erkennung des Umfelds eines Fahrzeugs bildet die Grundlage für Fahrerassistenzsysteme und automatisierte Fahrfunktionen. Der Detektion, Klassifikation und Verfolgung (Tracking) von Objekten, wie z.B. anderen Verkehrsteilnehmern, kommt dabei eine besondere Bedeutung zu. Heutzutage wird eine Vielzahl an Sensoren zur Erfassung des Fahrzeugumfelds eingesetzt. Dazu zählen z.B. Kameras, Radare, LiDAR oder Ultraschallsysteme.
Das Tracking von Objekten kann über Merkmale, sogenannte Re-ID-Merkmale, erfolgen. Jedoch werden diese typischerweise oft so ermittelt, dass sie „global“ und dauerhaft eindeutig sind (und nicht nur innerhalb einer Szene, in der eine Objektverfolgung durchgeführt werden soll), was umgekehrt die Flexibilität ihrer Auswahl einschränkt und somit ihre Verwendung für die Objektverfolgung beeinträchtigt.
Es sind deshalb effektivere Herangehensweisen für die Merkmalsextraktion für die Objektverfolgung wünschenswert.
Offenbarung der Erfindung
Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Trainieren eines neuronalen Netzwerks zum Ermitteln von Merkmalen von Objekten für eine Objektverfolgung bereitgestellt, aufweisend:

• Konfigurieren eines neuronalen Netzwerks mit einer Netzwerkarchitektur, sodass es, wenn ihm ein Satz von Sensordaten zugeführt wird, der für jedes mehrerer Objekte ein Sensordatenelement enthält, für jedes Objekt abhängig von allen der Sensordatenelemente einen Merkmalsvektor ermittelt;
• Erzeugen eines Trainingsdatensatzes mit einer Vielzahl von Trainingsdatenelementen, wobei jedes Trainingsdatenelement einen ersten Satz von Sensordaten bezüglich eines ersten Zustands einer Umgebung mit einer Menge von mehreren Objekten und einen zweiten Satz von Sensordaten bezüglich eines zweiten Zustands der Umgebung, wobei in dem zweiten Zustand die Positionen der Objekte gegenüber dem ersten Zustand zumindest teilweise verändert sind, aufweist;
• Für jedes Trainingsdatenelement,
- ◯ Ermitteln von Merkmalen der Objekte durch Zuführen des ersten Satzes von Sensordaten zu dem neuronalen Netzwerk und
- ◯ Ermitteln von Merkmalen der Objekte durch Zuführen des zweiten Satzes von Sensordaten zu dem neuronalen Netzwerk;
• Ermitteln eines Verlust, der, für jedes Trainingsdatenelement, für jedes Objekt eine Abweichung zwischen dem Merkmal, das von dem neuronalen Netzwerk für das Objekt aus dem ersten Satz von Sensordaten ermittelt wurde, und dem Merkmal, das von dem neuronalen Netzwerk für das Objekt aus dem zweiten Satz von Sensordaten ermittelt wurde, bestraft und eine mangelnde Abweichung zwischen dem Merkmal, das von dem neuronalen Netzwerk für das Objekt aus dem ersten Satz von Sensordaten ermittelt wurde, und, für jedes andere der Objekte, dem Merkmal, das von dem neuronalen Netzwerk für das andere Objekt aus dem zweiten Satz von Sensordaten ermittelt wurde, bestraft; und
• Trainieren des neuronalen Netzwerks zum Verringern des Verlusts.

Das so trainierte neuronale Netz(werk) kann dann zur Extraktion von (Re-ID-)Merkmalen (also als Merkmalsextraktor) verwendet werden, die dann im Rahmen eines Objekttrackings eingesetzt werden. Die oben beschriebene Herangehensweise (z.B. in den unten beschriebenen Ausführungsformen) ermöglicht eine verbesserte Assoziation von Messwerten zu Objekttracks, was sich vorteilhaft auf die Gesamtperformanz der Objekttrackings auswirkt, d.h. Objekte können genauer verfolgt werden, es treten weniger Trackabrisse auf und weniger Objekte gehen verloren (werden übersehen).
Gemäß der oben beschriebenen Herangehensweise ist vorgesehen, dass zum Training (und ggf. zur Extraktion von Re-ID-Merkmalen) ein Szenenkontext (insbesondere andere Objekte der gleichen Szene) verwendet wird. Dies erlaubt, dass szenenspezifische Merkmale zur Assoziation von Messwerten zu Objekttracks genutzt werden können. Damit verbunden können Re-ID-Merkmale extrahiert werden, welche besser für die Aufgabe des Objekttrackings geeignet sind, was sich wiederum positiv auf die Gesamtperformanz des Objekttrackings niederschlägt. Da die Extraktion der Re-ID-Merkmale auf die spezifischen Anforderungen des Objekttrackings angepasst ist, können die Verfahren recheneffizienter (z.B. durch kleinere neuronale Netze) umgesetzt werden. Es wird eine Netzwerkarchitektur einer Klasse von Netzwerkarchitekturen eingesetzt, welche zur Extraktion von szenenspezifischen Re-ID-Merkmalen geeignet ist.
Im Folgenden werden verschiedene Ausführungsbeispiele angegeben.
Ausführungsbeispiel 1 ist ein Verfahren zum Trainieren eines neuronalen Netzwerks zum Ermitteln von Merkmalen von Objekten für eine Objektverfolgung, wie oben beschrieben.
Ausführungsbeispiel 2 ist das Verfahren nach Ausführungsbeispiel 1, aufweisend Konfigurieren des neuronalen Netzwerks mit einer Netzwerkarchitektur, sodass es, wenn ihm ein Satz von Sensordaten, der für jedes mehrerer Objekte ein Sensordatenelement enthält, zugeführt wird, den Merkmalsvektor über eine Verarbeitung in mehreren Stufen durchführt, wobei mindestens eine Stufe für jedes der Objekte Merkmalskomponenten erzeugt, ein Max-Pooling der Merkmalskomponenten über die Objekte durchgeführt wird und die Merkmalskomponenten sowie das Ergebnis des Max-Poolings der Merkmalskomponenten der folgenden Stufe zugeführt werden.
Auf diese Weise wird erreicht, dass das neuronale Netz für jedes Objekt abhängig von allen der Sensordatenelemente einen Merkmalsvektor ermittelt, d.h. dass es bei der Ermittlung eines Merkmalsvektors für ein Objekt die anderen Objekte berücksichtigt, also die Merkmalsvektoren auf der Grundlage eines lokalen Kontexts (Sensordatenelemente des einzelnen Objekts) als auch eines globalen Kontexts der Objekte (Ergebnis des Max-Pooling über die Objekte) ermittelt. Alternativ dazu kann ein Transformer-Netzwerk eingesetzt werden.
Ausführungsbeispiel 3 ist das Verfahren nach Ausführungsbeispiel 1 oder 2, wobei jedes Trainingsdatenelement eine Information darüber enthält, welches Objekt in dem ersten Zustand welchem Objekt in dem zweiten Zustand entspricht, anhand der ermittelten Merkmale der Objekte ermittelt wird, welche Objekte in dem ersten Zustand welchen Objekten in dem zweiten Zustand entsprechen und der Verlust durch Vergleich der in den Trainingsdatenelementen enthaltenden Informationen darüber, welches Objekt in dem ersten Zustand welchem Objekt in dem zweiten Zustand entspricht, mit dem Ergebnis der Ermittlung anhand der ermittelten Merkmale, welche Objekte in dem ersten Zustand welchen Objekten in dem zweiten Zustand entsprechen, ermittelt wird.
Als Ground Truth kann also die Assoziierung von Objekten (z.B. in Form einer Assoziationsmatrix) vorgesehen werden. Damit wird das neuronale Netzwerk so trainiert, dass es Merkmale auswählt, die speziell für eine Objektverfolgung gut geeignet sind. Das Ergebnis der Ermittlung anhand der ermittelten Merkmale, welche Objekte in dem ersten Zustand welchen Objekten in dem zweiten Zustand entsprechen, ist beispielsweise eine Soft-Assoziationsmatrix.
Ausführungsbeispiel 4 ist ein Verfahren zum Verfolgen von Objekten, aufweisend

• Erfassen von Sensordaten einer ersten Menge von Objekten zu einem ersten Zeitpunkt;
• Erfassen von Sensordaten einer zweiten Menge von Objekten zu einem zweiten Zeitpunkt;
• Zuführen der Sensordaten der ersten Menge von Objekten zu dem gemäß einem der Ausführungsbeispiele 1 bis 3 trainierten neuronalen Netzwerk zum Erzeugen erster Merkmale;
• Zuführen der Sensordaten der zweiten Menge von Objekte zu dem trainierten neuronalen Netzwerk zum Erzeugen zweiter Merkmale; und
• Paarweises Assoziieren von Objekten der ersten Menge von Objekten der zweiten Menge anhand der ersten Merkmale und der zweiten Merkmale.

Ausführungsbeispiel 5 ist das Verfahren nach Ausführungsbeispiel 4, aufweisend Erfassen von Sensordaten von Objekten in einer Szene zu dem ersten Zeitpunkt, Gruppieren der Objekte zu mehreren ersten Gruppen anhand ihrer örtlichen Nähe, Auswählen einer der ersten Gruppen als die erste Menge von Objekten, Erfassen von Sensordaten von Objekten in der Szene zu dem zweiten Zeitpunkt, Gruppieren der Objekte zu mehreren zweite Gruppen anhand ihrer örtlichen Nähe und Auswählen einer der zweiten Gruppen als die zweite Menge von Objekten, so dass die zweite Menge von Objekten diejenige zweite Gruppe ist, die er ersten Menge von Objekten innerhalb der Szene am nächsten liegt.
Objekte in Szenen werden somit als (örtliche) Cluster behandelt. Dies erleichtert die Unterscheidung der Merkmale anhand der Merkmale, da nicht alle Objekte in einer Szene unterschieden werden brauchen, sondern lediglich diejenigen einer Gruppe.
Ausführungsbeispiel 6 ist eine Datenverarbeitungseinrichtung (z.B. eine Steuereinrichtung), die eingerichtet ist, ein Verfahren nach einem der Ausführungsbeispiel 1 bis 5 durchzuführen.
Ausführungsbeispiel 7 ist ein Computerprogramm mit Befehlen, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ausführungsbeispiele 1 bis 5 durchführt.
Ausführungsbeispiel 8 ist ein computerlesbares Medium, das Befehle speichert, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ausführungsbeispiel 1 bis 5 durchführt.
In den Zeichnungen beziehen sich ähnliche Bezugszeichen im Allgemeinen auf dieselben Teile in den ganzen verschiedenen Ansichten. Die Zeichnungen sind nicht notwendigerweise maßstäblich, wobei die Betonung stattdessen im Allgemeinen auf die Darstellung der Prinzipien der Erfindung gelegt wird. In der folgenden Beschreibung werden verschiedene Aspekte mit Bezug auf die folgenden Zeichnungen beschrieben.

1 zeigt ein Fahrzeug.
2 veranschaulicht die Objektverfolgung mittels Re-ID-Merkmalen.
3 veranschaulicht die Assoziation von getrackten Objekten mit aktuell erfassten Objekten.
4 veranschaulicht eine Merkmalsextraktion gemäß einer Ausführungsform.
5 veranschaulicht eine Merkmalsextraktion gemäß einer weiteren Ausführungsform.
6 zeigt eine mögliche Architektur eines neuronalen Netzes für die Re-ID-Merkmalsextraktion.
7 zeigt ein Beispiel, in welchem Trajektorien von Fußgängern dargestellt sind, die zum Training eines Re-ID-Merkmalsextraktors genutzt werden können.
8 zeigt zum Bilden von Mengen positiver Re-ID-Merkmalspaare und negativer Re-ID-Merkmalspaare, auf deren Basis verschiedene Verluste (Kostenfunktionen) zum Training einen Re-ID-Merkmalsextraktors berechnet werden können.
9 veranschaulicht ein das Vorgehen zum Training eines Re-ID-Merkmalsextraktors, wobei der Verlust auf Grundlage einer berechneten Assoziation zwischen Messwerten aufeinanderfolgender Messzeitpunkte berechnet wird.
10 zeigt ein Ablaufdiagramm, das ein Verfahren zum Trainieren eines neuronalen Netzwerks zum Ermitteln von Merkmalen von Objekten für eine Objektverfolgung veranschaulicht.

Die folgende ausführliche Beschreibung bezieht sich auf die begleitenden Zeichnungen, die zur Erläuterung spezielle Details und Aspekte dieser Offenbarung zeigen, in denen die Erfindung ausgeführt werden kann. Andere Aspekte können verwendet werden und strukturelle, logische und elektrische Änderungen können durchgeführt werden, ohne vom Schutzbereich der Erfindung abzuweichen. Die verschiedenen Aspekte dieser Offenbarung schließen sich nicht notwendigerweise gegenseitig aus, da einige Aspekte dieser Offenbarung mit einem oder mehreren anderen Aspekten dieser Offenbarung kombiniert werden können, um neue Aspekte zu bilden.
Im Folgenden werden verschiedene Beispiele genauer beschrieben.
1 zeigt ein (z.B. autonomes) Fahrzeug 101.
Im Beispiel von 1 ist das Fahrzeug 101, beispielsweise ein PKW oder LKW, mit einer Fahrzeugsteuereinrichtung 102 versehen.
Die Fahrzeugsteuereinrichtung 102 weist Datenverarbeitungskomponenten auf, z.B. einen Prozessor (z.B. eine CPU (Zentraleinheit)) 103 und einen Speicher 104 zum Speichern von Steuersoftware, gemäß der die Fahrzeugsteuereinrichtung 102 arbeitet, und Daten, die von dem Prozessor 103 verarbeitet werden.
Beispielsweise weist die gespeicherte Steuerungssoftware (Computerprogramm) Anweisungen auf, die, wenn der Prozessor sie ausführt, bewirken, dass der Prozessor 103 ein oder mehrere neuronale Netzwerke 107 implementiert.
Die im Speicher 104 gespeicherten Daten können beispielsweise Bilddaten beinhalten, die von einer oder mehreren Kameras 105 erfasst werden. Die eine oder die mehreren Kameras 105 können beispielsweise ein oder mehrere Graustufen- oder Farbfotos der Umgebung des Fahrzeugs 101 aufnehmen.
Die Fahrzeugsteuereinrichtung 102 kann basierend auf den Bilddaten ermitteln, ob und welche Objekte, z.B. feste Objekte wie Verkehrszeichen oder Straßenmarkierungen oder bewegliche Objekte wie Fußgänger, Tiere und andere Fahrzeuge in der Umgebung des Fahrzeugs 101 vorhanden sind.
Bilddaten dienen hier nur als Beispiel für Sensordaten und es können auch Daten von anderen Sensoren (Ultraschall, LiDAR etc.) verwendet werden.
Das Fahrzeug 101 kann dann von der Fahrzeugsteuereinrichtung 102 gemäß den Ergebnissen der Objektbestimmung gesteuert werden. So kann die Fahrzeugsteuereinrichtung 102 beispielsweise einen Aktuator 106 (z.B. eine Bremse) steuern, um die Geschwindigkeit des Fahrzeugs zu steuern, z.B. um das Fahrzeug zu bremsen.
Dazu ist es typischerweise wünschenswert, Objekte nicht nur zu detektieren, sondern auch zu verfolgen (tracken), beispielsweise um ihre spätere Position vorherzusagen, indem betrachtet wird, wie sie sich in der Vergangenheit bewegt haben und um ein konsistentes Verständnis der aktuellen (Verkehrs-)Situation zu gewinnen.
Die Verfolgung (Tracking) von Objekten wird beispielsweise mit rekursiven Filtern (z.B. Kalman Filter) umgesetzt, welche drei Verarbeitungsschritte durchführen: Prädiktion, Assoziation und Aktualisierung. Bei der Prädiktion werden bestehende Objekte zunächst mit Hilfe von Bewegungsmodellen auf den aktuellen Messzeitpunkt prädiziert. Anschließend werden aktuelle Messungen (beispielsweise Objektdetektion in Kamerabildern) mit den prädizierten Objekten assoziiert. Abschließend erfolgt eine Korrektur der prädizierten Objekte mit Hilfe der assoziierten Messungen in einem Update-Schritt. Insbesondere der Assoziation von Messungen zu Objekttracks kommt eine wichtige Bedeutung zu, da fehlerhafte Assoziationen zu ungenauen Objekttracks oder gar dem Verlust von Objekttracks führen. Grundlage für die Assoziation bilden Distanzmetriken, welche die Nähe von Messungen und verfolgten Objekten in einem Merkmalsraum abbilden. Verwendete Metriken sind z.B. die Euklidische Distanz oder die Mahalanobis-Distanz. Typischerweise werden für die Distanzberechnung geometrische Merkmale wie die Objektposition, Objektgröße oder Objektgeschwindigkeit genutzt. Anschließend werden auf Grundlage der berechneten Distanzen mit Hilfe eines Assoziationsalgorithmus Messwerte zu getrackten Objekten zugeordnet. Beispiele für solche Algorithmen sind der Ungarische Algorithmus oder verschiedene Ausprägungen des Nearest-Neighbor-Algorithmus. Aufgrund des maßgeblichen Einflusses der geometrischen Merkmale treten Probleme hauptsächlich dann auf, wenn Messungen und Objekte in diesen Dimensionen nicht eindeutig miteinander assoziiert werden können (z.B. eng zusammenstehende Fußgängergruppen, ungenaue Prädiktionen aufgrund von längeren Verdeckungen, usw.). Genannte Probleme während der Assoziation können durch die Hinzunahme geeigneter Merkmale abgemildert oder ganz verhindert werden. Merkmale gelten hierbei als geeignet, wenn sie eine eindeutige Assoziation von Messungen zu Objekten unterstützen. Dies können beispielsweise ansichtsbasierte Merkmale sein, welche die Erscheinung der Objekte beschreiben (Beispiel: Wenn nur ein Fußgänger aus einer Fußgängergruppe eine rote Jacke trägt, dann ist die rote Jacke ein gutes Merkmal um diesen Fußgänger zu verfolgen.).
Die Extraktion sogenannter Re-Identifikationsmerkmale (kurz Re-ID-Merkmale) wird zur Unterstützung des Objekttrackings angewandt z.B. in Überwachungssystemen für Bahnhöfe, Flughäfen oder Fußgängerzonen angewandt, um Personen in verschiedenen Kameras auch über längere Zeiträume wiedererkennen zu können.
2 veranschaulicht die Objektverfolgung mittels Re-ID-Merkmalen.
Dazu werden Messwerte 203 (die aus Sensordaten, z.B. Kameradaten 201 durch eine Vorverarbeitung 202 ermittelt werden) vor der Assoziation 204 mit getrackten Objekten 205 mit aus einer Merkmalsextraktion 206 gewonnenen Re-ID-Merkmalen zu erweiterten Messwerten 207 angereichert, so dass die anschließende Assoziation 204 (und insbesondere die Distanzberechnung) sowohl auf Basis der geometrischen Merkmale als auch auf Basis der Re-ID-Merkmale erfolgen kann. Aktuell erfasste Objekte (entsprechend der Messwerte 203) werden hierbei mit der Prädiktion 208 getrackter Objekte 205 assoziiert (und anschließend eine Aktualisierung 209 der getrackten Objekte 205 durchgeführt). Dies liefert als Ausgabe Verfolgungsinformationen 210 (z.B. in Form von Trajektorien) über die erfassten Objekte.
3 veranschaulicht die Assoziation von getrackten Objekten 301 mit aktuell erfassten („gemessenen“) Objekten 302 (aus Messwerten 305, z.B. Detektionen als Objekt-Bounding-Boxes) über eine Distanzberechnung 303 mittels eines Assoziationsalgorithmus 304. Die Distanzberechnung kann dabei auf den typischerweise verwendeten geometrischen Merkmalen (Position, Größe, Geschwindigkeit, usw.) und/oder Re-ID-Merkmalen basieren.
Die Re-ID-Merkmale werden typischerweise mit Hilfe von tiefen neuronalen Netzen extrahiert (z.B. eines der neuronale Netze 107). Grundlage für das Training entsprechender Netze sind große annotierte Datensätze, welche zahlreiche Objekte (z.B. Personen) mit einer Vielzahl von Ansichten pro Objekt enthalten. Ziel des Trainings ist es, geeignete Gewichte für das neuronale Netz zu finden, so dass ein für die Re-Identifikation der Objekte geeigneter Merkmalsraum geschaffen wird (in den das neuronale Netz Eingaben (z.B. Ansichten von Objekten) abbildet), d.h. verschiedene Ansichten des gleichen Objektes (z.B. der gleichen Person) sollen auf Merkmale (Merkmalsvektoren) abgebildet werden, die eine geringe Distanz im Merkmalsraum aufweisen, wohingegen die Distanzen zu Merkmalsvektoren, auf die Ansichten anderer Objekte abgebildet werden, maximiert werden sollen.
Eine so trainierte Merkmalsabbildung (Merkmalsextraktion) eignet sich, um Objekte aus einer großen Datenbank wieder zu erkennen und kann damit auch für die Assoziation während des Trackings hilfreich sein.
Im Detail sollen Re-ID-Merkmale für die Verwendung während des Objekttrackings folgende Eigenschaften aufweisen:

• Szenenspezifische Merkmale: Die Merkmale sollen geeignet sein, um Objekte von anderen Objekten innerhalb der gleichen Szene unterscheiden zu können. Dafür ist es nicht notwendig, dass ein Objekt von allen Objekten (auch anderer Szenen) unterscheidbar ist. Typische Verfahren zur Extraktion von Re-ID-Merkmalen leisten allerdings nur Letzteres. Mit Bezug auf das vorhergehende Beispiel: Falls eine Person als einzige in einer Szene eine rote Jacke trägt, ist die rote Jacke ein gutes Merkmal, um die Person von anderen Personen der Szene zu unterscheiden. Eine rote Jacke ist aber bestimmt kein gutes Merkmal, um eine Person von allen anderen Personen auf der Welt zu unterscheiden. Das bedeutet, dass für Tracking-Anwendungen andere Merkmale als bei klassischen Re-ID-Anwendungen geeignet sein können. Darüber hinaus können sich die Merkmale für ein und dieselbe Person szenenspezifisch unterscheiden. Je nach Szenenkontext kann es in einem Fall die rote Jacke sein, wenig später evtl. der getragene Regenschirm (z.B. falls eine zweite Person mit roter Jacke die Szene betritt).
• Konstanz über kurzen Zeitraum: Bei der Objektverfolgung müssen Objekte nur über einen geringen zeitlichen Horizont wiedererkannt werden. Typischerweise nur von einem Messzeitpunkt zum nächsten (wenige Millisekunden). Im Fall von Verdeckungen kann es notwendig sein, Objekte in wenigen Sekunden wiedererkennen zu müssen. Damit ist es nur notwendig, dass das Re-ID-Merkmal für ein Objekt nahezu konstant innerhalb dieses geringen Zeitraums ist, nicht aber über Minuten, Stunden, oder Tage. Eine Person muss beispielsweise nur innerhalb einer Szene wiedererkannt und von anderen Personen unterschieden werden. Wenn die gleiche Person in einer anderen Szene wieder auftaucht, ist es nicht notwendig zu wissen, dass es sich um dieselbe Person handelt.

In Hinblick auf die obigen gewünschten Eigenschaften einer Merkmalsextraktion (d.h. (d.h. Anforderungen an die Merkmalsextraktion) wird gemäß verschiedenen Ausführungsformen eine Herangehensweise bereitgestellt, die eine verbesserte Objektverfolgung durch eine Verbesserung der Assoziation von Messwerten (z.B. Objektdetektionen) zu Objekttracks (also verfolgten Objekten) und damit ein verbessertes Objekttracking ermöglicht. Eine Verbesserung des Objekttrackings spiegelt sich in genaueren Objekttrajektorien, weniger Trackabrissen und weniger Objektverlusten wider.
Für die Verbesserung der Assoziation während des Objekttrackings werden Re-ID-Merkmale genutzt (z.B. wie mit Bezug auf die 1 bis 3 beschrieben). Das Training und die Extraktion der Re-ID-Merkmale werden jedoch auf die spezifischen Anforderungen an die Merkmalsextraktion (wie oben beschrieben) ausgerichtet. Insbesondere werden gemäß verschiedenen Ausführungsformen ein Verfahren zur Extraktion von Re-ID-Merkmalen während des Trackings, spezifische Netzwerkarchitekturen für Re-ID-Merkmalsextraktoren und Verfahren zum Training geeigneter Re-ID-Merkmalsextraktoren bereitgestellt.
Übliche Verfahren zur Extraktion von Re-ID-Merkmalen trainieren entsprechende tiefe neuronale Netze auf großen annotierten Datensätzen mit dem Ziel, verschiedene Ansichten eines Objektes (z.B. einer Person) von Ansichten anderer Objekte (z.B. aller anderen Personen) abgrenzen zu können. Ein fertig trainiertes neuronales Netz wird dann auf jedes detektierte Objekt individuell angewandt, um für dieses Objekt Re-ID-Merkmale zu generieren, d.h., wenn beispielsweise fünf Personen in einer Szene detektiert wurden, wird das Netz fünf Mal unabhängig voneinander ausgeführt (einmal für jede Detektion).
Im Gegensatz dazu ist gemäß verschiedenen Ausführungsformen ein Ansatz vorgesehen, wie er in 4 veranschaulicht ist.
4 veranschaulicht eine Merkmalsextraktion gemäß einer Ausführungsform.
Hier wird ein Re-ID-Merkmalsextraktor 401 (neuronales Netz) genutzt, welcher eine Vielzahl von Messwerten (z.B. Detektionen) 402 als Eingabe nutzt und für die Vielzahl von Messwerten 402 zugehörige Re-ID-Merkmalsvektoren 403 als Ausgabe generiert. Durch dieses Vorgehen wird es dem Merkmalsextraktor 401 ermöglicht, szenenspezifische Merkmale zu extrahieren - d.h. Merkmale, welche besonders gut zur Unterscheidung bzw. Wiedererkennung der Messwerte der Szene geeignet sind (im Beispiel zur Unterscheidung der fünf Personen).
Dies impliziert, dass der Szenenkontext bei der Extraktion der Merkmale eine große Rolle spielt. Mit Bezug auf das obige Beispiel der roten Jacke: Wenn nur eine Person in der Szene eine rote Jacke trägt, wird die rote Jacke ein gutes Merkmal zur Wiedererkennung sein. Befinden sich mehrere Personen mit roten Jacken in der Szene, wird der Merkmalsextraktor andere Merkmale zur Unterscheidung bzw. Wiedererkennung der Personen heranziehen (z.B. Haarfarbe, getragener Regenschirm, etc.).
5 veranschaulicht eine Merkmalsextraktion gemäß einer weiteren Ausführungsform.
Gemäß der Ausführungsform von 5 werden Messwerte einer Szene 501 zunächst zu Clustern 502, 503 gruppiert (geflüstert werden und anschließend erfolgt eine Merkmalsextraktion 504, 505 pro Cluster 502, 503. Dies hat den Vorteil, dass die Re-ID-Merkmalsextraktion auf die Messwerte konzentriert erfolgen kann, bei welchen ein hohes Risiko einer Falschassoziation besteht (z.B. eng zusammenstehende Fußgängergruppen). Mit Bezug auf das obige Beispiel der roten Jacke: Auch wenn es in einer Szene zwei Personen mit roten Jacken gibt, kann eine rote Jacke ein geeignetes Merkmal zur Unterscheidung Wiedererkennung von den anderen Personen (und damit Wiedererkennung) sein, z.B. wenn die zwei Personen mit roten Jacken weit entfernt voneinander sind (z.B. auf unterschiedlichen Fahrbahnseiten) und damit zu unterschiedlichen Clustern 502, 503 gehören.
Gemäß einer weiteren Ausführungsform ist vorgesehen, dass die Re-ID-Merkmalsextraktion eine Gewichtung der Messwerte berücksichtigt. Im Detail sollen die Gewichte widerspiegeln, wie stark einzelne Messwerte von anderen Messwerten unterscheidbar sein sollen. Die Re-ID-Merkmalsextraktion kann sich dann auf die Extraktion geeigneter Unterscheidungsmerkmale konzentrieren. Gewichte können beispielsweise paarweise (zwischen allen Messwerten) angegeben werden, so dass jedes Gewicht angibt, wie wichtig eine Unterscheidung der beiden Messwerte ist.
Die Gewichte spiegeln beispielsweise die Trennbarkeit auf Basis der geometrischen Merkmale (wie Position, Ausdehnung, Geschwindigkeit) wider, d.h. schlecht trennbare Messwerte erhalten ein hohes Gewicht. Das mit Bezug auf 5 beschriebene kann als Spezialfall einer solchen Gewichtung gesehen (bzw. implementiert) werden: paarweise Gewichte sind 1 für alle Paare von Messwerten des gleichen Clusters, 0 andernfalls.
Gemäß verschiedenen Ausführungsformen wird für ein neuronales Netz zur Re-ID-Merkmalsextraktion (das in oben genannter Weise angewandt werden soll) eine Architektur verwendet, die folgende Eigenschaften erfüllt:

• Die Eingabe kann eine beliebige Anzahl N an Messwerten in Form von N Eingabedatenvektoren (die auch als Eingabemerkmalsvektoren angesehen werden können) enthalten. Messwerte können beispielsweise Detektionen von Fußgängern sein, deren Eingabevektoren beispielsweise zugehörige Sensorrohdaten (Bildpixel, LiDAR-Punktwolken, Radar Reflektionen, usw.) oder daraus abgeleitete Größen enthalten.
• Die N Messwerte können in beliebiger Reihenfolge eingegeben werden, d.h. die Berechnung der Re-ID-Merkmale ist unabhängig von der Reihenfolge.
• Die Ausgabe des Netzes sind N Re-ID-Merkmalsvektoren, wobei N der Anzahl der Eingangsmesswerte entspricht.

6 zeigt eine mögliche Architektur eines neuronalen Netzes für die Re-ID-Merkmalsextraktion.
Die Eingabe des Netzes sind die Messwerte 601 (z.B. Fußgängerdetektionen). Die Messwerte sind ungeordnet (weil die Reihenfolge für die extrahierten Merkmale irrelevant sein soll). Jeder Messwert wird durch bestimmte Eigenschaften in Form eines Eingabedatenvektors charakterisiert (z.B. Sensorrohdaten für die Detektionen wie Bildpixel, LiDAR-Punkte, Radar Reflektionen oder daraus abgeleitete Daten). Die Ausgabe 605 des Netzes entspricht den berechneten Re-ID-Merkmalsvektoren (d.h. ein Merkmalsvektor für jeden Messwert der Eingabe 601).
Die erste Schicht 602 prozessiert die Daten jedes Messwertes unabhängig voneinander mit Hilfe einer Messwert-weisen vollvermaschten Schicht (1D-conv). Diese Schicht wird durch eine Gewichtsmatrix M und einen Bias-Vektor b charakterisiert. Um von der Eingabe-Repräsentation (Messwertdaten) zur ersten versteckten Schicht zu gelangen, wird für jeden Messwert die gleiche Gewichtsmatrix M und der gleiche Bias-Vektor b verwendet (sog. weight-sharing). Die Ausgabe solcher 1D-conv Schichten ist eine neue Darstellung der Messwert-weisen Daten (Messwert-spezifische lokale Merkmalsvektoren). Eine 1D-conv Schicht operiert somit lokal, in dem lediglich die Merkmale innerhalb eines Messwertes miteinander kombiniert werden (lokaler Kontext). Im Beispiel extrahiert eine 1D-conv Schicht für jeden Fußgänger individuelle Merkmale (z.B. bezüglich deren Form, Farbe, etc.).
Es folgt eine Pooling-Schicht 603, die die Messwert-weisen Merkmale auf ein einziges (sog. globales) Merkmal reduziert. Im dargestellten Beispiel wird das Maximum der Merkmale der ersten versteckten Schicht berechnet (globales Max-Pooling). Durch so eine Pooling-Schicht wird Information über mehrere Messwerte hinweg aggregiert, wodurch Abhängigkeiten zwischen den Messwerten (globaler Kontext) abgebildet werden kann, d.h. die Pooling-Schicht 603 erlaubt es, die zuvor für jeden Fußgänger individuell extrahierten Merkmale, miteinander zu kombinieren und in Relation zu setzen.
Um diese globale Beziehung zwischen den Merkmalen in der weiteren Berechnung zu nutzen, kann der globale Merkmalsvektor an die Messwert-spezifischen lokalen Merkmalsvektoren angehängt werden (append). Nachfolgende 1D-conv Schichten 604 (ähnlich der ersten Schicht 602, ggf. zusammen mit einer jeweiligen Max-Pooling-Schicht 603) können bei ihrer Messwert-weisen Merkmalsextraktion folglich auch auf den globalen Kontext zurückgreifen. Im Beispiel: Es können Merkmale, welche die einzelnen Fußgänger unterscheiden, hervorgehoben werden.
Wie in 6 dargestellt ist es möglich, dass mehrere 1D-conv + Pooling + Append Verarbeitungsblöcke aneinandergereiht werden, um letztendlich komplexe Re-ID-Merkmalsvektoren 605 zu extrahieren.
Bei der in 6 gezeigten Architektur handelt es sich um eine konkrete Realisierung, welche sich vielfältig abwandeln lässt. Eine generalisierte Basisarchitektur lässt sich wie folgt beschreiben:

• Als Eingabe dient eine ungeordnete Liste von Messwerten. Ausgabe der Netzarchitektur ist eine Liste von Re-ID-Merkmalsvektoren (ein Ausgangsvektor pro Eingangsmesswert).
• Die Architektur nutzt eine beliebige Anzahl von Schichten auf, auf welche eine Messwert-weise Extraktion von (lokalen) Merkmalen durchführen. In einer Ausgestaltung wird ein weight-sharing bei der Messwert-weisen Merkmalsextraktion umgesetzt.
• Die Architektur beinhaltet mindestens eine globale Pooling-Schicht, welche die Messwert-weise extrahierten lokalen Merkmale zu einem globalen Merkmalsvektor kombiniert. Darüber hinaus können weitere Pooling Operatoren nach den verschiedenen Messwert-weisen Merkmalsextraktionsschichten verwendet werden. In einer Ausführungsform verwenden die Pooling-Schichten den Max-Pooling-Operator. Andere Pooling-Operatoren (beispielsweise Ave rage-Pooling) sind jedoch auch denkbar.
• Die Architektur verwendet mindestens ein Konkatenierungsmodul (append), welches globale (gepoolte) Merkmalsvektoren mit den lokalen (Messwert-weisen) Merkmalsvektoren zusammenführt.

Für die beschriebene Basisarchitektur sind verschiedene Erweiterungen möglich, wie zum Beispiel:

• Globaler Merkmalsvektor: Der gepoolte Merkmalsvektor kann vor der Konkatenierung an die lokalen Merkmalsvektoren beliebig weiterverarbeitet werden, z.B. mit Hilfe von vollvermaschten Schichten.
• Reihenfolge: Auch in späteren Schichten können (lokale oder globale) Merkmale aus früheren Schichten direkt verwendet werden, z.B. mit Hilfe von sogenannten Skip-Connections.

Grundlage das Training des Re-ID-Merkmalsextraktors sind Datensätze, in welchen Trajektorien von Objekten annotiert sind. Dies bedeutet, dass Objekte in individuellen Messzeitpunkten annotiert sind und eine Assoziation zwischen den Messzeitpunkten (z.B. mittels Objekt-IDs) existiert.
7 zeigt ein Beispiel, in welchem Trajektorien 701 bis 705 von Fußgängern dargestellt sind, die zum Training eines Re-ID-Merkmalsextraktors genutzt werden können.
Die mit „+“ gekennzeichneten Fußgänger beziehen sich auf den gleichen Sensormesszeitpunkt. Darüber hinaus sind Annotationen der Fußgänger zu früheren und späteren Messzeitpunkten dargestellt.
8 zeigt zum Bilden von Mengen positiver Re-ID-Merkmalspaare 801 und negativer Re-ID-Merkmalspaare 802, auf deren Basis verschiedene Verluste (Kostenfunktionen) zum Training einen Re-ID-Merkmalsextraktors 803 berechnet werden können.
Wie in 8 dargestellt, ist für das Training gemäß verschiedenen Ausführungsformen vorgesehen, dass die Re-ID-Merkmalsextraktion auf mindestens zwei aufeinanderfolgende Messzeitpunkte angewandt wird und aus den daraus resultierenden Re-ID-Merkmalsvektoren die Menge von positiven Paaren 801 und die Menge von negativen Paaren 802 gebildet werden.
Positive Paare entsprechen jeweils zwei Merkmalsvektoren, welche das gleiche Objekt (z.B. einen Fußgänger) zu unterschiedlichen Messzeitpunkten beschreiben. Negative Paare entsprechen jeweils zwei Merkmalsvektoren, welche unterschiedliche Objekte (z.B. zwei unterschiedliche Fußgänger) zum gleichen oder zu unterschiedlichen Messzeitpunkten beschreiben. Ob Merkmalsvektoren unterschiedliche oder das gleiche Objekt beschreiben, ist für die Trainingsdaten des Trainingsdatensatzes (durch entsprechende Annotation der Eingabedatenvektoren, die der Trainingsdatensatz enthält) bekannt.
Wenn dieses Vorgehen auf eine Vielzahl von kurzen Sequenzen (d.h. aufeinanderfolgende Messzeitpunkte) des annotierten Trainingsdatensatzes angewendet wird, können große Mengen an positiven und negativen Paaren generiert werden.
Beim Training werden die Gewichte des neuronalen Netzes in der Art adaptiert, dass die Distanz zwischen den Merkmalsvektoren von positiven Paaren reduziert (idealerweise minimiert) wird, wohingegen eine Distanz zwischen den Merkmalsvektoren von negativen Paaren erhöht (idealerweise maximiert) wird. Dies kann beispielsweise mit Hilfe von Rückpropagation eines geeigneten Verlusts (Kostenfunktion) und Gradientenabstieg umgesetzt werden. Beispielsweise wird ein als Kostenfunktion ein konstrastiver Verlust, Triplet-Verlust, Multiclass-N-Pair-Verlust oder Konstellationsverlust verwendet.
Das Training des neuronalen Netzes erfolgt also beispielsweise wie folgt:

1) Generierung mehrerer Sequenzen bestehend aus zwei oder mehr Messzeitpunkten
2) Berechnung der Re-ID-Merkmalsvektoren durch Anwendung des neuronalen Netzes
3) Generierung von positiven und negativen Paaren der berechneten Re-ID-Merkmalsvektoren
4) Berechnung des Verlusts
5) Adaption der Netzwerkgewichte durch Rückpropagation des Verlusts und Gradientenabstieg.

Die obigen Trainingsschritte 1) bis 5) können beliebig oft wiederholt werden.
Gemäß einer weiteren Ausführungsform ist vorgesehen, dass die Gewichte des neuronalen Netzes auf Grundlage eines Verlusts, welcher die Güte der Assoziation zwischen Messwerten zweier aufeinanderfolgender Zeitschritte widerspiegelt, adaptiert werden.
9 veranschaulicht ein das Vorgehen zum Training eines Re-ID-Merkmalsextraktors, wobei der Verlust auf Grundlage einer berechneten Assoziation zwischen Messwerten aufeinanderfolgender Messzeitpunkte berechnet wird.
Dazu werden für zwei aufeinanderfolgende Zeitschritte zunächst die Re-ID-Merkmalsvektoren 901, 902 der Messwerte extrahiert, anschließend eine Distanzmatrix 903 berechnet und auf deren Basis durch ein differenzierbares Assoziationsmodul 904 (z.B. Deep Hungarian Network) eine Soft-Assoziationsmatrix 905 berechnet. „Soft“ bezeichnet hierbei, dass ihre Einträge (Assoziationswerte) die binären Einträge (d.h. 0 bzw. 1) einer realen Assoziationsmatrix annähern. Schließlich kann durch einen Vergleich der Soft-Assoziationsmatrix mit der realen Assoziationsmatrix (die durch die Labels, d.h. Annotationen, des Trainingsdatensatzes bekannt ist) ein Verlust 907 berechnet werden, auf dessen Grundlage durch Rückpropagation und Gradientenabstieg 908 die Netzwerkgewichte angepasst werden können.
Es sollte beachtet werden, dass auch dieser Verlust es bestraft, wenn dem gleichen Objekt unterschiedliche Merkmale zu geordnet werden bzw. unterschiedlichen Objekte abweichende Merkmale zugeordnet werden, da dann die Soft-Assoziationsmatrix entsprechend für gleiche Objekte kleine Assoziationswerte aufweist bzw. für unterschiedliche Objekte hohe Assoziationswerte aufweist.
Zusammengefasst wird gemäß verschiedenen Ausführungsformen ein Verfahren bereitgestellt, wie in 10 dargestellt.
10 zeigt ein Ablaufdiagramm 1000, das ein Verfahren zum Trainieren eines neuronalen Netzwerks zum Ermitteln von Merkmalen von Objekten für eine Objektverfolgung veranschaulicht.
In 1001 wird ein neuronales Netzwerk mit einer Netzwerkarchitektur konfiguriert (d.h. ein neuronales Netz mit einer solchen Architektur bereitgestellt), sodass es, wenn ihm ein Satz von Sensordaten zugeführt wird, der für jedes mehrerer Objekte ein Sensordatenelement enthält, für jedes Objekt abhängig von allen der Sensordatenelemente einen Merkmalsvektor ermittelt.
In 1002 wird ein Trainingsdatensatzes mit einer Vielzahl von Trainingsdatenelementen erzeugt, wobei jedes Trainingsdatenelement einen ersten Satz von Sensordaten bezüglich eines ersten Zustands einer Umgebung mit einer Menge von mehreren Objekten und einen zweiten Satz von Sensordaten bezüglich eines zweiten Zustands der Umgebung, wobei in dem zweiten Zustand die Positionen der Objekte gegenüber dem ersten Zustand zumindest teilweise verändert sind, aufweist.
In 1003 werden für jedes Trainingsdatenelement, Merkmale der Objekte durch Zuführen des ersten Satzes von Sensordaten zu dem neuronalen Netzwerk ermittelt und Merkmale der Objekte durch Zuführen des zweiten Satzes von Sensordaten zu dem neuronalen Netzwerk ermittelt.
In 1004 wird ein Verlust ermittelt, der, für jedes Trainingsdatenelement, für jedes Objekt eine Abweichung zwischen dem Merkmal, das von dem neuronalen Netzwerk für das Objekt aus dem ersten Satz von Sensordaten ermittelt wurde, und dem Merkmal, das von dem neuronalen Netzwerk für das Objekt aus dem zweiten Satz von Sensordaten ermittelt wurde, bestraft und eine mangelnde Abweichung zwischen dem Merkmal, das von dem neuronalen Netzwerk für das Objekt aus dem ersten Satz von Sensordaten ermittelt wurde, und, für jedes andere der Objekte, dem Merkmal, das von dem neuronalen Netzwerk für das andere Objekt aus dem zweiten Satz von Sensordaten ermittelt wurde, bestraft.
In 1005 wird das neuronale Netzwerk zum Verringern des Verlusts trainiert.
Hierbei können 1003, 1004 und 1005 wiederholt im Wechsel stattfinden, beispielsweise wird der Verlust für Batches von Trainingsdatenelemente ermittelt (d.h. der Trainingsdatensatz kann beispielsweise Batches mit jeweils einer Vielzahl von Trainingsdatenelementen (der beschriebenen Form) aufweisen, für die jeweils ein Verlust erzeugt wird und das neuronale Netzwerk wird für jeden Batch zum Verringern des jeweiligen Verlusts trainiert).
Das Verfahren von 10 kann durch einen oder mehrere Computer mit einer oder mehreren Datenverarbeitungseinheiten durchgeführt werden. Der Begriff „Datenverarbeitungseinheit“ kann als irgendein Typ von Entität verstanden werden, die die Verarbeitung von Daten oder Signalen ermöglicht. Die Daten oder Signale können beispielsweise gemäß mindestens einer (d.h. einer oder mehr als einer) speziellen Funktion behandelt werden, die durch die Datenverarbeitungseinheit durchgeführt wird. Eine Datenverarbeitungseinheit kann eine analoge Schaltung, eine digitale Schaltung, eine Logikschaltung, einen Mikroprozessor, einen Mikrocontroller, eine Zentraleinheit (CPU), eine Graphikverarbeitungseinheit (GPU), einen Digitalsignalprozessor (DSP), eine integrierte Schaltung einer programmierbaren Gatteranordnung (FPGA) oder irgendeine Kombination davon umfassen oder aus dieser ausgebildet sein. Irgendeine andere Weise zum Implementieren der jeweiligen Funktionen, die hierin genauer beschrieben werden, kann auch als Datenverarbeitungseinheit oder Logikschaltungsanordnung verstanden werden. Es können ein oder mehrere der im Einzelnen hier beschriebenen Verfahrensschritte durch eine Datenverarbeitungseinheit durch eine oder mehrere spezielle Funktionen ausgeführt (z. B. implementiert) werden, die durch die Datenverarbeitungseinheit durchgeführt werden.
Das Verfahren ist also gemäß verschiedenen Ausführungen insbesondere computerimplementiert.
Das neuronale Netz kann nach dem Training auf Sensordaten angewendet werden, die von mindestens einem Sensor ermittelt werden, um Merkmale zu erhalten, die dann für eine Objektverfolgung verwendet werden. Das Ergebnis der Objektverfolgung kann dann zur Steuerung einer Robotervorrichtung verwendet werden.
Beispielsweise wird das neuronale Netz nach dem Training zum Erzeugen eines Steuersignals für eine Robotervorrichtung eingesetzt, indem man ihm Sensordaten bzgl. der Robotervorrichtung und/oder seiner Umgebung zuführt. Der Begriff „Robotervorrichtung“ kann als sich auf irgendein technisches System (mit einem mechanischen Teil, dessen Bewegung gesteuert wird) beziehend verstanden werden, wie z. B. eine computergesteuerte Maschine, ein Fahrzeug, ein Haushaltsgerät, ein Elektrowerkzeug, eine Fertigungsmaschine, einen persönlichen Assistenten oder ein Zugangssteuersystem.
Verschiedene Ausführungsformen können Sensordaten von verschiedenen Sensoren wie z. B. Video, Radar, LiDAR, Ultraschall, Bewegung, Wärmeabbildung usw. empfangen und verwenden.
Obwohl spezielle Ausführungsformen hier dargestellt und beschrieben wurden, wird vom Fachmann auf dem Gebiet erkannt, dass die speziellen Ausführungsformen, die gezeigt und beschrieben sind, gegen eine Vielfalt von alternativen und/oder äquivalenten Implementierungen ausgetauscht werden können, ohne vom Schutzbereich der vorliegenden Erfindung abzuweichen. Diese Anmeldung soll irgendwelche Anpassungen oder Variationen der speziellen Ausführungsformen abdecken, die hier erörtert sind. Daher ist beabsichtigt, dass diese Erfindung nur durch die Ansprüche und die Äquivalente davon begrenzt ist.

Claims

Verfahren zum Trainieren eines neuronalen Netzwerks zum Ermitteln von Merkmalen von Objekten für eine Objektverfolgung, aufweisend: Konfigurieren eines neuronalen Netzwerks mit einer Netzwerkarchitektur, sodass es, wenn ihm ein Satz von Sensordaten zugeführt wird, der für jedes mehrerer Objekte ein Sensordatenelement enthält, für jedes Objekt abhängig von allen der Sensordatenelemente einen Merkmalsvektor ermittelt; Erzeugen eines Trainingsdatensatzes mit einer Vielzahl von Trainingsdatenelementen, wobei jedes Trainingsdatenelement einen ersten Satz von Sensordaten bezüglich eines ersten Zustands einer Umgebung mit einer Menge von mehreren Objekten und einen zweiten Satz von Sensordaten bezüglich eines zweiten Zustands der Umgebung, wobei in dem zweiten Zustand die Positionen der Objekte gegenüber dem ersten Zustand zumindest teilweise verändert sind, aufweist; Für jedes Trainingsdatenelement, Ermitteln von Merkmalen der Objekte durch Zuführen des ersten Satzes von Sensordaten zu dem neuronalen Netzwerk und Ermitteln von Merkmalen der Objekte durch Zuführen des zweiten Satzes von Sensordaten zu dem neuronalen Netzwerk; Ermitteln eines Verlust, der, für jedes Trainingsdatenelement, für jedes Objekt eine Abweichung zwischen dem Merkmal, das von dem neuronalen Netzwerk für das Objekt aus dem ersten Satz von Sensordaten ermittelt wurde, und dem Merkmal, das von dem neuronalen Netzwerk für das Objekt aus dem zweiten Satz von Sensordaten ermittelt wurde, bestraft und eine mangelnde Abweichung zwischen dem Merkmal, das von dem neuronalen Netzwerk für das Objekt aus dem ersten Satz von Sensordaten ermittelt wurde, und, für jedes andere der Objekte, dem Merkmal, das von dem neuronalen Netzwerk für das andere Objekt aus dem zweiten Satz von Sensordaten ermittelt wurde, bestraft; und Trainieren des neuronalen Netzwerks zum Verringern des Verlusts.
Verfahren nach Anspruch 1, aufweisend Konfigurieren des neuronalen Netzwerks mit einer Netzwerkarchitektur, sodass es, wenn ihm ein Satz von Sensordaten, der für jedes mehrerer Objekte ein Sensordatenelement enthält, zugeführt wird, den Merkmalsvektor über eine Verarbeitung in mehreren Stufen durchführt, wobei mindestens eine Stufe für jedes der Objekte Merkmalskomponenten erzeugt, ein Max-Pooling der Merkmalskomponenten über die Objekte durchgeführt wird und die Merkmalskomponenten sowie das Ergebnis des Max-Poolings der Merkmalskomponenten der folgenden Stufe zugeführt werden.
Verfahren nach Anspruch 1 oder 2, wobei jedes Trainingsdatenelement eine Information darüber enthält, welches Objekt in dem ersten Zustand welchem Objekt in dem zweiten Zustand entspricht, anhand der ermittelten Merkmale der Objekte ermittelt wird, welche Objekte in dem ersten Zustand welchen Objekten in dem zweiten Zustand entsprechen und der Verlust durch Vergleich der in den Trainingsdatenelementen enthaltenden Informationen darüber, welches Objekt in dem ersten Zustand welchem Objekt in dem zweiten Zustand entspricht, mit dem Ergebnis der Ermittlung anhand der ermittelten Merkmale, welche Objekte in dem ersten Zustand welchen Objekten in dem zweiten Zustand entsprechen, ermittelt wird.
Verfahren zum Verfolgen von Objekten, aufweisend: Erfassen von Sensordaten einer ersten Menge von Objekten zu einem ersten Zeitpunkt; Erfassen von Sensordaten einer zweiten Menge von Objekten zu einem zweiten Zeitpunkt; Zuführen der Sensordaten der ersten Menge von Objekten zu dem gemäß einem der Ansprüche 1 bis 3 trainierten neuronalen Netzwerk zum Erzeugen erster Merkmale; Zuführen der Sensordaten der zweiten Menge von Objekte zu dem trainierten neuronalen Netzwerk zum Erzeugen zweiter Merkmale; und Paarweises Assoziieren von Objekten der ersten Menge von Objekten der zweiten Menge anhand der ersten Merkmale und der zweiten Merkmale.
Verfahren nach Anspruch 4, aufweisend Erfassen von Sensordaten von Objekten in einer Szene zu dem ersten Zeitpunkt, Gruppieren der Objekte zu mehreren ersten Gruppen anhand ihrer örtlichen Nähe, Auswählen einer der ersten Gruppen als die erste Menge von Objekten, Erfassen von Sensordaten von Objekten in der Szene zu dem zweiten Zeitpunkt, Gruppieren der Objekte zu mehreren zweite Gruppen anhand ihrer örtlichen Nähe und Auswählen einer der zweiten Gruppen als die zweite Menge von Objekten, so dass die zweite Menge von Objekten diejenige zweite Gruppe ist, die er ersten Menge von Objekten innerhalb der Szene am nächsten liegt.
Datenverarbeitungseinrichtung, die eingerichtet ist, ein Verfahren nach einem der Ansprüche 1 bis 5 durchzuführen.
Computerprogramm mit Befehlen, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ansprüche 1 bis 5 durchführt.
Computerlesbares Medium, das Befehle speichert, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ansprüche 1 bis 5 durchführt.