DE102022204711A1

DE102022204711A1 - Vorrichtung und computer-implementiertes Verfahren zur zeitkontinuierlichen Interaktionsmodellierung von Agenten

Info

Publication number: DE102022204711A1
Application number: DE102022204711.7A
Authority: DE
Inventors: Cagatay Yildiz; Barbara Rakitsch
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2023-11-16
Also published as: WO2023217588A1

Abstract

Vorrichtung und computer-implementiertes Verfahren zur zeitkontinuierlichen Interaktionsmodellierung von Agenten, das Verfahren umfassend Bereitstellen (202) eines latenten Zustands eines ersten Agenten und eines latenten Zustands eines zweiten Agenten, insbesondere Charakterisieren einer Position oder einer Geschwindigkeit dieser Agenten, Bereitstellen (204) einer ersten Gaußschen Prozessverteilung für eine erste Funktion zur Modellierung eines kinematischen Verhaltens eines Agenten unabhängig von anderen Agenten und einer zweiten Gaußschen Prozessverteilung für eine zweite Funktion zur Modellierung einer Interaktion zwischen Agenten, Abtasten (206) der ersten Funktion von der ersten Gaußschen Prozessverteilung und der zweiten Funktion von der zweiten Gaußschen Prozessverteilung, wobei die erste Funktion zum Abbilden eines latenten Zustands eines Agenten auf einen Beitrag zu einer Änderung seines latenten Zustands konfiguriert ist, wobei die zweite Funktion zum Abbilden des latenten Zustands von zwei Agenten auf einen Beitrag zu einer Änderung eines latenten Zustands eines der zwei Agenten konfiguriert ist, wobei das Verfahren Ändern (208) des latenten Zustands des ersten Agenten in Abhängigkeit von einem ersten Beitrag, der aus Abbilden des latenten Zustands des ersten Agenten mit der ersten Funktion auf den ersten Beitrag resultiert, und einem zweiten Beitrag, der aus einem Abbilden des latenten Zustands des ersten Agenten und des latenten Zustands des zweiten Agenten mit der zweiten Funktion auf den zweiten Beitrag resultiert, umfasst.

Description

Stand der Technik
Die Erfindung betrifft eine Vorrichtung und ein computer-implementiertes Verfahren zur zeitkontinuierlichen Interaktionsmodellierung von Agenten, insbesondere Subjekte von Objekten.
Erlernen des Verhaltens von unbekannten dynamischen Systemen aus Daten ist ein grundlegendes Problem beim Maschinenlernen.
Offenbarung der Erfindung
Das computer-implementierte Verfahren und die Vorrichtung gemäß den unabhängigen Ansprüchen verwenden ein Modell, das auf Gaußschen Prozessen, GPs, basiert und zeitkontinuierlich operiert und die komplexe kontinuierliche Dynamik in unabhängige Kinematik- und Interaktionskomponenten zerlegt, um interpretierbare nichtlineare Dynamik zu berücksichtigen. In diesem Modell werden die unabhängigen Kinematiken der Agenten und ihre Interaktionen getrennt voneinander behandelt. Die Regularisierung auf Funktionsebene mittels GPs ist der Schlüssel zum Erlernen der entflochtenen Repräsentationen. Das Modell basiert auf einer gewöhnlichen Differentialgleichung, ODE. Diese berücksichtigt viele komplexe Dynamiken, die eine natürliche Darstellung in Form von Zeitdifferentialen haben. Die zeitkontinuierliche Formulierung ermöglicht die unkomplizierte Integration von Domänenwissen, indem sie die induktive Ausrichtung des Modells nutzt. So werden die Kinematik der Objekte und ihre Interaktionen separat mit zwei unterschiedlichen Gaußschen Prozessen modelliert.
Das computer-implementierte Verfahren zur zeitkontinuierlichen Interaktionsmodellierung von Agenten umfasst Bereitstellen eines latenten Zustands eines ersten Agenten und eines latenten Zustands eines zweiten Agenten, insbesondere Charakterisieren einer Position oder einer Geschwindigkeit dieser Agenten, Bereitstellen einer ersten Gaußschen Prozessverteilung für eine erste Funktion zur Modellierung eines kinematischen Verhaltens eines Agenten unabhängig von anderen Agenten und einer zweiten Gaußschen Prozessverteilung für eine zweite Funktion zur Modellierung einer Interaktion zwischen Agenten, Abtasten der ersten Funktion von der ersten Gaußschen Prozessverteilung und der zweiten Funktion von der zweiten Gaußschen Prozessverteilung, wobei die erste Funktion zum Abbilden eines latenten Zustands eines Agenten auf einen Beitrag zu einer Änderung seines latenten Zustands konfiguriert ist, wobei die zweite Funktion zum Abbilden des latenten Zustands von zwei Agenten auf einen Beitrag zu einer Änderung eines latenten Zustands eines der zwei Agenten konfiguriert ist, wobei das Verfahren Ändern des latenten Zustands des ersten Agenten in Abhängigkeit von einem ersten Beitrag, der aus Abbilden des latenten Zustands des ersten Agenten mit der ersten Funktion auf den ersten Beitrag resultiert, und einem zweiten Beitrag, der aus einem Abbilden des latenten Zustands des ersten Agenten und des latenten Zustands des zweiten Agenten mit der zweiten Funktion auf den zweiten Beitrag resultiert, umfasst.
Das Verfahren umfasst vorzugsweise Bereitstellen eines anfänglichen latenten Zustands einer Mehrzahl von Agenten, die den ersten Agenten und den zweiten Agenten enthält, und entweder Ändern des latenten Zustands des ersten Agenten in Abhängigkeit von den zweiten Beiträgen, die aus Abbilden von Paaren des latenten Zustands des ersten Agenten und verschiedenen zweiten Agenten der Mehrzahl von Agenten mit der zweiten Funktion resultieren, oder Auswählen einer Teilmenge der Mehrzahl von Agenten, Ändern des latenten Zustands des ersten Agenten in Abhängigkeit von den zweiten Beiträgen, die aus Abbilden von Paaren des latenten Zustands des ersten Agenten und verschiedenen zweiten Agenten der Teilmenge mit der zweiten Funktion resultieren. Demgemäß berücksichtigt das Verfahren entweder alle Agenten, die sich vom ersten Agenten unterscheiden, oder eine Nachbarschaft des Agenten für die Interaktionen. Agenten, die sich nicht in der Nachbarschaft eines Agenten befinden, werden mit geringerer Wahrscheinlichkeit mit dem Agenten interagieren. Dies reduziert den Rechenaufwand und erhält gleichzeitig eine angemessene Genauigkeit des Modells.
Das Verfahren umfasst vorzugsweise Bestimmen von Agenten aus der Mehrzahl von Agenten für die Teilmenge, die gemäß einem Maß für eine Distanz zwischen Agenten näher zu dem ersten Agenten als andere Agenten der Mehrzahl von Agenten sind. Demgemäß berücksichtigt das Verfahren eine Nachbarschaft des Agenten für die Interaktionen. Die Metrik kann ein Maß für jede Art von Eigenschaften von Agenten sein. Für Bewegungen von Agenten ist ihre Distanz zueinander eine bevorzugte Metrik.
Das Verfahren umfasst vorzugsweise Bereitstellen einer Datensequenz, wobei Bereitstellen des anfänglichen latenten Zustands des ersten Agenten und/oder des zweiten Agenten Bestimmen seines anfänglichen latenten Zustands mit einem Codierer umfasst, der konfiguriert ist, die Datensequenz auf seinen anfänglichen latenten Zustand abzubilden.
Das Verfahren umfasst vorzugsweise Bestimmen eines Ausgangs in Abhängigkeit von dem latenten Zustand des ersten Agenten, insbesondere einer Trajektorieabtastung, vorzugsweise einer Trajektorie einer Position und/oder Geschwindigkeit des ersten Agenten im Verlauf der Zeit. Der Ausgang kann sich auf jede Art von Eigenschaften der Agenten beziehen. Für Bewegungen von Agenten sind Trajektorieabtastungen ein bevorzugter Ausgang.
Vorzugsweise umfasst die erste Gaußsche Prozessverteilung ein Posterior, wobei das Verfahren Erlernen einer insbesondere spärlichen Approximation an das Posterior für die erste Gaußsche Prozessverteilung, die Variationsparameter beinhaltet, und Bereitstellen der Approximation für die erste Gaußsche Prozessverteilung als die erste Gaußsche Prozessverteilung umfasst und/oder wobei die zweite Gaußsche Prozessverteilung ein Posterior umfasst, wobei das Verfahren Erlernen einer insbesondere spärlichen Approximation an das Posterior für die zweite Gaußsche Prozessverteilung, die Variationsparameter beinhaltet, und Bereitstellen der Approximation für die zweite Gaußsche Prozessverteilung als die zweite Gaußsche Prozessverteilung umfasst. Auf diese Weise werden die Parameter, die die Gaußsche Prozessverteilung definieren, für unbekannte Funktionen erlernt.
Das Verfahren umfasst vorzugsweise Bestimmen der ersten Gaußsche Prozessverteilung oder der zweiten Gaußsche Prozessverteilung mit einem Erwartungswahrscheinlichkeitsterm, der von dem Ausgang abhängt und der zwischen Agenten und zwischen Zeitpunkten zerlegt wird. Der Wahrscheinlichkeitsterm ist eine Approximation eines Teils einer Evidenzuntergrenze, ELBO, die gestattet, die Parameter zu bestimmen, die die Gaußsche Prozessverteilung definieren.
Das Verfahren kann auf gewöhnliche Differentialgleichungen zweiter Ordnung angewandt werden, wobei der latente Zustand des ersten Agenten eine erste Komponente und eine zweite Komponente umfasst, wobei das Verfahren Ändern des latenten Zustands der ersten Komponente des latenten Zustands des ersten Agenten in Abhängigkeit von der zweiten Komponente des latenten Zustands des ersten Agenten und eine Änderung an der zweiten Komponente des latenten Zustands des ersten Agenten, wobei die zweite Komponente in Abhängigkeit von dem ersten Beitrag zur Änderung des latenten Zustands des ersten Agenten und von dem zweiten Beitrag zur Änderung des latenten Zustands des ersten Agenten geändert wird, umfasst.
Zum Steuern des ersten Agenten kann das Verfahren Bestimmen einer Aktion für den ersten Agenten in Abhängigkeit von dem Ausgang umfassen.
Das Verfahren umfasst vorzugsweise Bestimmen des latenten Zustands des ersten Agenten und des latenten Zustands des zweiten Agenten in Abhängigkeit von einer Messung einer Sequenz von beobachtbaren Zuständen der Agenten.
Der erste Agent kann ein existierendes Objekt in der physikalischen Welt sein, wobei der latente Zustand des ersten Agenten in Abhängigkeit von einer Messung einer Eigenschaft des ersten Agenten bestimmt wird, und/oder wobei der zweite Agent ein existierendes Objekt in der physikalischen Welt sein kann, wobei der latente Zustand des zweiten Agenten in Abhängigkeit von einer Messung einer Eigenschaft des zweiten Agenten bestimmt wird, insbesondere wobei die Messung Positionsdaten umfasst, insbesondere von einem Satelliten-Navigationssystem, oder insbesondere digitale Bilder, vorzugsweise Videobilder, Radarbilder, LiDAR-Bilder, Ultraschallbilder, Bewegungsbilder und/oder Wärmebilder, vorzugsweise aus Informationen über eine Position oder eine Geschwindigkeit der Agenten. Dies gestattet Bestimmen der latenten Zustände aus einer Messung und insbesondere eine entsprechende Steuerung des ersten Agenten.
Die Vorrichtung für zeitkontinuierliche Interaktionsmodellierung von Agenten umfasst mindestens einen Prozessor und mindestens einen Speicher, die konfiguriert sind, Schritte in dem Verfahren auszuführen. Diese Vorrichtung weist Vorteile auf, die mit den Vorteilen des Verfahrens korrespondieren.
Die Vorrichtung umfasst vorzugsweise eine Schnittstelle, die angepasst ist, eine zeitkontinuierliche Interaktion der Agenten zu beobachten, insbesondere digitale Bilder, vorzugsweise Videobilder, Radarbilder, LiDAR-Bilder, Ultraschallbilder, Bewegungsbilder und/oder Wärmebilder, oder Informationen über eine zeitkontinuierliche Interaktion der Agenten zu empfangen.
Die Schnittstelle kann angepasst sein, eine Aktion mindestens eines der Agenten in Abhängigkeit von dem Ausgang oder der Aktion zu steuern.
Ein Computerprogramm, das computerlesbare Anweisungen umfasst, die, wenn sie durch einen Computer ausgeführt werden, den Computer veranlassen, das Verfahren auszuführen, stellt Vorteile bereit, die mit den Vorteilen des Verfahrens korrespondieren.
Weitere vorteilhafte Ausführungsform werden von der folgenden Beschreibung und der Zeichnung abgeleitet. In der Zeichnung zeigen:

1 schematisch eine Vorrichtung für zeitkontinuierliche Interaktionsmodellierung von Agenten,
2 Schritte in einem Verfahren für zeitkontinuierliche Interaktionsmodellierung von Agenten.

1 zeigt eine Vorrichtung 100 für zeitkontinuierliche Interaktionsmodellierung von Agenten 102. In 1 sind vier Agenten 102 dargestellt. Es können mehr oder weniger als vier Agenten 102 vorhanden sein.
Die Vorrichtung 100 umfasst mindestens einen Prozessor 104 und mindestens einen Speicher 106. Die Vorrichtung 100 kann eine Schnittstelle 108 umfassen.
Der mindestens eine Prozessor 104 ist angepasst, Schritte eines nachstehend beschriebenen Verfahrens auszuführen. Der mindestens eine Speichert 106 ist angepasst, Anweisungen zu speichern, insbesondere ein Computerprogramm, das, wenn es durch den mindestens einen Prozessor 104 ausgeführt wird, den Prozessor 104 veranlasst, die Schritte des Verfahrens auszuführen.
Die Schnittstelle 108 ist in einem Beispiel angepasst, eine zeitkontinuierliche Interaktion der Agenten 102 zu beobachten oder Informationen über eine zeitkontinuierliche Interaktion der Agenten 102 zu empfangen. Die Schnittstelle 108 ist in einem Beispiel angepasst, eine Aktion mindestens eines der Agenten 102 zu steuern.
Die Informationen werden zum Beispiel in digitalen Bildern bereitgestellt, z. B. Videobilder, Radarbilder, LiDAR-Bilder, Ultraschallbilder, Bewegungsbilder und/oder Wärmebilder.
Die zeitkontinuierliche Interaktion der Agenten 102 umfasst zum Beispiel eine Position oder eine Geschwindigkeit der Agenten 102. Die Position kann eine relative Position, z. B. eine Distanz zwischen Paaren von Agenten 102, oder eine absolute Position von Agenten 102 sein.
In dem Beispiel umfasst ein System 110 die Agenten 102. Das System 110 kann ein physikalisches System sein. Die Agenten 102 können physikalische Systeme sein, insbesondere technische Systeme. Die Agenten 102 können existierende reale Objekte in der physikalischen Welt sein. Die Agenten 102 können Fahrzeuge, Fußgänger oder andere sich bewegende Objekte wie Bälle umfassen.
Das System 110 umfasst eine Umgebung 112. Die Umgebung 112 kann eine Straßeninfrastruktur oder eine Gebäudeinfrastruktur umfassen. Die Agenten 102 in dem Beispiel bewegen sich in der Umgebung 112 und können durch die Umgebung 112 beeinflusst werden. Die Agenten 102 können Objekte der Umgebung 112 umfassen, z. B. stationäre Infrastruktursysteme, die ein Teil der Umgebung 112 sind. Das System 110 in dem Beispiel folgt bestimmten physikalischen Regeln. Eine physikalische Regel ist zum Beispiel, das ein Integral einer Geschwindigkeit eine Position ist.
Die zeitkontinuierliche Interaktion ist nicht auf diese physikalischen Quantitäten beschränkt. Die zeitkontinuierliche Interaktion kann andere physikalische Quantitäten, technische Quantitäten oder chemikalische Quantitäten umfassen. Die zeitkontinuierliche Interaktion kann außerdem globale latente Variable beinhalten, z. B., agentenspezifische Eigenschaften wie Masse oder Radius.
2 zeigt Schritte in dem Verfahren für zeitkontinuierliche Interaktionsmodellierung von Agenten.
Das Verfahren hängt von einem Modell ab: $h_{1}^{a} \sim N (0, I)$
$f_{s} (\cdot) \sim G P (0, k_{s} (\cdot, \cdot))$
$f_{b} (\cdot) \sim G P (0, k_{b} (\cdot, \cdot))$
$h^{a} = h_{1}^{a} + \int_{t_{1}}^{t_{n}} f_{s} (h^{a} (τ)) + \sum_{a' \neq a} f_{b} (h^{a} (τ), h^{a'} (τ)) d τ$
$y_{n}^{a} \sim p (y_{n}^{a} | h_{n}^{a})$
wobei f_s(·) eine erste Gaußsche Prozessverteilung ist, d. h. ein Gaußscher Prozess, und f_b(·) eine zweite Gaußsche Prozessverteilung ist, d. h. ein Gaußscher Prozess, und mit einer Gaußschen Normalverteilung N(0,I) über einem anfänglichen latenten Zustand $h_{1}^{a}$
und unter der Annahme, dass die Datenwahrscheinlichkeit über Zeit und Agenten zerlegt wird. Der latente Zustand $h_{n}^{a} (t)$
eines Agenten a zu einer beliebigen Zeit t ist in dem Beispiel ein D-dimensionaler Vektor. Der latente Zustand $h_{n}^{a} (t)$
kann in demselben Raum wie eine Messung $y^{a} (t_{n}) \equiv y_{n}^{a} \in ℝ^{O},$
die zu einer physikalischen Eigenschaft des Agenten a. in Beziehung steht, sein oder nicht. In einem Beispiel $p (y_{n}^{a} | h_{n}^{a}) = N (y_{n}^{a} | B h_{n}^{a}, d i a g (σ_{e}^{2}))$
ist B ∈ ℝ^O×D fest, ist B = [I,0] mit I ∈ ℝ^O×O, 0 ∈ ℝ^O×D-O und bildet von einem interpretierbaren latenten Raum in einen beobachtbaren Raum ab und ist $σ_{e}^{2} \in ℝ_{+}^{O}$
eine Rauschvarianz.
Das Modell hängt von einer Schätzung von zwei additiven Funktionen ab, eine Kinematikfunktion f_s: ℝ^D → ℝ^D und eine Interaktionsfunktion f_b: ℝ^2D → ℝ^D, die voneinander unabhängig sind.
Die Kinematikfunktion fs in dem Beispiel lernt, wie sich ein Agent im Lauf der Zeit bewegen würde, wenn keine anderen Agenten vorhanden wären, und ist folglich von anderen Agenten unabhängig. Die Interaktionsfunktion f_b in dem Beispiel lernt, wie Agenten miteinander interagieren.
Das Verfahren wird für eine Mehrzahl a = 1,... ,A von Agenten a beschrieben.
Das Verfahren in einem Beispiel umfasst Bestimmen, für jeden Agenten a, seiner Dynamik in Abhängigkeit von einer Summation, bestehend aus A Termen, d. h. einem unabhängigen Kinematiker, der von der Kinematikfunktion f_s abhängt, und in dem Beispiel A - 1 Interaktionsterme, die jeweils eine Interaktion des Agenten a mit einem der übrigen A - 1 Agenten a' durch eine Interaktionsfunktion f_b modellieren. Das Verfahren ist nicht auf Bestimmen der Dynamik jedes Agenten a beschränkt. Das Verfahren kann außerdem Bestimmen der Dynamik für eine Teilmenge der Mehrzahl a = 1, ...,A von Agenten oder eines einzelnen Agenten a der Mehrzahl a = 1, ..., A von Agenten umfassen. Das Verfahren ist nicht auf Bestimmen der Dynamik eines Agenten a in Abhängigkeit von seiner Interaktion mit den übrigen A - 1 Agenten a' beschränkt. Das Verfahren kann Bestimmen der Dynamik eines Agenten a in Abhängigkeit von einer Teilmenge N_a der Mehrzahl a = 1, ...,A von Agenten oder in Abhängigkeit von einem Agenten a' der Mehrzahl a = 1, ...,A von Agenten umfassen. Die Teilmenge N_a ist in einem Beispiel eine Nachbarschaft des Agenten a.
Das Verfahren operiert in dem Beispiel auf einer Datenmenge von P Sequenzen $Y = {Y_{i}}_{i = 1}^{P},$
wobei $Y_{i} \equiv Y_{1 : N} \equiv y_{1 : N}^{1 : A}$
Messungen von A Agenten zu N Zeitpunkten $T = {t_{n}}_{n = 1}^{N} .$
umfasst.
Das Verfahren umfasst einen Schritt 200.
In dem Schritt 200 wird eine Datensequenz $y_{1 : n}^{1 : A}$
bereitgestellt.
Gemäß dem beispielhaften Verfahren werden die Agenten 102 des Systems 110 über eine feste Zeitdauer beobachtet. In dem Beispiel repräsentiert die Mehrzahl a = 1, ...A von Agenten a die Agenten 102 und repräsentiert die Datensequenz $y_{1 : n}^{1 : A}$
die beobachteten Quantitäten für die Mehrzahl a = 1, ... A von Agenten a innerhalb eines Zeitintervalls [t₁, t_N]. In einem Beispiel umfasst die Datensequenz $y_{1 : N}^{1 : A}$
die Positionen und Geschwindigkeiten der Agenten 102, die zu bestimmten Zeiten gemessen werden.
Die Datensequenz $y_{1 : N}^{1 : A}$
kann eine Sequenz von beobachtbaren Zuständen der Agenten 102 sein. Die beobachtbaren Zustände können in Abhängigkeit von einer Messung bestimmt werden. Die beobachtbaren Zustände können insbesondere aus digitalen Bildern bestimmt werden, vorzugsweise Videobilder, Radarbilder, LiDAR-Bilder, Ultraschallbilder, Bewegungsbilder und/oder Wärmebilder des Systems 110. Diese umfassen in dem Beispiel Informationen über die Position und Geschwindigkeit der Agenten 102.
Das Verfahren umfasst einen Schritt 202.
In dem Schritt 202 wird ein anfänglicher latenter Zustand $h_{1}^{1 : A}$
mindestens eines Agenten a zu einer Anfangszeit t₁ bereitgestellt.
Bereitstellen des anfänglichen latenten Zustands $h_{1}^{1}$
des mindestens einen der Agenten a kann umfassen, den anfänglichen latenten Zustand $h_{1}^{1}$
mindestens eines der Agenten a mit einem Codierer $q_{Θ} (h_{1}^{1 : A} | y_{1 : N}^{1 : A})$
zu bestimmen, der konfiguriert ist, die Datensequenz $h_{1 : N}^{1 : A}$
auf den anfänglichen latenten Zustand $h_{1}^{1 : A} .$
abzubilden. In dem Beispiel wird der anfängliche latente Zustand $h_{1}^{1 : A}$
der Mehrzahl a = 1, ... A von Agenten a mit dem Codierer $q_{Θ} (h_{1}^{1 : A} | h_{1 : N}^{1 : A})$
bestimmt.
In dem beispielhaften Verfahren werden die Anfangswerte für die Agenten a, die für die gewöhnliche Differentialgleichungsintegration benötigt werden, bestimmt. Diese Anfangswerte könnten im Allgemeinen verschiedene Dinge repräsentieren. In dem Beispiel korrespondieren die Anfangswerte mit der anfänglichen Position und Geschwindigkeit des jeweiligen Agenten a. Die Anfangswerte repräsentieren in dem Beispiel den anfänglichen latenten Zustand $h_{1}^{1 : A}$
des Systems 110 zu der Anfangszeit t₁.
Der Codierer q_Θ in dem Beispiel ist eine Kombination aus rekurrentem neuronalem Netzwerk und Mehrschicht-Perzeptron. Ein anderer beispielhafter Codierer würde grafische neuronale Netzwerkschichten enthalten, um Interaktionen zu erfassen. Der Codierer q_Θ kann auch eine andere neuronale Netzwerkarchitektur sein. Der Codierer q_Θ ist konfiguriert, eine Verteilung und nicht einen einzelnen Wert auszugeben.
Falls das Modell die globalen latenten Variablen beinhaltet, z. B. objektspezifische Eigenschaften wie Masse oder Radius, kann ein anderer Codierer verwendet werden, diese Variablen zu extrahieren. Beide Codierer können die gleiche Architektur aufweisen. Beide Codierer geben Verteilungen und nicht einzelne Werte aus.
Das Verfahren umfasst einen Schritt 204.
In dem Schritt 204 wird die erste Gaußsche Prozessverteilung GP(0, k_s(·,·)) für die erste Funktion f_s zum Modellieren des kinematischen Verhaltens eines Agenten a unabhängig von anderen Agenten a' bereitgestellt.
In dem Schritt 204 wird die zweite Gaußsche Prozessverteilung GP(0, k_b(·,·)) für die zweite Funktion f_b zum Modellieren der Interaktion zwischen Agenten a, a'. bereitgestellt.
Die Kinematikfunktion f_s und die Interaktionsfunktion f_b sind in einem Beispiel unbekannt. Die erste Gaußsche Prozessverteilung GP(0, k_s(·,·)) wird in einem Beispiel auf die Kinematikfunktion f_s gelegt. Die zweite Gaußsche Prozessverteilung GP(0,k_b(·,·)) wird in einem Beispiel auf die Interaktionsfunktion f_b gelegt. Das Verfahren ist nicht auf die erste Gaußsche Prozessverteilung GP(0, k_s(·,·)) mit Mittelwert Null und Kernel k_s(·,·) beschränkt. Das Verfahren ist nicht auf die zweite Gaußsche Prozessverteilung GP(0, k_b(·,·)) mit Mittelwert Null und Kernel k_b(·,·) beschränkt. Das Verfahren kann auch einen Mittelwert ungleich null verwenden. Die erste Gaußsche Prozessverteilung GP(0, k_s(·,·)) kann durch einen spärlichen Gaußschen Prozess approximiert werden und die zweite Gaußsche Prozessverteilung GP(0, k_b(·,·)) kann durch einen spärlichen Gaußschen Prozess approximiert werden, um wirksames Training und Vorhersagen zu ermöglichen.
Das Verfahren umfasst einen Schritt 206.
In dem Schritt 206 wird die erste Funktion f_s von der ersten Gaußschen Prozessverteilung GP(0,k_s(·,·)) abgetastet.
In dem Schritt 206 wird die zweite Funktion f_b von der zweiten Gaußschen Prozessverteilung GP(0, k_b(·,·)). abgetastet.
Die erste Funktion f_s ist konfiguriert, einen latenten Zustand h^a(τ) eines Agenten a auf einen Beitrag $f_{s} (h^{a} (τ))$
zu einer Änderung seines latenten Zustands h^a(τ) abzubilden.
Die zweite Funktion f_b ist konfiguriert, die latenten Zustände h^a(τ), h^a'(τ) von mindestens zwei Agenten a, a' auf einen Beitrag $f_{b} (h^{a} (τ), h^{a'} (τ))$
zu einer Änderung eines latenten Zustands h^a(τ) eines Agenten (a) der mindestens zwei Agenten a, a' abzubilden.
Die Kinematikfunktion f_s und die Interaktionsfunktion f_b sind in kontinuierlicher Zeit unter Verwendung gewöhnlicher Differentialgleichungen definiert. Die Kinematikfunktion f_s und die Interaktionsfunktion f_b korrespondieren mit Zeitableitungen.
Das Verfahren umfasst einen Schritt 208.
In dem Schritt 208 wird ein latenter Zustand h^a(t_n) mindestens eines Agenten a zu einem Zeitpunkt t_n bestimmt.
Bestimmen des latenten Zustands h^a(t_n) des mindestens einen Agenten a zu dem Zeitpunkt t_n umfasst Ändern des anfänglichen latenten Zustands h^1:A(t₁) in Abhängigkeit von einem Ergebnis einer Integration $\int_{t_{1}}^{t_{n}} f_{s} (h^{a} (τ)) + \sum_{a' \neq a} f_{b} (h^{a} (τ), h^{a'} (τ)) d τ$
der Änderung von der Anfangszeit t₁ bis zu dem Zeitpunkt t_n. In einem Beispiel wird die Änderung für die Mehrzahl a = 1, ... A von Agenten bestimmt.
Der latente Zustand h^a(t_n) eines Agenten a, der aus dieser Änderung resultiert, wird zum Beispiel bestimmt als $h^{a} (t_{n}) = h^{a} (t_{1}) + \int_{t_{1}}^{t_{n}} f_{s} (h^{a} (τ)) + \sum_{a' \neq a} f_{b} (h^{a} (τ), h^{a'} (τ)) d τ$
In einem Beispiel wird der latente Zustand h^a(t_n) für die Mehrzahl a = 1, ...A von Agenten bestimmt.
In einem Beispiel umfasst das Verfahren, eine Teilmenge N_a der Mehrzahl a = 1, ... A von Agenten, die einen Agenten a umfasst, auszuwählen und die Änderung für diesen Agenten α in Abhängigkeit von anderen Agenten a' in der Teilmenge N_a zu bestimmen. Demgemäß werden nur die Agenten in einer Nachbarschaft dieses Agenten a verwendet. Die Agenten a' in der Teilmenge N_a werden zum Beispiel in Abhängigkeit von einem Maß für eine Distanz zwischen Agenten ausgewählt.
In einem Beispiel umfasst das Verfahren Ändern des latenten Zustands h^a(t_n) des mindestens einen Agenten a zu dem Zeitpunkt t_n in Abhängigkeit von mindestens einem Agenten a', der in der Teilmenge N_a ist, und unabhängig von mindestens einem Agenten der Mehrzahl von Agenten a = 1, ... A, der außerhalb der Teilmenge N_a ist. Der latente Zustand h^a(t_n) eines Agent a, der aus dieser Änderung resultiert, wird zum Beispiel bestimmt als $h^{a} (t_{n}) = h^{a} (t_{1}) + \int_{t_{1}}^{t_{n}} f_{s} (h^{a} (τ)) + \sum_{a' \in N_{a}} f_{b} (h^{a} (τ), h^{a'} (τ)) d τ$
Das Verfahren umfasst einen Schritt 210.
In dem Schritt 210 umfasst das Verfahren Bestimmen eines Ausgangs des Modells. $y^{a} (t_{n}) \sim p (y^{a} (t_{n}) | h^{a} (t_{n}))$
Der Ausgang in dem Beispiel ist eine Trajektorieabtastung y^a (t_n) für jeden Agenten a, die in dem Beispiel beschreibt, wie sich die Position und Geschwindigkeit des Agenten 102 im Verlauf der Zeit ändern würden.
Für die Inferenz kann das Verfahren enden oder kann zum Bestimmen eines anderen Ausgangs wiederholt werden, z. B. für eine andere Datensequenz $y_{1 : N}^{1 : A} .$
Der Ausgang kann verwendet werden, eine Aktion für mindestens einen Agenten 102 zu bestimmen. Eine Route, die der Agent 102 nimmt, wird zum Beispiel in Abhängigkeit von einer Position anderer Agenten bestimmt, um Kollisionen zu vermeiden. Zum Beispiel sendet die Aktion eine Anweisung an den Agenten 102, sich zu einer Zielposition zu bewegen. Die Anweisung kann an den Agenten 102 gesandt werden oder durch den Agenten 102 als seine Aktion ausgeführt werden. In einem Beispiel werden die Aktionen für die Agenten 102 in Abhängigkeit von dem Ausgang bestimmt.
Zum Trainieren kann das Verfahren einen Schritt 212 umfassen.
Der Schritt 212 umfasst Bestimmen der ersten Gaußschen Prozessverteilung GP(0, k_s(·,·) und/oder der zweiten Gaußschen Prozessverteilung GP(0, k_b(·,·).
In einem Beispiel wird während des Trainierens eine spärliche Approximation an ein Posterior für die erste Gaußsche Prozessverteilung GP(0,k_s(·,·)) erlernt. Die erste spärliche Gaußsche Prozessverteilung GP(0, k_s(·,·)) hat mehrere Variationsparameter, z. B. Mittelwerte und Varianzen von q(U), die iterativ im Training erlernt werden. Dieses Posterior wird zum Beispiel als die erste Gaußsche Prozessverteilung GP(0, k_s(·,·) in Schritt 204 bereitgestellt.
In einem Beispiel wird während des Trainierens eine spärliche Approximation an ein Posterior für die zweite Gaußsche Prozessverteilung GP(0, k_b(·,·) erlernt. Die zweite spärliche Gaußsche Prozessverteilung GP(0, k_b(·,·) hat mehrere Variationsparameter, z. B. Mittelwerte und Varianzen von q(U), die iterativ im Training erlernt werden. Dieses Posterior wird zum Beispiel in einer nächsten Iteration des Trainings als die zweite Gaußsche Prozessverteilung GP(0, k_b(·,·) in Schritt 204 bereitgestellt.
Das Training kann als Optimierungsziel verwenden, die Evidenzuntergrenze ELBO $log p (Y_{1 : N}) \geq E_{q} [log p (Y_{1 : N} | H_{1}, f, U)] - K L [q (H_{1}) ‖ p (H_{1})] - K L [q (U) ‖ p (U)]$
zu maximieren, wobei H₁~q_Φ(H₁|Y_1:N) und Φ die Parameter eines Codierers eines neuronalen Netzwerks sind, der eine Gaußsche Verteilung mit diagonaler Covarianz ausgibt, wobei p(H₁) = N(0, I) ein standardmäßiges Gaußscher Prior mit geeigneten Dimensionen für den anfänglichen latenten Zustand ist, mit U^(l)~q(U),f^(l)(·)~p(f|U), wobei q(H₁) ein approximatives Posterior der anfänglichen latenten Zustände ist, wobei l einen Abtastindex bezeichnet, wobei q(U) ist ein Variationsposterior über seine Induktionspunkte ist und wobei jede Ausgangsdimension d ∈ [1, D] ihre eigene unabhängige Menge von induzierenden Werten U_s,d, U_b,d ∈ ℝ^D und Kernelausgangsvarianzen $σ_{s, d}^{2}, σ_{b, d}^{2} \in ℝ_{+}$
aufweist. Mit f = (f_s,f_b}, f^(l)(·) werden die Funktion f_s,f_b bezeichnet, die aus der jeweiligen Gaußschen Prozessverteilung für die jeweilige Abtastung gezogen werden. In diesem Kontext ist die bedingte Verteilung von f(X) über die Eingänge X, bedingt durch die induzierenden Ausgänge U, ein Gaußscher Prozess $p (f | U) = N (f | K_{X Z} K_{Z Z}^{- 1} U, K_{X X} - K_{X Z} K_{Z Z}^{- 1} K_{Z X})$
in dem K_ZZ die Covarianz zwischen sämtlichen induzierenden Punkten Z und K_XZ die Covarianz zwischen induzierenden Punkten X und den induzierenden Punkten Z sind. Die Kernel k_b und k_s sind Funktionen $(x, x') = σ^{2} exp (- \frac{1}{2} \sum_{d = 1}^{D} \frac{{(x_{d} - x_{d}^{'})}^{2}}{l_{d}^{2}}),$
wobei x_d den d-ten Eintrag des Eingangs x bezeichnet, σ die jeweilige Varianz ist und l_d ein dimensionsbezogener Längenskalenparameter ist. Die Verwendung dieser Funktion k(x, x') ist wahlweise. Man könnte auch eine andere Kernelfunktion wählen.
Das Training kann auch umfassen, die Parameter Φ des Codierers des neuronalen Netzwerks und andere Parameter wie Varianz der Kernel oder eine Rauschvarianz zu erlernen.
Da diese ELBO keinen Ausdruck in geschlossener Form aufweist, werden die Trajektorieabtastungen $y_{n}^{a} (t_{n})$
für eine Approximation mit einem Erwartungswahrscheinlichkeitsterm $E_{q} [log p (Y_{1 : N} | \cdot)] \approx \frac{1}{L} \sum_{l, n, a} l o g N (y_{n}^{a} | B h_{n}^{a (l)}, σ_{e}^{2})$
verwendet, wobei der log-Wahrscheinlichkeitsterm zwischen Agenten und zwischen Zeitpunkten zerlegt wird, wodurch eine doppelte stochastische Variationsinferenz ermöglicht wird.
Die Terme KL['] korrespondieren mit einem Kullback-Leibler-Regularisierer. Die vorangehende Verteilung über die induzierenden Variablen folgt dem Gaußschen Prozess p(U) = p(U_s)p(U_b) with p(U_s) = N(f|µ_Us, K_UsUs) und p(U_b) = N(f|µ_Ub, K_UbUb). Der Kullback-Leibler-Regularisierer wird in dem Beispiel in geschlossener Form bestimmt.
In einem Beispiel umfasst das Modell gewöhnliche Differentialgleichungen zweiter Ordnung: $h^{a} (t) \equiv [s^{a} (t), v^{a} (t)]$
$\frac{d}{d t} h^{a} (t) = [v^{a} (t), \frac{d}{d t} v^{a} (t)]$
$\frac{d}{d t} v^{a} (t) = f_{s} (h^{a} (t)) + \sum_{a \neq a'} f_{b} (h^{a} (t), h^{a'} (t))$
Dies bedeutet, dass der latente Zustand h^a(t) des Agenten a eine erste Komponente s^a(t) und eine zweite Komponente v^a(t) umfasst. Das Verfahren umfasst Ändern des latenten Zustands h^a(t) des Agenten a in Abhängigkeit von der zweiten Komponente v^a(t) des latenten Zustands des Agenten a und eine Änderung $\frac{d}{d t} v^{a} (t)$
an der zweiten Komponente v^a(t) des latenten Zustands des Agenten a. Die zweite Komponente v^a(t) wird abhängig von dem Beitrag f_s(h^a(t)) an der Änderung des latenten Zustands des Agenten a und dem Beitrag f_b(h^a(t), h^a' (t)) an der Änderung des latenten Zustands des Agenten a geändert.
Dies erleichtert Inferenz, da es ansonsten nicht identifizierbare Probleme entfernt und eine erweiterte Interpretation der latenten Zustände s^a(t), v^a(t) ermöglicht. In dem Beispiel ist s^a(t) ein latenter Zustand korrespondierend mit einer Position und ist v^a(t) ein latenter Zustand korrespondierend mit einer Geschwindigkeit eines Agenten a. Die Implementierung des Verfahrens ist dementsprechend.
Gewöhnliche Differentialgleichungen zweiter Ordnung produzieren eine signifikant bessere Leistung als gewöhnliche Differentialgleichungen erster Ordnung, wenn Daten fehlen.

Claims

Computer-implementiertes Verfahren zur zeitkontinuierlichen Interaktionsmodellierung von Agenten, gekennzeichnet durch Bereitstellen (202) eines latenten Zustands eines ersten Agenten und eines latenten Zustands eines zweiten Agenten, insbesondere Charakterisieren einer Position oder einer Geschwindigkeit dieser Agenten (102), Bereitstellen (204) einer ersten Gaußschen Prozessverteilung für eine erste Funktion zur Modellierung eines kinematischen Verhaltens eines Agenten unabhängig von anderen Agenten und einer zweiten Gaußschen Prozessverteilung für eine zweite Funktion zur Modellierung einer Interaktion zwischen Agenten, Abtasten (206) der ersten Funktion von der ersten Gaußschen Prozessverteilung und der zweiten Funktion von der zweiten Gaußschen Prozessverteilung, wobei die erste Funktion konfiguriert ist zum Abbilden eines latenten Zustands eines Agenten auf einen Beitrag zu einer Änderung seines latenten Zustands, wobei die zweite Funktion konfiguriert ist zum Abbilden des latenten Zustands von zwei Agenten auf einen Beitrag zu einer Änderung eines latenten Zustands eines der zwei Agenten, wobei das Verfahren Ändern (208) des latenten Zustands des ersten Agenten in Abhängigkeit von einem ersten Beitrag, der aus Abbilden des latenten Zustands des ersten Agenten mit der ersten Funktion auf den ersten Beitrag resultiert, und einem zweiten Beitrag, der aus einem Abbilden des latenten Zustands des ersten Agenten und des latenten Zustands des zweiten Agenten mit der zweiten Funktion auf den zweiten Beitrag resultiert, umfasst.
Verfahren nach Anspruch 1, gekennzeichnet durch Bereitstellen (202) eines anfänglichen latenten Zustands einer Mehrzahl von Agenten, die den ersten Agenten und den zweiten Agenten enthält, und entweder Ändern (208) des latenten Zustands des ersten Agenten in Abhängigkeit von den zweiten Beiträgen, die aus Abbilden von Paaren des latenten Zustands des ersten Agenten und verschiedenen zweiten Agenten der Mehrzahl von Agenten mit der zweiten Funktion resultieren, oder Auswählen (208) einer Teilmenge der Mehrzahl von Agenten, Ändern (208) des latenten Zustands des ersten Agenten in Abhängigkeit von den zweiten Beiträgen, die aus Abbilden von Paaren des latenten Zustands des ersten Agenten und verschiedenen zweiten Agenten der Teilmenge mit der zweiten Funktion resultieren.
Verfahren nach Anspruch 2, gekennzeichnet durch Bestimmen (208) von Agenten aus der Mehrzahl von Agenten für die Teilmenge, die gemäß einem Maß für eine Distanz zwischen Agenten näher zu dem ersten Agenten als andere Agenten der Mehrzahl von Agenten sind.
Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch Bereitstellen (200) einer Datensequenz $(y_{1 : N}^{1 : A}),$
wobei Bereitstellen (202) des anfänglichen latenten Zustands des ersten Agenten und/oder des zweiten Agenten Bestimmen seines anfänglichen latenten Zustands mit einem Codierer, der konfiguriert ist, die Datensequenz auf seinen anfänglichen latenten Zustand abzubilden, umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch Bestimmen (210) eines Ausgangs in Abhängigkeit von dem latenten Zustand des ersten Agenten, insbesondere einer Trajektorieabtastung, vorzugsweise einer Trajektorie einer Position und/oder Geschwindigkeit des ersten Agenten im Verlauf der Zeit.
Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass die erste Gaußsche Prozessverteilung ein Posterior umfasst, wobei das Verfahren Erlernen (212) einer insbesondere spärlichen Approximation an das Posterior für die erste Gaußsche Prozessverteilung, die Variationsparameter beinhaltet, und Bereitstellen (204) der Approximation für die erste Gaußsche Prozessverteilung als die erste Gaußsche Prozessverteilung umfasst, und/oder dadurch, dass die zweite Gaußsche Prozessverteilung ein Posterior umfasst, wobei das Verfahren Erlernen (212) einer insbesondere spärlichen Approximation an das Posterior für die zweite Gaußsche Prozessverteilung, die Variationsparameter beinhaltet, und Bereitstellen (204) der Approximation für die zweite Gaußsche Prozessverteilung als die zweite Gaußsche Prozessverteilung umfasst.
Verfahren nach einem der Ansprüche 5 oder 6, gekennzeichnet durch Bestimmen (212) der ersten Gaußschen Prozessverteilung oder der zweiten Gaußschen Prozessverteilung mit einem Erwartungswahrscheinlichkeitsterm, der von dem Ausgang abhängt und der zwischen Agenten und zwischen Zeitpunkten zerlegt wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der latente Zustand des ersten Agenten eine erste Komponente und eine zweite Komponente umfasst, wobei das Verfahren Ändern des latenten Zustands der ersten Komponente des latenten Zustands des ersten Agenten in Abhängigkeit von der zweiten Komponente des latenten Zustands des ersten Agenten und eine Änderung an der zweiten Komponente des latenten Zustands des ersten Agenten umfasst, wobei die zweite Komponente des latenten Zustands des ersten Agenten in Abhängigkeit von dem ersten Beitrag zur Änderung des latenten Zustands des ersten Agenten und von dem zweiten Beitrag zur Änderung des latenten Zustands des ersten Agenten geändert wird.
Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch Bestimmen einer Aktion für den ersten Agenten in Abhängigkeit von dem Ausgang.
Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch Bestimmen (200, 202) des latenten Zustands des ersten Agenten und des latenten Zustands des zweiten Agenten in Abhängigkeit von einer Messung einer Sequenz von beobachtbaren Zuständen der Agenten (102).
Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass der erste Agent ein existierendes Objekt in der physikalischen Welt ist, wobei der latente Zustand des ersten Agenten in Abhängigkeit von einer Messung einer Eigenschaft des ersten Agenten bestimmt wird (200), und/oder dadurch, dass der zweite Agent ein existierendes Objekt in der physikalischen Welt ist, wobei der latente Zustand des zweiten Agenten in Abhängigkeit von einer Messung einer Eigenschaft des zweiten Agenten bestimmt wird (202), insbesondere wobei die Messung Positionsdaten umfasst, insbesondere von einem Satelliten-Navigationssystem, oder insbesondere digitale Bilder, vorzugsweise Videobilder, Radarbilder, LiDAR-Bilder, Ultraschallbilder, Bewegungsbilder und/oder Wärmebilder, vorzugsweise aus Informationen über eine Position oder eine Geschwindigkeit der Agenten (102).
Vorrichtung (100) für zeitkontinuierliche Interaktionsmodellierung von Agenten, dadurch gekennzeichnet, dass die Vorrichtung (100) mindestens einen Prozessor (104) und mindestens einen Speicher (106) umfasst, die konfiguriert sind, Schritte in dem Verfahren nach einem der Ansprüche 1 bis 11 auszuführen.
Vorrichtung (100) nach Anspruch 12, dadurch gekennzeichnet, dass die Vorrichtung (100) eine Schnittstelle (108) umfasst, die angepasst ist, eine zeitkontinuierliche Interaktion der Agenten (102) zu beobachten, insbesondere eine Messung einer Sequenz von beobachtbaren Zuständen, insbesondere digitale Bilder, vorzugsweise Videobilder, Radarbilder, LiDAR-Bilder, Ultraschallbilder, Bewegungsbilder und/oder Wärmebilder, zu erfassen oder Informationen über eine zeitkontinuierliche Interaktion der Agenten (102) zu empfangen.
Vorrichtung (100) nach Anspruch 13, dadurch gekennzeichnet, dass die Schnittstelle (108) angepasst ist, eine Aktion von mindestens einem der Agenten (102) in Abhängigkeit von dem Ausgang nach Anspruch 5 oder der Aktion nach Anspruch 9 zu steuern.
Computerprogramm, dadurch gekennzeichnet, dass das Computerprogramm computerlesbare Anweisungen umfasst, die, wenn sie durch einen Computer ausgeführt werden, den Computer veranlassen, das Verfahren nach einem der Ansprüche 1 bis 11 auszuführen.