-
Stand der Technik
-
Die Erfindung betrifft eine Vorrichtung und ein computer-implementiertes Verfahren zur zeitkontinuierlichen Interaktionsmodellierung von Agenten, insbesondere Subjekte von Objekten.
-
Erlernen des Verhaltens von unbekannten dynamischen Systemen aus Daten ist ein grundlegendes Problem beim Maschinenlernen.
-
Offenbarung der Erfindung
-
Das computer-implementierte Verfahren und die Vorrichtung gemäß den unabhängigen Ansprüchen verwenden ein Modell, das auf Gaußschen Prozessen, GPs, basiert und zeitkontinuierlich operiert und die komplexe kontinuierliche Dynamik in unabhängige Kinematik- und Interaktionskomponenten zerlegt, um interpretierbare nichtlineare Dynamik zu berücksichtigen. In diesem Modell werden die unabhängigen Kinematiken der Agenten und ihre Interaktionen getrennt voneinander behandelt. Die Regularisierung auf Funktionsebene mittels GPs ist der Schlüssel zum Erlernen der entflochtenen Repräsentationen. Das Modell basiert auf einer gewöhnlichen Differentialgleichung, ODE. Diese berücksichtigt viele komplexe Dynamiken, die eine natürliche Darstellung in Form von Zeitdifferentialen haben. Die zeitkontinuierliche Formulierung ermöglicht die unkomplizierte Integration von Domänenwissen, indem sie die induktive Ausrichtung des Modells nutzt. So werden die Kinematik der Objekte und ihre Interaktionen separat mit zwei unterschiedlichen Gaußschen Prozessen modelliert.
-
Das computer-implementierte Verfahren zur zeitkontinuierlichen Interaktionsmodellierung von Agenten umfasst Bereitstellen eines latenten Zustands eines ersten Agenten und eines latenten Zustands eines zweiten Agenten, insbesondere Charakterisieren einer Position oder einer Geschwindigkeit dieser Agenten, Bereitstellen einer ersten Gaußschen Prozessverteilung für eine erste Funktion zur Modellierung eines kinematischen Verhaltens eines Agenten unabhängig von anderen Agenten und einer zweiten Gaußschen Prozessverteilung für eine zweite Funktion zur Modellierung einer Interaktion zwischen Agenten, Abtasten der ersten Funktion von der ersten Gaußschen Prozessverteilung und der zweiten Funktion von der zweiten Gaußschen Prozessverteilung, wobei die erste Funktion zum Abbilden eines latenten Zustands eines Agenten auf einen Beitrag zu einer Änderung seines latenten Zustands konfiguriert ist, wobei die zweite Funktion zum Abbilden des latenten Zustands von zwei Agenten auf einen Beitrag zu einer Änderung eines latenten Zustands eines der zwei Agenten konfiguriert ist, wobei das Verfahren Ändern des latenten Zustands des ersten Agenten in Abhängigkeit von einem ersten Beitrag, der aus Abbilden des latenten Zustands des ersten Agenten mit der ersten Funktion auf den ersten Beitrag resultiert, und einem zweiten Beitrag, der aus einem Abbilden des latenten Zustands des ersten Agenten und des latenten Zustands des zweiten Agenten mit der zweiten Funktion auf den zweiten Beitrag resultiert, umfasst.
-
Das Verfahren umfasst vorzugsweise Bereitstellen eines anfänglichen latenten Zustands einer Mehrzahl von Agenten, die den ersten Agenten und den zweiten Agenten enthält, und entweder Ändern des latenten Zustands des ersten Agenten in Abhängigkeit von den zweiten Beiträgen, die aus Abbilden von Paaren des latenten Zustands des ersten Agenten und verschiedenen zweiten Agenten der Mehrzahl von Agenten mit der zweiten Funktion resultieren, oder Auswählen einer Teilmenge der Mehrzahl von Agenten, Ändern des latenten Zustands des ersten Agenten in Abhängigkeit von den zweiten Beiträgen, die aus Abbilden von Paaren des latenten Zustands des ersten Agenten und verschiedenen zweiten Agenten der Teilmenge mit der zweiten Funktion resultieren. Demgemäß berücksichtigt das Verfahren entweder alle Agenten, die sich vom ersten Agenten unterscheiden, oder eine Nachbarschaft des Agenten für die Interaktionen. Agenten, die sich nicht in der Nachbarschaft eines Agenten befinden, werden mit geringerer Wahrscheinlichkeit mit dem Agenten interagieren. Dies reduziert den Rechenaufwand und erhält gleichzeitig eine angemessene Genauigkeit des Modells.
-
Das Verfahren umfasst vorzugsweise Bestimmen von Agenten aus der Mehrzahl von Agenten für die Teilmenge, die gemäß einem Maß für eine Distanz zwischen Agenten näher zu dem ersten Agenten als andere Agenten der Mehrzahl von Agenten sind. Demgemäß berücksichtigt das Verfahren eine Nachbarschaft des Agenten für die Interaktionen. Die Metrik kann ein Maß für jede Art von Eigenschaften von Agenten sein. Für Bewegungen von Agenten ist ihre Distanz zueinander eine bevorzugte Metrik.
-
Das Verfahren umfasst vorzugsweise Bereitstellen einer Datensequenz, wobei Bereitstellen des anfänglichen latenten Zustands des ersten Agenten und/oder des zweiten Agenten Bestimmen seines anfänglichen latenten Zustands mit einem Codierer umfasst, der konfiguriert ist, die Datensequenz auf seinen anfänglichen latenten Zustand abzubilden.
-
Das Verfahren umfasst vorzugsweise Bestimmen eines Ausgangs in Abhängigkeit von dem latenten Zustand des ersten Agenten, insbesondere einer Trajektorieabtastung, vorzugsweise einer Trajektorie einer Position und/oder Geschwindigkeit des ersten Agenten im Verlauf der Zeit. Der Ausgang kann sich auf jede Art von Eigenschaften der Agenten beziehen. Für Bewegungen von Agenten sind Trajektorieabtastungen ein bevorzugter Ausgang.
-
Vorzugsweise umfasst die erste Gaußsche Prozessverteilung ein Posterior, wobei das Verfahren Erlernen einer insbesondere spärlichen Approximation an das Posterior für die erste Gaußsche Prozessverteilung, die Variationsparameter beinhaltet, und Bereitstellen der Approximation für die erste Gaußsche Prozessverteilung als die erste Gaußsche Prozessverteilung umfasst und/oder wobei die zweite Gaußsche Prozessverteilung ein Posterior umfasst, wobei das Verfahren Erlernen einer insbesondere spärlichen Approximation an das Posterior für die zweite Gaußsche Prozessverteilung, die Variationsparameter beinhaltet, und Bereitstellen der Approximation für die zweite Gaußsche Prozessverteilung als die zweite Gaußsche Prozessverteilung umfasst. Auf diese Weise werden die Parameter, die die Gaußsche Prozessverteilung definieren, für unbekannte Funktionen erlernt.
-
Das Verfahren umfasst vorzugsweise Bestimmen der ersten Gaußsche Prozessverteilung oder der zweiten Gaußsche Prozessverteilung mit einem Erwartungswahrscheinlichkeitsterm, der von dem Ausgang abhängt und der zwischen Agenten und zwischen Zeitpunkten zerlegt wird. Der Wahrscheinlichkeitsterm ist eine Approximation eines Teils einer Evidenzuntergrenze, ELBO, die gestattet, die Parameter zu bestimmen, die die Gaußsche Prozessverteilung definieren.
-
Das Verfahren kann auf gewöhnliche Differentialgleichungen zweiter Ordnung angewandt werden, wobei der latente Zustand des ersten Agenten eine erste Komponente und eine zweite Komponente umfasst, wobei das Verfahren Ändern des latenten Zustands der ersten Komponente des latenten Zustands des ersten Agenten in Abhängigkeit von der zweiten Komponente des latenten Zustands des ersten Agenten und eine Änderung an der zweiten Komponente des latenten Zustands des ersten Agenten, wobei die zweite Komponente in Abhängigkeit von dem ersten Beitrag zur Änderung des latenten Zustands des ersten Agenten und von dem zweiten Beitrag zur Änderung des latenten Zustands des ersten Agenten geändert wird, umfasst.
-
Zum Steuern des ersten Agenten kann das Verfahren Bestimmen einer Aktion für den ersten Agenten in Abhängigkeit von dem Ausgang umfassen.
-
Das Verfahren umfasst vorzugsweise Bestimmen des latenten Zustands des ersten Agenten und des latenten Zustands des zweiten Agenten in Abhängigkeit von einer Messung einer Sequenz von beobachtbaren Zuständen der Agenten.
-
Der erste Agent kann ein existierendes Objekt in der physikalischen Welt sein, wobei der latente Zustand des ersten Agenten in Abhängigkeit von einer Messung einer Eigenschaft des ersten Agenten bestimmt wird, und/oder wobei der zweite Agent ein existierendes Objekt in der physikalischen Welt sein kann, wobei der latente Zustand des zweiten Agenten in Abhängigkeit von einer Messung einer Eigenschaft des zweiten Agenten bestimmt wird, insbesondere wobei die Messung Positionsdaten umfasst, insbesondere von einem Satelliten-Navigationssystem, oder insbesondere digitale Bilder, vorzugsweise Videobilder, Radarbilder, LiDAR-Bilder, Ultraschallbilder, Bewegungsbilder und/oder Wärmebilder, vorzugsweise aus Informationen über eine Position oder eine Geschwindigkeit der Agenten. Dies gestattet Bestimmen der latenten Zustände aus einer Messung und insbesondere eine entsprechende Steuerung des ersten Agenten.
-
Die Vorrichtung für zeitkontinuierliche Interaktionsmodellierung von Agenten umfasst mindestens einen Prozessor und mindestens einen Speicher, die konfiguriert sind, Schritte in dem Verfahren auszuführen. Diese Vorrichtung weist Vorteile auf, die mit den Vorteilen des Verfahrens korrespondieren.
-
Die Vorrichtung umfasst vorzugsweise eine Schnittstelle, die angepasst ist, eine zeitkontinuierliche Interaktion der Agenten zu beobachten, insbesondere digitale Bilder, vorzugsweise Videobilder, Radarbilder, LiDAR-Bilder, Ultraschallbilder, Bewegungsbilder und/oder Wärmebilder, oder Informationen über eine zeitkontinuierliche Interaktion der Agenten zu empfangen.
-
Die Schnittstelle kann angepasst sein, eine Aktion mindestens eines der Agenten in Abhängigkeit von dem Ausgang oder der Aktion zu steuern.
-
Ein Computerprogramm, das computerlesbare Anweisungen umfasst, die, wenn sie durch einen Computer ausgeführt werden, den Computer veranlassen, das Verfahren auszuführen, stellt Vorteile bereit, die mit den Vorteilen des Verfahrens korrespondieren.
-
Weitere vorteilhafte Ausführungsform werden von der folgenden Beschreibung und der Zeichnung abgeleitet. In der Zeichnung zeigen:
- 1 schematisch eine Vorrichtung für zeitkontinuierliche Interaktionsmodellierung von Agenten,
- 2 Schritte in einem Verfahren für zeitkontinuierliche Interaktionsmodellierung von Agenten.
-
1 zeigt eine Vorrichtung 100 für zeitkontinuierliche Interaktionsmodellierung von Agenten 102. In 1 sind vier Agenten 102 dargestellt. Es können mehr oder weniger als vier Agenten 102 vorhanden sein.
-
Die Vorrichtung 100 umfasst mindestens einen Prozessor 104 und mindestens einen Speicher 106. Die Vorrichtung 100 kann eine Schnittstelle 108 umfassen.
-
Der mindestens eine Prozessor 104 ist angepasst, Schritte eines nachstehend beschriebenen Verfahrens auszuführen. Der mindestens eine Speichert 106 ist angepasst, Anweisungen zu speichern, insbesondere ein Computerprogramm, das, wenn es durch den mindestens einen Prozessor 104 ausgeführt wird, den Prozessor 104 veranlasst, die Schritte des Verfahrens auszuführen.
-
Die Schnittstelle 108 ist in einem Beispiel angepasst, eine zeitkontinuierliche Interaktion der Agenten 102 zu beobachten oder Informationen über eine zeitkontinuierliche Interaktion der Agenten 102 zu empfangen. Die Schnittstelle 108 ist in einem Beispiel angepasst, eine Aktion mindestens eines der Agenten 102 zu steuern.
-
Die Informationen werden zum Beispiel in digitalen Bildern bereitgestellt, z. B. Videobilder, Radarbilder, LiDAR-Bilder, Ultraschallbilder, Bewegungsbilder und/oder Wärmebilder.
-
Die zeitkontinuierliche Interaktion der Agenten 102 umfasst zum Beispiel eine Position oder eine Geschwindigkeit der Agenten 102. Die Position kann eine relative Position, z. B. eine Distanz zwischen Paaren von Agenten 102, oder eine absolute Position von Agenten 102 sein.
-
In dem Beispiel umfasst ein System 110 die Agenten 102. Das System 110 kann ein physikalisches System sein. Die Agenten 102 können physikalische Systeme sein, insbesondere technische Systeme. Die Agenten 102 können existierende reale Objekte in der physikalischen Welt sein. Die Agenten 102 können Fahrzeuge, Fußgänger oder andere sich bewegende Objekte wie Bälle umfassen.
-
Das System 110 umfasst eine Umgebung 112. Die Umgebung 112 kann eine Straßeninfrastruktur oder eine Gebäudeinfrastruktur umfassen. Die Agenten 102 in dem Beispiel bewegen sich in der Umgebung 112 und können durch die Umgebung 112 beeinflusst werden. Die Agenten 102 können Objekte der Umgebung 112 umfassen, z. B. stationäre Infrastruktursysteme, die ein Teil der Umgebung 112 sind. Das System 110 in dem Beispiel folgt bestimmten physikalischen Regeln. Eine physikalische Regel ist zum Beispiel, das ein Integral einer Geschwindigkeit eine Position ist.
-
Die zeitkontinuierliche Interaktion ist nicht auf diese physikalischen Quantitäten beschränkt. Die zeitkontinuierliche Interaktion kann andere physikalische Quantitäten, technische Quantitäten oder chemikalische Quantitäten umfassen. Die zeitkontinuierliche Interaktion kann außerdem globale latente Variable beinhalten, z. B., agentenspezifische Eigenschaften wie Masse oder Radius.
-
2 zeigt Schritte in dem Verfahren für zeitkontinuierliche Interaktionsmodellierung von Agenten.
-
Das Verfahren hängt von einem Modell ab:
wobei f
s(·) eine erste Gaußsche Prozessverteilung ist, d. h. ein Gaußscher Prozess, und f
b(·) eine zweite Gaußsche Prozessverteilung ist, d. h. ein Gaußscher Prozess, und mit einer Gaußschen Normalverteilung N(0,I) über einem anfänglichen latenten Zustand
und unter der Annahme, dass die Datenwahrscheinlichkeit über Zeit und Agenten zerlegt wird. Der latente Zustand
eines Agenten a zu einer beliebigen Zeit t ist in dem Beispiel ein D-dimensionaler Vektor. Der latente Zustand
kann in demselben Raum wie eine Messung
die zu einer physikalischen Eigenschaft des Agenten a. in Beziehung steht, sein oder nicht. In einem Beispiel
ist B ∈ ℝ
O×D fest, ist B = [I,0] mit I ∈ ℝ
O×O, 0 ∈ ℝ
O×D-O und bildet von einem interpretierbaren latenten Raum in einen beobachtbaren Raum ab und ist
eine Rauschvarianz.
-
Das Modell hängt von einer Schätzung von zwei additiven Funktionen ab, eine Kinematikfunktion fs: ℝD → ℝD und eine Interaktionsfunktion fb: ℝ2D → ℝD, die voneinander unabhängig sind.
-
Die Kinematikfunktion fs in dem Beispiel lernt, wie sich ein Agent im Lauf der Zeit bewegen würde, wenn keine anderen Agenten vorhanden wären, und ist folglich von anderen Agenten unabhängig. Die Interaktionsfunktion fb in dem Beispiel lernt, wie Agenten miteinander interagieren.
-
Das Verfahren wird für eine Mehrzahl a = 1,... ,A von Agenten a beschrieben.
-
Das Verfahren in einem Beispiel umfasst Bestimmen, für jeden Agenten a, seiner Dynamik in Abhängigkeit von einer Summation, bestehend aus A Termen, d. h. einem unabhängigen Kinematiker, der von der Kinematikfunktion fs abhängt, und in dem Beispiel A - 1 Interaktionsterme, die jeweils eine Interaktion des Agenten a mit einem der übrigen A - 1 Agenten a' durch eine Interaktionsfunktion fb modellieren. Das Verfahren ist nicht auf Bestimmen der Dynamik jedes Agenten a beschränkt. Das Verfahren kann außerdem Bestimmen der Dynamik für eine Teilmenge der Mehrzahl a = 1, ...,A von Agenten oder eines einzelnen Agenten a der Mehrzahl a = 1, ..., A von Agenten umfassen. Das Verfahren ist nicht auf Bestimmen der Dynamik eines Agenten a in Abhängigkeit von seiner Interaktion mit den übrigen A - 1 Agenten a' beschränkt. Das Verfahren kann Bestimmen der Dynamik eines Agenten a in Abhängigkeit von einer Teilmenge Na der Mehrzahl a = 1, ...,A von Agenten oder in Abhängigkeit von einem Agenten a' der Mehrzahl a = 1, ...,A von Agenten umfassen. Die Teilmenge Na ist in einem Beispiel eine Nachbarschaft des Agenten a.
-
Das Verfahren operiert in dem Beispiel auf einer Datenmenge von P Sequenzen
wobei
Messungen von A Agenten zu N Zeitpunkten
umfasst.
-
Das Verfahren umfasst einen Schritt 200.
-
In dem Schritt 200 wird eine Datensequenz
bereitgestellt.
-
Gemäß dem beispielhaften Verfahren werden die Agenten 102 des Systems 110 über eine feste Zeitdauer beobachtet. In dem Beispiel repräsentiert die Mehrzahl a = 1, ...A von Agenten a die Agenten 102 und repräsentiert die Datensequenz
die beobachteten Quantitäten für die Mehrzahl a = 1, ... A von Agenten a innerhalb eines Zeitintervalls [t
1, t
N]. In einem Beispiel umfasst die Datensequenz
die Positionen und Geschwindigkeiten der Agenten 102, die zu bestimmten Zeiten gemessen werden.
-
Die Datensequenz
kann eine Sequenz von beobachtbaren Zuständen der Agenten 102 sein. Die beobachtbaren Zustände können in Abhängigkeit von einer Messung bestimmt werden. Die beobachtbaren Zustände können insbesondere aus digitalen Bildern bestimmt werden, vorzugsweise Videobilder, Radarbilder, LiDAR-Bilder, Ultraschallbilder, Bewegungsbilder und/oder Wärmebilder des Systems 110. Diese umfassen in dem Beispiel Informationen über die Position und Geschwindigkeit der Agenten 102.
-
Das Verfahren umfasst einen Schritt 202.
-
In dem Schritt 202 wird ein anfänglicher latenter Zustand
mindestens eines Agenten a zu einer Anfangszeit t
1 bereitgestellt.
-
Bereitstellen des anfänglichen latenten Zustands
des mindestens einen der Agenten a kann umfassen, den anfänglichen latenten Zustand
mindestens eines der Agenten a mit einem Codierer
zu bestimmen, der konfiguriert ist, die Datensequenz
auf den anfänglichen latenten Zustand
abzubilden. In dem Beispiel wird der anfängliche latente Zustand
der Mehrzahl a = 1, ... A von Agenten a mit dem Codierer
bestimmt.
-
In dem beispielhaften Verfahren werden die Anfangswerte für die Agenten a, die für die gewöhnliche Differentialgleichungsintegration benötigt werden, bestimmt. Diese Anfangswerte könnten im Allgemeinen verschiedene Dinge repräsentieren. In dem Beispiel korrespondieren die Anfangswerte mit der anfänglichen Position und Geschwindigkeit des jeweiligen Agenten a. Die Anfangswerte repräsentieren in dem Beispiel den anfänglichen latenten Zustand
des Systems 110 zu der Anfangszeit t
1.
-
Der Codierer qΘ in dem Beispiel ist eine Kombination aus rekurrentem neuronalem Netzwerk und Mehrschicht-Perzeptron. Ein anderer beispielhafter Codierer würde grafische neuronale Netzwerkschichten enthalten, um Interaktionen zu erfassen. Der Codierer qΘ kann auch eine andere neuronale Netzwerkarchitektur sein. Der Codierer qΘ ist konfiguriert, eine Verteilung und nicht einen einzelnen Wert auszugeben.
-
Falls das Modell die globalen latenten Variablen beinhaltet, z. B. objektspezifische Eigenschaften wie Masse oder Radius, kann ein anderer Codierer verwendet werden, diese Variablen zu extrahieren. Beide Codierer können die gleiche Architektur aufweisen. Beide Codierer geben Verteilungen und nicht einzelne Werte aus.
-
Das Verfahren umfasst einen Schritt 204.
-
In dem Schritt 204 wird die erste Gaußsche Prozessverteilung GP(0, ks(·,·)) für die erste Funktion fs zum Modellieren des kinematischen Verhaltens eines Agenten a unabhängig von anderen Agenten a' bereitgestellt.
-
In dem Schritt 204 wird die zweite Gaußsche Prozessverteilung GP(0, kb(·,·)) für die zweite Funktion fb zum Modellieren der Interaktion zwischen Agenten a, a'. bereitgestellt.
-
Die Kinematikfunktion fs und die Interaktionsfunktion fb sind in einem Beispiel unbekannt. Die erste Gaußsche Prozessverteilung GP(0, ks(·,·)) wird in einem Beispiel auf die Kinematikfunktion fs gelegt. Die zweite Gaußsche Prozessverteilung GP(0,kb(·,·)) wird in einem Beispiel auf die Interaktionsfunktion fb gelegt. Das Verfahren ist nicht auf die erste Gaußsche Prozessverteilung GP(0, ks(·,·)) mit Mittelwert Null und Kernel ks(·,·) beschränkt. Das Verfahren ist nicht auf die zweite Gaußsche Prozessverteilung GP(0, kb(·,·)) mit Mittelwert Null und Kernel kb(·,·) beschränkt. Das Verfahren kann auch einen Mittelwert ungleich null verwenden. Die erste Gaußsche Prozessverteilung GP(0, ks(·,·)) kann durch einen spärlichen Gaußschen Prozess approximiert werden und die zweite Gaußsche Prozessverteilung GP(0, kb(·,·)) kann durch einen spärlichen Gaußschen Prozess approximiert werden, um wirksames Training und Vorhersagen zu ermöglichen.
-
Das Verfahren umfasst einen Schritt 206.
-
In dem Schritt 206 wird die erste Funktion fs von der ersten Gaußschen Prozessverteilung GP(0,ks(·,·)) abgetastet.
-
In dem Schritt 206 wird die zweite Funktion fb von der zweiten Gaußschen Prozessverteilung GP(0, kb(·,·)). abgetastet.
-
Die erste Funktion f
s ist konfiguriert, einen latenten Zustand h
a(τ) eines Agenten a auf einen Beitrag
zu einer Änderung seines latenten Zustands h
a(τ) abzubilden.
-
Die zweite Funktion f
b ist konfiguriert, die latenten Zustände h
a(τ), h
a'(τ) von mindestens zwei Agenten a, a' auf einen Beitrag
zu einer Änderung eines latenten Zustands h
a(τ) eines Agenten (a) der mindestens zwei Agenten a, a' abzubilden.
-
Die Kinematikfunktion fs und die Interaktionsfunktion fb sind in kontinuierlicher Zeit unter Verwendung gewöhnlicher Differentialgleichungen definiert. Die Kinematikfunktion fs und die Interaktionsfunktion fb korrespondieren mit Zeitableitungen.
-
Das Verfahren umfasst einen Schritt 208.
-
In dem Schritt 208 wird ein latenter Zustand ha(tn) mindestens eines Agenten a zu einem Zeitpunkt tn bestimmt.
-
Bestimmen des latenten Zustands h
a(t
n) des mindestens einen Agenten a zu dem Zeitpunkt t
n umfasst Ändern des anfänglichen latenten Zustands h
1:A(t
1) in Abhängigkeit von einem Ergebnis einer Integration
der Änderung von der Anfangszeit t
1 bis zu dem Zeitpunkt t
n. In einem Beispiel wird die Änderung für die Mehrzahl a = 1, ... A von Agenten bestimmt.
-
Der latente Zustand h
a(t
n) eines Agenten a, der aus dieser Änderung resultiert, wird zum Beispiel bestimmt als
-
In einem Beispiel wird der latente Zustand ha(tn) für die Mehrzahl a = 1, ...A von Agenten bestimmt.
-
In einem Beispiel umfasst das Verfahren, eine Teilmenge Na der Mehrzahl a = 1, ... A von Agenten, die einen Agenten a umfasst, auszuwählen und die Änderung für diesen Agenten α in Abhängigkeit von anderen Agenten a' in der Teilmenge Na zu bestimmen. Demgemäß werden nur die Agenten in einer Nachbarschaft dieses Agenten a verwendet. Die Agenten a' in der Teilmenge Na werden zum Beispiel in Abhängigkeit von einem Maß für eine Distanz zwischen Agenten ausgewählt.
-
In einem Beispiel umfasst das Verfahren Ändern des latenten Zustands h
a(t
n) des mindestens einen Agenten a zu dem Zeitpunkt t
n in Abhängigkeit von mindestens einem Agenten a', der in der Teilmenge N
a ist, und unabhängig von mindestens einem Agenten der Mehrzahl von Agenten a = 1, ... A, der außerhalb der Teilmenge N
a ist. Der latente Zustand h
a(t
n) eines Agent a, der aus dieser Änderung resultiert, wird zum Beispiel bestimmt als
-
Das Verfahren umfasst einen Schritt 210.
-
In dem Schritt 210 umfasst das Verfahren Bestimmen eines Ausgangs des Modells.
-
Der Ausgang in dem Beispiel ist eine Trajektorieabtastung ya (tn) für jeden Agenten a, die in dem Beispiel beschreibt, wie sich die Position und Geschwindigkeit des Agenten 102 im Verlauf der Zeit ändern würden.
-
Für die Inferenz kann das Verfahren enden oder kann zum Bestimmen eines anderen Ausgangs wiederholt werden, z. B. für eine andere Datensequenz
-
Der Ausgang kann verwendet werden, eine Aktion für mindestens einen Agenten 102 zu bestimmen. Eine Route, die der Agent 102 nimmt, wird zum Beispiel in Abhängigkeit von einer Position anderer Agenten bestimmt, um Kollisionen zu vermeiden. Zum Beispiel sendet die Aktion eine Anweisung an den Agenten 102, sich zu einer Zielposition zu bewegen. Die Anweisung kann an den Agenten 102 gesandt werden oder durch den Agenten 102 als seine Aktion ausgeführt werden. In einem Beispiel werden die Aktionen für die Agenten 102 in Abhängigkeit von dem Ausgang bestimmt.
-
Zum Trainieren kann das Verfahren einen Schritt 212 umfassen.
-
Der Schritt 212 umfasst Bestimmen der ersten Gaußschen Prozessverteilung GP(0, ks(·,·) und/oder der zweiten Gaußschen Prozessverteilung GP(0, kb(·,·).
-
In einem Beispiel wird während des Trainierens eine spärliche Approximation an ein Posterior für die erste Gaußsche Prozessverteilung GP(0,ks(·,·)) erlernt. Die erste spärliche Gaußsche Prozessverteilung GP(0, ks(·,·)) hat mehrere Variationsparameter, z. B. Mittelwerte und Varianzen von q(U), die iterativ im Training erlernt werden. Dieses Posterior wird zum Beispiel als die erste Gaußsche Prozessverteilung GP(0, ks(·,·) in Schritt 204 bereitgestellt.
-
In einem Beispiel wird während des Trainierens eine spärliche Approximation an ein Posterior für die zweite Gaußsche Prozessverteilung GP(0, kb(·,·) erlernt. Die zweite spärliche Gaußsche Prozessverteilung GP(0, kb(·,·) hat mehrere Variationsparameter, z. B. Mittelwerte und Varianzen von q(U), die iterativ im Training erlernt werden. Dieses Posterior wird zum Beispiel in einer nächsten Iteration des Trainings als die zweite Gaußsche Prozessverteilung GP(0, kb(·,·) in Schritt 204 bereitgestellt.
-
Das Training kann als Optimierungsziel verwenden, die Evidenzuntergrenze ELBO
zu maximieren, wobei H
1~q
Φ(H
1|Y
1:N) und Φ die Parameter eines Codierers eines neuronalen Netzwerks sind, der eine Gaußsche Verteilung mit diagonaler Covarianz ausgibt, wobei p(H
1) = N(0, I) ein standardmäßiges Gaußscher Prior mit geeigneten Dimensionen für den anfänglichen latenten Zustand ist, mit U
(l)~q(U),f
(l)(·)~p(f|U), wobei q(H
1) ein approximatives Posterior der anfänglichen latenten Zustände ist, wobei l einen Abtastindex bezeichnet, wobei q(U) ist ein Variationsposterior über seine Induktionspunkte ist und wobei jede Ausgangsdimension d ∈ [1, D] ihre eigene unabhängige Menge von induzierenden Werten U
s,d, U
b,d ∈ ℝ
D und Kernelausgangsvarianzen
aufweist. Mit f = (f
s,f
b}, f
(l)(·) werden die Funktion f
s,f
b bezeichnet, die aus der jeweiligen Gaußschen Prozessverteilung für die jeweilige Abtastung gezogen werden. In diesem Kontext ist die bedingte Verteilung von f(X) über die Eingänge X, bedingt durch die induzierenden Ausgänge U, ein Gaußscher Prozess
in dem K
ZZ die Covarianz zwischen sämtlichen induzierenden Punkten Z und K
XZ die Covarianz zwischen induzierenden Punkten X und den induzierenden Punkten Z sind. Die Kernel k
b und k
s sind Funktionen
wobei x
d den d-ten Eintrag des Eingangs x bezeichnet, σ die jeweilige Varianz ist und l
d ein dimensionsbezogener Längenskalenparameter ist. Die Verwendung dieser Funktion k(x, x') ist wahlweise. Man könnte auch eine andere Kernelfunktion wählen.
-
Das Training kann auch umfassen, die Parameter Φ des Codierers des neuronalen Netzwerks und andere Parameter wie Varianz der Kernel oder eine Rauschvarianz zu erlernen.
-
Da diese ELBO keinen Ausdruck in geschlossener Form aufweist, werden die Trajektorieabtastungen
für eine Approximation mit einem Erwartungswahrscheinlichkeitsterm
verwendet, wobei der log-Wahrscheinlichkeitsterm zwischen Agenten und zwischen Zeitpunkten zerlegt wird, wodurch eine doppelte stochastische Variationsinferenz ermöglicht wird.
-
Die Terme KL['] korrespondieren mit einem Kullback-Leibler-Regularisierer. Die vorangehende Verteilung über die induzierenden Variablen folgt dem Gaußschen Prozess p(U) = p(Us)p(Ub) with p(Us) = N(f|µUs , KUsUs ) und p(Ub) = N(f|µUb , KUbUb ). Der Kullback-Leibler-Regularisierer wird in dem Beispiel in geschlossener Form bestimmt.
-
In einem Beispiel umfasst das Modell gewöhnliche Differentialgleichungen zweiter Ordnung:
-
Dies bedeutet, dass der latente Zustand h
a(t) des Agenten a eine erste Komponente s
a(t) und eine zweite Komponente v
a(t) umfasst. Das Verfahren umfasst Ändern des latenten Zustands h
a(t) des Agenten a in Abhängigkeit von der zweiten Komponente v
a(t) des latenten Zustands des Agenten a und eine Änderung
an der zweiten Komponente v
a(t) des latenten Zustands des Agenten a. Die zweite Komponente v
a(t) wird abhängig von dem Beitrag f
s(h
a(t)) an der Änderung des latenten Zustands des Agenten a und dem Beitrag f
b(h
a(t), h
a' (t)) an der Änderung des latenten Zustands des Agenten a geändert.
-
Dies erleichtert Inferenz, da es ansonsten nicht identifizierbare Probleme entfernt und eine erweiterte Interpretation der latenten Zustände sa(t), va(t) ermöglicht. In dem Beispiel ist sa(t) ein latenter Zustand korrespondierend mit einer Position und ist va(t) ein latenter Zustand korrespondierend mit einer Geschwindigkeit eines Agenten a. Die Implementierung des Verfahrens ist dementsprechend.
-
Gewöhnliche Differentialgleichungen zweiter Ordnung produzieren eine signifikant bessere Leistung als gewöhnliche Differentialgleichungen erster Ordnung, wenn Daten fehlen.