DE102021204961B4

DE102021204961B4 - Verfahren zur Steuerung einer Robotervorrichtung

Info

Publication number: DE102021204961B4
Application number: DE102021204961.3A
Authority: DE
Inventors: Leonel Rozo; Vedant Dave
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2023-06-07
Anticipated expiration: 2041-05-18
Also published as: KR20220155921A; JP2022176917A; CN115351780A; DE102021204961A1

Abstract

Verfahren zur Steuerung einer Robotervorrichtung (100), das Folgendes umfasst:Bereitstellen von Demonstrationen für eine Roboterfertigkeit, wobei jede Demonstration eine Trajektorie (τ) demonstriert, die eine Abfolge von Roboterkonfigurationen (yt) umfasst, wobei jede Roboterkonfiguration (yt) durch ein Element eines vorbestimmten Konfigurationsraums mit der Struktur einer riemannschen Mannigfaltigkeit beschrieben wird;Bestimmen, für jede demonstrierte Trajektorie (τ), einer Repräsentation der Trajektorie (τ) als ein Vektor von Gewichten (wi) von vorbestimmten grundlegenden Bewegungen der Robotervorrichtung (100) durchSuchen eines Vektors von Gewichten (wi), der ein Abstandsmaß zwischen der Kombination aus den grundlegenden Bewegungen gemäß dem Vektor von Gewichten (wi) und der demonstrierten Trajektorie (τ) minimiert, wobei die Kombination auf die Mannigfaltigkeit abgebildet ist;Bestimmen einer Wahrscheinlichkeitsverteilung der Vektoren von Gewichten (wi) durch Anpassen einer Wahrscheinlichkeitsverteilung an die für die demonstrierten Trajektorien (τ) bestimmten Vektoren von Gewichten; undSteuern der Robotervorrichtung (100) durch Durchführen grundlegender Bewegungen entsprechend der bestimmtenWahrscheinlichkeitsverteilung von Vektoren von Gewichten (wi).

Description

Stand der Technik
Die vorliegende Offenbarung bezieht sich auf Verfahren zum Steuern einer Robotervorrichtung.
In vielen Anwendungen ist es wünschenswert, dass Roboter in möglicherweise dynamischen und unstrukturierten Umgebungen autonom arbeiten können. Dazu müssen sie lernen, wie sie sich bewegen und mit ihrem Umfeld interagieren können. Dazu können sich Roboter auf eine Bibliothek von Fertigkeiten verlassen, die verwendet werden können, um einfache Bewegungen auszuführen oder komplizierte Aufgaben als eine Zusammensetzung von mehreren Fertigkeiten durchzuführen. Eine Möglichkeit zum Erlernen von Bewegungsfertigkeiten ist über menschliche Beispiele, bekannt als Lernen aus Demonstrationen (LfD, learning from demonstrations). Dies beinhaltet einen (typischerweise menschlichen) Experten, der einmal oder mehrmals eine spezifische Bewegung zeigt, die von einem Roboter imitiert werden soll.
Die Veröffentlichung „Using probabilistic movement primitives in robotics“ von A. Paraschos et al., in Autonomous Robots, 42:529-551, 2018, beschreibt probabilistische Bewegungsprimitiven (ProMP), was ein probabilistisches Rahmenwerk zum Erlernen und Synthetisieren von Roboterbewegungsfertigkeiten ist. ProMP repräsentiert eine Trajektorieverteilung, die auf einer kompakten Basisfunktionsdarstellung basiert. Seine probabilistische Formulierung ermöglicht Bewegungsmodulation, Parallelbewegungsaktivierung und Ausnutzung von Varianzinformationen in der Steuerung.
Obwohl ProMP verwendet wurde, um kartesische Bewegungen zu erlernen, erlaubt seine Formulierung nicht, Ausrichtungsbewegungen in der Form von Quaternionentrajektorien zu behandeln. Allerdings haben Quaternionen günstige Eigenschaften für die Robotersteuerung, wie etwa, dass sie eine nahezu minimale Darstellung und starke Stabilität bei Ausrichtungssteuerung mit geschlossenem Regelkreis bereitstellen. Daher sind Ansätze wünschenswert, die Robotersteuerungslernen aus Demonstrationen ermöglichen, die Quaternionentrajektorien umfassen.
Aus der DE 10 2020 207 085 A1 , der DE 10 2019 216 229 A1 , der EP 3 838 503 A1 , der EP 3 753 684 A1 , der WO 2017 / 129 200 A1 und der US 2021/0122 037 A1 sind weitere Aspekten von Verfahren zum Steuern von Robotern bekannt.
Offenbarung der Erfindung
Gemäß verschiedener Ausführungsformen wird ein Verfahren zur Steuerung einer Robotervorrichtung bereitgestellt, umfassend Bereitstellen von Demonstrationen für eine Roboterfertigkeit, wobei jede Demonstration eine Trajektorie demonstriert, die eine Abfolge von Roboterkonfigurationen umfasst, wobei jede Roboterkonfiguration durch ein Element eines vorbestimmten Konfigurationsraums mit der Struktur einer riemannschen Mannigfaltigkeit beschrieben wird. Das Verfahren umfasst ferner Bestimmen, für jede demonstrierte Trajektorie, einer Repräsentation der Trajektorie als ein Vektor von Gewichten von vorbestimmten grundlegenden Bewegungen der Robotervorrichtung durch Suchen eines Vektors von Gewichten, der ein Abstandsmaß zwischen der Kombination der grundlegenden Bewegung gemäß dem Vektor von Gewichten und der demonstrierten Trajektorie minimiert, wobei die Kombination auf die Mannigfaltigkeit abgebildet wird. Das Verfahren umfasst ferner Bestimmen einer Wahrscheinlichkeitsverteilung des Vektors von Gewichten durch Anpassen einer Wahrscheinlichkeitsverteilung an den Vektor von Gewichten, die für die demonstrierten Trajektorien bestimmt werden, und Steuern der Robotervorrichtung durch Durchführen von grundlegenden Bewegungen entsprechend der bestimmten Wahrscheinlichkeitsverteilung von Vektoren von Gewichten.
Gemäß verschiedenen Ausführungsformen stellt das oben beschriebene Verfahren eine Robotersteuerung unter Verwendung eines Ansatzes mit einer riemannschen Mannigfaltigkeit zum Codieren, Reproduzieren und Adaptieren von probabilistischen Bewegungsprimitiven dar (unter Verwendung von multivariater geodätischer Regression, wie nachfolgend ausführlich beschrieben). Insbesondere wird, gemäß verschiedenen Ausführungsformen, der Raum von Quaternionentrajektorien als eine riemannsche Mannigfaltigkeit angesehen. Im Vergleich zu nicht-geometriebewussten Ansätzen (wie etwa klassischer ProMP) erlaubt dieser Ansatz das Erlernen und die Reproduktion einer Fertigkeit durch einen Roboter, ist dabei aber weniger anfällig gegen Codieren ungenauer Daten oder Reproduzieren von verzerrten Trajektorien. Da es sich nicht auf grobe Annäherungen verlässt, ist das Modell auch besser erklärbar. Darüber hinaus bietet dieser Ansatz zusätzliche Adaptierungsmöglichkeiten, wie etwa Modulation der Trajektorieverteilungen und Mischen von Bewegungsprimitiven.
Die Aufgabe der Erfindung ist daher, beim Erlernen und der Reproduktion der Fertigkeit durch den Roboter weniger anfällig gegen Codieren ungenauer Daten oder Reproduzieren von verzerrten Trajektorien zu sein, hierbei besser erklärbar zu sein und zusätzliche Adaptierungsmöglichkeiten zu bieten.
Diese Aufgabe wird gelöst durch ein Verfahren und eine Vorrichtung mit den Merkmalen der unabhängigen Ansprüche.
Gemäß verschiedenen Ausführungsformen werden die demonstrierten Trajektorien als Gewichtsvektoren durch geodätische Regression repräsentiert. Dies bedeutet, dass eine Geodäte als zu jeder demonstrierten Trajektorie passend angesehen werden kann.
Im Folgenden werden verschiedene Beispiele gegeben.
Beispiel 1 ist ein Verfahren zur Steuerung einer Robotervorrichtung, wie oben beschrieben.
Beispiel 2 ist das Verfahren aus Beispiel 1, wobei die Wahrscheinlichkeitsverteilung der Vektoren von Gewichten durch Anpassen einer gaußschen Verteilung an die für die demonstrierten Trajektorien bestimmten Vektoren von Gewichten bestimmt wird.
Verwenden einer gaußschen Verteilung für Training und Reproduktion stellt eine zuverlässige Steuerung für Steuerungsszenarien bereit, die bei den Demonstrationen nicht zu sehen waren.
Beispiel 3 ist das Verfahren aus Beispiel 1 oder 2, wobei jede demonstrierte Trajektorie eine Roboterkonfiguration für jede Zeit einer vorbestimmten Abfolge von Zeitpunkten umfasst und wobei jede Kombination der grundlegenden Bewegungen gemäß einem Vektor von Gewichten eine Roboterkonfiguration für jede Zeit der vorbestimmten Abfolge von Zeitpunkten bestimmt und wobei, für jede demonstrierte Trajektorie, der Vektor von Gewichten bestimmt wird durch Bestimmen, aus einer Menge von möglichen Vektoren von Gewichten, des Vektors von Gewichten, für den die Kombination der grundlegenden Bewegungen gemäß dem Vektor von Gewichten und der demonstrierten Trajektorie, wobei die Kombination auf die Mannigfaltigkeit abgebildet wird, minimal unter der Menge von möglichen Vektoren von Gewichten ist, wobei der Abstand zwischen der Kombination aus grundlegenden Bewegungen, abgebildet auf die Mannigfaltigkeit, und der demonstrierten Trajektorie gegeben ist durch Summieren, über die Zeitpunkte der Abfolge von Zeitpunkten, über Terme, umfassend einen Term für jeden Zeitpunkt, der den Wert oder die Potenz des Wertes einer Metrik der Mannigfaltigkeit zwischen dem Element der Mannigfaltigkeit, gegeben durch die Kombination von grundlegenden Bewegungen zu dem Punkt in der Zeit, wenn abgebildet auf die Mannigfaltigkeit, und der demonstrierten Trajektorie umfasst.
Dies stellt eine effiziente Möglichkeit zum Repräsentieren einer demonstrierten Trajektorie durch einen Gewichtvektor durch Anpassen eines Gewichtsvektors an die demonstrierte Trajektorie bereit. Eine Kombination kann auf die Mannigfaltigkeit abgebildet werden durch Auswählen eines Punktes auf der Mannigfaltigkeit und Abbilden der Kombination auf die Mannigfaltigkeit durch die Exponentialfunktion des Tangentenraumes der Mannigfaltigkeit an dem ausgewählten Punkt.
Beispiel 4 ist das Verfahren aus einem der Beispiele 1 bis 3, umfassend, für eine der demonstrierten Trajektorien, Suchen eines Punktes der Mannigfaltigkeit und eines Vektors von Gewichten, sodass der Punkt und der Vektor von Gewichten ein Abstandsmaß zwischen der Kombination aus den grundlegenden Bewegungen gemäß dem Vektor von Gewichten und der demonstrierten Trajektorie minimieren, wobei die Kombination auf die Mannigfaltigkeit von dem Tangentenraum an dem Punkt abgebildet wird, und wobei, für jede demonstrierte Trajektorie, das Abbilden einer entsprechenden Kombination auf die Mannigfaltigkeit durchgeführt wird durch Abbilden der Kombination aus dem Tangentenraum an dem ausgewählten Punkt.
Mit anderen Worten, der Tangentenraum (d. h. der Punkt der Mannigfaltigkeit, an dem der Tangentenraum genommen wird) wird für eine demonstrierte Trajektorie bestimmt durch Durchführen einer Optimierung über die Gewichte und den Punkt. Dieser Tangentenraum wird dann verwendet zum Abbilden der Kombinationen oder einer beliebigen Kombination, für die dies während der Suche notwendig ist) auf die Mannigfaltigkeit für alle demonstrierten Trajektorien. Mit anderen Worten, der gleiche Tangentenraum, und damit die gleiche exponentielle Abbildung, wird für alle demonstrierten Trajektorien verwendet. Dies stellt eine effektive Möglichkeit zum Überwinden des Problems der Nutzung unterschiedlicher Tangentenräume für unterschiedliche Trajektorien bereit, die in sehr verschiedenen Tangentengewichtsvektoren resultieren können.
Beispiel 5 ist das Verfahren aus einem der Beispiele 1 bis 4, wobei die Trajektorie eine Ausrichtungstrajektorie ist und jede Demonstration ferner eine Positionstrajektorie demonstriert und jede Roboterkonfiguration eine Pose umfasst, die beschrieben wird durch einen Vektor im dreidimensionalen Raum und eine Ausrichtung, die durch das Element des vorbestimmten Konfigurationsraums beschrieben wird.
Daher können Fertigkeiten durch Demonstrieren einer Abfolge von Roboterposen, z. B. Endeffektorpositionen und -ausrichtungen, erlernt werden, wobei ein Modell für die Ausrichtungen unter Verwendung eines auf einer riemannschen Mannigfaltigkeit basierenden Ansatzes erlernt wird.
Beispiel 6 ist das Verfahren aus einem der Beispiele 1 bis 5, umfassend Bereitstellen von Demonstrationen für mehr als nur Roboterfertigkeiten und Bestimmen, für jede Fertigkeit, von Repräsentationen von Trajektorien und Vektoren von Gewichten und Wahrscheinlichkeitsverteilungen der Vektoren von Gewichten und Steuern der Robotervorrichtung durch Bestimmen, für jede Fertigkeit, aus der Wahrscheinlichkeitsverteilung von Vektoren von Gewicht, ein riemannschen gaußschen Verteilung von Mannigfaltigkeitspunkten (pro Punkt in der Zeit), Bestimmen einer Produktverteilung der riemannschen gaußschen Verteilungen der Fertigkeiten und Steuern der Robotervorrichtung durch Abtasten aus der Wahrscheinlichkeitsverteilung des bestimmten Produkts (pro Punkt in der Zeit).
Dies ermöglicht Mischen von Fertigkeiten für Fertigkeiten, die aus Demonstrationen auf riemannschen Mannigfaltigkeiten erlernt wurden.
Beispiel 7 ist eine Robotervorrichtungssteuerung, ausgelegt zum Ausführen des Verfahrens nach einem der Ansprüche 1 bis 6.
Beispiel 8 ist ein Computerprogramm, umfassend Anweisungen, die, wenn durch einen Prozessor ausgeführt, den Prozessor veranlassen, ein Verfahren aus einem der Beispiele 1 bis 6 durchzuführen.
Beispiel 9 ist ein computerlesbares Medium, das Anweisungen speichert, die, wenn durch einen Prozessor ausgeführt, den Prozessor veranlassen, ein Verfahren aus einem der Beispiele 1 bis 6 durchzuführen.
In den Zeichnungen bezeichnen in den unterschiedlichen Ansichten ähnliche Bezugszeichen allgemein dieselben Teile. Die Zeichnungen sind nicht notwendigerweise maßstabsgetreu, und der Schwerpunkt wird allgemein auf das Darstellen der Prinzipien der Erfindung gelegt. In der folgenden Beschreibung sind verschiedene Aspekte unter Bezugnahme auf die folgenden Zeichnungen beschrieben, in denen:

1 zeigt einen Roboter.
2 zeigt eine Darstellung einer sphärischen Mannigfaltigkeit $S^{2}$
deren Punkte beispielsweise jeder eine mögliche Ausrichtung eines Roboterendeffektors repräsentieren können.
3 stellt multivariate allgemeine lineare Regression auf der sphärischen Mannigfaltigkeit $S^{2}$
gemäß einer Ausführungsform dar.
4 zeigt ein Beispiel der Anwendung einer Ausführungsform auf Buchstaben auf einer Sphäre zu Veranschaulichungszwecken.
5 stellt einen Mischprozess gemäß einer Ausführungsform für Buchstaben auf einer Sphäre zu Veranschaulichungszwecken dar.
6 zeigt ein Flussdiagramm, das ein Verfahren zum Steuern einer Robotervorrichtung darstellt.

Die folgende ausführliche Beschreibung bezieht sich auf die zugehörigen Zeichnungen, die spezifische Einzelheiten und Aspekte dieser Offenbarung, in denen die Erfindung ausgeführt sein kann, zur Veranschaulichung darstellen. Andere Aspekte können genutzt werden, und strukturelle, logische und elektrische Änderungen können vorgenommen werden, ohne vom Schutzumfang der Erfindung abzuweichen. Die verschiedenen Aspekte dieser Offenbarung schließen sich nicht notwendigerweise gegenseitig aus, da einige Aspekte dieser Offenbarung mit einem oder mehreren anderen Aspekten dieser Offenbarung kombiniert werden können, um neue Aspekte zu bilden.
Im Folgenden werden verschiedene Beispiele ausführlicher beschrieben.
1 zeigt einen Roboter 100.
Der Roboter 100 umfasst einen Roboterarm 101, beispielsweise einen Industrieroboterarm zur Behandlung oder Montage eines Werkstücks (oder eines oder mehrerer anderer Objekte). Der Roboterarm 101 umfasst Manipulatoren 102, 103, 104 und eine Basis (oder Stütze) 105, durch die die Manipulatoren 102, 103, 104 gestützt werden. Der Begriff „Manipulator“ bezieht sich auf bewegbare Elemente des Roboterarms 101, deren Betätigung physische Interaktion mit der Umgebung ermöglicht, z. B. zur Ausführung einer Aufgabe. Für die Steuerung umfasst der Roboter 100 eine (Roboter-)Steuerung 106, die dazu ausgelegt ist, die Interaktion mit der Umgebung gemäß einem Steuerungsprogramm zu implementieren. Das letzte Element 104 (am weitesten von der Stütze 105 entfernt) der Manipulatoren 102, 103, 104 wird auch als der Endeffektor 104 bezeichnet und kann ein oder mehrere Werkzeuge umfassen, wie etwa einen Schweißbrenner, ein Greifinstrument, Lackierausrüstung oder ähnliches.
Die anderen Manipulatoren 102, 103 (näher an der Stütze 105) können eine Positionierungsvorrichtung bilden, sodass, zusammen mit dem Endeffektor 104, der Roboterarm 101 mit dem Endeffektor 104 an seinem Ende bereitgestellt ist. Der Roboterarm 101 ist ein mechanischer Arm, der ähnliche Funktionen bereitstellen kann wie ein menschlicher Arm (möglicherweise mit einem Werkzeug an seinem Ende).
Der Roboterarm 101 kann Gelenkelemente 107, 108, 109 umfassen, die die Manipulatoren 102, 103, 104 miteinander und mit der Stütze 105 verbinden. Ein Gelenkelement 107, 108, 109 kann eine oder mehrere Gelenkverbindungen aufweisen, von denen jede eine drehbare Bewegung (d. h. eine Drehbewegung) und/oder eine translatorische Bewegung (d. h. eine Versetzung) für dazugehörige Manipulatoren relativ zueinander bereitstellen kann. Die Bewegung der Manipulatoren 102, 103, 104 kann mittels Aktuatoren, die durch die Steuerung 106 gesteuert werden, initiiert werden.
Der Begriff „Aktuator“ kann als eine Komponente verstanden werden, die dazu angepasst ist, in Reaktion darauf, angetrieben zu werden, einen Mechanismus oder Prozess zu beeinflussen. Der Aktuator kann Anweisungen, die durch die Steuerung 106 ausgegeben werden (die so genannte Aktivierung) in mechanische Bewegungen umsetzen. Der Aktuator, z. B. ein elektromechanischer Wandler, kann dazu ausgelegt sein, in Reaktion auf das Antreiben elektrische Energie in mechanische Energie umzuwandeln.
Der Begriff „Steuerung“ kann als ein beliebiger Typ von Logikimplementierungsentität verstanden werden, was, beispielsweise, eine Schaltung und/oder einen Prozessor, der in der Lage ist, auf einem Speichermedium gespeicherte Software, Firmware oder eine Kombination daraus auszuführen, und der Anweisungen, im vorliegenden Beispiel z. B. an einen Aktuator, ausgeben kann, umfassen kann. Die Steuerung kann, beispielsweise durch Programmcode (z. B. Software) dazu ausgelegt sein, den Betrieb eines Systems, im vorliegenden Beispiel eines Roboters, zu steuern.
Im vorliegenden Beispiel umfasst die Steuerung 106 einen oder mehrere Prozessoren 110 und einen Speicher 111, der Code und Daten speichert, darauf basierend, welcher Prozessor 110 den Roboterarm 101 steuert. Gemäß verschiedenen Ausführungsformen steuert die Steuerung 106 den Roboterarm 101 auf Grundlage eines im Speicher 111 gespeicherten Maschinenlernmodells 112.
Gemäß verschiedenen Ausführungsformen wird ein Ansatz mit einer riemannschen Mannigfaltigkeit verwendet, um Ausrichtungsbewegungsprimitiven unter Verwendung von ProMP zu erlernen, d. h. eine Erweiterung klassischer ProMP, bezeichnet als „Ausrichtungs-ProMP“, unter Verwendung einer riemannschen Mannigfaltigkeitsformulierung wird bereitgestellt.
Der ursprüngliche (d. h. klassische) Ansatz mit probabilistischen Bewegungsprimitiven (ProMP) behandelt Roboterfertigkeiten in euklidischen Räumen, wodurch Erlernen und Reproduzieren von Quaternionentrajektorien (die die Roboterausrichtung repräsentieren) undurchführbar wird.
Die im Folgenden beschriebene riemannsche Formulierung von ProMP macht Erlernen und Reproduktion von Quaternionendaten möglich. Darüber hinaus ermöglicht sie, aufgrund der hier gegebenen generischen Behandlung, eine Nutzung für generische riemannsche Mannigfaltigkeiten.
Im Folgenden wird eine Einführung in ProMP für die Behandlung von Roboterfertigkeiten in euklidischen Räumen gegeben.

Die folgenden Notationen werden nachfolgend verwendet:

Symbol	Beschreibung
	Riemannsche Mannigfaltigkeit
$T_{p} M$	Tangentenraum der Mannigfaltigkeit bei $p \in M$
$T M$	Tangentenbündel (Gruppe aller Tangentenvektoren in )
$N (μ,Σ)$	Gaußsche Verteilung mit Mittelwert µ ∈ ℝⁿ und Kovarianz Σ· ∈ ℝ^n×n
$N_{M} (μ,Σ)$	Riemannsche gaußsche Verteilung mit Mittelwert $μ \in M$ und Kovarianz $Σ \in T_{μ} M$
θ	Parameter der gaußschen Verteilung
ExP_p(·)	Exponentielle Abbildung bei $p \in M$
Log_p(·)	Logarithmische Abbildung bei $p \in M$
Γ_p→q(·)	Paralleltransport von $T_{p} M zu T_{q} M$
$S^{m}$	m-dimensionale sphärische Mannigfaltigkeit
ϕ_i(z_t)	Normalisierte gaußsche Basisfunktion zur Zeitphase z_t
w	Pro M P-Gewichtsvektor
Ψ_t	ProMP-Basisfunktionsmatrix bei z_t

Im Allgemeinen wird, für eine einzelne Bewegungsausführung, eine gewisse Trajektorie $τ = {y_{t}}_{t = 1}^{T}$
als eine Zeitreihe der Variable y bezeichnet. Hier kann y_t, auch als Roboterkonfiguration für Zeit t bezeichnet, entweder Gelenkverbindungswinkel oder eine kartesische Position im Aufgabenraum bei Zeitschritt t repräsentieren (zusätzliche zeitliche Ableitungen von y können ebefalls berücksichtigt werden). Der klassischen ProMP-Notation folgend ist y_t ein d-dimensionaler Vektor, der das Maß für ein System von d Freiheitsgraden (FG) repräsentiert, z. B. einen Roboterarm 101 mit 7 Freiheitsgraden.
Jeder Punkt der Trajektorie τ kann repräsentiert werden als ein lineares Basisfunktionsmodell $y_{t} = Ψ_{t} w + ε_{y} \Rightarrow P (y_{t} | w) = N (y_{t} | Ψ_{t} w, Σ_{y}),$
wobei w ein dN_ϕ-dimensionaler Gewichtsvektor ist, Ψ_t eine d × dN_ϕ-dimensionale Block-Diagonalmatrix ist, die die zeitabhängigen Basisfunktionen Φ_t für jeden FG enthält (eine Basisfunktion für einen FG wird auch als eine grundlegende Bewegung bezeichnet, z. B. eine Bewegung in eine bestimmte Richtung, Drehung um eine bestimmte Achse), N_ϕ bezeichnet die Anzahl von Basisfunktionen, und $ε_{y} \sim N (0, Σ_{y})$
ist das u.i.v. gaußsche Rauschen mit Mittelwert Null mit Unsicherheit Σ_y.
ProMPs gehen davon aus, dass jede Demonstration durch unterschiedliche Werte des Gewichtsvektors w gekennzeichnet ist, was zu einer Verteilung $P (w; θ) = N (w | μ_{w}, Σ_{w})$

führt. Dann kann eine volle Trajektorie als eine Zusammensetzung der Basisfunktionen zu jedem t zusammen mit einem Gewicht w, das aus $P (w; θ)$
gezogen wird, modelliert werden. Infolgedessen kann die Verteilung des Zustands $P (y_{t}; θ)$
für die Zeit t berechnet werden als $\begin{array}{l} P (y_{t}; θ) = \int N (y_{t} | Ψ_{t} w, Σ_{y}) N (w | μ_{w}, Σ_{w}) d w \\ = N (y_{t} | Ψ_{t} μ_{w}, Ψ_{t} Σ_{w} Ψ_{t}^{T} + Σ_{y}), \end{array}$
woraus sowohl der Mittelwert als auch die Varianz bei jedem Zeitschritt t geschätzt werden.
Beim Lernen aus Demonstrationen unterscheiden sich die Beispieltrajektorien häufig in ihrer zeitlichen Länge. ProMP überwindet dieses Problem durch Einführen einer Phasenvariable zum Entkoppeln der Daten von den Zeitinstanzen, was seinerseits eine zeitliche Modulation ermöglicht. In diesem Fall reicht die Demonstration von z₀ = 0 bis z_T = 1, was die demonstrierte Trajektorie neu definiert als $τ = {y_{t}}_{t = z_{0}}^{z_{T}} .$
Die Basisfunktionen, die Ψ bilden, hängen ebenfalls von der Phasenvariable z ab. Insbesondere verwenden ProMP gaußsche Basisfunktionen für taktbasierte Bewegungen, definiert als $b_{i} (z_{t}) = exp (\frac{- {(z_{t} - c_{i})}^{2}}{2 h}),$
mit Breite h und Mitte c_i, die häufig experimentell konzipiert sind. Diese gaußschen Basisfunktionen werden dann normalisiert, was zu $ϕ_{i} (z_{t}) = \frac{b_{i} (z_{t})}{Σ_{j = 1}^{n} b_{j} (z_{t})}$
führt.
Allgemein gesprochen, besteht der Lernprozess von ProMP hauptsächlich im Abschätzen der Gewichtsverteilung P(w; θ). Dazu wird ein Gewichtsvektor w_i, der die i-te Demonstration wie in (1) repräsentiert, mittels einer Maximum-Likelihood-Abschätzung geschätzt. Dies führt zu einer linearen Gratregressionslösung der Form $w_{i} = {(Ψ^{T} Ψ+ λ I)}^{- 1} Ψ^{T} Y_{i},$
wobei $Y_{i} = {[y_{i,1}^{T} \dots y_{i, T}^{T}]}^{T}$
alle beobachteten Trajektoriepunkte verkettet und Ψ aus allen Zeitinstanzen für die Basisfunktionsmatrix Ψ_t besteht. Dann können, bei einer gegebenen Menge von N Demonstrationen, die Gewichtsverteilungsparameter θ = {µ_w,Σ_w} durch ein Maximum-Likelihood-Verfahren geschätzt werden. Um sich an neue Situationen anzupassen, ermöglicht ProMP Trajektoriemodulation zu Wegpunkten oder Zielpositionen durch Konditionieren der Bewegung zum Erreichen eines gewünschten Trajektoriepunkts $y_{i}^{*}$
mit zugehöriger Kovarianz $Σ_{y}^{*} .$
Dies führt zur konditionalen Wahrscheinlichkeit $P (w | y_{t}^{*}) \propto N (y_{t}^{*} | Ψ_{t} w, Σ_{y}^{*}) N (w | μ_{w}, Σ_{w}),$
deren Parameter wie folgt berechnet werden können (unter Annahme einer gaußschen Verteilung) $\begin{array}{l} μ_{w}^{*} = Σ_{w}^{*} (Ψ_{t}^{T} \overset{- 1}{Σ_{y}^{*}} y_{i}^{*} + Σ_{w}^{- 1} μ_{w}), \\ Σ_{w}^{*} = {(Σ_{w}^{- 1} + Ψ_{t}^{T} \overset{- 1}{Σ_{y}^{*}} Ψ_{t})}^{- 1} . \end{array}$
Durch Berechnen eines Produkts von Trajektorieverteilungen können unterschiedliche Bewegungsprimitiven zu einer einzelnen Bewegung gemischt werden. Insbesondere folgt die gemischte Trajektorie bei jedem Zeitschritt t einer Verteilung $P (y_{t}^{+}) = \prod_{s = 1}^{S} P_{s} {(y_{t})}^{α_{t, s}},$

für eine Menge von S unterschiedlichen ProMPs $P_{s} (y_{t}) = N (y_{t} | μ_{t, s}, Σ_{t, s}),$

deren Einfluss auf die abschließende Bewegung gemäß dem Mischgewicht α_t,s variiert. Dann werden die Parameter von $P (y_{t}^{+}) = N (y_{t}^{+} | μ_{t}^{+}, Σ_{t}^{+})$
einfach geschätzt aus dem gewichteten Produkt der gaußschen Verteilungen $\begin{matrix} Σ_{t}^{+} = {(Σ_{s = 1}^{S} α_{t, s} Σ_{t, s}^{- 1})}^{- 1}, \\ μ_{t}^{+} = Σ_{t}^{+} (Σ_{s = 1}^{S} α_{t, s} Σ_{t, s}^{- 1} μ_{t, s}) . \end{matrix}$
Aufgabenparameter ermöglichen das Anpassen der Roboterbewegung, beispielsweise, an Zielobjekte zum Erreichen von Aufgaben. Solche Informationen sind häufig während Demonstrationen verfügbar und können in die ProMP-Formulierung integriert werden. Formell berücksichtigt eine ProMP den externen Zustand 9 und erlernt eine affine Abbildung von 9 auf den mittleren Gewichtsvektor µ_w, was zu einer gemeinsamen Wahrscheinlichkeitsverteilung führt: $P (w, \hat{s}) = N (w | O \hat{s} + o, Σ_{w}) N (\hat{s} | μ_{\hat{s}}, Σ_{\hat{s}}),$
wobei {O,o} unter Verwendung von linearer Gratregression erlernt werden.
Wie oben erwähnt, haben Quaternionen günstige Eigenschaften für die Robotersteuerung. Da allerdings Quaternionen (die für Robotersteuerung verwendet werden) eine Einheitsnorm-Beschränkung erfüllen, bilden sie keinen Vektorraum, sodass die Verwendung von herkömmlichen euklidischen Raumverfahren zum Behandeln und Analysieren von Variablen mit Quaternionenwerten (mit Einheitsnorm) nicht geeignet ist. Gemäß verschiedenen Ausführungsformen wird riemannsche Geometrie genutzt, um ProMPs im Quaternionenraum zu formulieren.
Eine riemannsche Mannigfaltigkeit
ist ein m-dimensionaler topologischer Raum, für den jeder Punkt lokal einem euklidischen Raum ℝ^m ähnelt und der eine global definierte Differentialstruktur aufweist. Für jeden Punkt $x \in M$
gibt es einen Tangentenraum $T_{x} M,$
der ein Vektorraum ist, der aus den Tangentenvektoren aller möglichen glatten Kurven besteht, die durch x verlaufen. Eine riemannsche Mannigfaltigkeit ist mit einem glatt-variierenden positiv-definiten inneren Produkt versehen, einer so genannten riemannschen Metrik, die es ermöglicht, Kurvenlängen in
zu definieren. Diese Kurven, Geodäten genannt, sind die Verallgemeinerung von geraden Linien im euklidischen Raum auf riemannsche Mannigfaltigkeiten, da sie die Kurven mit minimaler Länge zwischen zwei Punkten in
repräsentieren.
2 zeigt eine Darstellung einer sphärischen Mannigfaltigkeit S², deren Punkte beispielsweise jeder eine mögliche Ausrichtung eines Roboterendeffektors repräsentieren können.
Zwei Punkte x und y werden auf der Sphäre angezeigt, die durch die Steuerung 106 verwendet werden können, um zwei unterschiedliche Ausrichtungen des Roboterendeffektors 104 zu repräsentieren.
Der kürzeste Abstand zwischen den zwei Punkten in dem umgebenden Raum wäre eine gerade Linie 201, während der kürzeste Pfad auf der Mannigfaltigkeit eine Geodäte 202 ist.
Zur Nutzung der euklidischen Tangentenräume können Hin- und Herabbildungen zwischen dem Tangentenraum $T_{x} M$
verwendet werden, die als die exponentielle Abbildung bzw. die logarithmische Abbildung bezeichnet werden.
Die exponentielle Abbildung ${Exp}_{x} : T_{x} M \to M$
bildet einen Punkt u im Tangentenraum von x auf einen Punkt y auf der Mannigfaltigkeit ab, sodass er auf der Geodäte liegt, die bei x in die Richtung u startet, sodass der Geodätenabstand dM zwischen x und y gleich der Norm des Abstands zwischen x und u ist. Die Umkehroperation wird die logarithmische Abbildung ${Log}_{x} : M \to T_{x} M$
genannt, d. h. u = Log_x (y).
Eine weitere hilfreiche Operation über Mannigfaltigkeiten ist der Paralleltransport $Γ_{x \to y} : T_{x} M \to T_{y} M,$
der Elemente zwischen Tangentenräumen bewegt, sodass das innere Produkt zwischen zwei Elementen im Tangentenraum konstant bleibt.
In 2 sind beispielsweise Γ(υ₁), Γ(υ₂) die paralleltransportierten Vektoren υ₁ und υ₂ von $T_{x} M zu T_{y} M$
(der Index x→y wird der Einfachheit halber ausgelassen).
Für das Folgende wird eine riemannsche gaußsche Verteilung einer zufälligen Variable $p \in M$
eingeführt als $N_{M} (p | μ, Σ) = \frac{1}{\sqrt{{(2 π)}^{d} | Σ |}} e^{- \frac{1}{2} {Log}_{μ} {(x)}^{T} Σ^{- 1} {Log}_{μ} (x)},$
mit Mittelwert $μ \in M$
und Kovarianz $Σ \in T_{μ} M .$
Diese riemannsche gaußsche Verteilung entspricht einer angenäherten maximalen Entropieverteilung für riemannsche Mannigfaltigkeiten.

Folgendes sind die Ausdrücke für den riemannschen Abstand, exponentielle und logarithmische Abbildungen sowie Paralleltransportoperation für die sphärische Mannigfaltigkeit

S^{m} .

Operation	Formel
$d_{M} (x, y)$	arccos(x^Ty)
Exp_X(u)	$xcos (‖ u ‖) + \bar{u} sin (‖ u ‖) mit \bar{u} = \frac{u}{‖ u ‖}$
Log_x(y)	$d_{M} (x, y) \frac{y - x^{T} yx}{‖ y - x^{T} yx ‖}$
Γ_x-y(v)	$(- xsin (‖ u ‖) {\bar{u}}^{T} + \bar{u} cos (‖ u ‖) {\bar{u}}^{T} + (I - {\bar{u} \bar{u}}^{T})) v mit \bar{u} = \frac{u}{‖ u ‖} und u = {Log}_{x} (y)$

Gemäß verschiedenen Ausführungsformen wird geodätische Regression verwendet (z. B. durch Steuerung 106), die lineare Regression für die riemannsche Mannigfaltigkeit generalisiert. Das geodätische Regressionsmodell ist definiert als $y = {Exp}_{\tilde{y}} (ε), mit \tilde{y} = {Exp}_{p} (x u),$
wobei $y \in M$
und x ∈ ℝ die Ausgangs- bzw. Eingangsvariablen sind, $p \in M$
ein Basispunkt auf der Mannigfaltigkeit ist, $u \in T_{p} M$
ein Vektor im Tangentenraum bei p ist und der Fehlerterm ε eine zufällige Variable ist, die Werte im Tangentenraum bei ỹ annimmt. Als eine Analogie zu linearer Regression lässt sich (p, u) als eine Regressionskonstante p und ein Anstieg u interpretieren.
Sei nun eine Menge von Punkten ${y_{1}, \dots, y_{T}} \in M und [x_{1}, \dots, x_{T}] \in ℝ$
betrachtet. Das Ziel geodätischer Regression ist, eine geodätische Kurve $γ \in M$
zu finden, die am besten die Beziehung zwischen allen T Paaren (x_i,y_i) modelliert. Um dies zu erreichen, wird die Summe der quadrierten riemannschen Abstände (d. h. Fehler) zwischen den Modellschätzungen und den Beobachtungen minimiert, das heißt, $E (p, u) = \frac{1}{2} Σ_{i = 1}^{T} d_{M} {({\hat{y}}_{i}, y_{i})}^{2},$
wobei ŷ_i = Exp_p(x_iu) die Modellschätzung auf der Mannigfaltigkeit $M ist, d_{M} ({\hat{y}}_{i}, y_{i}) = ‖ {Log}_{{\tilde{y}}_{i}} (y_{i}) ‖$
der riemannsche Fehler ist und das Paar $(p, u) \in T M$
ein Element des Tangentenbündels $T M$
ist. Ein Kleinste-Quadrate-Schätzer des geodätischen Modells kann als ein Minimierer der obigen Summen von quadrierten riemannschen Abständen formuliert werden, d. h. $(\hat{p}, \hat{u}) = {argmin}_{(p, u) \in T M} \frac{1}{2} Σ_{i = 1}^{T} d_{M} {({\hat{y}}_{i}, y_{i})}^{2} .$
Allerdings ergibt (9) keine analytische Lösung wie (3). Eine Lösung kann durch ein Gradientenverfahren erhalten werden, das erfordert, die Ableitung der riemannschen Abstandsfunktion und die Ableitung der exponentiellen Abbildung zu berechnen. Letztere wird in Ableitungen bezüglich des anfänglichen Punkts p und der anfänglichen Geschwindigkeit u aufgeteilt. Diese Gradienten können in der Form von Jacobi-Feldern (d. h. Lösungen einer Gleichung zweiter Ordnung, die gewissen Anfangsbedingungen unter einem riemannschen Krümmungstensor unterliegt) berechnet werden.
Es ist anzumerken, dass das obige geodätische Modell exklusiv eine skalare unabhängige Variable x ∈ ℝ berücksichtigt, was bedeutet, dass die Ableitungen durch Jacobi-Felder entlang einer einzelnen geodätischen Kurve erhalten werden, die durch einen einzelnen Tangentenvektor u parametrisiert wird. Die Berechnung von Jacobi-Feldern hängt von den so genannten adjungierten Operatoren ab, die tatsächlich eine Rolle eines Paralleltransports auf den Fehlertermen der geodätischen Regression spielen. Die Erweiterung auf multivariate Fälle mit x ∈ ℝⁿ erfordert einen geringfügig verschiedenen Ansatz, der beinhaltet, mehrere geodätische Kurven zu identifizieren (die als „Basis“-Vektoren im euklidischen Raum angesehen werden können). Multivariate allgemeine lineare Modelle auf riemannschen Mannigfaltigkeiten (MGLM) bieten eine Lösung für dieses Problem.
MLGM verwendet eine geodätische Basis U = [u₁...u_n], gebildet durch mehrere Tangentenvektoren $u_{j} \in T_{p} M,$
einen für jede Dimension von x. Dann kann das Problem (9) umformuliert werden als $(\hat{p}, {\hat{u}}_{j}) = {argmin}_{(p, u_{j}) \in T M \forall j} \frac{1}{2} Σ_{i = 1}^{T} d_{M} {({\hat{y}}_{i}, y_{i})}^{2},$
mit ŷ_i = Exp_p(Ux_i). Zum Lösen (10) können die entsprechenden Gradienten berechnet werden durch Nutzung der Einsicht, dass die adjungierten Operatoren Paralleltransportoperationen ähneln. Auf diese Weise kann die Hürde des Konzipierens spezieller adjungierter Operatoren für den multivariaten Fall überwunden werden, und stattdessen können Paralleltransportoperationen durchgeführt werden, um die notwendigen Gradienten anzunähern. Dieses multivariate Rahmenwerk dient der Berechnung des Gewichtsvektors, analog zu (3), für jede Demonstration, die auf einer riemannschen Mannigfaltigkeit M liegt.
Im Folgenden wird erläutert, wie MLGM verwendet werden können, wenn die Demonstrationsdaten Quaternionentrajektorien entsprechen, d. h. $M \equiv S^{3} .$
Wenn menschliche Demonstrationen durch kartesische Bewegungsmuster (über kinästhetisches Lehren oder Teleoperation) gekennzeichnet sind, ist es notwendig, ein Lernmodell 112 zu haben, das sowohl translatorische als auch rotatorische Bewegungen des Roboterendeffektors kapselt. Dies bedeutet, dass eine gewisse Demonstrationstrajektorie $τ = {y_{t}}_{t = 1}^{T}$
jetzt aus Datenpunkten $y_{t} \in ℝ^{3} \times S^{3}$
zusammengesetzt ist, die die vollständige kartesische Pose des Endeffektors bei Zeitschritt t repräsentieren. In diesem Fall ist die Herausforderung das Erlernen einer ProMP im Ausrichtungsraum, da der euklidische Fall in ℝ³ der klassischen ProMP folgt.
Zunächst wird ein äquivalenter Ausdruck für ŷ_i, im MGLM-Rahmenwerk, eingeführt, sodass er dem linearen Basisfunktionsmodell in (1) ähnelt. Speziell die Schätzung ŷ_i = Exp_p(Ux_i) ≡ Exp_p(X_iu), wobei $X_{i} = [\begin{matrix} x_{i}^{^{T}} & \dots & 0 \\ ⋮ & ⋱ & ⋮ \\ 0 & \dots & x_{i}^{^{T}} \end{matrix}] und u = [\begin{matrix} u_{1} \\ ⋮ \\ u_{n} \end{matrix}] .$
Diese Äquivalenz erweist sich als hilfreich beim Aufstellen von Analogien zwischen der klassischen Formulierung von ProMPs und unserem vorgeschlagenen Ansatz für Ausrichtungstrajektorien. Ähnlich zu (1) kann ein Punkt $y_{t} \in M$
von τ repräsentiert werden als ein geodätisches Basisfunktionsmodell $P (y_{t} | w) = N_{M} (y_{t} | {Exp}_{p} (Ψ_{t} w), Σ_{y}),$
wobei p ein fester Basispunkt auf
ist, $w = {[w_{1}^{T} \dots w_{N_{ϕ}}^{T}]}^{T}$
ein großer Gewichtsvektor ist, der N_ϕ Gewichtsvektoren $w_{n} \in T_{p} M$
verkettet, Ψ_t die gleiche Matrix von zeitabhängigen Basisfunktionen wie in (1) ist und Σ_y eine Kovarianzmatrix ist, die die Unsicherheit auf $T_{μ_{y}} M$
codiert. Zwei spezifische Aspekte an dieser Formulierung verdienen spezielle Aufmerksamkeit, und zwar, dass (i) der Mittelwert der riemannschen gaußschen Verteilung in (12), das heißt ${Exp}_{p} (Ψ_{t} w) \in M$
die erwähnte äquivalente Formulierung von MGLM nutzt; und dass (ii) die Gewichtsvektoren, die w in (12) bilden, dem Vektor entsprechen, der die geodätische Basis von MGLM bildet.
Da jede Demonstration durch unterschiedliche Gewichtsvektoren w gekennzeichnet ist, kann erneut eine Verteilung $P (w; θ) = N (w | μ_{w}, Σ_{w})$
erhalten werden. Daher kann die Randverteilung von y_t berechnet werden als $P (y; θ) = \int N_{M} (y | {Exp}_{p} (Ψ w), Σ_{y}) N (w | μ_{w}, Σ_{w}) d w,$
wobei die Randverteilung von zwei Wahrscheinlichkeitsverteilungen abhängt, die auf unterschiedlichen Mannigfaltigkeiten liegen (der Zeitindex wird hier und im Folgenden der Einfachheit halber ausgelassen). Allerdings hängt der Mittelwert µ_y von einem einzelnen festen Punkt p ∈ M und µ_w ∈ T_pM ab. Diese beiden Beobachtungen werden ausgenutzt, um die Randverteilung (13) auf dem Tangentenraum T_pM wie folgt zu lösen $\begin{array}{l} P ({Log}_{p} (y)) = \int N ({Log}_{p} (y) | Ψ_{w}, {\tilde{Σ}}_{y}) N (w | μ_{w}, Σ_{w}) d w, \\ = \int N ({Log}_{p} (y) | Ψ μ_{w}, Ψ Σ_{w} Ψ^{T} + {\tilde{Σ}}_{y}) d w \end{array}$
wobei ${\tilde{Σ}}_{y} = Γ_{μ_{y} \to p} (Σ_{y})$
die paralleltransportierte Kovarianz E_y von µ_y zu p ist. Es ist anzumerken, dass diese Randverteilung immer noch auf dem Tangentenraum $T_{p} M$
liegt, sodass sie unter Verwendung der exponentiellen Abbildung zurück auf
abgebildet wird, was zur abschließenden Randverteilung führt: $P (y; θ) = \int N_{M} (y | {Exp}_{p} (Ψ μ_{w}), {\hat{Σ}}_{y}) d w,$
wobei ${\hat{Σ}}_{y} = Γ_{p \to {\hat{μ}}_{y}} (Ψ Σ_{w} Ψ^{T} + {\tilde{Σ}}_{y}) .$
Wie oben beschrieben, läuft der Lernprozess von ProMP auf das Schätzen der Gewichtsverteilung $P (w; θ)$
hinaus. Dazu schätzt, für Demonstration i, die Steuerung 106 einen Gewichtsvektor ${\hat{w}}_{i} = {[{\hat{w}}_{1}^{T} \dots {\hat{w}}_{N_{ϕ}}^{T}]}^{T}$
unter Verwendung von MGLM. Zum Starten wird der zuvor eingeführte äquivalente Ausdruck für y_t verwendet, wobei Exp_p(Wϕ_t) ≡ Exp_p(Ψ_tw), mit W = [w₁ ... w_Nϕ] und wobei N_ϕ die Anzahl von Basisfunktionen ist. Sei darüber hinaus eine demonstrierte Quaternionentrajektorie $τ_{i} = {y_{t}}_{t = 1}^{T}$
mit $y_{t} \in S^{3}$
betrachtet. Dann wird, analog zu (3) im euklidischen Raum, die Gewichtsschätzung hier durch Ausnutzen von (10) erhalten, was führt zu $(\hat{p}, {\hat{w}}_{n}) = {argmin}_{(p, w_{n}) \in T M \forall n} \frac{1}{2} Σ_{i = 1}^{T} d_{M} {({Exp}_{p} (w ϕ_{t}) {,y}_{t})}^{2},$
wobei ϕ_t der Vektor von Basisfunktionen zur Zeit t ist und W die Menge von geschätzten Tangentengewichtsvektoren ${\hat{w}}_{n} \in T_{\hat{p}} M$
(d. h. N_ϕ Tangentenvektoren, die vom Punkt $p \in M$
ausgehen) enthält.
3 stellt multivariate allgemeine lineare Regression auf der sphärischen Mannigfaltigkeit $S^{2}$
dar, die zum Erlernen der Gewichte von Ausrichtungs-ProMPs verwendet wird. Bei gegebener Trajektorie y werden der Ursprung p des Tangentenraums $T_{p} M$
und die Tangentengewichtsvektoren w_n über (15) geschätzt.
Zum Lösen von (15) werden die Gradienten von E(p, w_n) bezüglich p und jedem w_n berechnet. Wie oben erläutert, hängen diese Gradienten von den so genannten adjungierten Operatoren ab, die, allgemein gesprochen, jeden Fehlerterm ${Log}_{{\hat{y}}_{t}} (y_{t})$
von $T_{{\hat{y}}_{t}} M$
auf $T_{p} M$
bringen, mit ŷ_t = Exp_p(Wϕ_t). Daher können diese adjungierten Operatoren als Paralleltransportoperationen angenähert werden. Dies führt zur folgenden Umformulierung der Fehlerfunktion von (15) $E (p, w_{n}) = \frac{1}{2} Σ_{t = 1}^{T} {‖ Γ_{{\hat{y}}_{t} \to p} ({Log}_{{\hat{y}}_{t}} (y_{t})) ‖}^{2} .$
Danach entsprechen die angenäherten Gradienten der Fehlerfunktion E(p,w_n) Folgendem: $\begin{matrix} \nabla_{p} E (p, w_{n}) \approx - Σ_{i = 1}^{T} Γ_{{\hat{y}}_{t} \to p} ({Log}_{{\hat{y}}_{t}} (y_{t})), \\ \nabla w_{n} E (p, w_{n}) \approx - Σ_{i = 1}^{T} ϕ_{t, n} Γ_{{\hat{y}}_{t} \to p} ({Log}_{{\hat{y}}_{t}} (y_{t})) . \end{matrix}$
Mit den obigen Gradienten kann die Steuerung 106 sowohl den Vektor p_i als auch die Gewichtsmatrix W_i, gebildet durch N_ϕ Vektoren w_n, für jede Demonstration i schätzen. Es ist anzumerken, dass jede Demonstration zu unterschiedlichen Schätzungen von p führen kann, was den Ursprung in der Mannigfaltigkeit
definiert, der verwendet wird, um die einzelnen Tangentengewichtsvektoren $w_{n} \in T_{p} M$
zu schätzen. Dies kann unterschiedliche Tangentenräume über die Demonstrationen und damit sehr verschiedene Tangentengewichtsvektoren produzieren. Eine effektive Möglichkeit, dieses Problem zu überwinden, ist anzunehmen, dass alle Demonstrationen den gleichen Tangentenraumursprung p gemeinsam nutzen, was die gleiche Annahme ist, die beim Definieren des geodätischen Basisfunktionsmodells (12) getroffen wurde. Daher schätzt, gemäß verschiedenen Ausführungsformen, die Steuerung 106 p für eine einzelne Demonstration und verwendet dies zum Schätzen aller Tangentengewichtsvektoren für die gesamte Menge von Demonstrationen. Dann können, bei einer gegebenen Menge von N Demonstrationen, die Gewichtsverteilungsparameter θ = {µ_w, Σ_w} durch ein Maximum-Likelihood-Standardverfahren geschätzt werden als $w_{n} \in T_{p} M \subset ℝ^{4} .$
Ein Beispiel eines Algorithmus zum Erlernen eines Robotersteuerungsmodells 112 durch Ausrichtungs-ProMP, den die Steuerung 106 durchführen kann, nachdem für sie eine Menge von N Demonstrationen bereitgestellt wurde (z. B. durch einen Benutzer durch Bewegen des Roboterarms 101 von Hand bereitgestellt wurde), ist wie folgt.
Wie bei klassischer ProMP kann die Steuerung 106 Trajektorienmodulation (d. h. zum Anpassen an neue Situationen, d. h. Steuerungsszenarien) durchführen durch Konditionieren der Bewegung, um einen gewünschten Trajektoriepunkt $y_{t}^{*} \in M$
mit zugehöriger Kovarianz $Σ_{y}^{*} \in T_{y_{t}^{*}} M$
zu erreichen. Dies führt zu der konditionalen Wahrscheinlichkeit $P (w | y_{t}^{*}) \propto N_{M} (y_{t}^{*} | {Exp}_{p} (Ψ_{t} w), Σ_{y}^{*}) N (w | μ_{w}, Σ_{w}),$
die von zwei Wahrscheinlichkeitsverteilungen abhängt, die auf unterschiedlichen Mannigfaltigkeiten liegen, ähnlich wie (13). Hier wird erneut die Tatsache ausgenutzt, dass der Mittelwert µ_y von einem einzelnen und festen $p \in M$
abhängt, was seinerseits die Basis des Tangentenraums $T_{p} M$
ist, auf dem die Gewichtsverteilung liegt. Dies ermöglicht ein Umschreiben der konditionalen Verteilung wie folgt $\begin{array}{l} P (w | {Log}_{p} (y_{t}^{*})) \propto N ({Log}_{p} (y_{t}^{*}) | Ψ_{t} w, {\tilde{Σ}}_{y}^{*}) N (w | μ_{w}, Σ_{w}), \\ = N (w | μ_{w}^{*}, Σ_{w}^{*}), \end{array}$
wobei ${\tilde{Σ}}_{y}^{*} = Γ_{y_{t}^{*} \to p} (Σ_{y}^{*}), und {μ_{w}^{*}, Σ_{w}^{*}}$
die Parameter zum Schätzen der resultierenden konditionalen Verteilung sind. Da beide Verteilungen jetzt auf $T_{p} M$
liegen, was in den euklidischen Raum eingebettet ist, können die neuen Verteilungsparameter ähnlich wie bei der klassischen ProMP-Konditionierungsprozedur geschätzt werden, mit spezieller Beachtung des Paralleltransportierens der Kovarianzmatrizen. Die neuen Gewichtsverteilungsparameter sind dann $\begin{matrix} μ_{w}^{*} = Σ_{w}^{*} (Ψ_{t}^{T} \overset{- 1}{{\tilde{Σ}}_{y}^{*}} {Log}_{p} (y_{t}^{*}) + Σ_{w}^{- 1} μ_{w}), \\ Σ_{w}^{*} = {(Σ_{w}^{- 1} + Ψ_{t}^{T} \overset{- 1}{{\tilde{Σ}}_{y}^{*}} Ψ_{t})}^{- 1} . \end{matrix}$
Aus der resultierenden neuen Gewichtsverteilung kann jetzt eine neue Randverteilung $P (y, θ^{*})$
über (14) erhalten werden.
Hinsichtlich des Mischens werden bei klassischen ProMP eine Menge von Bewegungsprimitiven unter Verwendung eines Produkts von gaußschen Verteilungen gemischt. Was das Mischen von Primitiven in
angeht, ist zu berücksichtigen, dass jede Trajektorienverteilung durch eine Menge von Gewichtsvektoren parametrisiert ist, die auf unterschiedlichen Tangentenräumen $T_{p} M$
liegen. Daher muss das gewichtete Produkt von gaußschen Verteilungen neu formuliert werden. Dazu wird, gemäß verschiedenen Ausführungsformen, eine gaußsche Produktformulierung auf riemannschen Mannigfaltigkeiten verwendet, wobei die Log-Likelihood des Produkts unter Verwendung eines gradientenbasierten Ansatzes iterativ maximiert wird.
Formal ist die Log-Likelihood eines Produkts von riemannschen gaußschen Verteilungen gegeben durch (Ausfaktorieren von konstanten Termen) $l (y) = - \frac{1}{2} Σ_{s = 1}^{S} {Log}_{μ_{y, s}} {(y)}^{T} Σ_{y, s}^{- 1} {Log}_{μ_{y, s}} (y),$
wobei µ_y,s und Σ_y,s die Parameter der Randverteilung $P_{s} (y; θ)$
für die Fertigkeit s sind. Es ist anzumerken, dass die logarithmischen Abbildungen in (20) auf unterschiedlichen Tangentenräumen $T_{μ_{y, s}} M, \forall s = 1 \dots S$
wirken. Um die Log-Likelihood-Maximierung durchzuführen, werden die Basis und das Argument der Abbildungen vertauscht, wobei sichergestellt wird, dass die ursprüngliche Log-Likelihood-Funktion unverändert bleibt. Dazu können die Beziehung Log_x(y) = -Log_y(x) wie auch die Paralleltransportoperationen ausgenutzt werden, um dieses Problem zu überwinden, was führt zu $J = \frac{1}{2} Σ_{s = 1}^{S} {Log}_{μ^{+}} {(μ_{y, s})}^{T} Λ_{y, s} {Log}_{μ^{+}} (μ_{y, s})$
wobei µ⁺ der Mittelwert der resultierenden gaußschen Verteilung (die geschätzt wird) ist, und $μ_{y, s} = Γ_{μ_{y, s} \to μ^{+}} (Σ_{y, s}^{- 1}) .$
Gleichung (21) kann umgeschrieben werden durch Definieren des Vektors $ε (μ^{+}) = {[{Log}_{μ^{+}} {(μ_{y,1})}^{T} \dots {Log}_{μ^{+}} {(μ_{y, s})}^{T}]}^{T}$
und der Blockdiagonalmatrix Λ = blockdiag(Λ_y,1, ··· ,Λ_y,S). Dies führt dazu, dass J die Form der Zielfunktion hat, die verwendet wird, um den empirischen Mittelwert v einer gaußschen Verteilung auf einer riemannschen Mannigfaltigkeit
zu berechnen, $J (v) = \frac{1}{2} ε {(v)}^{T} Λ \in (v),$
von der aus es möglich ist, den Mittelwert iterativ zu berechnen als $v_{k + 1} \leftarrow {Exp}_{v_{k}} (Δ_{v}) mit Δ_{v} = - {(J^{T} Λ J)}^{- 1} J^{T} Λ ε (v),$
wobei J die Jacobi-Determinante von ε(v) bezüglich der Basis des Tangentenraums von
bei v_k ist.
Die Steuerung 106 kann jetzt eine ähnliche iterative Schätzung des Mittelwerts µ⁺ wie folgt ausführen: $\begin{array}{l} Δ_{μ_{k}^{+}} = {(\sum_{s = 1}^{S} α_{s} Λ_{y, s})}^{- 1} (\sum_{s = 1}^{S} α_{s} Λ_{y, s} {Log}_{μ_{k}^{+}} (μ_{y, s})), \\ μ_{k + 1}^{+} \leftarrow {Exp}_{μ_{k}^{+}} (Δ_{μ_{k}^{+}}), \end{array}$
wobei $Λ_{y, s} = Γ_{μ_{y, s} \to μ_{k}^{+}} (Σ_{y, s}^{- 1}) .$
Nach Konvergenz bei Iteration K erhält die Steuerung 106 die abschließenden Parameter der Verteilung $P (y^{+}) = N_{M} (y^{+} | μ^{+}, Σ^{+})$
wie folgt $μ^{+} \leftarrow μ_{k}^{+} und Σ^{+} = {(\sum_{s = 1}^{S} α_{s} Λ_{y, s})}^{- 1} .$
Wie oben erläutert, ermöglicht klassische ProMP Anpassen der Gewichtsverteilung $P (w, θ) = N (w | μ_{w}, Σ_{w})$
als eine Funktion eines externen Aufgabenparameters 9, wobei angenommen wird, dass Zugang zu den Werten von ŝ für jede Demonstration vorhanden ist. Aufgabenparametrisierung gilt in ähnlicher Weise für Ausrichtungs-ProMP, da die Gewichtsvektoren $w_{n} \in T_{p} M \subset ℝ^{4},$
und daher (6), direkt angewendet werden kann, solange der Aufgabenparameter ŝ euklidisch ist. Wenn allerdings ŝ zu einer riemannschen Mannigfaltigkeit gehört, ist ein allgemeinerer Ansatz erforderlich.
Wenn gilt, dass der Aufgabenparameter ŝ ∈ M, kann die Steuerung 106 eine gemeinsame Wahrscheinlichkeitsverteilung $P (w, \hat{s})$
unter Verwendung eines gaußschen Mischmodells auf riemannschen Mannigfaltigkeiten erlernen. Anschließend kann die Steuerung 106 gaußsche Mischregression einsetzen, um $P (w {| \hat{s}}^{*})$
während der Reproduktion zu berechnen, wenn ein neuer Aufgabenparameter 9* bereitgestellt wird.
Zur besseren Veranschaulichung, wie Modelllernen, Trajektoriereproduktion, Wegpunktadaptation und Fertigkeitsmischung bei Ausrichtungs-ProMP funktionieren, wurde eine Datenmenge von handgeschriebenen Buchstaben verwendet. Die ursprünglichen Trajektorien wurden in ℝ² erzeugt und anschließend durch eine einfache Abbildung auf Einheitsnorm-Vektoren auf $S^{2}$
projiziert. Jeder Buchstabe in der Datenmenge wurde N = 8 Mal demonstriert, und ein einfacher Glättungsfilter wurde auf jede Trajektorie angewendet, hauptsächlich zum Zwecke der Visualisierung. Vier ProMP-Modelle wurden trainiert, eins für jeden der Buchstaben der Menge {G, I, J, S}. Die für I und J trainierten Modelle verwendeten N_ϕ = 30 Basisfunktionen mit gleichmäßig verteilten Mitten, für die Buchstaben G und 5 wurden N_ϕ = 60 Basisfunktionen verwendet. Die Ausrichtungs-ProMP-Modelle wurden gemäß dem oben gegebenen Algorithmus trainiert, mit anfänglicher Lernrate α = 0,005 und entsprechender oberer Grenze α_max = 0,03.
4 zeigt die Demonstrationsdaten, die über (13) berechnete Randverteilung $P (y; θ)$
und die aus (18) und (19) erhaltene Wegpunktadaptation, entsprechend den Modellen, die für die Buchstaben G und 5 trainiert wurden. Der Mittelwert der Randverteilung folgt dem Demonstrationsmuster, und das entsprechende Kovarianzprofil erfasst die Variabilität der Demonstrationen in $S^{2} .$
Es sollte hingewiesen werden auf die Komplexität der Trajektorien der Buchstaben G und 5, die sehr ausgeklügelte „Bewegungs“ muster zeigen, die komplexer sein können als die, die in realistischen Roboterumgebungen beobachtet werden können. Hinsichtlich der Wegpunktadaptation wurde ein zufälliger Punkt $y^{*} \in S^{2}$
mit zugehöriger Kovarianz $Σ_{y}^{*} = \times 10^{- 3} I$

verwendet (d. h. beim Durchlaufen von y* war eine hohe Präzision erforderlich).
Wie in 4 gezeigt, ist Ausrichtungs-ProMP in der Lage, sowohl die Trajektorie als auch das zugehörige Kovarianzprofil glatt anzupassen, während gleichzeitig der gegebene Wegpunkt genau durchlaufen wird.
5 stellt den Mischprozess von Ausrichtungs-ProMP für {G, I} und {S, J} dar.
Das Ziel war, eine Trajektorie zu erzeugen, die durch Folgen des Profils des ersten Buchstabens in der Menge startet und dann auf halbem Weg auf die Trajektorieverteilung des zweiten Buchstaben umschaltet. In 5 werden die resultierenden gemischten Trajektorien für die zwei erwähnten Fälle gezeigt, wobei Ausrichtungs-ProMP die beiden gegebenen Trajektorieverteilungen durch Folgen der eingeführten Mischprozedur für oben beschriebene Ausrichtungs-ProMP gleichmäßig mischt. Es ist anzumerken, dass das Mischverhalten stark von der zeitlichen Entwicklung der Gewichte α_s ∈ [0,1] in Verbindung mit den einzelnen Fertigkeiten s abhängt. In dieser Menge von Experimenten wurde eine sigmoid-artige Funktion für die Gewichte $α_{s}^{(I)} und α_{s}^{(J)}$
verwendet, wobei $α_{s}^{(G)} = 1 - α_{s}^{(I)} und α_{s}^{(S)} = 1 - α_{s}^{(J)} .$
Die obigen Ergebnisse zeigen, dass Ausrichtungs-ProMP Trajektorieverteilungen auf $S^{2}$
erfolgreich lernt und reproduziert und volle Wegpunktadaptation und Mischfähigkeiten bereitstellt.
Experimente zeigen, dass dies in ähnlicher Weise in einer Roboterumgebung gilt, beispielsweise für eine Neuausrichtungsfertigkeit, die dem Anheben eines vorher ergriffenen Objekts, Drehen des Endeffektors 104 und Platzieren des Objekts zurück an seinem ursprünglichen Ort, aber mit modifizierter Ausrichtung, entspricht. Diese Roboterfertigkeit beinhaltet signifikante Positions- und Ausrichtungsänderungen und ist daher geeignet, die Funktionalität von Ausrichtungs-ProMP zu zeigen.
Für ein Training einer Roboterfertigkeit, wie etwa einer Neuausrichtungsfertigkeit gibt jede Demonstration beispielsweise eine Roboterendeffektortrajektorie mit voller Pose ${p_{t}}_{i = 1}^{T} .$
Hier repräsentiert $p_{t} \in ℝ^{3} \times S^{3}$
die Endeffektorpose bei Zeitschritt t. Daher demonstriert jede Demonstration eine Positionstrajektorie (umfassend eine zeitliche Abfolge von Positionen, jede beschrieben durch ein Element von ℝ³) und eine Ausrichtungstrajektorie (umfassend eine zeitliche Abfolge von Ausrichtungen, jede beschrieben durch ein Element von $S^{3}$
). Die Rohdaten aus den Trajektorien können verwendet werden, um ein ProMP-Modell 112 auf $ℝ^{3} \times S^{3}$
zu trainieren, umfassend ein Untermodell für die Position und ein Untermodell für die Ausrichtung, wobei das Positionsmodell unter Verwendung des klassischen ProMP-Ansatzes erlernt wird und das Ausrichtungsmodell unter Verwendung des Ausrichtungs-ProMP-Ansatzes (z. B. dem oben beschriebenen Algorithmus) erlernt wird. Für beide Untermodelle kann die gleiche Menge von (z. B. N_ϕ = 40) Basisfunktionen verwendet werden, werden aber für unterschiedliche Komponenten verwendet (für jede Positionskomponente im Positionsuntermodell und für jede Ausrichtungskomponente im Ausrichtungsuntermodell).
Zusammengefasst wird, gemäß verschiedenen Ausführungsformen, ein Verfahren bereitgestellt, wie in 6 dargestellt.
6 zeigt ein Flussdiagramm 600, das ein Verfahren zum Steuern einer Robotervorrichtung darstellt.
In 601 werden Demonstrationen für eine Roboterfertigkeit bereitgestellt, wobei jede Demonstration eine Trajektorie demonstriert, die eine Abfolge von Roboterkonfigurationen umfasst, wobei jede Roboterkonfiguration durch ein Element eines vorbestimmten Konfigurationsraums mit der Struktur einer riemannschen Mannigfaltigkeit beschrieben wird.
In 602 wird, für jede demonstrierte Trajektorie, eine Repräsentation der Trajektorie als ein Vektor von Gewichten von vorbestimmten grundlegenden Bewegungen der Robotervorrichtung bestimmt durch Suchen eines Vektors von Gewichten, der ein Abstandsmaß zwischen der Kombination der grundlegenden Bewegung gemäß dem Vektor von Gewichten und der demonstrierten Trajektorie minimiert, wobei die Kombination auf die Mannigfaltigkeit abgebildet wird.
In 603 wird eine Wahrscheinlichkeitsverteilung der Vektoren von Gewichten durch Anpassen einer Wahrscheinlichkeitsverteilung an die für die demonstrierten Trajektorien bestimmten Vektoren von Gewichten bestimmt.
In 604 wird die Robotervorrichtung durch Durchführen grundlegender Bewegungen entsprechend der bestimmten Wahrscheinlichkeitsverteilung von Vektoren von Gewichten gesteuert.
Dies kann Abtasten aus der Wahrscheinlichkeitsverteilung des Vektors von Gewichten und Durchführen von grundlegenden Bewegungen in Übereinstimmung mit dem Abtastungsvektor (gemäß Gleichung (1)) umfassen. Es ist auch möglich, eine Wahrscheinlichkeitsverteilung von Trajektorien (gemäß Gleichung (14)) abzuleiten, von der abgetastet werden kann, um zu steuern, und die für eine erweiterte Steuerung verwendet werden kann, wie etwa das Mischen von Trajektorien, wie oben erläutert.
Das Verfahren aus 6 kann durch einen oder mehrere Computer, umfassend eine oder mehrere Datenverarbeitungseinheiten, durchgeführt werden. Der Begriff „Datenverarbeitungseinheit“ kann als ein beliebiger Typ von Entität verstanden werden, die die Verarbeitung von Daten oder Signalen ermöglicht. Beispielsweise können die Daten oder Signale gemäß zumindest einer (d. h. einer oder mehr als einer) spezifischen Funktion behandelt werden, die durch die Datenverarbeitungseinheit durchgeführt wird. Eine Datenverarbeitungseinheit kann eine analoge Schaltung, eine digitale Schaltung, eine zusammengesetzte Signalschaltung, eine Logikschaltung, einen Mikroprozessor, einen Mikrocontroller, eine zentrale Verarbeitungseinheit (CPU), eine Grafikverarbeitungseinheit (GPU), einen Digitalsignalprozessor (DSP), eine integrierte Schaltung mit programmierbarem Gate-Array (FPGA) oder eine beliebige Kombination daraus umfassen oder daraus gebildet werden. Jede andere Weise der Implementierung der entsprechenden Funktionen kann auch als Datenverarbeitungseinheit oder Logikschaltungsanordnung verstanden werden. Es versteht sich, dass einer oder mehrere der hier ausführlich beschriebenen Verfahrensschritte durch eine Datenverarbeitungseinheit über eine oder mehrere spezifische, durch die Datenverarbeitungseinheit durchgeführte Funktionen ausgeführt (z. B. implementiert) werden können.
Verschiedene Ausführungsformen können Bilddaten von verschiedenen visuellen Sensoren (Kameras), wie etwa Video, Radar, LiDAR, Ultraschall, thermische Bildgebung, Sonar usw., beispielsweise zum Erhalten der Daten der Demonstrationen empfangen und verwenden.
Der Ansatz aus 6 kann verwendet werden, um ein Steuersignal zum Steuern eines physischen Systems, wie z. B. einer computergesteuerten Maschine, wie etwa eines Roboters, eines Fahrzeugs, eines Haushaltgeräts, eines Elektrowerkzeugs, einer Fertigungsmaschine, eines persönlichen Assistenten oder eines Zugangssteuerungssystems, zu berechnen. Gemäß verschiedenen Ausführungsformen kann eine Richtlinie zum Steuern des physischen Systems erlernt werden, und dann kann das physische System entsprechend betrieben werden.
Gemäß einer Ausführungsform ist das Verfahren computerimplementiert.

Claims

Verfahren zur Steuerung einer Robotervorrichtung (100), das Folgendes umfasst: Bereitstellen von Demonstrationen für eine Roboterfertigkeit, wobei jede Demonstration eine Trajektorie (τ) demonstriert, die eine Abfolge von Roboterkonfigurationen (y_t) umfasst, wobei jede Roboterkonfiguration (y_t) durch ein Element eines vorbestimmten Konfigurationsraums mit der Struktur einer riemannschen Mannigfaltigkeit beschrieben wird; Bestimmen, für jede demonstrierte Trajektorie (τ), einer Repräsentation der Trajektorie (τ) als ein Vektor von Gewichten (w_i) von vorbestimmten grundlegenden Bewegungen der Robotervorrichtung (100) durch Suchen eines Vektors von Gewichten (w_i), der ein Abstandsmaß zwischen der Kombination aus den grundlegenden Bewegungen gemäß dem Vektor von Gewichten (w_i) und der demonstrierten Trajektorie (τ) minimiert, wobei die Kombination auf die Mannigfaltigkeit abgebildet ist; Bestimmen einer Wahrscheinlichkeitsverteilung der Vektoren von Gewichten (w_i) durch Anpassen einer Wahrscheinlichkeitsverteilung an die für die demonstrierten Trajektorien (τ) bestimmten Vektoren von Gewichten; und Steuern der Robotervorrichtung (100) durch Durchführen grundlegender Bewegungen entsprechend der bestimmten Wahrscheinlichkeitsverteilung von Vektoren von Gewichten (w_i).
Verfahren nach Anspruch 1, wobei die Wahrscheinlichkeitsverteilung der Vektoren von Gewichten durch Anpassen einer gaußschen Verteilung an die für die demonstrierten Trajektorien (τ) bestimmten Vektoren von Gewichten bestimmt wird.
Verfahren nach Anspruch 1 oder 2, wobei jede demonstrierte Trajektorie (τ) eine Roboterkonfiguration (y_t) für jede Zeit einer vorbestimmten Abfolge von Zeitpunkten umfasst und wobei jede Kombination der grundlegenden Bewegungen gemäß einem Vektor von Gewichten (w_i) eine Roboterkonfiguration (y_t) für jede Zeit der vorbestimmten Abfolge von Zeitpunkten bestimmt und wobei, für jede demonstrierte Trajektorie (τ), der Vektor von Gewichten (w_i) bestimmt wird durch Bestimmen, aus einer Menge von möglichen Vektoren von Gewichten (w_i), des Vektors von Gewichten (w_i), für den die Kombination der grundlegenden Bewegungen gemäß dem Vektor von Gewichten (w_i) und der demonstrierten Trajektorie (τ), wobei die Kombination auf die Mannigfaltigkeit abgebildet wird, minimal unter der Menge von möglichen Vektoren von Gewichten (w_i) ist, wobei der Abstand zwischen der Kombination aus grundlegenden Bewegungen, abgebildet auf die Mannigfaltigkeit, und der demonstrierten Trajektorie (τ) gegeben ist durch Summieren, über die Zeitpunkte der Abfolge von Zeitpunkten, über Terme, umfassend einen Term für jeden Zeitpunkt, der den Wert oder die Potenz des Wertes einer Metrik der Mannigfaltigkeit zwischen dem Element der Mannigfaltigkeit, gegeben durch die Kombination von grundlegenden Bewegungen zu dem Punkt in der Zeit, wenn abgebildet auf die Mannigfaltigkeit, und der demonstrierten Trajektorie (τ) umfasst.
Verfahren nach einem der Ansprüche 1 bis 3, umfassend, für eine der demonstrierten Trajektorien (τ), Suchen eines Punktes der Mannigfaltigkeit und eines Vektors von Gewichten (w_i), sodass der Punkt und der Vektor von Gewichten (w_i) ein Abstandsmaß zwischen der Kombination aus den grundlegenden Bewegungen gemäß dem Vektor von Gewichten (w_i) und der demonstrierten Trajektorie (τ) minimieren, wobei die Kombination auf die Mannigfaltigkeit von dem Tangentenraum an dem Punkt abgebildet wird, und wobei, für jede demonstrierte Trajektorie (τ), das Abbilden einer entsprechenden Kombination auf die Mannigfaltigkeit durchgeführt wird durch Abbilden der Kombination aus dem Tangentenraum an dem ausgewählten Punkt.
Verfahren nach einem der Ansprüche 1 bis 4, wobei die Trajektorie (τ) eine Ausrichtungstrajektorie ist und jede Demonstration ferner eine Positionstrajektorie demonstriert und jede Roboterkonfiguration (y_t) eine Pose umfasst, die beschrieben wird durch einen Vektor im dreidimensionalen Raum und eine Ausrichtung, die durch das Element des vorbestimmten Konfigurationsraums beschrieben wird.
Verfahren nach einem der Ansprüche 1 bis 5, umfassend Bereitstellen von Demonstrationen für mehr als nur Roboterfertigkeiten und Bestimmen, für jede Fertigkeit, von Repräsentationen von Trajektorien (τ) und Vektoren von Gewichten (w_i) und Wahrscheinlichkeitsverteilungen der Vektoren von Gewichten (w_i) und Steuern der Robotervorrichtung (100) durch Bestimmen, für jede Fertigkeit, aus der Wahrscheinlichkeitsverteilung von Vektoren von Gewichten (w_i), einer riemannschen gaußschen Verteilung von Mannigfaltigkeitspunkten, Bestimmen einer Produktverteilung der riemannschen gaußschen Verteilungen der Fertigkeiten und Steuern der Robotervorrichtung (100) durch Abtasten aus der Wahrscheinlichkeitsverteilung des bestimmten Produkts.
Robotervorrichtungssteuerung (106), ausgelegt zum Ausführen des Verfahrens nach einem der Ansprüche 1 bis 6.
Computerprogramm, umfassend Anweisungen, die, wenn durch einen Prozessor (110) ausgeführt, den Prozessor (110) veranlassen, ein Verfahren nach einem der Ansprüche 1 bis 6 durchzuführen.
Computerlesbares Medium (111), das Anweisungen speichert, die, wenn durch einen Prozessor (110) ausgeführt, den Prozessor (110) veranlassen, ein Verfahren nach einem der Ansprüche 1 bis 6 durchzuführen.