DE102021204697A1

DE102021204697A1 - Verfahren zum Steuern einer Robotervorrichtung

Info

Publication number: DE102021204697A1
Application number: DE102021204697.5A
Authority: DE
Inventors: Mathias Buerger; Andras Gabor Kupcsik; Leonel Rozo; Niels Van Duijkeren; Robert Krug; Meng Guo
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2022-11-10
Anticipated expiration: 2041-05-11
Also published as: US20220371194A1; CN115319734A; DE102021204697B4

Abstract

Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Steuern einer Robotervorrichtung beschrieben, aufweisend Bereitstellen von Demonstrationen zur Durchführung einer Fertigkeit durch den Roboter, wobei jede Demonstration für jeden Zeitpunkt einer Sequenz von Zeitpunkten eine Roboterpose, eine wirkende Kraft sowie Objektpose aufweist, Ermitteln, zu jeder Demonstration einer Attraktor-Demonstration, Trainieren eines Aufgaben-parametrisierten Robotertrajektorienmodells für die Fertigkeit aus den Attraktortrajektorien und Steuern der Robotervorrichtung gemäß dem Aufgaben-parametrisierten Robotertrajektorienmodell.

Description

Stand der Technik
Die vorliegende Offenbarung bezieht sich auf Verfahren zum Steuern einer Robotervorrichtung.
Die Durchführung einer Fertigkeit mit Kraftübertragung ist eine wichtige Funktionalität für die Durchführung von Aufgaben durch Roboter in der Industrie. Während eine starre kinematische Bahnverfolgung für einfache Aufnahme- und Platzierungsaufgaben oftmals ausreicht, ist sie unzureichend für Aufgaben, die eine explizite Interaktion mit der Umgebung erfordern. Beim Zusammenbau, beispielsweise von einem Motor, muss (als erste Fertigkeit) beispielsweise eine Metallwelle fest in ein Loch gedrückt werden. Dann muss (als zweite Fertigkeit) im Unterschied dazu eine Hülse sanft über die Metallwelle geschoben werden, wobei sie gedreht werden muss, damit die inneren Strukturen der Hülse den äußeren Strukturen der Metallwelle folgen und Beschädigungen vermieden werden. Diese beiden Fertigkeiten erfordern deutlich unterschiedliche kinematische Trajektorien, Krafttrajektorien und Steifigkeitswerte.
Dementsprechend sind Herangehensweisen wünschenswert, einen Roboter zu steuern, Fertigkeiten durchzuführen, die unterschiedliche Anforderungen in Hinblick auf die vom Roboter ausgeübten Kräfte (d.h. die Nachgiebigkeit des Roboters, wenn er bei der Ausübung der Fertigkeit auf Widerstand trifft) haben.
Offenbarung der Erfindung
Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Steuern einer Robotervorrichtung bereitgestellt, aufweisend Bereitstellen von Demonstrationen zur Durchführung einer Fertigkeit durch den Roboter, wobei jede Demonstration für jeden Zeitpunkt einer Sequenz von Zeitpunkten eine Pose einer Komponente der Robotervorrichtung, eine auf die Komponente der Robotervorrichtung wirkende Kraft sowie eine Pose des durch die Fertigkeit manipulierten Objekts aufweist, Ermitteln, zu jeder Demonstration einer Attraktor-Demonstration durch Ermitteln einer Trainings-Attraktortrajektorie durch Berechnen, für jeden Zeitpunkt der Sequenz von Zeitpunkten, einer Attraktorpose durch lineare Kombination der Pose für den Zeitpunkt, der Geschwindigkeit der Komponente der Robotervorrichtung zu dem Zeitpunkt, der Beschleunigung der Komponente der Robotervorrichtung und der zu dem Zeitpunkt auf die Komponente der Robotervorrichtung wirkenden Kraft, wobei die Geschwindigkeit mit einer Dämpfungsmatrix und einer inversen Steifigkeitsmatrix und die Beschleunigung und die Kraft mit der inversen Steifigkeitsmatrix gewichtet werden und Ergänzen der Attraktortrajektorie zu einer Attraktor-Demonstration durch die Posen des durch die Fertigkeit manipulierten Objekts für jeden Zeitpunkt der Sequenz von Zeitpunkten, Trainieren eines Aufgaben-parametrisierten Robotertrajektorienmodells für die Fertigkeit aus den Attraktortrajektorien und Steuern der Robotervorrichtung gemäß dem Aufgaben-parametrisierten Robotertrajektorienmodell.
Das oben beschriebene Verfahren zum Steuern eines Roboters ermöglicht es, dass ein Roboter für verschiedene Szenarien (auch solche, die nicht in Demonstrationen explizit gezeigt wurde) eine Fertigkeit mit gewünschter Kraftübertragung (also mit einem Gewünschten Grad von Nachgiebigkeit bzw. Steifigkeit, d.h. mit einer gewünschten Kraft, mit der Roboter auf Widerstand reagiert) durchführt.
Im Folgenden werden verschiedene Ausführungsbeispiele angegeben.
Ausführungsbeispiel 1 ist ein Verfahren zum Steuern eines Roboters, wie oben beschrieben.
Ausführungsbeispiel 2 ist ein Verfahren nach Ausführungsbeispiel 1, wobei das Robotertrajektorienmodell durch die Objektpose Aufgaben-parametrisiert ist.
Dies ermöglicht eine Steuerung auch in Szenarien mit Objektposen, die in keiner der Demonstrationen aufgetreten sind.
Ausführungsbeispiel 3 ist ein Verfahren nach Ausführungsbeispiel 1 oder 2, wobei das Robotertrajektorienmodell ein Aufgaben-parametrisiertes Gaußsches Mischmodell ist.
Ein Aufgaben-parametrisiertes Gaußsches Mischmodell ermöglicht ein effizientes Training aus Demonstrationen und wird in diesem Fall auf die Attraktor-Demonstrationen angewendet.
Ausführungsbeispiel 4 ist ein Verfahren nach Ausführungsbeispiel 3, wobei das Steuern aufweist: Ermitteln einer ersten Sequenz von Gaußschen Komponenten zum Maximieren der Wahrscheinlichkeit, dass die Gaußschen Komponenten eine gegebene Anfangskonfiguration und/oder eine gewünschte Endkonfiguration liefern, Steuern der Robotervorrichtung gemäß der ersten Sequenz von Gaußschen Komponenten, Beobachten von bei der Steuerung auftretenden Konfigurationen und, zu mindestens einem Zeitpunkt im Laufe es Steuerns, Anpassen der Sequenz von Gaußschen Komponenten zu einer zweiten Sequenz von Gaußschen Komponenten zum Maximieren der Wahrscheinlichkeit, dass die Gaußschen Komponenten die gegebene Anfangskonfiguration und/oder die gewünschte Endkonfiguration und die beobachteten Konfigurationen liefern und Steuern der Robotervorrichtung gemäß der zweiten Sequenz von Gaußschen Komponenten.
Damit werden beim Steuern („online“) die erreichten bzw. auftretenden Konfigurationen beobachtet (insbesondere Objektposen) und die Steuerungssequenz entsprechend angepasst. Insbesondere können Steuerungsfehler oder externe Störungen ausgeglichen werden.
Ausführungsbeispiel 5 ist ein Verfahren nach Ausführungsbeispiel 4, wobei von dem Steuern gemäß der ersten Sequenz zu einem Steuern zu dem Steuern gemäß der zweiten Sequenz in einer Übergangsphase gewechselt wird, wobei in der Übergangsphase gemäß einer eingefügten Gaußschen Komponenten mit einer Dauer, die proportional ist zu dem Unterschied zwischen der Pose der Robotervorrichtung zu dem Beginn des Wechselns und des Mittelwerts der Gaußschen Komponente der zweiten Sequenz, mit welcher nach dem Wechseln auf das Steuern gemäß der zweiten Sequenz fortgefahren wird, gesteuert wird.
Die Übergangsphase gewährleistet, dass kein zu abrupter Wechseln in der Steuerung auftritt, was zu gefährlichem oder schädigendem Verhalten führen könnte, sondern sacht von der einen Steuerungssequenz auf die andere Steuerungssequenz gewechselt wird.
Ausführungsbeispiel 6 ist eine Robotersteuereinrichtung, die dazu konfiguriert ist, das Verfahren nach einem der Ausführungsbeispiele 1 bis 5 durchzuführen.
Ausführungsbeispiel 7 ist ein Computerprogramm mit Befehlen, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ausführungsbeispiele 1 bis 5 durchführt.
Ausführungsbeispiel 8 ist ein computerlesbares Medium, das Befehle speichert, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ausführungsbeispiele 1 bis 5 durchführt.
In den Zeichnungen beziehen sich ähnliche Bezugszeichen im Allgemeinen auf dieselben Teile in den ganzen verschiedenen Ansichten. Die Zeichnungen sind nicht notwendigerweise maßstäblich, wobei die Betonung stattdessen im Allgemeinen auf die Darstellung der Prinzipien der Erfindung gelegt wird. In der folgenden Beschreibung werden verschiedene Aspekte mit Bezug auf die folgenden Zeichnungen beschrieben. 1 zeigt
Die folgende ausführliche Beschreibung bezieht sich auf die begleitenden Zeichnungen, die zur Erläuterung spezielle Details und Aspekte dieser Offenbarung zeigen, in denen die Erfindung ausgeführt werden kann. Andere Aspekte können verwendet werden und strukturelle, logische und elektrische Änderungen können durchgeführt werden, ohne vom Schutzbereich der Erfindung abzuweichen. Die verschiedenen Aspekte dieser Offenbarung schließen sich nicht notwendigerweise gegenseitig aus, da einige Aspekte dieser Offenbarung mit einem oder mehreren anderen Aspekten dieser Offenbarung kombiniert werden können, um neue Aspekte zu bilden.
Im Folgenden werden verschiedene Beispiele genauer beschrieben.
1 zeigt einen Roboter 100.
Der Roboter 100 umfasst einen Roboterarm 101, beispielsweise einen Industrieroboterarm zum Handhaben oder Montieren eines Werkstücks (oder eines oder mehrerer anderer Objekte). Der Roboterarm 101 umfasst Manipulatoren 102, 103, 104 und eine Basis (oder Stütze) 105, durch die die Manipulatoren 102, 103, 104 abgestützt sind. Der Begriff „Manipulator“ bezieht sich auf die beweglichen Elemente des Roboterarms 101, deren Betätigung eine physikalische Wechselwirkung mit der Umgebung ermöglicht, z. B. um eine Aufgabe auszuführen. Für die Steuerung umfasst der Roboter 100 eine (Roboter-) Steuereinrichtung 106, die dazu konfiguriert ist, die Wechselwirkung mit der Umgebung gemäß einem Steuerprogramm zu implementieren. Das letzte Element 104 (am weitesten von der Stütze 105 entfernt) der Manipulatoren 102, 103, 104 wird auch als Endeffektor 104 bezeichnet und kann ein oder mehrere Werkzeuge wie z. B. einen Schweißbrenner, ein Greifinstrument, ein Lackierwerkzeug oder dergleichen umfassen.
Die anderen Manipulatoren 102, 103 (näher an der Basis 105) können eine Positionierungsvorrichtung bilden, sodass zusammen mit dem Endeffektor 104 der Roboterarm 101 mit dem Endeffektor 104 an seinem Ende vorgesehen ist. Der Roboterarm 101 ist ein mechanischer Arm, der ähnliche Funktionen wie ein menschlicher Arm (möglicherweise mit einem Werkzeug an seinem Ende) erfüllen kann.
Der Roboterarm 101 kann Gelenkelemente 107, 108, 109 umfassen, die die Manipulatoren 102, 103, 104 miteinander und mit der Basis 105 verbinden. Ein Gelenkelement 107, 108, 109 kann ein oder mehrere Gelenke aufweisen, von denen jedes eine drehbare Bewegung (d.h. Drehbewegung) und/oder Translationsbewegung (d.h. Verschiebung) von zugehörigen Manipulatoren relativ zueinander bereitstellen kann. Die Bewegung der Manipulatoren 102, 103, 104 kann mittels Aktuatoren eingeleitet werden, die durch die Steuereinrichtung 106 gesteuert werden.
Der Begriff „Aktuator“ kann als Komponente verstanden werden, die dazu ausgelegt ist, einen Mechanismus oder Prozess in Reaktion darauf, dass sie angetrieben wird, zu beeinflussen. Der Aktuator kann Befehle, die durch die Steuereinrichtung 106 ausgegeben werden (die sogenannte Aktivierung), in mechanische Bewegungen implementieren. Der Aktuator, z. B. ein elektromechanischer Wandler, kann dazu konfiguriert sein, auf seine Aktivierung hin elektrische Energie in mechanische Energie umzuwandeln.
Der Begriff „Steuereinrichtung“ kann als irgendein Typ von Logik, die eine Entität implementiert, verstanden werden, die beispielsweise eine Schaltung und/oder einen Prozessor, der in der Lage ist, eine Software auszuführen, die in einem Speichermedium gespeichert ist, Firmware oder eine Kombination davon umfassen kann, und die Befehle, z. B. an einen Aktuator im vorliegenden Beispiel, ausgeben kann. Die Steuereinrichtung kann beispielsweise durch einen Programmcode (z. B. Software) konfiguriert sein, um den Betrieb eines Roboters zu steuern.
Im vorliegenden Beispiel umfasst die Steuereinrichtung 106 einen oder mehrere Prozessoren 110 und einen Speicher 111, der Code und Daten speichert, auf deren Basis der Prozessor 110 den Roboterarm 101 steuert. Gemäß verschiedenen Ausführungsformen steuert die Steuereinrichtung 106 den Roboterarm 101 auf der Basis eines statistischen Modells 112, das im Speicher 111 gespeichert ist.
Der Roboter 100 soll beispielsweise ein erstes Objekt 113 aufnehmen und an ein zweites Objekt 114 anbauen. Beispielsweise ist der Endeffektor 104 ein Greifer und soll das erste Objekt 113 aufnehmen, aber der Endeffektor 104 kann auch beispielsweise eingerichtet sein, das Objekt 113 zum Aufnehmen anzusaugen.
Der Roboter 100 soll beispielsweise das erste Objekt 113 an das zweite Objekt 114 anbauen, um ein Gerät zusammenzubauen. Dabei können unterschiedliche Anforderungen auftreten, wie nachgiebig (oder im Gegenteil dazu steif) der Roboter dabei vorgeht.
Beispielsweise muss beim Zusammenbau eines Motors eine Metallwelle fest (steif) in ein Loch gedrückt werden und dann eine Hülse (sanft, d.h. nachgiebig) über die Metallwelle geschoben werden, um innere Strukturen der Hülse und dazu passende äußere Strukturen der Metallwelle zu berücksichtigen (und nicht zu beschädigen).
Der Roboter soll also in der Lage sein, Fertigkeit mit unterschiedliche Steifigkeit bzw. Nachgiebigkeit auszuführen.
Dazu kann das statistische Modell durch Lernen aus Demonstrationen (Learning from Demonstrations LfD) trainiert werden.
Dabei können menschliche Demonstrationen durch das statistische Modell 112 (auch als probabilistisches Modell bezeichnet) codiert werden, das den nominalen Plan der Aufgabe für den Roboter darstellt. Die Steuereinrichtung 106 kann anschließend das statistische Modell 112 verwenden, das auch als Robotertrajektorienmodell bezeichnet wird, um gewünschte Roboterbewegungen zu erzeugen.
Die Grundidee von LfD besteht darin, ein vorgeschriebenes Bewegungsfertigkeitsmodell wie z.B. GMMs (Gaußsche Mischmodelle) an eine Menge von Demonstrationen anzupassen. M Demonstrationen sollen vorhanden sein, von denen jede T_m Datenpunkte für einen Datensatz von N = Σ_m T_m Gesamtbeobachtungen $ξ = {ξ_{t}}_{t = 1}^{N}$
enthält, wobei ξ_t ∈ ℝ^d. Es wird auch angenommen, dass dieselben Demonstrationen aus der Perspektive von P verschiedenen Koordinatensystemen aufgezeichnet werden (durch die Aufgabenparameter gegeben, wie z. B. lokale Koordinatensysteme oder Bezugsrahmen von interessierenden Objekten). Eine übliche Weise zum Erhalten solcher Daten besteht darin, die Demonstrationen von einem statischen globalen Bezugsrahmen auf einen (lokalen) Bezugsrahmen p durch $ξ = {ξ_{t}}_{t = 1}^{N}$
zu transformieren. Hier ist ${(b^{(p)}, A^{(p)})}_{p = 1}^{P}$
die Translation und Rotation des (lokalen) Bezugsrahmens p in Bezug auf ein globales Koordinatensystem (d.h. den globalen Bezugsrahmen). Dann wird ein TP-GMM (Task-Parameterized, d.h. Aufgaben-parametrisiertes GMM) durch die Modellparameter ${π_{k}, {μ_{k}^{(p)}, Σ_{k}^{(p)}}_{p = 1}^{P}}_{k = 1}^{K}$
beschrieben, wobei K die Anzahl von Gauß-Komponenten im Mischmodell darstellt, π_k die vorherige Wahrscheinlichkeit jeder Komponente ist und ${μ_{k}^{(p)}, Σ_{k}^{(p)}}_{p = 1}^{P}$
die Parameter der k-ten Gauß-Komponente innerhalb des Bezugsrahmens p sind.
Im Unterschied zum Standard-GMM kann das obige Mischmodell nicht unabhängig für jeden Bezugsrahmen gelernt werden. Tatsächlich werden die Mischkoeffizienten π_k von allen Bezugsrahmen geteilt und die k-te Komponente im Bezugsrahmen p muss auf die entsprechende k-te Komponente im globalen Bezugsrahmen abbilden. Erwartung-Maximierung (EM) ist ein etabliertes Verfahren, um solche Modelle zu lernen.
Sobald es gelernt ist, kann das TP-GMM während der Ausführung verwendet werden, um eine Trajektorie für die gelernte Bewegungsfertigkeit zu reproduzieren. Dies beinhaltet die Steuerung des Roboters, sodass er von einer Anfangskonfiguration eine Zielkonfiguration erreicht (z.B. sein Endeffektor 104 sich von einer Anfangspose in eine Endpose bewegt). Dazu wird die (von der Zeit abhängige) Beschleunigung an den Gelenkelementen 107, 108, 109 berechnet. In Anbetracht der beobachteten Bezugsrahmen ${b^{(p)}, A^{(p)}}_{p = 1}^{P}$
wird das gelernte TP-GMM in ein einzelnes GMM mit Parametern ${π_{k}, {{\hat{μ}}_{k}, {\hat{Σ}}_{k}}}_{k = 1}^{K}$
durch Multiplizieren der affin transformierten Gauß-Komponenten über verschiedene Bezugsrahmen umgewandelt, wie folgt ${\hat{Σ}}_{k} = {[\sum_{p = 1}^{P} {({\hat{Σ}}_{k}^{(p)})}^{- 1}]}^{- 1}, {\hat{μ}}_{k} = {\hat{Σ}}_{k} [\sum_{p = 1}^{P} {({\hat{Σ}}_{k}^{(p)})}^{- 1} {\hat{μ}}_{k}^{(p)}],$
wobei die Parameter der aktualisierten Gauß-Glocke an jedem Bezugsrahmen p berechnet werden als ${\hat{μ}}_{k}^{(p)} = A^{(p)} μ_{k}^{(p)} + b^{(p)}$
und ${\hat{Σ}}_{k}^{(p)} = A^{(p)} Σ_{k}^{(p)} A^{{(p)}^{T}} .$
Obwohl die Aufgabenparameter über die Zeit variieren können, wird der Zeitindex wegen der Schreibweise weggelassen.
Verborgene Semi-Markov-Modelle (HSMMs) erweitern verborgene Standard-Markov-Modelle (HMMs) durch Einbetten von Zeitinformationen des zugrundeliegenden stochastischen Prozesses. Das heißt, während in HMM der zugrundeliegende verborgene Prozess als Markov angenommen wird, d.h. die Wahrscheinlichkeit des Übergangs zum nächsten Zustand nur vom aktuellen Zustand abhängt, wird in HSMM der Zustandsprozess als Semi-Markov angenommen. Dies bedeutet, dass ein Übergang zum nächsten Zustand vom aktuellen Zustand sowie von der abgelaufenen Zeit, seitdem in den Zustand eingetreten wurde, abhängt. Sie können in Kombination mit TP-GMMs für Roboterbewegungsfertigkeitscodierung angewendet werden, um räumlich-zeitliche Merkmale der Demonstrationen zu lernen. Ein aufgabenparametrisiertes HSMM-Modell TP-HSMM-Modell ist definiert als: $Θ = {{a_{hk}}_{h = 1}^{K}, (μ_{k}^{D}, σ_{k}^{D}), π_{k}, {(μ_{k}^{(p)}, Σ_{k}^{(p)})}_{p = 1}^{P}}_{k = 1}^{K},$
wobei ahk die Übergangswahrscheinlichkeit vom Zustand h zu k ist; $(μ_{k}^{D}, σ_{k}^{D})$
die Gauß-Verteilungen für die Dauer des Zustandes k beschreiben, d.h. die Wahrscheinlichkeit, dass im Zustand k für eine bestimmte Anzahl von aufeinander folgenden Schritten geblieben wird; ${π_{k}, {μ_{k}^{(p)}, Σ_{k}^{(p)}}_{p = 1}^{P}}_{k = 1}^{K}$
gleich dem früher eingeführten TP-GMM ist, das die Beobachtungswahrscheinlichkeit darstellt, die dem Zustand k entspricht. Hier ist zu beachten, dass die Anzahl von Zuständen der Anzahl von Gauß-Komponenten im „angebundenen“ TP-GMM darstellt.
In Anbetracht einer bestimmten (teilweisen) Sequenz von beobachteten Datenpunkten ${ξ_{l}}_{l = 1}^{t},$
soll angenommen werden, dass die zugehörige Sequenz von Zuständen in Θ durch s_t = s₁s₂ ... s_t gegeben ist. Die Wahrscheinlichkeit, dass der Datenpunkt ξ_t zum Zustand k gehört (d.h. s_t = k), ist durch die Vorwärtsvariable $α_{t} (k) = p (s_{t} = k, {ξ_{l}}_{l = 1}^{t})$
gegeben: $α_{t} (k) = \sum_{τ = 1}^{t - 1} \sum_{h = 1}^{K} α_{t - 1} (h) a_{hk} N (τ | μ_{k}^{D}, σ_{k}^{D}) o_{τ}^{t},$
wobei $o_{τ}^{t} = \prod_{l = t - τ + 1}^{t} N (ξ_{l} | {\hat{μ}}_{k}, {\hat{Σ}}_{k})$
die Emissionswahrscheinlichkeit ist und (µ̂_k, Σ̂_k) von (1) in Anbetracht der Aufgabenparameter abgeleitet sind. Ferner kann dieselbe Vorwärtsvariable auch während der Reproduktion verwendet werden, um zukünftige Schritte bis T_m vorherzusagen.
Da jedoch in diesem Fall zukünftige Beobachtungen nicht verfügbar sind, werden nur Übergangs- und Dauerinformationen verwendet, d.h. durch Setzen von N (ξ_ℓ |µ̂_k, Σ̂_k) = 1 für alle k und ℓ > t in (2). Schließlich wird die Sequenz der wahrscheinlichsten Zustände $s_{T_{m}}^{⋆} = s_{1}^{⋆} s_{2}^{⋆} \dots s_{T_{m}}^{⋆}$
durch Wählen von $s_{t}^{⋆} = {argmax}_{k} α_{t} (k), \forall 1 \leq t \leq T_{m}$
bestimmt.
Nun soll eine gewünschte Endbeobachtung des Roboterzustandes als ξ_T gegeben sein, wobei T der Bewegungsfertigkeitszeithorizont (z. B. die mittlere Länge über die Demonstrationen) ist. Überdies wird der anfängliche Roboterzustand als ξ₁ beobachtet. Für die Ausführung der Bewegungsfertigkeit (d.h. Bewegungsfertigkeitsreproduktion) in Anbetracht des gelernten Modells Θ_a wird nur die wahrscheinlichste Zustandssequenz $s_{T}^{⋆}$
in Anbetracht von nur ξ₁ und ξ_T konstruiert.
Die Reproduktion unter Verwendung der Vorwärtsvariable kann in diesem Fall nicht direkt erfolgen, da die Vorwärtsvariable in Gleichung (3) die Sequenz von marginal wahrscheinlichsten Zuständen berechnet, während das, was erwünscht ist, die gemeinsam wahrscheinlichste Sequenz von Zuständen in Anbetracht von ξ_t und ξ_T ist. Folglich besteht, wenn (3) verwendet wird, keine Garantie, dass die zurückgegebene Sequenz $s_{T}^{⋆}$
sowohl den räumlich-zeitlichen Mustern der Demonstrationen als auch der Endbeobachtung entspricht. Hinsichtlich eines Beispiels zum Aufnehmen eines Objekts kann es eine wahrscheinlichste Sequenz zurückgeben, die „Aufnehmen von der Seite“ entspricht, selbst wenn die gewünschte Endkonfiguration darin besteht, dass der Endeffektor sich an der Oberseite des Objekts befindet.
Gemäß einer Ausführungsform wird eine Modifikation des Viterbi-Algorithmus verwendet. Der klassische Viterbi-Algorithmus kann verwendet werden, um die wahrscheinlichste Sequenz von Zuständen (auch Viterbi-Pfad genannt) in HMMs zu finden, die zu einer gegebenen Sequenz von beobachteten Ereignissen führen. Gemäß einer Ausführungsform wird ein Verfahren verwendet, die sich von jener in zwei Hauptaspekten unterscheidet: (a) sie arbeitet mit einem HSMM anstelle von einem HMM; und bedeutender (b) die meisten Beobachtungen abgesehen von der ersten und der letzten fehlen. Insbesondere wird bei Abwesenheit von Beobachtungen der Viterbi-Algorithmus zu $\begin{array}{l} δ_{t} (j) & = max_{d \in D} max_{i \neq j} δ_{t - d} (i) a_{ij} p_{j} (d) \prod_{t' = t - d + 1}^{t} {\tilde{b}}_{j} (ξ_{t'}), \\ δ_{1} (j) & = b_{j} (ξ_{1}) π_{j} p_{j} (1), \end{array}$
wobei $p_{j} (d) = N (d | μ_{j}^{D}, σ_{j}^{D})$
die Dauerwahrscheinlichkeit des Zustandes j ist, δ_t(j) die Wahrscheinlichkeit, dass das System sich im Zustand j zur Zeit t und nicht im Zustand j bei t + 1 befindet; und ${\tilde{b}}_{j} (ξ_{t'}) = {\begin{array}{l} N (ξ_{t'} | {\hat{μ}}_{j}, {\hat{Σ}}_{j}), & t = 1 \lor t = T; \\ 1, & 1 < t < T . \end{array}$
wobei (µ̂_j,∑̂_j) die globale Gauß-Komponente j in Θ_a von (1) gegeben ξ_t, ist. Zu jeder Zeit t und für jeden Zustand j werden nämlich die zwei Argumente, die die Gleichung δ_t(j) maximieren, aufgezeichnet und eine einfache Rückverfolgungsprozedur wird verwendet, um die wahrscheinlichste Zustandssequenz $s_{T}^{⋆}$
zu finden. Mit anderen Worten leitet der obige Algorithmus die wahrscheinlichste Sequenz $s_{T}^{⋆}$
für die Bewegungsfertigkeit a, die die Endbeobachtung ξ_T ergibt, ausgehend von ξ₁ ab.
Um den obigen Anforderungen Rechnung zu tragen, dass der Roboter in der Lage sein soll, Fertigkeit mit unterschiedliche Steifigkeit bzw. Nachgiebigkeit auszuführen, wird gemäß verschiedenen Ausführungsformen die obige Vorgehensweise zum Lernen aus Demonstrationen nicht direkt auf Demonstrationen $ξ = {ξ_{t}}_{t = 1}^{N}$
angewendet, sondern auf sogenannte Attraktordemonstrationen $y = {y_{t}}_{t = 1}^{N},$
die aus den Demonstrationen ermittelt werden. Dies wird im Folgenden genauer erläutert.
2 zeigt ein Ablaufdiagramm, das ein Verfahren zum Steuern eines Roboters gemäß einer Ausführungsform darstellt.
Für die folgenden Erläuterungen wird ein Roboterarm 101 mit mehreren Freiheitsgraden als Beispiel betrachtet, dessen Endeffektor 104 einen Zustand
x ∈ ℝ³ × S³ aufweist (der die kartesische Position und die Orientierung in dem RoboterArbeitsraum). Zur Einfachheit werden im Folgenden Formulierungen für den Euklidischen Raum verwendet.
Es wird angenommen, dass die Steuereinrichtung eine kartesische Impedanzsteuerung gemäß der Lagrange-Formulierung $F = K^{ρ} (x_{d} - x) + K^{ν} ({\dot{x}}_{d} - \dot{x}) + I (q) {\ddot{x}}_{d} + Ω (q, \dot{q})$
implementiert (wobei hier zur Einfachheit der Zeitindex weggelassen wurde). Hierbei ist F das Eingabemoment für die Steuerung (projiziert in den Roboter-Arbeitsraum), (x_d, ẋ_d, ẍ_d) sind die gewünschte Pose, Geschwindigkeit bzw. Beschleunigung im Arbeitsraum, K^ρ und K^v sind die Steifigkeitsmatrix bzw. die Dämpfmatrix, I(q) ist eine Arbeitstraumträgheitsmatrix und Ω((q,q̇) modelliert die interne Dynamik des Roboters. Diese letzten beiden Matrizen hängen von der Winkelposition q der Gelenke des Roboters und der Winkelgeschwindigkeit q̇ der Winkelposition der Gelenke des Roboters ab. Diese stehen bei der Steuerung zur Verfügung.
In 201 werden (z.B. durch einen menschlichen Benutzer) für eine Fertigkeit mit Kraftübertragung Demonstrationen durchgeführt. Diese Menge von Demonstrationen wird bezeichnet als D = {D₁, ..., D_M}, wobei jede Demonstrationen eine (zeitlich indizierte) Sequenz von Beobachtungen $D_{m} = {[ξ_{t}]}_{t = 1}^{T_{m}} = {[((x_{t}, {\dot{x}}_{t}, {\ddot{x}}_{t}, ƒ_{t}), p_{t})]}_{t = 1}^{T_{m}}$
wobei zu jedem Zeitpunkt t die Beobachtung ξ_t aus der Roboterpose x_t, Geschwindigkeit ẋ_t, Beschleunigung ẍ_t der externen Kraft und dem externen Moment bzw. externen Kraft ƒ_t und der Pose p_t des manipulierten Objekts (z.B. des ersten Objekts 113) besteht. Da ein Moment einer Kraft mit einem bestimmten Hebelarm entspricht und dementsprechend ineinander umgerechnet werden können, werden hierin Kraft und Moment äquivalent verwendet.
Die Demonstrationen können mittels eines Konfigurationsschätzungsmoduls, einem Beobachtungsmodul und dedizierten Sensoren (Kraftsensor, Kamera etc.) ermittelt (z.B. aufgezeichnet) werden.
Das Ziel ist es, eine Bewegungsvorschrift für die gemäß (5) arbeitende (Impedanz-)Steuervorrichtung 106 zu ermitteln, so dass der Roboter 100 die demonstrierte Fertigkeit zuverlässig mit den demonstrierten Posen- und Kraft- (bzw. Moment-)Profilen reproduzieren kann, selbst für neue Szenarien, d.h. z.B. einer neuen (nicht in einer Demonstration aufgetretenen) Objektpose.
Der in 2 gezeigte Ablauf besteht aus dem Trainieren des Modells 200 (z.B. offline, d.h. vor dem Betrieb) und der Ausführung der Fertigkeit 211 (online, d.h. im Betrieb). Das Vorführen der Demonstrationen in 201 ist Teil des Trainings.
Jede Demonstration D_m = [ξ_t] der Demonstrationen 201 wird gemäß $y_{t} = x_{t} + K_{t}^{- ρ} (K_{t}^{ν} {\dot{x}}_{t} + {\ddot{x}}_{t} - ƒ_{t})$
in eine zugehörige Attraktortrajektorie [y_t] umgewandelt. Hierbei ist $K_{t}^{- ρ} = {(K_{t}^{ρ})}^{- 1} .$
Anschaulich wird die demonstrierte Pose, Geschwindigkeit, Beschleunigung und Kraft/Moment in eine einzige Größe umgewandelt. Entsprechend kann beispielsweise bei großer Kraft die Attraktortrajektorie stark von der demonstrierten Trajektorie, zu der sie gehört, abweichen.
Damit liegt zu jeder Demonstration eine zugehörige Attraktordemonstration ψ_m = [(y_t, p_t)] vor. Die so erzeugten Attraktordemonstrationen bilden eine Menge von Attraktordemonstrationen 202, bezeichnet als ψ = {ψ_m}. Die Erzeugung erfolgt gemäß Gleichung (6) mittels Anfangswerten 203 (z.B. als Standardwerte der Impedanz-Steuereinrichtung) für $K_{t}^{ρ} und K_{t}^{ν} .$
Nun wird wie oben beschrieben für die Menge von Attraktordemonstrationen 202 ein TP-HSMM 204 wie in Gleichung (2) gelernt. Dieses Attraktormodell wird mit Θ_y bezeichnet.
Auf die Berechnung der Attraktortrajektorien nach Gleichung (6) und damit auf das Attraktormodell 204 hat die Wahl der Anfangswerte 203 für $K_{t}^{ρ}$
und $K_{t}^{ν}$
einen großen Einfluss. Gemäß verschiedenen Ausführungsformen werden diese angepasst (optimiert).
Anstatt sie zu jedem Zeitpunkt t zu bestimmen, werden diese Matrizen lokal für jede Komponente von Θ_y optimiert. Wird beispielsweise die k-te Komponente von Θ_y betrachtet, so ist die akkumulierte Abweichung der berechneten Attraktortrajektorie in Bezug auf diesen Rest gegeben durch $ε_{m} = \sum_{ξ_{t} \in D_{m}} p_{t, k} (μ_{t} - x_{t} - K_{t}^{- ρ} (K_{t}^{ν} {\dot{x}}_{t} + {\ddot{x}}_{t} - ƒ_{t}))$
wobei p_t,k die Wahrscheinlichkeit ist, dass der Zustand x_t zu der k-ten Komponente gehört, was ein Beiprodukt des EM-Algorithmus bei der Ermittlung von Θ_y ist. Hierbei ist µ_k der Mittelwert der k-ten Komponente. $K_{k}^{- ρ}$
ist die Inverse der zu optimierenden Steifheitsmatrix, während die Dämpfungsmatrix $K_{t}^{ν}$
unverändert bleibt.
Eine optimierte lokale Steifheitsmatrix für die k-te Komponente 205 kann entsprechend berechnet werden durch Minimieren der (über alle Attraktor-Demonstrationen) akkumulierten Abweichungen gemäß $K_{k}^{ρ, ⋆} = min_{K_{k}^{ρ}} ‖ \sum_{D_{m}} ε_{m} ‖, s . t . K_{k}^{ρ} ≽ 0$
was verlangt, dass die Steifheitsmatrix positiv semidefinit ist. Das Minimierungsproblem (7) kann beispielsweise mittels Innere-Punkte-Verfahren gelöst werden.
Die oben beschriebene Vorgehensweise kann auch auf eine Repräsentation von Orientierungen mittels Quaternionen verwendet werden. Diese kann unter Verwendung einer Formulierung mittels Riemannscher Mannigfaltigkeiten geschehen. Gemäß einer Ausführungsformen liegen die Komponenten des Attraktormodells Θ_y in der Mannigfaltigkeit. Es existiert für jeden Punkt x in einer Mannigfaltigkeit ℳ ein Tangentialraum T_xℳ. Die Exponential-Abbildung und die Logarithmus-Abbildungen können verwendet werden, um Punkte zwischen T_xℳ und ℳ abzubilden. Die Exponential-Abbildung Exp_x: T_xℳ → ℳ bildet einen Punkt im Tangentenraum des Punkts x auf einen Punkt auf der Mannigfaltigkeit ab, während der geodätische Abstand aufrechterhalten wird. Die inverse Operation wird Logarithmus-Abbildung Log_x: ℳ → T_xℳ genannt.
Beispielsweise kann die Subtraktion von Posen in Gleichung (5) mittels der Logarithmus-Operation und die Summierung on Posen in Gleichung (6) mittels der Exponential-Operation erfolgen. Die Modell-Komponenten können iterativ durch Projizieren auf den Tangentialraum und zurück in die Mannigfaltigkeit berechnet werden. Somit ist die Verwendung einer Formulierung mittels Riemannscher Mannigfaltigkeiten typischerweise rechenaufwändiger als die Euklidische Formulierung aber gewährleistet die Korrektheit der Ergebnisse. Wenn der Roboterarbeitsraum durch zeitlich variierende Lagen (mit Position und Orientierung) des Endeffektors dargestellt wird, sind klassische Verfahren auf euklidischer Basis für die Verarbeitung solcher Daten typischerweise ungeeignet.
Nachdem das Attraktormodell 204 und das zugehörige Steifheitsmodell 205 im Training 200 gelernt wurden, können sie für die Ausführung 211 der Fertigkeit verwendet werden. Die Ausführung 211 der Fertigkeit besteht aus einer anfänglichen Synthese und einer Online-Anpassung.
Für die anfängliche Synthese wird nun angenommen, dass der Roboter 100 die Fertigkeit, die demonstriert wurde, in einem neuen Szenario anwenden soll, in dem die Posen des Roboters und es Objekts unterschiedlich sind von denen in den Demonstrationen. Für dieses neue Szenario werden nun zunächst die P Bezugsrahmen für das Attraktormodell 204 entsprechend dem neuen Szenario bestimmt (siehe die Erläuterungen von Gleichung (1)).
Dann werden die globalen GMM-Komponenten in dem globalen Bezugsrahmen als gewichtetes Produkt der lokalen GMM-Komponenten (in den Objekt-Bezugsrahmen) berechnet. Außerdem wird für die Anfangs-Beobachtung ξ_O und (möglicherweise) einer gewünschten End-Beobachtung ξ_T wird der modifizierte Viterbi-Algorithmus (gemäß (4)) verwendet, um die wahrscheinlichste Sequenz von Komponenten 206 des Attraktormodells 204 zu bestimmen. Diese Sequenz 206 wird als $s^{⋆} = [s_{t}^{⋆}]$
bezeichnet.
Mittels linearer quadratischer Verfolgung (LQT für linear quadratic tracking) wird dann eine optimale und glatte Referenztrajektorie 207 ermittelt, die der Sequenz von Komponenten 206 folgt. Dieser Referenztrajektorie 207 ist die Referenz, die der Roboterarm 101 folgen soll. Sie enthält eine Trajektorie für die Posen und ein konsistentes Geschwindigkeits- und Beschleunigungsprofil: $Y^{⋆} = [y_{t}^{⋆}], {\dot{Y}}^{⋆} = [{\dot{y}}_{t}^{⋆}], {\ddot{Y}}^{⋆} = [{\ddot{y}}_{t}^{⋆}] .$
Sind nun für jeden Steuerungszeitpunkt t die Größen $s_{t}^{⋆}, y_{t}^{⋆}, {\dot{y}}_{t}^{⋆}, {\ddot{y}}_{t}^{⋆}$
bekannt, so eine Impedanzsteuerung 208 gemäß Gleichung (5) durchgeführt, wobei die * für die Komponente $s_{t}^{⋆}$
optimierte Steifheit 205 verwendet wird.
Die Steuereinrichtung 106 steuert so den Roboterarm 101 derart, dass er der gewünschten Attraktortrajektorie Y^★ mit der gewünschten Steifheit folgt.
Für die Online-Anpassung (d.h. Anpassung währen der Steuerung) werden während der Roboterarm 101 sich gemäß der Steuerung bewegt, Beobachtungen 209 wie die aktuelle Roboterpose oder Kraft-oder Momentmessungen vorgenommen. Diese Beobachtungen können Abweichungen bzw. Fehler bei der Ausübung der Fertigkeit erkenntlich machen, die beispielsweise durch externe Störungen (z.B. stößt der Roboter 101 unerwartet an ein Hindernis) oder Nachverfolgungsfehler verursacht werden können. Es können auf diese Weise auch Änderungen im Szenario wie geänderte Objektposen registriert werden. Im Folgenden wird erläutert, wie die Referenz-Attraktortrajektorie und die zugehörige Steifheit in Anbetracht solcher Echtzeitmessungen angepasst werden kann.
Zunächst bewirkt eine Änderung einer Objektpose Änderungen der Aufgabenparameter des Attraktormodells Θ_y . Bei einer solchen Änderung können also die globalen GMM-Komponenten durch Neuberechnung des Produkts der lokalen GMM-Komponenten wie bei der anfänglichen Synthese aktualisiert werden.
Entsprechend ändert sich die Beobachtungswahrscheinlichkeit in (4) und die wahrscheinlichste Sequenz S^★ . Darüber hinaus ist in (4) die Menge der vergangenen Beobachtungen nicht mehr wie bei der anfänglichen Synthese leer. Insbesondere ist, wenn vergangene Beobachtungen der Roboterpose und Kraftmessungen [ξ_ℓ] = [(xℓ,ƒ_ℓ)] bis zur Zeit t gegeben sind gemäß Gleichung (6) entsprechende (virtuelle) Beobachtungen für die Attraktortrajektorie gegeben, wobei die Steifheitsmatrix und die Dämpfungsmatrix auf die bei der Impedanzstörung 208 verwendeten Werte gesetzt werden. Diese aus (6) Beobachtungen 210 für die Attraktortrajektorie werden dazu verwendet, eine aktualisierte Emissionswahrscheinlichkeiten für die gesamte Sequenz zu ermitteln, d.h. ${\tilde{b}}_{k} (ξ_{l}) = {\begin{array}{l} N (y_{l} | {\hat{μ}}_{s_{l}^{⋆}}, {\hat{Σ}}_{s_{l}^{⋆}}), & l \in {1,2, \dots, t, T}; \\ 1, & l \in {t + 1, t + 2, \dots, T - 1} \end{array}$
wobei $y_{l} = x_{l} + K_{s_{l}^{⋆}}^{- ρ} (K_{l}^{ν} {\dot{x}}_{l} + {\ddot{x}}_{l} - ƒ_{l})$
die Beobachtungen für die Attraktortrajektorie sind.
Die aktualisierten Emissionswahrscheinlichkeiten werden dann wieder für den modifizierten Viterbi-Algorithmus (nach (4)) verwendet, um eine aktualisierte optimale Sequenz von Modellkomponenten 206 zu ermitteln.
Ist nun eine aktualisierte Sequenz von Modellkomponenten gegeben wird gemäß einer Ausführungsform eine Übergangsphase verwendet, um von einer zum Zeitpunkt t beobachteten Pose zur (gemäß der aktualisierten optimalen Sequenz) neu ermittelten zugehörigen Attraktorpose y_t zu wechseln, da diese beiden Posen im Laufe der Steuerung stark voneinander abweichen können (während ihr Unterschied am Anfang der Steuerung typischerweise vernachlässigbar ist).
In der Übergangsphase startet die aktualisierte Trajektorie Y^★ mit der aktuellen Pose x_t, durchläuft den Übergangspunkt y_t und folgt dann der aktualisierten optimalen Sequenz von Modellkomponenten 206.
Um dies zu erreichen, wird eine künstliche globale Gaußsche Komponente k_y eingefügt, deren Mittelwert bei y_t liegt und die dieselbe Kovarianz wie die erste Komponente der aktualisierten Sequenz von Modellkomponenten (ab Zeitpunkt t) hat, wobei als aktuelle die Steifheit die Steifheit $K_{t}^{ρ, ⋆}$
verwendet wird. Dieser Komponente wird außerdem eine Dauer d_y zugewiesen, die proportional zum Abstand zwischen x_t und y_t ist. Die Komponente k_y wird mit dieser Dauer der aktualisierten Sequenz von Modellkomponenten vorangestellt: ${\hat{s}}^{⋆} = (k_{y} \dots k_{y}) s^{⋆}$
Die Steuerung erfolgt dann weiter auf der Grundlage von Ŝ^★ als optimale Sequenz von Modellkomponenten wie oben beschrieben.
3 veranschaulicht eine Online-Anpassung bei einer Änderung der Objektpose von zu p_t zum Zeitpunkt t, einer beobachteten externen Kraft ƒ_t und einer beobachteten Roboterpose x_f.
Die gestrichelte Linie 301 zeigt die ursprüngliche Trajektorie ab dem Zeitpunkt t (ohne Aktualisierung), das Teilstück 302 die Trajektorie in der Übergangsphase und die Linie ab y_t die aktualisierte Trajektorie, mit der das Objekt mit der geänderten Objektpose p_t vom Roboter-Endeffektor 104 erreicht wird.
Zusammengefasst wird gemäß verschiedenen Ausführungsformen ein Verfahren bereitgestellt, wie in 4 dargestellt.
4 zeigt ein Ablaufdiagramm 400, das ein Verfahren zum Steuern einer Robotervorrichtung gemäß einer Ausführungsform darstellt.
In 401 werden Demonstrationen zur Durchführung einer Fertigkeit durch den Roboter bereitgestellt, wobei jede Demonstration für jeden Zeitpunkt einer Sequenz von Zeitpunkten eine Pose einer Komponente der Robotervorrichtung, eine auf die Komponente der Robotervorrichtung wirkenden Kraft sowie eine Pose des durch die Fertigkeit manipulierten Objekts aufweist.
In 402 wird zu jeder Demonstration eine Attraktor-Demonstration bereitgestellt durch Ermitteln einer Trainings-Attraktortrajektorie in 403 durch Berechnen, für jeden Zeitpunkt der Sequenz von Zeitpunkten, einer Attraktorpose durch lineare Kombination der Pose für den Zeitpunkt, der Geschwindigkeit der Komponente der Robotervorrichtung zu dem Zeitpunkt, der Beschleunigung der Komponente der Robotervorrichtung und der zu dem Zeitpunkt auf die Komponente der Robotervorrichtung wirkenden Kraft, wobei die Geschwindigkeit mit einer Dämpfungsmatrix und einer inversen Steifigkeitsmatrix und die Beschleunigung und die Kraft mit der inversen Steifigkeitsmatrix gewichtet werden und Ergänzen, in 404, der Attraktortrajektorie zu einer Attraktor-Demonstration durch die Posen des durch die Fertigkeit manipulierten Objekts für jeden Zeitpunkt der Sequenz von Zeitpunkten.
In 405 wird ein Aufgaben-parametrisiertes Robotertrajektorienmodells für die Fertigkeit aus den Attraktortrajektorien trainiert.
In 406 wird der Roboters gemäß dem Aufgaben-parametrisierten Robotertrajektorienmodell gesteuert.
Gemäß verschiedenen Ausführungsformen werden mit anderen Worten Demonstrationen bereitgestellt (z.B. aufgenommen), die jeweils neben einer Trajektorie (d.h. einer Zeitreihe, die eine Pose und gegebenenfalls Geschwindigkeit und Beschleunigung aufweist) auch Kraft- (bzw. Moment-)informationen über die zu den verschiedenen Zeitpunkten der Zeitreihe auf die Robotervorrichtung (z.B. auf ein von einem Roboterarm gehaltenes Objekt) enthalten. Diese Demonstrationen werden dann in Attraktordemonstrationen umgewandelt, die Attraktortrajektorien enthalten, in die die Kraftinformationen codiert sind. Für diese kann dann in üblicher Weise ein Robotertrajektorienmodell gelernt werden und unter Verwendung des gelernten Robotertrajektorienmodell die Robotervorrichtung gesteuert werden.
Das Verfahren von 4 kann durch einen oder mehrere Computer mit einer oder mehreren Datenverarbeitungseinheiten durchgeführt werden. Der Begriff „Datenverarbeitungseinheit“ kann als irgendein Typ von Entität verstanden werden, die die Verarbeitung von Daten oder Signalen ermöglicht. Die Daten oder Signale können beispielsweise gemäß mindestens einer (d.h. einer oder mehr als einer) speziellen Funktion behandelt werden, die durch die Datenverarbeitungseinheit durchgeführt wird. Eine Datenverarbeitungseinheit kann eine analoge Schaltung, eine digitale Schaltung, eine Logikschaltung, einen Mikroprozessor, einen Mikrocontroller, eine Zentraleinheit (CPU), eine Graphikverarbeitungseinheit (GPU), einen Digitalsignalprozessor (DSP), eine integrierte Schaltung einer programmierbaren Gatteranordnung (FPGA) oder irgendeine Kombination davon umfassen oder aus dieser ausgebildet sein. Irgendeine andere Weise zum Implementieren der jeweiligen Funktionen, die hierin genauer beschrieben werden, kann auch als Datenverarbeitungseinheit oder Logikschaltungsanordnung verstanden werden. Es können ein oder mehrere der im Einzelnen hier beschriebenen Verfahrensschritte durch eine Datenverarbeitungseinheit durch eine oder mehrere spezielle Funktionen ausgeführt (z. B. implementiert) werden, die durch die Datenverarbeitungseinheit durchgeführt werden.
Die Herangehensweise von 4 dient zum Erzeugen eines Steuersignals für eine Robotervorrichtung. Der Begriff „Robotervorrichtung“ kann als sich auf irgendein physikalisches System (mit einem mechanischen Teil, dessen Bewegung gesteuert wird) beziehend verstanden werden, wie z. B. eine computergesteuerte Maschine, ein Fahrzeug, ein Haushaltsgerät, ein Elektrowerkzeug, eine Fertigungsmaschine, einen persönlichen Assistenten oder ein Zugangssteuersystem. Es wird eine Steuerungsvorschrift für das physikalische System gelernt und das physikalische System dann entsprechend gesteuert.
Verschiedene Ausführungsformen können Sensorsignale von verschiedenen Sensoren wie z. B. Video, Radar, LiDAR, Ultraschall, Bewegung, Wärmeabbildung, Kräftesensor, Momentsensor usw. empfangen und verwenden, beispielsweise um Sensordaten hinsichtlich Demonstrationen oder Zuständen des Systems (Roboter und Objekt oder Objekte) und Konfigurationen und Szenarios zu erhalten. Die Sensordaten können verarbeitet werden. Dies kann die Klassifikation der Sensordaten oder das Durchführen einer semantischen Segmentierung an den Sensordaten umfassen, beispielsweise um die Anwesenheit von Objekten (in der Umgebung, in der die Sensordaten erhalten wurden) zu detektieren. Ausführungsformen können zum Trainieren eines Maschinenlernsystems und Steuern einer Roboter, z. B. autonom von Robotermanipulatoren, um verschiedene Manipulationsaufgaben unter verschiedenen Szenarios zu erreichen, verwendet werden. Insbesondere sind Ausführungsformen auf die Steuerung und Überwachung der Ausführung von Manipulationsaufgaben anwendbar, z. B. in Montagelinien. Sie können beispielsweise nahtlos mit einer herkömmlichen GUI für einen Steuerprozess integriert werden.
Obwohl spezielle Ausführungsformen hier dargestellt und beschrieben wurden, wird vom Fachmann auf dem Gebiet erkannt, dass die speziellen Ausführungsformen, die gezeigt und beschrieben sind, gegen eine Vielfalt von alternativen und/oder äquivalenten Implementierungen ausgetauscht werden können, ohne vom Schutzbereich der vorliegenden Erfindung abzuweichen. Diese Anmeldung soll irgendwelche Anpassungen oder Variationen der speziellen Ausführungsformen abdecken, die hier erörtert sind. Daher ist beabsichtigt, dass diese Erfindung nur durch die Ansprüche und die Äquivalente davon begrenzt ist.

Claims

Verfahren zum Steuern einer Robotervorrichtung, aufweisend: Bereitstellen von Demonstrationen zur Durchführung einer Fertigkeit durch den Roboter, wobei jede Demonstration für jeden Zeitpunkt einer Sequenz von Zeitpunkten eine Pose einer Komponente der Robotervorrichtung, eine auf die Komponente der Robotervorrichtung wirkenden Kraft sowie eine Pose des durch die Fertigkeit manipulierten Objekts aufweist; Ermitteln, zu jeder Demonstration einer Attraktor-Demonstration durch Ermitteln einer Trainings-Attraktortrajektorie durch Berechnen, für jeden Zeitpunkt der Sequenz von Zeitpunkten, einer Attraktorpose durch lineare Kombination der Pose für den Zeitpunkt, der Geschwindigkeit der Komponente der Robotervorrichtung zu dem Zeitpunkt, der Beschleunigung der Komponente der Robotervorrichtung und der zu dem Zeitpunkt auf die Komponente der Robotervorrichtung wirkenden Kraft, wobei die Geschwindigkeit mit einer Dämpfungsmatrix und einer inversen Steifigkeitsmatrix und die Beschleunigung und die Kraft mit der inversen Steifigkeitsmatrix gewichtet werden und Ergänzen der Attraktortrajektorie zu einer Attraktor-Demonstration durch die Posen des durch die Fertigkeit manipulierten Objekts für jeden Zeitpunkt der Sequenz von Zeitpunkten; Trainieren eines Aufgaben-parametrisierten Robotertrajektorienmodells für die Fertigkeit aus den Attraktortrajektorien; und Steuern der Robotervorrichtung gemäß dem Aufgaben-parametrisierten Robotertrajektorienmodell.
Verfahren nach Anspruch 1, wobei das Robotertrajektorienmodell durch die Objektpose Aufgaben-parametrisiert ist.
Verfahren nach Anspruch 1 oder 2, wobei das Robotertrajektorienmodell ein Aufgaben-parametrisiertes Gaußsches Mischmodell ist.
Verfahren nach Anspruch 3, wobei das Steuern aufweist: Ermitteln einer ersten Sequenz von Gaußschen Komponenten zum Maximieren der Wahrscheinlichkeit, dass die Gaußschen Komponenten eine gegebene Anfangskonfiguration und/oder eine gewünschte Endkonfiguration liefern; Steuern der Robotervorrichtung gemäß der ersten Sequenz von Gaußschen Komponenten; Beobachten von bei der Steuerung auftretenden Konfigurationen und, zu mindestens einem Zeitpunkt im Laufe es Steuerns, Anpassen der Sequenz von Gaußschen Komponenten zu einer zweiten Sequenz von Gaußschen Komponenten zum Maximieren der Wahrscheinlichkeit, dass die Gaußschen Komponenten die gegebene Anfangskonfiguration und/oder die gewünschte Endkonfiguration und die beobachteten Konfigurationen liefern; und Steuern der Robotervorrichtung gemäß der zweiten Sequenz von Gaußschen Komponenten.
Verfahren nach Anspruch 4, wobei von dem Steuern gemäß der ersten Sequenz zu einem Steuern zu dem Steuern gemäß der zweiten Sequenz in einer Übergangsphase gewechselt wird, wobei in der Übergangsphase gemäß einer eingefügten Gaußschen Komponenten mit einer Dauer, die proportional ist zu dem Unterschied zwischen der Pose der Robotervorrichtung zu dem Beginn des Wechselns und des Mittelwerts der Gaußschen Komponente der zweiten Sequenz, mit welcher nach dem Wechseln auf das Steuern gemäß der zweiten Sequenz fortgefahren wird, gesteuert wird.
Robotersteuereinrichtung, die dazu konfiguriert ist, das Verfahren nach einem der Ansprüche 1 bis 5 durchzuführen.
Computerprogramm mit Befehlen, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ansprüche 1 bis 5 durchführt.
Computerlesbares Medium, das Befehle speichert, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ansprüche 1 bis 5 durchführt.