DE102022201116A1

DE102022201116A1 - Verfahren zum Steuern einer Robotervorrichtung

Info

Publication number: DE102022201116A1
Application number: DE102022201116.3A
Authority: DE
Inventors: Philipp Christian Schillinger; Leonel Rozo; Akshay Dhonthi Ramesh Babu
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-02-02
Filing date: 2022-02-02
Publication date: 2023-08-03
Also published as: US20230241772A1; JP2023113133A; CN116533229A

Abstract

Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Steuern einer Robotervorrichtung beschrieben, aufweisend Erzeugen eines Roboter-Steuerungsmodells zur Durchführung einer Aufgabe, wobei das Roboter-Steuerungsmodell Parameter aufweist, die die Durchführung der Aufgabe beeinflussen, Anpassen der Parameter des Roboter-Steuerungsmodels mittels Optimierung einer Zielfunktion, die die Einhaltung mindestens einer Bedingung an den zeitlichen Verlauf mindestens eines kontinuierlichen Sensorsignals bei der Durchführung der Aufgabe bewertet, und Steuern der Robotervorrichtung gemäß dem Roboter-Steuerungsmodell zur Durchführung der Aufgabe mit den angepassten Parametern.

Description

Stand der Technik
Die vorliegende Offenbarung bezieht sich auf Verfahren zum Steuern einer Robotervorrichtung.
Bei einer Aufgabe für einen Roboter, eine Manipulation (eines Objekts) durchzuführen, ist es ein Kernproblem, eine geeignete Trajektorie (z.B. für einen Roboterarm) für die jeweilige Aufgabe zu bestimmen. Es gibt mehrere verschiedene Ansätze, die alle unterschiedliche Eigenschaften aufweisen, um bestimmte Aufgabentypen möglichst effizient zu lösen. Ein Beispiel ist das Lernen aus Demonstrationen (LfD für engl. learning from demonstration).
Beim LfD demonstriert ein menschlicher Benutzer („Experte“) dem Roboter das beabsichtigte Verhalten, d.h. beispielhafte Trajektorien, die eine bestimmte Aufgabe lösen sollen. Aus diesen Demonstrationen lernt der Roboter ein Roboter-Steuerungsmodell und verfügt so über eine entsprechende Bewegungsfertigkeit. Siehe beispielsweise Rozo, L., Guo, M., Kupcsik, A. G., Todescato, M., Schillinger, P., Giftthaler, M., ... & Burger, M. „Learning and sequencing of object-centric manipulation skills for industrial tasks" in 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) (pp. 9072-9079). IEEE, im Folgenden als Referenz [1] bezeichnet, für weitere Details für die Roboter-gestützte Montage basierend auf demonstrierten Fertigkeiten.
Der LfD-Ansatz ist besonders geeignet, wenn die Kriterien für die gewünschten Trajektorien schwer explizit zu beschreiben sind. Der Ansatz ist jedoch nur in der Lage, implizite Kriterien zu erfassen, und es gibt keinen allgemeinen Mechanismus, um weitere explizite Beschränkungen oder gewünschte Eigenschaften hinzuzufügen.
Um dieser Einschränkung zu begegnen, können solche expliziten Bedingungen in einem separaten Formalismus ausgedrückt werden und dann Optimierungstechniken eingesetzt werden, um die ursprünglich erlernte Bewegungsfertigkeit zu verbessern. Beispielsweise werden in Innes, C., & Ramamoorthy, S., „Elaborating on learned demonstrations with temporal logic specifications", 2020, arXiv preprint arXiv:2002.00784, im Folgenden als Referenz [2] bezeichnet, Ziele in linearer zeitlicher Logik (LTL für engl. Linear Temporal Logic), einer Variante der temporalen (zeitlichen) Logik formuliert, um dynamische Bewegungsprimitive (DMP für engl. Dynamic Movement Primitives), eine dynamisch-systemische Variante von LfD, zu optimieren.
Das Paper von Dhonthi, A., Schillinger, P., Rozo, L., & Nardi, D. (2021)"Study of Signal Temporal Logic Robustness Metrics for Robotic Tasks Optimization", arXiv preprint arXiv:2110.00339.", im Folgenden als Referenz [3] bezeichnet, beschreibt außerdem die Formulierung von Bedingungen mittels STL (Signal Temporal Logic).
Die Herangehensweise von Referenz [2] erfordert die Ermittlung von Gradienten und deshalb ist Bandbreite von expliziten Bedingungen, die festgelegt werden können, eingeschränkt.
Es sind deshalb Herangehensweisen wünschenswert, die die Festlegung von expliziten Bedingungen in einem größeren Bereich ermöglichen.
Offenbarung der Erfindung
Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Steuern einer Robotervorrichtung bereitgestellt, aufweisend Erzeugen eines Roboter-Steuerungsmodells zur Durchführung einer Aufgabe, wobei das Roboter-Steuerungsmodell Parameter aufweist, die die Durchführung der Aufgabe beeinflussen, Anpassen der Parameter des Roboter-Steuerungsmodels mittels Optimierung einer Zielfunktion, die die Einhaltung mindestens einer Bedingung an den zeitlichen Verlauf mindestens eines kontinuierlichen Sensorsignals bei der Durchführung der Aufgabe bewertet, und Steuern der Robotervorrichtung gemäß dem Roboter-Steuerungsmodell zur Durchführung der Aufgabe mit den angepassten Parametern.
Die Optimierung der Zielfunktion erfolgt beispielsweise mittels Black-Box-Optimierung. Durch die Verwendung von Black-Box-Optimierung (BBO) entfällt die Notwendigkeit von Gradienten, wie sie beispielsweise bei der Vorgehensweise von Referenz [2] erforderlich sind und ermöglicht somit die Definition der Bedingungen (beispielsweise mittels Signal Temporal Logic (STL)) über einen viel breiteren und aussagekräftigeren Bereich von Signalen, z. B. die Angabe von Beschränkungen für resultierende Kräfte oder allgemein die Auswirkungen einer Trajektorie anstelle der Trajektorie selbst. Folglich kann mit dem oben beschriebenen Verfahren ein breiteres Spektrum von Anwendungen abgedeckt werden.
Bei der BBO kann die Aufgabe für verschiedene Szenarien durchgeführt werden oder für jede Auswertung der Zielfunktion dasselbe Szenario genommen (d.h. z.B. Objekt ist immer am gleichen Platz). Es kann sinnvoll sein das Szenario so gleich wie praktisch möglich zu halten, um unbekannte Einflüsse zu minimieren. Ebenso kann es sinnvoll sein, wenn praktisch möglich, eine Menge verschiedener Szenarien für jeden Parametersatz durchzuführen und einen Mittelwert über die Ausführungen zu bilden. Eventuell kann es aus praktischen Gesichtspunkten ggf. nicht möglich sein ein Szenario exakt zu wiederholen, aber auch das ist kein Ausschlusskriterium für BBO sondern könnte nur zu schlechteren Ergebnissen oder langsamerer Optimierung führen.
Das oben beschriebene Roboter-Steuerungsverfahren kann beispielsweise für Robotermanipulationsaufgaben verwendet werden, bei denen ein Experte das gewünschte Verhalten des Roboters vorgibt und spezifiziert. Dies ist vor allem bei der Robotergestützten Montage der Fall, wo bestimmte Montageschritte komplizierte Bewegungen erfordern und gleichzeitig zusätzliche Bedingungen erfüllt werden müssen. Beispielsweise muss bei einem Montagevorgang ein Zapfen auf eine bestimmte Weise in ein anderes Werkstück eingesetzt werden. Ein Mensch kann die Bewegung demonstrieren, da es schwierig sein könnte, sie vollständig formal zu beschreiben, aber dennoch ist es wünschenswert, dass bestimmte Einschränkungen, wie die Reduzierung von Kontaktkräften oder eine Zielpositionsgenauigkeit, erreicht werden, die möglicherweise suboptimal demonstriert werden.
Im Folgenden werden verschiedene Ausführungsbeispiele angegeben.
Ausführungsbeispiel 1 ist ein Verfahren zum Steuern einer Robotervorrichtung, wie oben beschrieben.
Ausführungsbeispiel 2 ist ein Verfahren nach Ausführungsbeispiel 1, ferner aufweisend Repräsentieren der mindestens einen Bedingung gemäß zeitlicher Signallogik in mindestens einer Zeitliche-Signallogik-Formel, Umwandeln der mindestens einen Zeitliche-Signallogik-Formel in mindestens ein Robustheitsmaß und Auswerten der Zielfunktion durch Ermitteln eines Werts des mindestens einen Robustheitsmaßes für die Durchführung der Aufgabe.
Die Verwendung von zeitlicher Signallogik (STL für engl. Signal Temporal Logic) zur Erfassung von Bedingungen ermöglicht aussagekräftige Spezifikationen von Bedingungen, z.B. durch die Möglichkeit, Zeitintervalle für zeitliche Operatoren anzugeben. In anderen Worten wird die mindestens eine Bedingung mittels ein oder mehreren zeitlichen Intervallen und ein oder mehreren kontinuierlichen Signalen repräsentiert. Es existieren effiziente Ansätze zur Umwandlung von STL-Formeln in reellwertige Belohnungsfunktionen, sogenannte Robustheitsmaße, die aufgrund ihrer mathematischen Eigenschaften eine effiziente und aussagekräftige Optimierung eines Roboter-Steuerungsmodells ermöglichen.
Ausführungsbeispiel 3 ist ein Verfahren nach Ausführungsbeispiel 1 oder 2, wobei die Parameter des Roboter-Steuerungsmodells zeitbezogene Parameter und ortsbezogene Parameter aufweisen.
Ein Roboter-Steuerungsmodell mit solchen Parametern, wie beispielsweise ein HSMM mit Dauerwahrscheinlichkeiten als zeitbezogene Parametern und (z.B.) den mittleren Lagen als ortsbezogene Parameter entspricht sehr gut der Verwendung von STL zur Spezifikation von Bedingungen, da STL zeitliche und räumliche Bedingungen formuliert.
Ausführungsbeispiel 4 ist ein Verfahren nach einem der Ausführungsbeispiele 1 bis 3, wobei das Roboter-Steuerungsmodell ein verborgendes Semi-Markov-Modell (HSMM für engl. Hidden Semi Markov Model) ist.
Die Verwendung eines HSMM-Modells (z.B. für LfD) führt zu einem diskreten zustandsbasierten Modell für die erlernte Fertigkeit (d.h. der Fertigkeit zur Durchführung der Aufgabe), bei dem jeder Zustand in etwa einem probabilistischen Wegpunkt entlang der Trajektorie entspricht und die Übergangsdauern die Ausführungsgeschwindigkeit der jeweiligen Abschnitte der Trajektorie definieren. Dies bietet eine sinnvolle Grundlage für die Spezifikation von STL-Bedingungen, indem eine natürliche Verbindung zwischen dem STL-Ziel und den Parametern des Fähigkeitsmodells hergestellt wird.
Ausführungsbeispiel 5 ist ein Verfahren nach einem der Ausführungsbeispiele 1 bis 4, wobei das mindestens eine kontinuierliche Sensorsignal einen Ort eines Teils der Robotervorrichtung und/oder eine Kraft, die auf einen Teil der Robotervorrichtung wirkt, angibt.
Damit können insbesondere Bedingungen spezifiziert werden, dass die Robotervorrichtung innerhalb (oder außerhalb) bestimmter Bereiche bleibt (z.B. mit einem End-Effektor) und zulässige Kräfte (die sie z.B. auf ein manipuliertes Objekt ausübt), nicht überschreitet.
Ausführungsbeispiel 6 ist ein Robotersteuereinrichtung, die eingerichtet ist, ein Verfahren nach einem der Ausführungsbeispiele 1 bis 5 auszuführen.
Ausführungsbeispiel 7 ist ein Computerprogramm, das Anweisungen umfasst, die bei Ausführung durch einen Prozessor veranlassen, dass der Prozessor ein Verfahren nach einem der Ausführungsbeispiele 1 bis 5 durchführt.
Ausführungsbeispiel 8 ist ein computerlesbares Medium, das Anweisungen speichert, die bei Ausführung durch einen Prozessor veranlassen, dass der Prozessor ein Verfahren nach einem der Ausführungsbeispiele 1 bis 5 durchführt.
In den Zeichnungen beziehen sich ähnliche Bezugszeichen im Allgemeinen auf dieselben Teile in den ganzen verschiedenen Ansichten. Die Zeichnungen sind nicht notwendigerweise maßstäblich, wobei die Betonung stattdessen im Allgemeinen auf die Darstellung der Prinzipien der Erfindung gelegt wird. In der folgenden Beschreibung werden verschiedene Aspekte mit Bezug auf die folgenden Zeichnungen beschrieben.

1 zeigt einen Roboter.
2 zeigt ein Ablaufdiagramm, das die Anpassung eines Robotersteuerungsmodells an gegebene Bedingungen gemäß den oben vier genannten Operationen veranschaulicht.
3 zeigt ein Ablaufdiagramm, das ein Verfahren zum Steuern einer Robotervorrichtung darstellt.

Die folgende ausführliche Beschreibung bezieht sich auf die begleitenden Zeichnungen, die zur Erläuterung spezielle Details und Aspekte dieser Offenbarung zeigen, in denen die Erfindung ausgeführt werden kann. Andere Aspekte können verwendet werden und strukturelle, logische und elektrische Änderungen können durchgeführt werden, ohne vom Schutzbereich der Erfindung abzuweichen. Die verschiedenen Aspekte dieser Offenbarung schließen sich nicht notwendigerweise gegenseitig aus, da einige Aspekte dieser Offenbarung mit einem oder mehreren anderen Aspekten dieser Offenbarung kombiniert werden können, um neue Aspekte zu bilden.
Im Folgenden werden verschiedene Beispiele genauer beschrieben.
1 zeigt einen Roboter 100.
Des Roboters 100 umfasst einen Roboterarm 101, beispielsweise einen Industrieroboterarm zum Handhaben oder Montieren eines Werkstücks (oder eines oder mehrerer anderer Objekte). Der Roboterarm 101 umfasst Manipulatoren 102, 103, 104 und eine Basis (oder Stütze) 105, durch die die Manipulatoren 102, 103, 104 abgestützt sind. Der Begriff „Manipulator“ bezieht sich auf die beweglichen Elemente des Roboterarms 101, deren Betätigung eine physikalische Wechselwirkung mit der Umgebung ermöglicht, z. B. um eine Aufgabe auszuführen. Für die Steuerung umfasst des Roboters 100 eine (Roboter-) Steuereinrichtung 106, die dazu konfiguriert ist, die Wechselwirkung mit der Umgebung gemäß einem Steuerprogramm zu implementieren. Das letzte Element 104 (am weitesten von der Stütze 105 entfernt) der Manipulatoren 102, 103, 104 wird auch als Endeffektor 104 bezeichnet und kann ein oder mehrere Werkzeuge wie z. B. einen Schweißbrenner, ein Greifinstrument, ein Lackierwerkzeug oder dergleichen umfassen.
Die anderen Manipulatoren 102, 103 (näher an der Basis 105) können eine Positionierungsvorrichtung bilden, sodass zusammen mit dem Endeffektor 104 der Roboterarm 101 mit dem Endeffektor 104 an seinem Ende vorgesehen ist. Der Roboterarm 101 ist ein mechanischer Arm, der ähnliche Funktionen wie ein menschlicher Arm (möglicherweise mit einem Werkzeug an seinem Ende) erfüllen kann.
Der Roboterarm 101 kann Gelenkelemente 107, 108, 109 umfassen, die die Manipulatoren 102, 103, 104 miteinander und mit der Basis 105 verbinden. Ein Gelenkelement 107, 108, 109 kann ein oder mehrere Gelenke aufweisen, von denen jedes eine drehbare Bewegung (d.h. Drehbewegung) und/oder Translationsbewegung (d.h. Verschiebung) von zugehörigen Manipulatoren relativ zueinander bereitstellen kann. Die Bewegung der Manipulatoren 102, 103, 104 kann mittels Aktuatoren eingeleitet werden, die durch die Steuereinrichtung 106 gesteuert werden.
Der Begriff „Aktuator“ kann als Komponente verstanden werden, die dazu ausgelegt ist, einen Mechanismus oder Prozess in Reaktion darauf, dass sie angetrieben wird, zu beeinflussen. Der Aktuator kann Befehle, die durch die Steuereinrichtung 106 ausgegeben werden (die sogenannte Aktivierung), in mechanische Bewegungen umsetzen. Der Aktuator, z. B. ein elektromechanischer Wandler, kann dazu konfiguriert sein, auf seine Aktivierung elektrische Energie in mechanische Energie in Reaktion umzuwandeln.
Der Begriff „Steuereinrichtung“ kann als irgendein Typ von Logik, die eine Entität implementiert, verstanden werden, die beispielsweise eine Schaltung und/oder einen Prozessor, der in der Lage ist, eine Software auszuführen, die in einem Speichermedium gespeichert ist, Firmware oder eine Kombination davon umfassen kann, und die Befehle, z. B. an einen Aktuator im vorliegenden Beispiel, ausgeben kann. Die Steuereinrichtung kann beispielsweise durch einen Programmcode (z. B. Software) konfiguriert sein, um den Betrieb eines Roboters zu steuern.
Im vorliegenden Beispiel umfasst die Steuereinrichtung 106 einen oder mehrere Prozessoren 110 und einen Speicher 111, der einen Code und Daten speichert, auf deren Basis der Prozessor 110 den Roboterarm 101 steuert. Gemäß verschiedenen Ausführungsformen steuert die Steuereinrichtung 106 den Roboterarm 101 auf der Basis eines maschinellen Lernmodells 112, das im Speicher 111 gespeichert ist. Des Roboters 100 soll beispielsweise ein Objekt 113 aufnehmen. Beispielsweise ist der Endeffektor 104 ein Greifer und soll das Objekt 113 aufnehmen, aber der Endeffektor 104 kann auch beispielsweise eingerichtet sein, das Objekt 113 zum Aufnehmen anzusaugen.
Gemäß verschiedenen Ausführungsformen wird Lernen aus Demonstrationen (LfD für engl. Learning from Demonstrations) verwendet, um dem Roboter 100 beizubringen, eine Aufgabe auszuführen. Menschliche Demonstrationen können durch das maschinelle Lernmodell 112 (in diesem Fall ein probabilistisches oder statistisches Modell) codiert werden, das den nominalen Plan der Aufgabe für den Roboter darstellt. Die Steuereinrichtung 106 kann anschließend das statistische Modell 112 verwenden, das auch als Robotertrajektorienmodell bezeichnet wird, um gewünschte Roboterbewegungen zu erzeugen.
Die Grundidee von LfD besteht darin, ein vorgeschriebenes Bewegungsfertigkeitsmodell wie z.B. GMMs an eine Menge von Demonstrationen anzupassen. M Demonstrationen sollen vorhanden sein, von denen jede T_m Datenpunkte für einen Datensatz von N = Σ_m T_m Gesamtbeobachtungen $ξ = {ξ_{t}}_{t = 1}^{N}$
enthält, wobei ξ_t ∈ ℝ^d. Es wird auch angenommen, dass dieselben Demonstrationen aus der Perspektive von P verschiedenen Koordinatensystemen aufgezeichnet werden (durch die Aufgabenparameter gegeben, wie z. B. lokale Koordinatensysteme oder Bezugsrahmen von interessierenden Objekten). Eine übliche Weise zum Erhalten solcher Daten besteht darin, die Demonstrationen von einem statischen globalen Bezugsrahmen auf einen Bezugsrahmen p durch $ξ_{t}^{(p)} = A^{{(p)}^{- 1}} (ξ_{t} - b^{(p)})$
zu transformieren. Hier ist ${(b^{(p)}, A^{(p)})}_{p = 1}^{P}$
die Translation und Rotation des (lokalen) Bezugsrahmens p in Bezug auf ein globales Koordinatensystem (d.h. den globalen Bezugsrahmen). Dann wird ein TP-GMM durch die Modellparameter ${π_{k}, {μ_{k}^{(p)}, \sum_{k}^{(p)}}_{p = 1}^{P}}_{k = 1}^{K}$
beschrieben, wobei K die Anzahl von Gauß-Komponenten im Mischmodell darstellt, π_k die vorherige Wahrscheinlichkeit jeder Komponente ist und ${μ_{k}^{(p)}, \sum_{k}^{(p)}}_{p = 1}^{P}$
die Parameter der k-ten Gauß-Komponente innerhalb des Bezugsrahmens p sind.
Im Unterschied zum Standard-GMM kann das obige Mischmodell nicht unabhängig für jeden Bezugsrahmen gelernt werden. Tatsächlich werden die Mischkoeffizienten π_k von allen Bezugsrahmen geteilt und die k-te Komponente im Bezugsrahmen p muss auf die entsprechende k-te Komponente im globalen Bezugsrahmen abbilden. Erwartung-Maximierung (EM) ist ein etabliertes Verfahren, um solche Modelle zu lernen.
Sobald es gelernt ist, kann das TP-GMM während der Ausführung verwendet werden, um eine Trajektorie für die gelernte Bewegungsfertigkeit zu reproduzieren. Dies beinhaltet die Steuerung des Roboters, sodass er von einer Anfangskonfiguration eine Zielkonfiguration erreicht (z.B. sein Endeffektor 104 sich von einer Anfangspose in eine Endpose bewegt). Dazu wird die (von der Zeit abhängige) Beschleunigung an den Gelenkelementen 107, 108, 109 berechnet. In Anbetracht der beobachteten Bezugsrahmen ${b^{(p)}, A^{(p)}}_{p = 1}^{P}$
wird das gelernte TP-GMM in ein einzelnes GMM mit Parametern ${π_{k}, ({\hat{μ}}_{k}, {\sum^{^}}_{k})}_{k = 1}^{K}$
durch Multiplizieren der affin transformierten Gauß-Komponenten über verschiedene Bezugsrahmen umgewandelt, wie folgt ${\sum^{^}}_{k} = {[\sum_{p = 1}^{P} {({\sum^{^}}_{k}^{(p)})}^{- 1}]}^{- 1}, {\hat{μ}}_{k} = {\sum^{^}}_{k} [\sum_{p = 1}^{P} {({\sum^{^}}_{k}^{(p)})}^{- 1} {\hat{μ}}_{k}^{(p)}],$
wobei die Parameter der aktualisierten Gauß-Glocke an jedem Bezugsrahmen p berechnet werden als ${\hat{μ}}_{k}^{(p)} = A^{(p)} μ_{k}^{(p)} + b^{(p)}$
und ${\sum^{^}}_{k}^{(p)} = A^{(p)} \sum_{k}^{(p)} A^{{(p)}^{T}} .$
Obwohl die Aufgabenparameter über die Zeit variieren können, wird der Zeitindex wegen der Schreibweise weggelassen.
Verborgene Semi-Markov-Modelle (HSMMs) erweitern verborgene Standard-Markov-Modelle (HMMs) durch Einbetten von Zeitinformationen des zugrundeliegenden stochastischen Prozesses. Das heißt, während in HMM der zugrundeliegende verborgene Prozess als Markov angenommen wird, d.h. die Wahrscheinlichkeit des Übergangs zum nächsten Zustand nur vom aktuellen Zustand abhängt, wird in HSMM der Zustandsprozess als Semi-Markov angenommen. Dies bedeutet, dass ein Übergang zum nächsten Zustand vom aktuellen Zustand sowie von der abgelaufenen Zeit, seitdem in den Zustand eingetreten wurde, abhängt. Sie können in Kombination mit TP-GMMs für Roboterbewegungsfertigkeitscodierung angewendet werden, um räumlich-zeitliche Merkmale der Demonstrationen zu lernen. Ein aufgabenparametrisiertes HSMM-Modell (TP-HSMM-Modell) ist definiert als: $Θ= {{a_{hk}}_{h = 1}^{K}, (μ_{k}^{D}, σ_{k}^{D}), π_{k}, {(μ_{k}^{(p)}, \sum_{k}^{(p)})}_{p = 1}^{P}}_{k = 1}^{K},$
wobei a_hk die Übergangswahrscheinlichkeit vom Zustand h zu k ist; $(μ_{k}^{D}, σ_{k}^{D})$
die Gauß-Verteilungen für die Dauer des Zustandes k beschreiben, d.h. die Wahrscheinlichkeit, dass im Zustand k für eine bestimmte Anzahl von aufeinander folgenden Schritten geblieben wird; ${π_{k}, {μ_{k}^{(p)}, \sum_{k}^{(p)}}_{p = 1}^{P}}_{k = 1}^{K}$
eingeführten TP-GMM ist, das die Beobachtungswahrscheinlichkeit darstellt, die dem Zustand k entspricht. Hier ist zu beachten, dass die Anzahl von Zuständen der Anzahl von Gauß-Komponenten im „angebundenen“ TP-GMM darstellt.
In Anbetracht einer bestimmten (teilweisen) Sequenz von beobachteten Datenpunkten ${ξ_{l}}_{l = 1}^{t},$
soll angenommen werden, dass die zugehörige Sequenz von Zuständen in Θ durch s_t = s₁s₂ ...s_t gegeben ist. Die Wahrscheinlichkeit, dass der Datenpunkt ξ_t zum Zustand k gehört (d.h. s_t = k), ist durch die Vorwärtsvariable $α_{t} (k) = p (s_{t} = k, {ξ l}_{l = 1}^{t})$
gegeben: $α_{t} (k) = \sum_{τ = 1}^{t - 1} \sum_{h = 1}^{K} α_{t - τ} (h) a_{hk} N (τ | μ_{k}^{D}, σ_{k}^{D}) o_{τ}^{t},$
wobei $o_{τ}^{t} = \prod_{l = t - τ + 1}^{t} N (ξ_{l} | {\hat{μ}}_{k}, {\sum^{^}}_{k})$
die Emissionswahrscheinlichkeit ist und (µ̂_k, Σ̂_k) von (1) in Anbetracht der Aufgabenparameter abgeleitet sind. Ferner kann dieselbe Vorwärtsvariable auch während der Reproduktion verwendet werden, um zukünftige Schritte bis T_m vorherzusagen.
Da jedoch in diesem Fall zukünftige Beobachtungen nicht verfügbar sind, werden nur Übergangs- und Dauerinformationen verwendet, d.h. durch Setzen von $N (ξ_{l} {| {\hat{μ}}_{k}, \sum^{^}}_{k}) = 1$
für alle k und ℓ > t in (2). Schließlich wird die Sequenz der wahrscheinlichsten Zustände $s_{T_{m}}^{*} = s_{1}^{*} s_{2}^{*} \dots s_{T_{m}}^{*}$

durch Wählen von $s_{t}^{*} = {argmax}_{k} α_{t} (k), \forall 1 \leq t \leq T_{m}$
bestimmt.
Nun soll eine gewünschte Endbeobachtung des Roboterzustandes als ξ_T gegeben sein, wobei T der Bewegungsfertigkeitszeithorizont (z. B. die mittlere Länge über die Demonstrationen) ist. Überdies wird der anfängliche Roboterzustand als ξ₁ beobachtet. Für die Ausführung der Bewegungsfertigkeit (d.h. Bewegungsfertigkeitsreproduktion) in Anbetracht des gelernten Modells Θ_a wird nur die wahrscheinlichste Zustandssequenz $s_{T}^{*}$
in Anbetracht von nur ξ₁ und ξ_T konstruiert.
Die Reproduktion unter Verwendung der Vorwärtsvariable kann in diesem Fall nicht direkt erfolgen, da die Vorwärtsvariable in Gleichung (2) die Sequenz von marginal wahrscheinlichsten Zuständen berechnet, während das, was erwünscht ist, die gemeinsam wahrscheinlichste Sequenz von Zuständen in Anbetracht von ξ₁ und ξ_T ist. Folglich besteht, wenn (2) verwendet wird, keine Garantie, dass die zurückgegebene Sequenz $s_{T}^{*}$
sowohl den räumlich-zeitlichen Mustern der Demonstrationen als auch der Endbeobachtung entspricht. Hinsichtlich eines Beispiels zum Aufnehmen eines Objekts kann es eine wahrscheinlichste Sequenz zurückgeben, die „Aufnehmen von der Seite“ entspricht, selbst wenn die gewünschte Endkonfiguration darin besteht, dass der Endeffektor sich an der Oberseite des Objekts befindet.
Um dieses Problem zu lösen, wird gemäß einer Ausführungsform eine Modifikation des Viterbi-Algorithmus verwendet. Der klassische Viterbi-Algorithmus kann verwendet werden, um die wahrscheinlichste Sequenz von Zuständen (auch Viterbi-Pfad genannt) in HMMs zu finden, die zu einem gegebenen Strom von beobachteten Ereignissen führen. Gemäß einer Ausführungsform wird ein Verfahren verwendet, die sich von jener in zwei Hauptaspekten unterscheidet: (a) sie arbeitet an HSMM anstelle von HMM; und bedeutender (b) die meisten Beobachtungen abgesehen von der ersten und der letzten fehlen. Insbesondere wird bei Abwesenheit von Beobachtungen der Viterbi-Algorithmus zu $\begin{matrix} δ_{t} (j) = max_{d \in D} max_{i \neq j} δ_{t - d} (i) a_{ij} p_{j} (d) \prod_{t' = t - d + 1}^{t} {\tilde{b}}_{j} (ξ_{t'}), \\ δ_{1} = b_{j} (ξ_{1}) π_{j} p_{j} (1) \end{matrix}$
wobei $p_{j} (d) = N (d | μ_{j}^{D}, σ_{j}^{D})$
die Dauerwahrscheinlichkeit des Zustandes j ist, δ_t(j) die Wahrscheinlichkeit, dass das System sich im Zustand j zur Zeit t und nicht im Zustand j bei t + 1 befindet; und ${\tilde{b}}_{j} (ξ_{t'}) = {\begin{array}{l} N (ξ_{t'} | {\hat{μ}}_{j}, {\sum^{^}}_{j}), & t = 1 \lor t = T; \\ 1, & 1 < t < T . \end{array}$
wobei (µ̂_j,Σ̂_j) die globale Gauß-Komponente j in Θ_a von (1) in Anbetracht von ξ_t' ist. Zu jeder Zeit t und für jeden Zustand j werden nämlich die zwei Argumente, die die Gleichung δ_t(j) maximieren, aufgezeichnet und eine einfache Rückverfolgungsprozedur wird verwendet, um die wahrscheinlichste Zustandssequenz $s_{T}^{*}$
zu finden. Mit anderen Worten leitet der obige Algorithmus die wahrscheinlichste Sequenz $s_{T}^{*}$
für die Bewegungsfertigkeit a, die die Endbeobachtung ξ_T ergibt, ausgehend von ξ₁ ab.
Für eine (Bewegungs-)fertigkeit eines Roboters 100 kann es nun in bestimmten Anwendungen wünschenswert sein, dass bestimmte Bedingungen definiert werden können, die von dem Roboter 100 bei der Ausführung der Fertigkeit eingehalten werden. Beispiele hierfür sind, dass eine bestimmte Kraft oder Reibung nicht überschritten wird (z.B. zwei Teile nicht zu stark aneinander gedrückt werden oder eine Hülse nicht mit zu viel Reibung über einen Stange geschoben wird) oder auch ein bestimmter räumlicher Bereich nicht verlassen wird.
Gemäß verschiedenen Ausführungsformen wird ein Ansatz für eine Berücksichtigung formaler Spezifikationen innerhalb von mittels LfD gelernter Fertigkeiten (oder Fähigkeiten) bereitgestellt. Konkret wird gemäß verschiedenen Ausführungsformen Signal Temporal Logic (STL), eine im Vergleich zu LTL ausdrucksstärkere Variante der temporalen Logik, zur Formulierung von Aufgabenspezifikationen in Form von Belohnungsfunktionen verwendet und ein Black-Box-Optimierungsansatz (BBO) eingesetzt, um eine mittels LfD als Hidden Semi-Markov Model (HSMM) gelernte Fertigkeit anzupassen.
Dementsprechend basieren verschiedene Ausführungsformen auf STL, BBO und dem Lernen von Roboterfertigkeiten mittels LfD als HSMM. Zur Umwandlung einer STL-Spezifikation in eine Zielfunktion für BBO siehe Referenz [3] für eine Beschreibung verschiedener Robustheitsmaße, die im Zusammenhang mit den im Folgenden beschriebenen Ausführungsformen verwendet werden können. Für BBO kann Bayessche Optimierung (BO) oder CMA-ES (Covariance Matrix Adaptation Evolution Strategy) verwendet werden. Die im Folgenden beschrieben Ausführungsformen machen keine spezifischen Annahmen hinsichtlich der verwendenden BB-Optimierungstechnik.
Gemäß verschiedenen Ausführungsformen wird mittels eines Optimierungsverfahrens ein Robotersteuerungsmodell für eine bestimmte Fertigkeit dahingehen verbessert, dass es gegebene Bedingungen berücksichtigt. Dies erfolgt durch einen iterativen Prozess, bei dem die folgenden Operationen (1 bis 4, siehe unten) für eine beliebige Anzahl von Malen wiederholt werden, um eine verbesserte Version des Robotersteuerungsmodells in Bezug auf die Spezifikation eines Ziels, das die gegebenen Bedingungen widerspiegelt, zu erhalten.
Ausgehend von einem anfänglichen Robotersteuerungsmodell für eine Fertigkeit, gemäß verschiedenen Ausführungsformen einem HSMM, z.B. abgeleitet aus einer Menge von menschlichen Demonstrationen (z.B. Referenztrajektorien), und einer formalen STL-Spezifikation von Bedingungen (z.B. zu erreichenden Zielen bei der Durchführung einer Aufgabe als Nebenbedingungen), werden die folgenden Schritte wiederholt ausgeführt (z.B. von der Steuereinrichtung 106):

1) Bestimmen einer Modifikation (Variante) des Robotermodells für die Fertigkeit
2) Durchführen der Fertigkeit mittels der Modifikation des Robotermodells und Aufzeichnen dabei auftretender (Sensor-)Signale.
3) Bewertung, inwieweit die aufgezeichneten Signale der vorgegebenen STL-Spezifikation der Bedingungen entsprechen (d.h. diese erfüllen)
4) Aktualisieren des BBO-Optimierers und Merken der aktuell besten Modifikation (in Hinblick auf die Erfüllung der Bedingungen)

2 zeigt ein Ablaufdiagramm 200, das die Anpassung eines Robotersteuerungsmodells an gegebene Bedingungen gemäß den oben vier genannten Operationen veranschaulicht.
Für Operation 1) kann ein Robotersteuerungsmodell für eine Fertigkeit auf verschiedene Weise, d. h. durch Modifikation einer Reihe verschiedener Parameter 201 des Robotersteuerungsmodells, verändert werden. Aufgrund der Darstellung eines HSMM-Modells ist die natürliche Wahl für solche Parameter 201 die mittleren Lagen $(μ_{k}^{(p)})$
der Komponenten, die Parameter der Wahrscheinlichkeitsverteilung für die Dauer der Komponenten $μ_{k}^{D}, σ_{k}^{D}$
und die Übergangswahrscheinlichkeiten a_hk zwischen den Komponenten. Diese werden für jede Modifikation durch Störungen (Änderungen) $Δ μ_{k}^{(p)}, Δ μ_{k}^{D}, Δ σ_{k}^{D}, Δ a_{hk}$
modifiziert, um das Robotersteuerungsmodell zu modifizieren.
Außerdem kann für Operation 1) die Bestimmung der Parameter für die Modifikation auf verschiedene Weise erfolgen und hängt hauptsächlich von der Wahl des BBO-Verfahrens ab. Zum Beispiel können die Parameterwerte zufällig ausgewählt werden. Bei der Bayes'schen Optimierung (BO) werden die Parameterwerte in der Regel (ausgehend von einer Initialisierung 204 der Optimierungsparameter) durch die Optimierung einer so genannten Aquisitionsfunktion 202 ermittelt, wobei ein Ersatz (z.B. ein Gaußscher Prozess 203) der (unbekannten) zu optimierenden Funktion gebildet wird, um die Beziehung zwischen der Wahl der Parameter und dem erwarteten Zielwert zu modellieren. Bei der Verwendung von CMA-ES werden die Parameterwerte aus einer Wahrscheinlichkeitsverteilung entnommen, die im Laufe der Zeit modifiziert wird, um mit höherer Wahrscheinlichkeit Parameter zu sampeln, die zu einer höheren Zielfunktion führen.
Nach Modifikation des Robotersteuerungsmodells erfolgt die Ausführung 206 der Fertigkeit gemäß dem modifizierten Robotersteuerungsmodell.
Für Operation 2) wird die gegebene STL-Spezifikation 205 durch eine Reihe so genannter Prädikate ausgedrückt, die bestimmte Eigenschaften der Ausführung der Fertigkeit erfordern, z. B. die Einhaltung einer geringen Größe der Kontaktkräfte oder das Verbleiben außerhalb oder innerhalb von bestimmten Bereichen des Arbeitsraums. Dadurch ist direkt angegeben, welche Sensorsignale während der Ausführung der Aufgabe aufgezeichnet werden müssen d.h. welche Größen gemessen werden müssen (nämlich z.B. eine jeweilige Kontaktkraft oder die Position, z.B. des Endeffektors 104, des Roboters).
In Operation 3) werden die bei der Ausführung 206 aufgezeichneten Signale diskretisiert und der Wert einer Robustheitsmetrik 207 der STL-Spezifikation 205 kann für diese Signale berechnet werden (z.B. wie in Referenz [3] beschrieben). Es gibt verschiedene Formulierungen von Robustheitsmetriken mit unterschiedlichen Eigenschaften, die für den Zweck der Aufgabenoptimierung geeignet sind. Eine anschauliche Metrik ist die so genannte Raumrobustheit, die die Abstände der Signalwerte zur Änderung der Wahrheitswerte der Propositionen für jeden einzelnen Zeitpunkt entlang des diskretisierten Signals misst. Sie misst beispielsweise die Differenz zwischen gemessenen Kräften und der spezifizierten Kontaktkraft, oder sie misst den euklidischen Abstand zu einem bestimmten Bereich im Arbeitsraum.
Für Operation 4) sind nun sowohl die Änderungen der Modellparameter 201 als auch der resultierende Wert 207 des STL-spezifizierten Ziels bekannt und können an das verwendete BBO-Verfahren übergeben werden. Auch diese Operation hängt von dem verwendeten BBO-Verfahren ab. Im Falle von BO wird beispielsweise der Gaußsche Prozess (GP) 203 aktualisiert, um die gewonnene Beobachtung einzubeziehen, oder im Falle von CMA-ES wird die Stichprobenverteilung entsprechend aktualisiert. Im Extremfall, z. B. bei einer Zufallsstichprobe von Parametern, kann dieser Schritt entfallen.
Zusammengefasst wird gemäß verschiedenen Ausführungsformen ein Verfahren bereitgestellt, wie in 3 dargestellt.
3 zeigt ein Ablaufdiagramm 300, das ein Verfahren zum Steuern einer Robotervorrichtung darstellt.
In 301 wird ein Roboter-Steuerungsmodells zur Durchführung einer Aufgabe erzeugt, wobei das Roboter-Steuerungsmodell Parameter aufweist, die die Durchführung der Aufgabe beeinflussen.
In 302 werden die Parameter des Roboter-Steuerungsmodels mittels Optimierung einer Zielfunktion, die die Einhaltung mindestens einer Bedingung an den zeitlichen Verlauf mindestens eines kontinuierlichen Sensorsignals bei der Durchführung der Aufgabe bewertet, angepasst.
In 303 wird die Robotervorrichtung gemäß dem Roboter-Steuerungsmodell zur Durchführung der Aufgabe mit den angepassten Parametern gesteuert.
Das Verfahren von 3 kann durch einen oder mehrere Computer mit einer oder mehreren Datenverarbeitungseinheiten durchgeführt werden. Der Begriff „Datenverarbeitungseinheit“ kann als irgendein Typ von Entität verstanden werden, die die Verarbeitung von Daten oder Signalen ermöglicht. Die Daten oder Signale können beispielsweise gemäß mindestens einer (d.h. einer oder mehr als einer) speziellen Funktion behandelt werden, die durch die Datenverarbeitungseinheit durchgeführt wird. Eine Datenverarbeitungseinheit kann eine analoge Schaltung, eine digitale Schaltung, eine Logikschaltung, einen Mikroprozessor, einen Mikrocontroller, eine Zentraleinheit (CPU), eine Graphikverarbeitungseinheit (GPU), einen Digitalsignalprozessor (DSP), eine integrierte Schaltung einer programmierbaren Gatteranordnung (FPGA) oder irgendeine Kombination davon umfassen oder aus dieser ausgebildet sein. Irgendeine andere Weise zum Implementieren der jeweiligen Funktionen, die hierin genauer beschrieben werden, kann auch als Datenverarbeitungseinheit oder Logikschaltungsanordnung verstanden werden. Es können ein oder mehrere der im Einzelnen hier beschriebenen Verfahrensschritte durch eine Datenverarbeitungseinheit durch eine oder mehrere spezielle Funktionen ausgeführt (z. B. implementiert) werden, die durch die Datenverarbeitungseinheit durchgeführt werden.
Die Herangehensweise von 3 dient zum Erzeugen eines Steuersignals für eine Robotervorrichtung. Der Begriff „Robotervorrichtung“ kann als sich auf irgendein technisches System (mit einem mechanischen Teil, dessen Bewegung gesteuert wird) beziehend verstanden werden, wie z. B. eine computergesteuerte Maschine, ein Fahrzeug, ein Haushaltsgerät, ein Elektrowerkzeug, eine Fertigungsmaschine, einen persönlichen Assistenten oder ein Zugangssteuersystem. Es wird eine Steuerungsvorschrift für das technische System gelernt und das technische System dann entsprechend gesteuert.
Für die Erzeugung des Steuersignals werden (Sensor-)Daten, die aus ein oder mehreren empfangenen Sensorsignalen gewonnen werden, verarbeitet, z.B. in Form skalarer Zeitreihen, die spezifische Daten über jegliche Art von Trajektorien, wie z.B. Roboter-End-Effektor-Posen (Position und Orientierung), Kräfte, Roboter-Gelenkkräfte etc. enthalten.
Die Sensordaten werden verarbeitet, was die Klassifikation der Sensordaten oder das Durchführen einer semantischen Segmentierung an den Sensordaten umfassen kann, um die Anwesenheit von Objekten (in der Umgebung, in der die Sensordaten erhalten wurden) zu detektieren, in Hinblick auf die Einhaltung (und Quantifizierung der Einhaltung) einer durch einen Benutzer gegebenen formalen Spezifikation von ein oder mehreren Bedingungen.
Ausführungsformen können im Rahmen des Trainings eines Maschinenlernsystems und Steuern einer Roboter, z. B. autonom von Robotermanipulatoren, um verschiedene Manipulationsaufgaben unter verschiedenen Szenarios zu erreichen, verwendet werden. Insbesondere sind Ausführungsformen auf die Steuerung und Überwachung der Ausführung von Manipulationsaufgaben anwendbar, z. B. in Montagelinien. Sie können beispielsweise nahtlos mit einer herkömmlichen GUI für einen Steuerprozess integriert werden (z.B. um die Spezifikation von Bedingungen durch einen Benutzer zu ermöglichen).
Obwohl spezielle Ausführungsformen hier dargestellt und beschrieben wurden, wird vom Fachmann auf dem Gebiet erkannt, dass die speziellen Ausführungsformen, die gezeigt und beschrieben sind, gegen eine Vielfalt von alternativen und/oder äquivalenten Implementierungen ausgetauscht werden können, ohne vom Schutzbereich der vorliegenden Erfindung abzuweichen. Diese Anmeldung soll irgendwelche Anpassungen oder Variationen der speziellen Ausführungsformen abdecken, die hier erörtert sind. Daher ist beabsichtigt, dass diese Erfindung nur durch die Ansprüche und die Äquivalente davon begrenzt ist.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

Rozo, L., Guo, M., Kupcsik, A. G., Todescato, M., Schillinger, P., Giftthaler, M., ... & Burger, M. „Learning and sequencing of object-centric manipulation skills for industrial tasks“ in 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) (pp. 9072-9079) [0003]
Innes, C., & Ramamoorthy, S., „Elaborating on learned demonstrations with temporal logic specifications“, 2020, arXiv preprint arXiv:2002.00784 [0005]
Dhonthi, A., Schillinger, P., Rozo, L., & Nardi, D. (2021)"Study of Signal Temporal Logic Robustness Metrics for Robotic Tasks Optimization", arXiv preprint arXiv:2110.00339 [0006]

Claims

Verfahren zum Steuern einer Robotervorrichtung, aufweisend: Erzeugen eines Roboter-Steuerungsmodells zur Durchführung einer Aufgabe, wobei das Roboter-Steuerungsmodell Parameter aufweist, die die Durchführung der Aufgabe beeinflussen; Anpassen der Parameter des Roboter-Steuerungsmodels mittels Optimierung einer Zielfunktion, die die Einhaltung mindestens einer Bedingung an den zeitlichen Verlauf mindestens eines kontinuierlichen Sensorsignals bei der Durchführung der Aufgabe bewertet, Steuern der Robotervorrichtung gemäß dem Roboter-Steuerungsmodell zur Durchführung der Aufgabe mit den angepassten Parametern.
Verfahren nach Anspruch 1, ferner aufweisend Repräsentieren der mindestens einen Bedingung gemäß zeitlicher Signallogik in mindestens einer Zeitliche-Signallogik-Formel, Umwandeln der mindestens einen Zeitliche-Signallogik-Formel in mindestens ein Robustheitsmaß und Auswerten der Zielfunktion durch Ermitteln eines Werts des mindestens einen Robustheitsmaßes für die Durchführung der Aufgabe.
Verfahren nach Anspruch 1 oder 2, wobei die Parameter des Roboter-Steuerungsmodells zeitbezogene Parameter und ortsbezogene Parameter aufweisen.
Verfahren nach einem der Ansprüche 1 bis 3, wobei das Roboter-Steuerungsmodell ein verborgendes Semi-Markov-Modell (HSMM für engl. Hidden Semi Marko Model) ist.
Verfahren nach einem der Ansprüche 1 bis 4, wobei das mindestens eine kontinuierliche Sensorsignal einen Ort eines Teils der Robotervorrichtung und/oder eine Kraft, die auf einen Teil der Robotervorrichtung wirkt, angibt.
Robotersteuereinrichtung, die eingerichtet ist, ein Verfahren nach einem der Ansprüche 1 bis 5 auszuführen.
Computerprogramm, das Anweisungen umfasst, die bei Ausführung durch einen Prozessor veranlassen, dass der Prozessor ein Verfahren nach einem der Ansprüche 1 bis 5 durchführt.
Computerlesbares Medium, das Anweisungen speichert, die bei Ausführung durch einen Prozessor veranlassen, dass der Prozessor ein Verfahren nach einem der Ansprüche 1 bis 5 durchführt.