DE102013203287A1 - Verhaltenssteuerungssystem - Google Patents

Verhaltenssteuerungssystem Download PDF

Info

Publication number
DE102013203287A1
DE102013203287A1 DE102013203287A DE102013203287A DE102013203287A1 DE 102013203287 A1 DE102013203287 A1 DE 102013203287A1 DE 102013203287 A DE102013203287 A DE 102013203287A DE 102013203287 A DE102013203287 A DE 102013203287A DE 102013203287 A1 DE102013203287 A1 DE 102013203287A1
Authority
DE
Germany
Prior art keywords
state variable
probability
trajectory
agent
subtasks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102013203287A
Other languages
English (en)
Other versions
DE102013203287B4 (de
Inventor
Soshi Iba
Akinobu Hayashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of DE102013203287A1 publication Critical patent/DE102013203287A1/de
Application granted granted Critical
Publication of DE102013203287B4 publication Critical patent/DE102013203287B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33054Control agent, an active logical entity that can control logical objects

Abstract

Es wird ein System angegeben, das in der Lage ist, einen Agenten zu veranlassen, eine Mehrzahl von unterschiedlichen Teilaufgaben kontinuierlich auszuführen, während die Verhaltenskontinuität des Agenten sichergestellt wird. Eine Mehrzahl von Zustandsvariablen-Trajektorien, die die Zeitserie einer Zustandsvariable eines Objekts repräsentieren, werden gemäß einem stochastischen Übergangsmodell generiert, worin die Zustandsvariable des Objekts als Zufallsvariable repräsentiert ist. Das stochastische Übergangsmodell ist so definiert, dass der Übergangsmodus der Zustandsvariable gemäß einer Ausführungswahrscheinlichkeit jeder Teilaufgabe bestimmt wird, worin eine Wahrscheinlichkeitsverteilung durch eine Dirichlet-Verteilung repräsentiert ist. Ein Betrieb des Agenten (1) wird derart gesteuert/geregelt, dass der Zustand des Objekts (2) gemäß einer Zustandsvariablen-Trajektorie (einer gewünschten Zustandsvariablen-Trajektorie) übergeht, welche die Verknüpfungswahrscheinlichkeit einer Gesamtheit des stochastischen Übergangsmodells unter der Mehrzahl von Zustandsvariablen-Trajektorien maximiert oder optimiert.

Description

  • HINTERGRUND DER ERFINDUNG
  • 1. Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft ein System, das das Verhalten eines Roboters steuert/regelt, um zu veranlassen, dass der Roboter eine Mehrzahl von Teilaufgaben ausführt.
  • 2. Beschreibung der verwandten Technik
  • Es ist ein technisches Verfahren vorgeschlagen worden, worin eine Zustandsvariable(-variable), die das Verhalten eines Agenten definiert, durch eine kontinuierliche Zufallsvariable definiert wird, um die Kontinuität des Verhaltens des Agenten sicherzustellen, und worin das Verhalten des Agenten gemäß der Trajektorie der Zustandsvariable geregelt wird (siehe japanische Patentanmeldungsoffenlegung Nr. 2010-005761 und japanische Patentanmeldungsoffenlegung Nr. 2011-148081 ).
  • In dem Fall, wo der Agent veranlasst wird, kontinuierlich eine Aufgabe auszuführen, die aus einer Serie von unterschiedlichen Teilaufgaben zusammengesetzt ist, wird es jedoch schwierig, die Trajektorie der Zustandsvariable zu erzeugen, während der Zeitpunkt des Umschaltens zwischen den Teilaufgaben adaptiv gesetzt wird. Daher könnte die Kontinuität des Verhaltens derart beeinträchtigt werden, dass der Betrieb des Agenten zur Zeit des Umschaltens zwischen den Teilaufgaben vorübergehend anhält.
  • Daher ist es Aufgabe der vorliegenden Erfindung, ein System anzugeben, das in der Lage ist, den Agenten zu veranlassen, eine Mehrzahl von unterschiedlichen Teilaufgaben kontinuierlich auszuführen, während die Kontinuität des Verhaltens des Agenten sichergestellt wird.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Gemäß einem Aspekt der vorliegenden Erfindung wird ein System angegeben, das konfiguriert ist, um ein Verhalten eines Agenten zu steuern/zu regeln, um zu veranlassen, dass der Agent selektiv eine Mehrzahl von Teilaufgaben für ein Objekt ausführt, wobei das System umfasst: ein erstes Arithmetikprozesselement, das konfiguriert ist, um eine Mehrzahl von Zustandsvariablen-Trajektorien zu generieren, die Zeitserien einer Zustandsvariable des Objekts repräsentieren, gemäß einem stochastischen Übergangsmodell, worin die Zustandsvariable des Objekts als Zufallsvariable repräsentiert ist, und worin der Übergangsmodus der Zustandsvariable in Abhängigkeit von jeder Ausführungswahrscheinlichkeit der Mehrzahl von Teilaufgaben bestimmt ist, worin eine Wahrscheinlichkeitsverteilung durch eine Dirichlet-Verteilung repräsentiert wird; und ein zweites Arithmetikprozesselement, das konfiguriert ist, um einen Betrieb des Agenten so zu steuern/zu regeln, dass der Zustand des Objekts gemäß der gewünschten Zustandsvariablen-Trajektorie übergeht, die eine Zustandsvariablen-Trajektorie ist, die eine Verknüpfungswahrscheinlichkeit einer Gesamtheit des stochastischen Übergangsmodells unter der Mehrzahl von Zustandsvariablen-Trajektorien, die von dem ersten Artihmetikprozesselement generiert werden, maximiert oder optimiert.
  • Gemäß dem Verhaltenssteuerungssystem der vorliegenden Erfindung wird die Mehrzahl von Zustandsvariablen-Trajektorien, die die Zeitserie der Zustandsvariable sind, gemäß dem stochastischen Übergangsmodell generiert, worin der Übergangsmodus der Zustandsvariable des Objekts in Abhängigkeit von jeder Ausführungswahrscheinlichkeit der Mehrzahl von Teilaufgaben bestimmt wird, worin eine Wahrscheinlichkeitsverteilung durch eine Dirichlet-Verteilung repräsentiert wird. Hierdurch werden die Mehrzahl von Zustandsvariablen-Trajektorien unter Berücksichtigung der verschiedenen Variationsmodi der Teilaufgaben erzeugt, welche selektiv von dem Agenten 1 ausgeführt werden, gemäß einem Unterschied im zeitorientierten Variationsmodus der Dirichlet-Verteilung.
  • Eine Zustandsvariablen-Trajektorie, der der Agent 1 unter der Mehrzahl von Zustandsvariablen-Trajektorien folgt, wird als gewünschte Zustandsvariablen-Trajektorie generiert, wenn sie die Verknüpfungswahrscheinlichkeit des stochastischen Übergangsmodells maximiert oder optimiert. Die gewünschte Zustandsvariablen-Trajektorie wird auf der Basis des stochastischen Übergangsmodells erzeugt, wie oben beschrieben. Daher lässt sich das Verhalten des Agenten, das von einer Interaktion mit dem Objekt begleitet wird, derart steuern/regeln, dass die Kontinuität der Zustandsvariablen, die den Zustand des Objekts 2 repräsentieren, sichergestellt wird. Im Ergebnis ist, während die Ausführbarkeit jeder Teilaufgabe die Kontinuität des Verhaltens des Agenten in Zeitserien sicherstellt, das Verhaltenssteuerungssystem in der Lage, den Agent zu veranlassen, eine Mehrzahl von unterschiedlichen Teilaufgaben kontinuierlich auszuführen.
  • Bevorzugt ist das erste Artihmetikprozesselement konfiguriert, um eine Mehrzahl von i-ten Zustandsvariablen-Trajektorien zu generieren, die Zeitserien der Zustandsvariable des Objekts repräsentieren, gemäß einem i-ten stochastischen Übergangsmodell, worin der Übergangsmodus der Zustandsvariable in Abhängigkeit von jeder Ausführungswahrscheinlichkeit einer Teilaufgabe mit einer i-ten Ausführungsreihenfolge (i = 1, 2, ...) und einer Teilaufgabe mit einer (i + 1)-ten Ausführungsfolge unter der Mehrzahl von Teilaufgaben bestimmt wird; und das zweite Arithmetikprozesselement ist konfiguriert, um eine i-te Zustandsvariablen-Trajektorie zu generieren, die eine Verknüpfungswahrscheinlichkeit einer Gesamtheit des i-ten stochastischen Übergangsmodells, als i-te gewünschte Zustandsvariablen-Trajektorie unter der Mehrzahl von i-ten Zustandsvariablen-Trajektorien, die von dem ersten Arithmetikprozesselement generiert werden, maximiert oder optimiert, und um eine Verbindungstrajektorie der i-ten gewünschten Zustandsvariablen-Trajektorie als die gewünschte Zustandsvariablen-Trajektorie zu generieren.
  • Gemäß dem Verhaltenssteuerungssystem mit der obigen Konfiguration werden nur zwei Teilaufgaben unter einer Mehrzahl von Teilaufgaben in jedem stochastischen Übergangsmodell berücksichtigt. Daher ist das Verhaltenssteuerungssystem in der Lage, den Agenten zu veranlassen, die Mehrzahl von unterschiedlichen Teilaufgaben fortlaufend auszuführen, während die Kontinuität des Verhaltens des Agenten sichergestellt wird, parallel zu einer Verminderung der Arithmetikprozesslast, die für die Erzeugung der Zustandsvariablen-Trajektorie gemäß jedem stochastischen Übergangsmodell erforderlich ist, oder zu einer Abnahme der Arithmetikprozesszeit.
  • Bevorzugt ist das erste Arithmetikprozesselement konfiguriert, um die Mehrzahl von Zustandsvariablen-Trajektorien gemäß jedem einer Mehrzahl von stochastischen Übergangsmodellen mit unterschiedlichem Umweltfaktor zu generieren, das ein stochastisches Übergangsmodell ist, worin der Übergangsmodus der Zustandsvariable in Abhängigkeit von dem Umweltfaktor des Objekts bestimmt wird, zusätzlich zu den jeweiligen Ausführungswahrscheinlichkeiten der Mehrzahl von Teilaufgaben; und das zweite Arithmetikprozesselement ist konfiguriert, um als aktuellen Umweltfaktor einen Umweltfaktor in einem stochastischen Übergangsmodell zu schätzen, das eine Erzeugungsbasis von einer Zustandsvariablen-Trajektorie ist, die eine Verknüpfungswahrscheinlichkeit einer Gesamtheit des stochastischen Übergangsmodells unter der Mehrzahl von Zustandsvariablen-Trajektorien, die von dem ersten Arithmetikprozesselement generiert werden, maximiert oder optimiert.
  • Gemäß dem Verhaltenssteuerungssystem mit der obigen Konfiguration lässt sich ein Umweltfaktor, der ein ungewisses Element ist, mit hohem Genauigkeitsgrad auf der Basis des Erzeugungsergebnisses der gewünschten Zustandsvariablen-Trajektorie schätzen. Die anschließenden stochastischen Übergangsmodelle werden auf der Basis des Schätzergebnisses ausgewählt oder konstruiert, um hierdurch das Erzeugen einer gewünschten Zustandsvariablen-Trajektorie zu ermöglichen, die den Zustand des Objekts widerspiegelt, basierend auf dem aktuellen Umweltfaktor.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein beispielhaftes Konfigurationsdiagramm, das ein Verhaltenssteuerungssystem der vorliegenden Erfindung darstellt;
  • 2A ist ein Erläuterungsdiagramm, das eine Teilaufgabe gemäß einer ersten Ausführung und einen ersten kontinuierlichen Modus davon darstellt, und 2B ist ein Erläuterungsdiagramm, das eine Teilaufgabe der ersten Ausführung und einen zweiten kontinuierlichen Modus davon darstellt;
  • 3 ist ein Erläuterungsdiagramm eines stochastischen Übergangsmodells (DBN) gemäß der ersten Ausführung;
  • 4A ist ein Erläuterungsdiagramm eines ersten Rechenergebnisses einer gewünschten Zustandsvariablen-Trajektorie gemäß der ersten Ausführung, 4B ist ein Erläuterungsdiagramm eines zweiten Rechenergebnisses der gewünschten Zustandsvariablen-Trajektorie gemäß der ersten Ausführung, und 4C ist ein Erläuterungsdiagramm eines dritten Rechenergebnisses der gewünschten Zustandsvariablen-Trajektorie gemäß der ersten Ausführung;
  • 5A ist ein allgemeines schematisches Diagramm, das eine erste Teilaufgabe gemäß einer zweiten Ausführung darstellt, 5B ist ein allgemeines schematisches Diagramm, das eine zweite Teilaufgabe gemäß der zweiten Ausführung darstellt, 5C ist ein allgemeines schematisches Diagramm, das eine dritte Teilaufgabe gemäß der zweiten Ausführung darstellt, und 5D ist ein allgemeines schematisches Diagramm, das eine vierte Teilaufgabe gemäß der zweiten Ausführung darstellt;
  • 6 ist ein Erläuterungsdiagramm eines stochastischen Übergangsmodells (DBN) gemäß der zweiten Ausführung; und
  • 7A ist ein Erläuterungsdiagramm eines ersten Rechenergebnisses einer gewünschten Zustandsvariablen-Trajektorie, 7B ist ein Erläuterungsdiagramm eines zweiten Rechenergebnisses der gewünschten Zustandsvariablen-Trajektorie, und 7C ist ein Erläuterungsdiagramm eines dritten Rechenergebnisses der gewünschten Zustandsvariablen-Trajektorie.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGEN
  • (Struktur)
  • Ein in 1 dargestelltes Verhaltenssteuerungssystem 10 ist konfiguriert, um das Verhalten eines Agenten 1 zu steuern/zu regeln, durch Steuern/Regeln des Betriebs eines im Agenten 1 angebrachten Aktuators. Das Verhaltenssteuerungssystem 10 ist zum Beispiel aufgebaut aus einer elektronischen Steuereinheit (zusammengesetzt aus CPU, Rom, RAM, I/O-Schaltung und dergleichen), oder einem Computer, der in dem Agenten 1 angebracht ist.
  • Der Agent 1 ist zum Beispiel ein Roboterarm, der aus einer Mehrzahl von Gliedern zusammengesetzt ist, die über einen Gelenkmechanismus miteinander verbunden ist, mit einer vom Aktuator übertragenen Kraft, und ist konfiguriert, um den Gelenkmechanismus mit der vom Aktuator übertragenen Kraft beugen und strecken zu können. Die Anzahl der Gelenkmechanismen und der Freiheitsgrade (1 bis 3) jedes Gelenkmechanismus sind beliebig konstruierbar. Der Roboterarm kann ein Arm eines Humanoid-Robotors sein (siehe japanische nationale Nachveröffentlichung der internationalen PCT-Anmeldung 2003-09078 und 2003-090979 oder dergleichen).
  • Das Verhaltenssteuerungssystem 10 enthält ein erstes Arithmetikprozesselement 11 und ein zweites Arithmetikprozesselement 12, und ist konfiguriert, um den Agenten 1 zu veranlassen, selektiv eine Mehrzahl von Teilaufgaben auszuführen, so dass sich die den Zustand des Objekts 2 repräsentierende Zustandsvariable gemäß einer gewünschten Zustandsvariablen-Trajektorie in Zeitserien ändert.
  • Das erste Arithmetikprozesselement 11 ist konfiguriert, um eine Mehrzahl von Zustandsvariablen-Trajektorien zu erzeugen, die die Zeitserien der Zustandsvariable des Objekts 2 repräsentieren, gemäß einem stochastischen Übergangsmodell. Das stochastische Übergangsmodell ist so definiert, dass die Zustandsvariable des Objekts als Zufallsvariable repräsentiert wird, und der Übergangsmodus der Zustandsvariable gemäß jeder von Ausführungswahrscheinlichkeiten der Mehrzahl von Teilaufgaben bestimmt wird, wofür die Wahrscheinlichkeitsverteilung durch eine Dirichlet-Verteilung repräsentiert wird.
  • Das zweite Arithmetikprozesselement 12 ist konfiguriert, um einen Betrieb des Agenten 1 so zu steuern/zu regeln, dass der Zustand des Objekts 2 gemäß der gewünschten Zustandsvariablen-Trajektorie übergeht. Die gewünschte Zustandsvariable ist eine solche Zustandsvariablen-Trajektorie, die eine Verknüpfungswahrscheinlichkeit der Gesamtheit des stochastischen Übergangsmodells aus der Mehrzahl von Zustandsvariablen-Trajektorien, die durch das erste Arithmetikprozesselement 11 erzeugt werden, maximiert oder optimiert.
  • Der Begriff „Zustandsvariable” bedeutet ein Konzept, das einen Skalar und einen Vektor enthält, und bedeutet ein Konzept, das eine Wahrscheinlichkeitsverteilungsvariable oder -größe enthält. Die Position der Zustandsvariable bedeutet eine Position im Euklid'schen Raum oder im Hilbert-Raum mit einer Dimension, welche durch die Dimension der Zustandsvariable definiert ist.
  • Das Verhaltenssteuerungssystem 10 und das erste Arithmetikprozesselement 11 und das zweite Arithmetikprozesselement 12, welche Bauteile davon sind, sind jeweils zusammengesetzt aus einem Speicher und einer Arithmetikprozesseinheit (CPU), welche die erforderlichen Daten und Programme aus dem Speicher ausliest und einen der Arithmetikprozesseinheit zugeordneten Arithmetikprozess ausführt. Der Begriff „zusammengesetzt aus” enthält ein Konzept von „programmiert”.
  • (Funktion)
  • Das Verhaltenssteuerungssystem 10 mit der obigen Konfiguration führt einen Steuerarithmetikprozess aus, um den Agenten 1 zu veranlassen selektiv eine Mehrzahl von unterschiedlichen Teilaufgaben auszuführen, begleitet von einer Interaktion zwischen dem Agenten 1 und dem Objekt 2.
  • [Erste Ausführung]
  • Als Mehrzahl von Teilaufgaben verwendet ein Endeffektor, der am Ende eines Roboterarms als dem Agenten 1 angebracht ist, eine erste Teilaufgabe, die das Objekt 2 in der +x-Richtung um einen vorbestimmten Betrag in dem xy-Koordinatensystem bewegt, sowie eine zweite Teilaufgabe, die das Objekt 2 in der +y-Richtung um einen vorbestimmten Betrag in dem xy-Koordinatensystem bewegt (siehe 2A und 2B). Der Anfangszustand des Objekts 2 wird durch den ursprünglichen Koordinatenwert (0, 0) des xy-Koordinatensystems definiert.
  • (Stochastisches Übergangsmodell)
  • Das stochastische Übergangsmodell wird definiert durch Zustandsvariablen des Objekts 2, die in Tabelle 1 dargestellt sind, und Variablen, welche die in Tabelle 2 dargestellten Ausführungsteilaufgaben repräsentieren. [TABELLE 1]
    X x-Koordinatenwert von Objekt 2
    Y y-Koordinatenwert von Objekt 2
    Δx Translationsbetrag des Objekts 2 in Richtung x
    Δy Translationsbetrag des Objekts 2 in Richtung y
    [TABELLE 2]
    S1 1 wenn argmax(qi) = q1
    0 sonst
    S2 1 wenn argmax(qi) = q1
    0 sonst
  • Insbesondere wird das stochastische Übergangsmodell definiert durch Relationsausdrücke (101) und (102) auf der Basis der Größen/Variablen zur Zeit t = k (genauer bedeutet dies ein Produkt k × T der Anzahl von k Ausführungen des Arithmetikprozesses und der Arithmetikprozesszyklus T mit der Zeit t = 0 als Referenz): x(k + 1) = x(k) + S1δx(k + 1) (101) y(k + 1) = y(k) + S2δy(k + 1) (102)
  • Jeder der Relationsausdrücke (101) und (102) repräsentiert, dass der x-Koordinatenwert und der y-Koordinatenwert des Objekts 2 kontinuierliche Zufallsvariablen sind, die sich kontinuierlich oder glattgängig ändern.
  • Die erste und zweite Teilaufgabe sind Ereignisse, die nicht gleichzeitig ausgeführt werden können, und daher wird eine Ausführungswahrscheinlichkeit qi jeder Teilaufgabe gemäß der Dirichlet-Verteilung evaluiert oder berechnet (in dieser Ausführung eine Beta-Verteilung aufgrund von zwei Variablen). Jeder der Koeffizienten S1 und S2 wird gemäß der Ausführungswahrscheinlichkeit qi für jede der ersten und zweiten Teilaufgaben bestimmt, wofür die Wahrscheinlichkeitsverteilung durch die Dirichlet-Verteilung repräsentiert wird, und der Wert der Ausführungswahrscheinlichkeit qi bestimmt den Übergangsmodus der betreffenden Zustandsvariable.
  • Jeder der Koeffizienten S1 und S2 in den Relationsausdrücken (101) und (102) wird, wie in Tabelle 2 dargestellt, so definiert, dass er auf „1” oder „0” gesetzt wird, dementsprechend, ob die Wahrscheinlichkeit, dass jede der ersten und zweiten Teilaufgaben ausgeführt wird, hoch oder niedrig ist.
  • Der Koeffizient „S1” wird so definiert, dass er auf „1” gesetzt wird, falls die Ausführungswahrscheinlichkeit q, der ersten Teilaufgabe in der Dirichlet-Verteilung maximal ist, und wird in anderen Fällen auf „0” gesetzt. Der Koeffizient „S2” wird so definiert, dass er auf „1” gesetzt wird, falls die Ausführungswahrscheinlichkeit q2 der zweiten Teilaufgabe in der Dirichlet-Verteilung maximal ist, und wird in anderen Fällen auf „0” gesetzt.
  • Das stochastische Übergangsmodell wird durch das in 3 dargestellte Dynamische Bayesche-Netzwerk (DBN) repräsentiert. Gemäß dem DBN werden die Relationsausdrücke (101) und (102) durch die Pfeile repräsentiert, welche Knoten (Kreise) verbinden, die die Zustandsvariablen zur Zeit k repräsentieren, sowie konditionelle Wahrscheinlichkeiten, unter Verwendung der Knoten und der konditionellen Wahrscheinlichkeiten.
  • Die konditionellen Wahrscheinlichkeiten, die jeweils den Relationsausdrücken (101) und (102) entsprechen, werden jeweils durch die Relationsausdrücke (111) und (112) ausgedrückt: P(x(k + 1)|x(k), S(k + 1)) = N(x(k) + S1δx(k + 1), Σx) (111) P(y(k + 1)|y(k), S(k + 1)) = N(y(k) + S2δx(k + 1), Σy) (112)
  • Die Zustandsvariablen-Knoten δP in den jeweiligen Relationsausdrücken (111) und (112) werden durch die Relationsausdrücke (121) und (122) ausgedrückt: P(δx(k)) = N(0, e–6) (121) P(δy(k)) = N(0, e–6) (122)
  • Das erste Arithmetikprozesselement 11 erzeugt eine Mehrzahl von Zustandsvariablen-Trajektorien gemäß dem durch das DBN repräsentierte stochastische Übergangsmodell. Als Verfahren zur Schätzung der Knoten im DBN können auch andere Methoden verwendet werden, wie etwa eine geschleifte Vertrauensfortpflanzung (loopy belief propagation), Variablen-Elimination, Verknüpfungsbaum, Wichtigkeitsabtastung, Hugin-Algorithmus, Shafer-Shenoy-Algorithmus, Variational Message Passing, Gibbs-Abtastung, oder dergleichen.
  • Zum Beispiel in dem Fall, wo die Ausführungswahrscheinlichkeiten (q1, q2) der Teilaufgaben in der Dirichlet-Verteilung entlang dem Zeitübergang t = t1 → t2 → t3 → t4 so variieren wie in dem Balkendiagramm von 2A dargestellt, gehen die Koeffizienten (S1, S2) über wie in (1, 0) → (0, 1) → (1, 0) → (0, 1) (siehe Tabelle 2). Darüber hinaus in dem Fall, wo die Ausführungswahrscheinlichkeiten (q1, q2) der Teilaufgaben in der Dirichlet-Verteilung entlang dem Zeitübergang t = t1 → t2 → t3 → t4 so variieren wie im Balkendiagramm von 2B dargestellt, gehen die Koeffizienten (S1, S2) über wie in (1, 0) → (1, 1) → (0, 1) →(1, 0). Die Knoten werden in Bezug auf jeden dieser verschiedenen Übergangsmodi geschätzt, wodurch eine Mehrzahl von Zustandsvariablen-Trajektorien erzeugt werden (siehe die Pfeile in den 2A und 2B).
  • Das zweite Arithmetikprozesselement 12 steuert den Betrieb des Agenten 1 derart, dass der Zustand des Objekts 2 gemäß der gewünschten Zustandsvariablen-Trajektorie übergeht, welche eine Zustandsvariablen-Trajektorie ist, die die Verknüpfungswahrscheinlichkeit des stochastischen Übergangsmodells von der Mehrzahl der Zustandsvariablen-Trajektorien, die durch das erste Arithmetikprozesselement 11 generiert werden, maximiert oder optimiert. Hierdurch führt der Agent 1 selektiv die ersten und zweiten Teilaufgaben aus.
  • Der Wert der Zustandsvariable des Objekts 2 wird durch eine Sensorgruppe des Agenten 1 gemessen, und der Betrieb des den Agenten 1 darstellenden Aktuators wird rückkoppelnd geregelt, so dass der gemessene Wert mit einem gewünschten Wert (Ziel) übereinstimmt, der durch die gewünschte Zustandsvariablen-Trajektorie repräsentiert wird.
  • (Rechenbeispiel)
  • Aus dem Blickpunkt, die Arithmetikprozesslast des Verhaltenssteuerungssystems 10 zu reduzieren, wurde eine Berechnung an einer Zustandsvariablen-Trajektorie durchgeführt, um zu bewirken, dass die Zustandsvariable (x, y) des Objekts 2 das Ziel (Teilziel) Ziel erreicht, das an der rechten Seite der 4A bis 4C dargestellt ist, gemäß einer Regel, dass die zweite Teilaufgabe nach der Ausführung der ersten Teilaufgabe ausgeführt wird.
  • An der linken Seite jeder der 4A bis 4C ist ein Veränderungsmodus jeder Ausführungswahrscheinlichkeitsverteilung der ersten und zweiten Teilaufgaben dargestellt. Die horizontale Achse repräsentiert die Zeit k, und die vertikale Achse repräsentiert eine Wahrscheinlichkeit q1, dass jede Teilaufgabe ausgeführt wird. Die Ausführungswahrscheinlichkeitverteilung der ersten Teilaufgabe ist mit geringer Helligkeit gezeichnet, und die maximale Wahrscheinlichkeit (nachfolgend als „erste Ausführungswahrscheinlichkeit” bezeichnet) ist mit „o” bezeichnet. Ähnlich ist die Ausführungswahrscheinlichkeitsverteilung der zweiten Teilaufgabe mit großer Helligkeit gezeichnet, die sich in vertikaler Richtung erstreckt, und die maximale Wahrscheinlichkeit (nachfolgend als „zweite Ausführungswahrscheinlichkeit” bezeichnet) ist mit „•” bezeichnet.
  • Die Position des Objekts 2 im Anfangszustand (k = 1) wird vorab auf die Ursprungsposition gesetzt, und daher ist die Streuung jeder Wahrscheinlichkeitsverteilung Null, während die Streuung jeder Wahrscheinlichkeitsverteilung sich mit der Zeit verändert. Dies bedeutet: selbst wenn als Ergebnis die Ausführung der ersten Teilaufgabe gewählt wird, wird auch die Ausführung der zweiten Teilaufgabe berücksichtigt, bis die erste Teilaufgabe gewählt ist. Insbesondere bedeutet dies, dass sowohl die Ausführungswahrscheinlichkeit q1 der ersten Teilaufgabe als auch die Ausführungswahrscheinlichkeit q2 der zweiten Teilaufgabe konstant berücksichtigt werden, wie durch die in den 2A und 2B dargestellten Balkengraphiken ausgedrückt.
  • Wie in der linken Seite von 4A dargestellt, ist zur Zeit k von 1 bis 16 (k = 1 bis 16) die erste Ausführungswahrscheinlichkeit höher als die zweite Ausführungswahrscheinlichkeit, während zur Zeit k von 17 bis 30 (k = 17 bis 30) die erste Ausführungswahrscheinlichkeit niedriger als die zweite Ausführungswahrscheinlichkeit ist. Dementsprechend wird, wie in der rechten Seite von 4A dargestellt, eine gewünschte Zustandsvariablen-Trajektorie des Objekts 2 erzeugt, um zu veranlassen, dass der Agent 1 die erste Teilaufgabe ausführt, bis die Zustandsvariable (x, y) des Objekts 2 zu (0,2, 0) wechselt, und zum Umschalten der Teilaufgaben zwischen der Zeit k von 16 und der Zeit k von 17 (k = 16 bis 17), und danach zum Ausführen der zweiten Teilaufgabe, bis die Zustandsvariable (x, y) des Objekts zu (0,2, 0, 2) wechselt. Die gewünschte Zustandsvariablen-Trajektorie wird durch eine Wahrscheinlichkeitsverteilung repräsentiert, die eine Verteilungsbreite hat, wie mit einer durchgehenden Linie an der rechten Seite von 4A angegeben.
  • Wie in der rechten Seite von 4B dargestellt, wird eine gewünschte Zustandsvariablen-Trajektorie des Objekts 2 erzeugt, um zu bewirken, dass der Agent 1 die erste Teilaufgabe ausführt, bis die Zustandsvariable (x, y) des Objekts 2 zu (0,1, 0) wechselt, und zum Schalten der Teilaufgaben zwischen der Zeit k von 10 und der Zeit k von 11 (k = 10 bis 11), und danach zum Ausführen der zweiten Teilaufgabe, bis die Zustandsvariable (x, y) des Objekts 2 zu (0,1, 0,4) wechselt.
  • Wie in der rechten Seite von 4C dargestellt, wird eine gewünschte Zustandsvariablen-Trajektorie des Objekts 2 erzeugt, um zu bewirken, dass der Agent 1 die erste Teilaufgabe ausführt, bis die Zustandsvariable (x, y) des Objekts 2 zu (0,4, 0) wechselt, und zum Schalten der Teilaufgabe zwischen der Zeit k von 23 und der Zeit k von 24 (k = 23 bis 24), und danach zum Ausführen der zweiten Teilaufgabe, bis die Zustandsvariable (x, y) des Objekts 2 zu (0,4, 0,1) wechselt.
  • [Zweite Ausführung]
  • Die erste Teilaufgabe (Neigen) ist eine Aufgabe, das Objekt 2 zu kippen, um die Unterseite (untere Fläche) des auf einer ersten Bodenfläche angeordneten Objekts 2 von der ersten Bodenfläche anzuheben, mit einer Seite der Unterseite des Objekts 2 als Achslinie (siehe 5A). Der Begriff „Bodenfläche” ist nicht auf die Bodenfläche einer Gebäudestruktur oder dergleichen beschränkt, sondern bedeutet eine Oberseite aller Arten eines strukturellen Objekts, wie etwa der Oberseite eines Tischs, eine Straßenoberfläche, eine Erdoberfläche, oder dergleichen.
  • Die zweite Teilaufgabe (Schieben) ist eine Aufgabe, das Objekt 2 translatorisch zu bewegen, wobei sich eine Seite der Unterseite auf der ersten Bodenfläche aufliegt, während die gekippte Lage des Objekts 2 erhalten bleibt, die durch die Ausführung der ersten Teilaufgabe erreicht wird (siehe 5B).
  • Die dritte Teilaufgabe (Hochdrücken) ist eine Aufgabe, das Objekt 2 so zu kippen, dass ein Teil der Unterseite des Objekts 2 sich gegen eine zweite Bodenfläche abstützt, die um eine Stufe höher ist als die erste Bodenfläche, wobei sich ein Liniensegment gegen den Rand des Stufenabschnitts zwischen der ersten Bodenfläche und der zweiten Bodenfläche als Achslinie an der Unterseite des Objekts 2 abstützt. Die Kipprichtung des Objekts 2 in der dritten Teilaufgabe ist entgegengesetzt zur Kipprichtung des Objekts 2 in der ersten Teilaufgabe (siehe 5C).
  • Die vierte Teilaufgabe (Drücken) ist eine Aufgabe zur translatorischen Bewegung des Objekts 2, wobei ein Teil der Unterseite auf der zweiten Bodenfläche aufliegt (siehe 5D).
  • Es werden eine Mehrzahl von Teilaufgaben ausgeführt, mit einem Endeffektor, der am Ende des Arm-Roboters als dem Agenten 1 angebracht ist, der sich gegen die Oberseite des Objekts 2 abstützt, das ein im Wesentlichen rechteckiges Parallelepiped ist. Das Verhalten des Agenten 1 wird gemäß der Position des Endeffektors und der Trajektorie einer auf das Objekt 2 angewendeten Kraft gesteuert.
  • Die Position des Endeffektors (die Position des Kraftwirkpunkts) wird zum Beispiel durch die Position der Handfläche eines Roboterhand definiert, die eine Mehrzahl von Fingermechanismen aufweist, die sich von der Handfläche erstrecken, oder der Position der Spitze von einem Fingermechanismus (Fingerspitze).
  • (Stochastisches Übergangsmodell)
  • Das stochastische Übergangsmodell wird durch die in Tabelle 3 dargestellten Zustandgrößen des Objekts und die in Tabelle 4 dargestellten Größen definiert, welche die Ausführungsteilaufgaben repräsentieren. [TABELLE 3]
    F = (fx, fz) Kraft des Endeffektors auf das Objekt 2
    Pc = (Xc, zc) Position, wo die Kraft F einwirkt (Position des Endeffektors)
    fN Normale Kraft, die auf das Objekt 2 von der Bodenoberfläche einwirkt
    Fμ Reibkraft, die auf das Objekt 2 von der Bodenoberfläche einwirkt
    Pp = (xp, zp) Positionen, wo die normale Kraft fN und die Reibkraft fμ einwirkt
    m Masse des Objekts 2
    g Gravitationsbeschleunigung
    Pg = (xg, zg) Schwerpunkt des Objekts 2
    Pe = (xe, ze) Randposition des Stufenabschnitts zwischen den ersten und zweiten Bodenflächen
    δP = (δx, 0) Translationsbetrag des Objekts 2 in Richtung x
    Neigungswinkel der Unterseite des Objekts 2 zur horizontalen Ebene
    δθ Neigungsbetrag des Objekts 2 (Änderungsbetrag im Neigungswinkel θ)
    [TABELLE 4]
    S1 1 wenn argmax(qi) = q1 oder q3
    0 sonst
    S2 1 wenn argmax(qi) = q2 oder q4
    0 sonst
    S3 1 wenn argmax(qi) = q3
    0 sonst
  • Insbesondere wird das stochastische Übergangsmodell durch Relationsausdrücke (201) bis (207) auf der Basis der Größen zur Zeit t = k definiert (genauer gesagt bedeutet dies ein Produkt k × T der Anzahl k der Ausführungen des Arithmetikprozesses und des Arithmetikprozesszyklus T mit der t = 0 als Referenz: Pc(k + 1) = R(k){P(k) – PP(k)} + PP(k) + S2δP(k + 1), R(k) = {rij}, r11 = cosδθ, r12 = –sinδθ, r21 = sinδθ, r22 = cosδθ (201) Pg(k + 1) = R(k){Pg(k) – PP(k)} + Pp(k) + S2δP(k + 1) (202) PP(k + 1) = (1 – S3)PP(k) + S3Pe(k) + S2δP(k + 1) (203) θ(k + 1) = θ(k) + S1δθ(k + 1) (204) Pe(k + 1) = Pe(k) (205) fx(k) = μfN(k), fz(k) = fN(k)–mg (206) mg(xg(k) – xp(k)) + fx(k)(zc(k) – zp(k)) + fz(k)(xc(k) – xp(k)) = 0 (207)
  • Die Relationsausdrücke (201) bis (203) drücken aus, dass die Positionen Pc, Pp und Pg kontinuierliche Zufallsvariablen sind, die sich jeweils kontinuierlich oder glattgängig ändern. R ist eine Matrix zum Konvertieren des Neigungsbetrags δθ des Objekts 2 zu einem Veränderungsbetrag von jeder der Positionen Pc, Pp, und Pg. Der Relationsausdruck (204) drückt aus, dass ein Winkel θ eine kontinuierliche Zufallsvariable ist, die sich kontinuierlich oder glattgängig ändert. Der Relationsausdruck (205) bedeutet, dass die Randposition des Stufenabschnitts zwischen den ersten und zweiten Bodenflächen unverändert bleibt. Der Relationsausdruck (206) drückt aus, dass die auf das Objekt 2 ausgeübte Kraft ausgeglichen ist. Der Relationsausdruck (207) drückt aus, dass das auf das Objekt 2 ausgeübte Moment um die Position PP herum ausgeglichen ist.
  • Die ersten bis vierten Teilaufgaben sind Ereignisse, die nicht ausgeführt werden können oder gleichzeitig auftreten, und daher eine Ausführungswahrscheinlichkeit qi für jede Teilaufgabe gemäß der Dirichlet-Verteilung evaluiert oder berechnet wird. Jeder der Koeffizienten S1 bis S3 wird gemäß der Ausführungswahrscheinlichkeit qi für jede der Mehrzahl von Teilaufgaben bestimmt, wofür die Wahrscheinlichkeitsverteilung durch die Dirichlet-Verteilung ausgedrückt wird, und der Wert der Ausführungswahrscheinlichkeit qi bestimmt den Übergangsmodus der betreffenden Zustandsvariable.
  • Die Dirichlet-Verteilungsfunktion, die eine kontinuierliche Verteilungsfunktion ist, bedeutet eine multivariate Betaverteilung, worin eine Betaverteilung erweitert und generalisiert ist. Die Wahrscheinlichkeitsdichtefunktion P(^Q, ^K) der Dirichlet-Verteilung gibt eine Wahrscheinlichkeit an, dass jedes Ereignis mit der Wahrscheinlichkeit qi stattfindet, in dem Fall, wo jedes der N Ereignisse (in dieser Ausführung vier Teilaufgaben), die nicht gleichzeitig stattfinden, (ki – 1) Male auftritt (i = 1, 2...N), wobei „ki” einen Hyperparameter (Parameter eines Parameters) bezeichnet und eine ganze Zahl sein oder nicht sein kann.
  • Der folgende Relationsausdruck (21) definiert eine Wahrscheinlichkeitsdichtefunktion P(^Q, ^K) der Dirichlet-Verteilung mit einem Vektor ^K = (k1, – ki, – kN) als Parameter mit einem realen Vektor ^Q = (q1, – qi, – qN) als Zufallsvariable: P(^Q, ^K) = (1/Z)πi=1 ~ Nqi ki-1 (21)
  • Hier ist „Z” eine Beta-Funktion, die multivariat erweitert ist und durch einen Relationsausdruck (22) mittels einer Gamma-Funktion Γ definiert ist. Z = πi=1 ~ NΓ(ki)/Γ(Σi=1 ~ Nki) (22)
  • Die Dirichlet-Verteilung wird dazu benutzt, Nicht-Übereinstimmungen zu repräsentieren, die in dem Fall zu beobachten sind, wo die Anzahl der Versuche endlich ist, in Bezug auf eine relative Häufigkeit qi des Auftretens jedes Ereignisses in dem Fall, wo die Anzahl der Versuche unendlich ist. Ein erwarteter Wert E[qi] der Wahrscheinlichkeit qi, dass jedes Ereignis stattfindet, wird durch einen Relationsausdruck (23) ausgedrückt. Eine Varianz v[qi] der Wahrscheinlichkeit q, wird durch einen Relationsausdruck (24) ausgedrückt. E[qi] = ki/i=1 ~ Nki (23) V[qi] = kij=1 ~ N(auschlj)/{(Σi=1 ~ Nki)2(1 + Σi=1 ~ Nki)} (24)
  • Jeder der Koeffizienten S1 bis S3 in den Relationsausdrücken (201) bis (204) wird, wie in Tabelle 2 dargestellt, so definiert, dass er auf „1” oder „0” gesetzt wird, je nachdem, ob die Wahrscheinlichkeit, dass jede der ersten bis vierten Teilaufgaben ausgeführt wird, hoch oder niedrig ist.
  • Der Koeffizient „S1” wird so definiert, dass er auf „1” gesetzt wird, falls die Ausführungswahrscheinlichkeit q1 der ersten Teilaufgabe oder die Ausführungswahrscheinlichkeit q3 der dritten Teilaufgabe in der Dirichlet-Verteilung maximal ist, und wird in anderen Fällen auf „0” gesetzt. Der Koeffizient „S2” wird so definiert, dass er auf „1” gesetzt wird, falls die Ausführungswahrscheinlichkeit q2 der zweiten Teilaufgabe oder die Ausführungswahrscheinlichkeit q4 der vierten Teilaufgabe in der Dirichlet-Verteilung maximal ist, und wird in anderen Fällen auf „0” gesetzt. Der Koeffizient „S3” ist so definiert, dass er auf „1” gesetzt wird, falls die Ausführungswahrscheinlichkeit q3 der dritten Teilaufgabe der Dirichlet-Verteilung maximal ist, und wird in anderen Fällen auf „0” gesetzt.
  • Das stochastische Übergangsmodell wird durch das dynamische Bayesche-Netzwerk (DBN) ausgedrückt, das in 6 dargestellt ist. Gemäß dem DBN werden die Relationsausdrücke (201) bis (207) durch Pfeile ausgedrückt, welche Knoten (Kreise) verbinden, welche die Zustandsvariablen zur Zeit k ausdrücken, und die konditionellen Wahrscheinlichkeiten unter Verwendung der Knoten und der konditionellen Wahrscheinlichkeiten.
  • Die konditionellen Wahrscheinlichkeiten, die jeweils den Relationsausdrücken (201) bis (206) entsprechen, werden jeweils durch die Relationsausdrücke (211) bis (216) ausgedrückt: P(Pc(k + 1)|Pc(k), δθ(k + 1), δP(k + 1), S(k + 1)) = N(R(k){Pc(k) – Pp(k)} + Pp(k) + S2δP(k + 1), ΣPc) (211) P(Pg(k + 1)|Pg(k), δθ(k + 1), δP(k + 1), S(k + 1)) = N(R(k){Pg(k) – Pp(k)} + PP(k) + S2δP(k + 1), ΣPg) (212) P(Pp(k + 1)|Pp(k), δθ(k + 1), δP(k + 1), S(k + 1)) = N((1 – S3)Pp(k) + S3Pe(k) + S2δP(k + 1), ΣPp) (213) P(θ(k + 1)|θ(k), δθ(k + 1)) = N(θ(k) + S1δθ(k + 1), Σθ) (214) P(Pe(k + 1)|Pe(k)) = N(Pe(k), ΣPp) (215) P(fxk)|mg, μ2, Pc(k), Pg(k), Pp(k), Pe(k)) = N(μmg(xc – xg)/(xc – xp + μ(zc – zp)}, Σfx), P(fz(k)|mg, μ, Pc(k), Pg(k), Pp(k), Pe(k)) = N(mg(xc – xg)/{xc – xp + μ(zc – zp)} – mg, Ffz) (216)
  • Der Zustandsvariablen-Knoten δP in jedem der Relationsausdrücke (211) bis (213) wird durch einen Relationsausdruck (221) ausgedrückt. Der Zustandsvariablen-Knoten δθ in dem Relationsausdruck (214) wird durch einen Relationsausdruck (222) ausgedrückt. P(δP(k)) = N(0, e–6) (221) P(δθ(k)) = N(0, Σβ) (222)
  • Das erste Arithmetikprozesselement 11 erzeugt eine Mehrzahl von Zustandsvariablen-Trajektorien gemäß dem durch das DBN repräsentierte stochastische Übergangsmodell ähnlich der ersten Ausführung.
  • Zum Beispiel ändern sich in dem Fall, wo die Ausführungswahrscheinlichkeiten (q1, q2, q3, q4) der Teilaufgaben in der Dirichlet-Verteilung sich entlang dem Zeitübergang t = t1 → t2 → t3 → t4 ändern, wie (0,5, 0,2, 0,2, 0,1) → (0,2, 0,4, 0,3, 0,2) → (0,1, 0,2, 0,6, 0,1) → (0,1, 0,2, 0,3, 0,4), gehen die Koeffizienten (S1, S2, S3, S4) über wie (1, 0, 0) → (0, 1, 0) → (1, 0, 1) → (0, 1, 0) (siehe Tabelle 2). Darüber hinaus gehen in dem Fall, wo die Ausführungswahrscheinlichkeiten (q1, q2, q3, q4) der Teilaufgaben variieren wie (0,5, 0,2, 0,2, 0,1) → (0,2, 0,4, 0,3, 0,2) → (0,1, 0,2, 0,3, 0,4) → (0,1, 0,2, 0,6, 0,1), die Koeffizienten (S1, S2, S3) über wie (1, 0, 0) → (0, 1, 0) → (0, 1, 0) → (1, 0, 1). Die Knoten werden in Bezug auf jeden dieser verschiedenen Übergangsmodi geschätzt, wodurch eine Mehrzahl von Zustandsvariablen-Trajektorien generiert werden.
  • Das zweite Arithmetikprozesselement 12 steuert den Betrieb des Agenten 1 derart, dass der Zustand des Objekts 2 gemäß der gewünschten Zustandsvariablen-Trajektorie übergeht, die eine Zustandsvariablen-Trajektorie ist, die die Verknüpfungswahrscheinlichkeit des stochastischen Übergangsmodells aus der Mehrzahl von Zustandsvariablen-Trajektorien, die von der ersten Arithmetikprozesseinheit 11 generiert werden, maximiert oder optimiert. Hierdurch führt der Agent 1 selektiv die ersten bis vierten Teilaufgaben aus, die in den 5A bis 5D dargestellt sind.
  • Der Wert der Zustandsvariable des Objekts 2 wird von einer Sensorgruppe des Agenten 1 gemessen, und der Betrieb des den Agenten 1 darstellenden Aktuators wird rückkoppelnd geregelt, so dass der gemessene Wert mit einem Sollwert übereinstimmt, der durch die gewünschte Zustandsvariablen-Trajektorie repräsentiert wird. Zum Beispiel wird eine Kraft F, die der Agent 1 auf das Objekt 2 ausübt, mit einem Kraftsensor (einem sechsachsigen Kraftsensor) oder dergleichen gemessen, der an dem Endeffektor angebracht ist. In Bezug auf die Position des Kraftanlegepunkts Pc werden die Winkel der den Agenten 1 darstellenden Gelenke gemäß einem kinematischen Modell des Agenten 1 auf der Basis von Ausgangssignalen von einem Winkelsensor gemessen, der auf einem Codierer oder dergleichen aufgebaut ist.
  • Die Randposition Pe des Stufenabschnitts zwischen den ersten und zweiten Bodenflächen kann auf der Basis eines Ausgangssignals von einem Objekterfassungssensor gemessen werden, wie etwa einem Bereichbildsensor des Agenten 1, oder kann vorab in einen Speicher eingegeben werden, der das Verhaltenssteuerungssystem 10 darstellt.
  • (Rechenbeispiel)
  • Vom Blickpunkt aus, die Arithmetikprozesslast des Verhaltenssteuerungssystems zu reduzieren, wurde eine Berechnung an einer Zustandsvariablen-Trajektorie durchgeführt, um zu bewirken, dass die Zustandsvariable des Objekts 2 das Ziel (Teilziel) erreicht, das in 5D dargestellt ist, gemäß einer Regel, dass die zweite Teilaufgabe nach der Ausführung der ersten Teilaufgabe ausgeführt wird, die dritte Teilaufgabe nach der Ausführung der zweiten Teilaufgabe ausgeführt wird, und die vierte Teilaufgabe nach der Ausführung der dritten Teilaufgabe ausgeführt wird.
  • Vom Blickpunkt, die Arithmetikprozesslast zu reduzieren, wurden die ersten bis dritten gewünschten Zustandsvariablen-Trajektorien gemäß jeweils einem „ersten stochastischen Übergangsmodell”, worin die ersten und zweiten Teilaufgaben berücksichtigt werden, „einem zweiten stochastischen Übergangsmodell”, worin die zweiten und dritten Teilaufgaben berücksichtigt werden, und einem „dritten stochastischen Übergangsmodell”, worin die dritten und vierten Teilaufgaben berücksichtigt werden, gemäß der Dirichlet-Verteilung mit N = 2 berechnet, anstatt der Dirichlet-Verteilung mit N = 4.
  • 7A stellt einen Veränderungsmodus der Ausführungswahrscheinlichkeit q2 der zweiten Teilaufgabe dar, der im Erzeugungsprozess der ersten gewünschten Zustandsvariablen-Trajektorie geschätzt wird. Insbesondere stellt 7A den Veränderungsmodus der Ausführungswahrscheinlichkeit q2 der zweiten Teilaufgabe dar, der im Erzeugungsprozess von einer ersten Zustandsvariablen-Trajektorie geschätzt wird, worin die Verknüpfungswahrscheinlichkeit des ersten stochastischen Übergangsmodells maximal ist oder optimal ist unter einer Mehrzahl von ersten Zustandsvariablen-Trajektorien, einhergehend mit dem Schalten von der ersten Teilaufgabe (Neigen) zur zweiten Teilaufgabe (Schieben).
  • Ein Liniensegment, das in der vertikalen Achsrichtung mit der maximalen Wahrscheinlichkeit (siehe „o”) als Referenz existiert, repräsentiert die Streuung der Wahrscheinlichkeitsverteilung der Wahrscheinlichkeit q2. Wenn die Wahrscheinlichkeit q2 kleiner als 0,5 ist, bedeutet dies, dass die Wahrscheinlichkeit, dass die erste Teilaufgabe ausgeführt wird, höher ist als die Wahrscheinlichkeit, dass die zweite Teilaufgabe ausgeführt wird. Wenn die Wahrscheinlichkeit q2 0,5 überschreitet, bedeutet dies, dass die Wahrscheinlichkeit, dass die zweite Teilaufgabe ausgeführt wird, höher ist. Aus 7A versteht es sich, dass eine erste gewünschte Zustandsvariablen-Trajektorie generiert wird, worin das Ausführungsziel von der ersten Teilaufgabe zur zweiten Teilaufgabe zwischen 8 und 9 der Zeit k umgeschaltet wird.
  • 7B stellt einen Veränderungsmodus der Ausführungswahrscheinlichkeit q2 der zweiten Teilaufgabe dar, der im Erzeugungsprozess der zweiten gewünschten Zustandsvariablen-Trajektorie geschätzt wird. Insbesondere stellt 7B den Veränderungsmodus der Ausführungswahrscheinlichkeit q2 der zweiten Teilaufgabe dar, der im Erzeugungsprozess für eine zweite Zustandsvariablen-Trajektorie, worin die Verknüpfungswahrscheinlichkeit des ersten stochastischen Übergangsmodells maximal oder optimal ist, unter einer Mehrzahl von zweiten Zustandsvariablen-Trajektorien einhergehend mit dem Umschalten von der zweiten Teilaufgabe (Schieben) zur dritten Teilaufgabe (Hochdrücken).
  • Wenn die Wahrscheinlichkeit q2 0,5 überschreitet, bedeutet dies, dass die Wahrscheinlichkeit, dass die zweite Teilaufgabe ausgeführt wird, höher ist als die Wahrscheinlichkeit, dass die dritte Teilaufgabe ausgeführt wird. Wenn die Wahrscheinlichkeit q2 kleiner als 0,5 ist, bedeutet dies, dass die Wahrscheinlichkeit, dass die dritte Teilaufgabe ausgeführt wird, höher ist. Aus 7B versteht es sich, dass eine zweite gewünschte Zustandsvariablen-Trajektorie generiert wird, worin das Ausführungsziel von der zweiten Teilaufgabe zur dritten Teilaufgabe zwischen 8 und 9 der Zeit k umgeschaltet wird.
  • 7C stellt einen Veränderungsmodus der Ausführungswahrscheinlichkeit q4 der vierten Teilaufgabe dar, der im Erzeugungsprozess der dritten gewünschten Zustandsvariablen-Trajektorie geschätzt wird. Insbesondere stellt 7C den Veränderungsmodus der Ausführungswahrscheinlichkeit q4 der vierten Teilaufgabe dar, der in dem Erzeugungsprozess der dritten Zustandsvariablen-Trajektorie geschätzt wird, worin die Verknüpfungswahrscheinlichkeit des ersten stochastischen Übergangsmodells maximal oder optimal ist, unter einer Mehrzahl von dritten Zustandsvariablen-Trajektorien, einhergehend mit dem Umschalten von der dritten Teilaufgabe (Hochdrücken) zur vierten Teilaufgabe (Drücken).
  • Wenn die Wahrscheinlichkeit q4 0,5 überschreitet, bedeutet dies, dass die Wahrscheinlichkeit, dass die vierte Teilaufgabe ausgeführt wird, höher ist als die Wahrscheinlichkeit, dass die dritte Teilaufgabe ausgeführt wird. Wenn die Wahrscheinlichkeit q4 kleiner als 0,5 ist, bedeutet dies, dass die Wahrscheinlichkeit, dass die dritte Teilaufgabe ausgeführt wird, höher ist. Aus 7C versteht es sich, dass eine dritte gewünschte Zustandsvariablen-Trajektorie generiert wird, worin das Ausführungsziel von der dritten Teilaufgabe zur vierten Teilaufgabe zwischen 22 und 23 der Zeit k umgeschaltet wird.
  • Zusätzlich steuert das zweite Arithmetikprozesselement 12 das Verhalten des Agenten 1 derart, dass der Zustand des Objekts 2 gemäß der gewünschten Zustandsvariablen-Trajektorie als kontinuierliche Trajektorie der ersten, zweiten und dritten gewünschten Zustandsvariablen-Trajektorien übergeht. Dies bewirkt, dass der Agent 1 die ersten bis vierten Teilaufgaben sequentiell für das Objekt 2 ausführt, und ermöglicht, dass der Zustand des Objekts 2 das gewünschte Ziel erreicht.
  • (Betrieb und Wirkung)
  • Gemäß dem Verhaltenssteuerungssystem 10 mit der obigen Konfiguration werden eine Mehrzahl von Zustandsvariablen-Trajektorien, die eine Zeitserie der Zustandsvariable sind, gemäß dem stochastischen Übergangsmodell generiert (siehe 3 und 6), das derart definiert ist, dass der Übergangsmodus der Zustandsvariable des Objekts 2 in Abhängigkeit von jeder Ausführungswahrscheinlichkeit qi der Mehrzahl von Teilaufgaben bestimmt wird, worin die Wahrscheinlichkeitsverteilung durch eine Dirichlet-Verteilung repräsentiert wird (siehe 2A und 2B). Hierdurch werden die Mehrzahl von Zustandsvariablen-Trajektorien unter Berücksichtigung von verschiedenen Veränderungsmodi von Teilaufgaben generiert, die selektiv von dem Agenten 1 ausgeführt werden, gemäß einer Differenz im zeitorientierten Veränderungsmodus der Dirichlet-Verteilung.
  • Eine Zustandsvariablen-Trajektorie, bei der der Agent 1 unter der Mehrzahl von Zustandsvariablen-Trajektorien folgt, wird als gewünschte Zustandsvariablen-Trajektorie generiert, wenn sie die Verknüpfungswahrscheinlichkeit des stochastischen Übergangsmodells maximiert oder optimiert (siehe 4A bis 4C und 7A bis 7C). die gewünschte Zustandsvariablen-Trajektorie wird auf der Basis des oben beschriebenen stochastischen Übergangsmodells generiert. Daher lässt sich das Verhalten des Agenten 1 einhergehend mit einer Wechselwirkung mit dem Objekt 2 derart steuern/regeln, dass die Kontinuität der den Zustand des Objekts 2 repräsentierenden Zustandsvariablen sichergestellt wird. Während die Ausführbarkeit jeder Teilaufgabe die Kontinuität des Verhaltens des Agenten 1 in Zeitserien sicherstellt, ist im Ergebnis das Verhaltenssteuerungssystem in der Lage, den Agenten 1 zu veranlassen, eine Mehrzahl von unterschiedlichen Teilaufgaben kontinuierlich auszuführen (siehe 5A bis 5D).
  • [Andere Ausführungen der vorliegenden Erfindung]
  • Das erste Arithmetikprozesselement 11 ist konfiguriert, um eine Mehrzahl von Zustandsvariablen-Trajektorien gemäß jedem einer Mehrzahl von stochastischen Übergangsmodellen zu generieren, worin ein Umweltfaktor unterschiedlich ist, welches das stochastische Übergangsmodell ist, worin der Übergangsmodus einer Zustandsvariable in Abhängigkeit vom Umweltfaktor des Objekts 2 bestimmt wird, zusätzlich zu den jeweiligen Ausführungswahrscheinlichkeiten der Mehrzahl von Teilaufgaben. Das zweite Arithmetikprozesselement 12 ist konfiguriert, um einen Umweltfaktor in einem stochastischen Übergangsmodell zu schätzen, das eine Erzeugungsbasis von einer Zustandsvariablen-Trajektorie ist, die die Verknüpfungswahrscheinlichkeit einer Gesamtheit des stochastischen Übergangsmodells unter der Mehrzahl von Zustandsvariablen-Trajektorien, die von dem ersten Arithmetikprozesselement 11 generiert werden, als aktuellen Umweltfaktor, maximiert oder optimiert.
  • Zum Beispiel wird eine Reibkraft fμ, die von der Bodenfläche auf das Objekt 2 einwirkt, und/oder ein Reibkoeffizient μ und/oder eine normale Kraft fN und/oder eine Haltung auf der Bodenfläche (Neigungswinkel) als Umweltfaktor geschätzt (siehe Tabelle 3).
  • Gemäß dem Verhaltenssteuerungssystem mit der obigen Konfiguration lässt sich ein Umweltfaktor, wie etwa ein Reibungskoeffizient μ, zwischen dem Objekt 2 und der Bodenfläche, der ein ungewisses Element ist, mit hohem Genauigkeitsgrad basierend auf dem Erzeugungsergebnis der gewünschten Zustandsvariablen-Trajektorie schätzen. Die anschließenden stochastischen.
  • Übergangsmodelle werden auf der Basis des Schätzergebnisses ausgewählt oder konstruiert, um hierdurch das Erzeugen einer gewünschten Zustandsvariablen-Trajektorie zu ermöglichen, um den Zustand des Objekts 2 zu reflektieren, der für den aktuellen Umweltfaktor geeignet ist.
  • Bezugszeichenliste
  • 1
    Agent
    2
    Objekt
    10
    Verhaltenssteuerungssystem
    11
    Erstes Arithmetikprozesselement
    12
    Zweites Arithmetikprozesselement.
  • Es wird ein System angegeben, das in der Lage ist, einen Agenten zu veranlassen, eine Mehrzahl von unterschiedlichen Teilaufgaben kontinuierlich auszuführen, während die Verhaltenskontinuität des Agenten sichergestellt wird. Eine Mehrzahl von Zustandsvariablen-Trajektorien, die die Zeitserie einer Zustandsvariable eines Objekts repräsentieren, werden gemäß einem stochastischen Übergangsmodell generiert, worin die Zustandsvariable des Objekts als Zufallsvariable repräsentiert ist. Das stochastische Übergangsmodell ist so definiert, dass der Übergangsmodus der Zustandsvariable gemäß einer Ausführungswahrscheinlichkeit jeder Teilaufgabe bestimmt wird, worin eine Wahrscheinlichkeitsverteilung durch eine Dirichlet-Verteilung repräsentiert ist. Ein Betrieb des Agenten (1) wird derart gesteuert/geregelt, dass der Zustand des Objekts (2) gemäß einer Zustandsvariablen-Trajektorie (einer gewünschten Zustandsvariablen-Trajektorie) übergeht, welche die Verknüpfungswahrscheinlichkeit einer Gesamtheit des stochastischen Übergangsmodells unter der Mehrzahl von Zustandsvariablen-Trajektorien maximiert oder optimiert.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • JP 2010-005761 [0002]
    • JP 2011-148081 [0002]
    • JP 2003-09078 [0020]
    • JP 2003-090979 [0020]

Claims (4)

  1. System, das konfiguriert ist, um ein Verhalten eines Agenten zu steuern/zu regeln, um zu veranlassen, dass der Agent selektiv eine Mehrzahl von Teilaufgaben für ein Objekt ausführt, wobei das System umfasst: ein erstes Arithmetikprozesselement, das konfiguriert ist, um eine Mehrzahl von Zustandsvariablen-Trajektorien zu generieren, die Zeitserien einer Zustandsvariable des Objekts repräsentieren, gemäß einem stochastischen Übergangsmodell, worin die Zustandsvariable des Objekts als Zufallsvariable repräsentiert ist, und worin der Übergangsmodus der Zustandsvariable in Abhängigkeit von jeder Ausführungswahrscheinlichkeit der Mehrzahl von Teilaufgaben bestimmt ist, worin eine Wahrscheinlichkeitsverteilung durch eine Dirichlet-Verteilung repräsentiert wird; und ein zweites Arithmetikprozesselement, das konfiguriert ist, um einen Betrieb des Agenten so zu steuern/zu regeln, dass der Zustand des Objekts gemäß einer gewünschten Zustandsvariablen-Trajektorie übergeht, die eine Zustandsvariablen-Trajektorie ist, die eine Verknüpfungswahrscheinlichkeit einer Gesamtheit des stochastischen Übergangsmodells unter der Mehrzahl von Zustandsvariablen-Trajektorien, die von dem ersten Artihmetikprozesselement generiert werden, maximiert oder optimiert.
  2. Das System gemäß Anspruch 1, worin: das erste Arithmetikprozesselement konfiguriert ist, um eine Mehrzahl von i-ten Zustandsvariablen-Trajektorien zu generieren, die Zeitserien der Zustandsvariable des Objekts repräsentieren, gemäß einem i-ten stochastischen Übergangsmodell, worin der Übergangsmodus der Zustandsvariable in Abhängigkeit von jeder Ausführungswahrscheinlichkeit einer Teilaufgabe mit einer i-ten Ausführungsfolge (i = 1, 2, ...) und einer Teilaufgabe mit einer (i + 1)-ten Ausführungsfolge unter der Mehrzahl von Teilaufgaben bestimmt wird; und das zweite Arithmetikprozesselement konfiguriert ist, um eine i-te Zustandsvariablen-Trajektorie zu generieren, die eine Verknüpfungswahrscheinlichkeit einer Gesamtheit des i-ten stochastischen Übergangsmodells, als i-te gewünschte Zustandsvariablen-Trajektorie unter der Mehrzahl von i-ten Zustandsvariablen-Trajektorien, die von dem ersten Arithmetikprozesselement generiert werden, maximiert oder optimiert, und um eine Verbindungstrajektorie der i-ten gewünschten Zustandsvariablen-Trajektorie als die gewünschte Zustandsvariablen-Trajektorie zu generieren.
  3. Das System gemäß Anspruch 1 oder 2, worin: das erste Arithmetikprozesselement konfiguriert ist, um die Mehrzahl von Zustandsvariablen-Trajektorien gemäß jedem einer Mehrzahl von stochastischen Übergangsmodellen mit unterschiedlichem Umweltfaktor zu generieren, das ein stochastisches Übergangsmodell ist, worin der Übergangsmodus der Zustandsvariable in Abhängigkeit von dem Umweltfaktor des Objekts bestimmt wird, zusätzlich zu den jeweiligen Ausführungswahrscheinlichkeiten der Mehrzahl von Teilaufgaben; und das zweite Arithmetikprozesselement konfiguriert ist, um als aktuellen Umweltfaktor einen Umweltfaktor in einem stochastischen Übergangsmodell zu schätzen, das eine Erzeugungsbasis von einer Zustandsvariablen-Trajektorie ist, die eine Verknüpfungswahrscheinlichkeit einer Gesamtheit des stochastischen Übergangsmodells unter der Mehrzahl von Zustandsvariablen-Trajektorien, die von dem ersten Arithmetikprozesselement generiert werden, maximiert oder optimiert.
  4. Verfahren zum Steuern/Regeln eines Verhaltens eines Agenten, um zu veranlassen, dass der Agent selektiv eine Mehrzahl von Teilaufgaben ausführt, worin das Verfahren umfasst: einen ersten Arithmetikprozess zum Generieren einer Mehrzahl von Zustandsvariablen-Trajektorien, die Zeitserien einer Zustandsvariable des Objekts repräsentieren, gemäß einem stochastischen Übergangsmodell, worin die Zustandsvariable des Objekts als Zufallsvariable repräsentiert ist, und worin der Übergangsmodus der Zustandsvariable in Abhängigkeit von jeder Ausführungswahrscheinlichkeit der Mehrzahl von Teilaufgaben bestimmt ist, worin eine Wahrscheinlichkeitsverteilung durch eine Dirichlet-Verteilung repräsentiert wird; und einen zweiten Arithmetikprozess zum Steuern/Regeln eines Betriebs des Agenten derart, dass der Zustand des Objekts gemäß einer gewünschten Zustandsvariablen-Trajektorie übergeht, die eine Zustandsvariablen-Trajektorie ist, die eine Verknüpfungswahrscheinlichkeit einer Gesamtheit des stochastischen Übergangsmodells unter der Mehrzahl von Zustandsvariablen-Trajektorien, die von dem ersten Artihmetikprozesselement generiert werden, maximiert oder optimiert.
DE102013203287.0A 2012-06-21 2013-02-27 Verhaltenssteuerungssystem Active DE102013203287B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012-140256 2012-06-21
JP2012140256A JP5908350B2 (ja) 2012-06-21 2012-06-21 行動制御システム

Publications (2)

Publication Number Publication Date
DE102013203287A1 true DE102013203287A1 (de) 2013-12-24
DE102013203287B4 DE102013203287B4 (de) 2016-01-21

Family

ID=49713838

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102013203287.0A Active DE102013203287B4 (de) 2012-06-21 2013-02-27 Verhaltenssteuerungssystem

Country Status (3)

Country Link
US (1) US9014852B2 (de)
JP (1) JP5908350B2 (de)
DE (1) DE102013203287B4 (de)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5867737B2 (ja) * 2013-01-17 2016-02-24 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
US10898999B1 (en) * 2017-09-18 2021-01-26 X Development Llc Selective human-robot interaction
JP7207207B2 (ja) * 2019-07-09 2023-01-18 トヨタ自動車株式会社 演算装置、機械学習方法及び制御プログラム
DE102020103854B4 (de) 2020-02-14 2022-06-15 Franka Emika Gmbh Maschinelles Lernen einer erfolgreich abgeschlossenen Roboteranwendung
US20220305649A1 (en) * 2021-03-25 2022-09-29 Naver Corporation Reachable manifold and inverse mapping training for robots

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003009078A (ja) 2002-04-25 2003-01-10 Hitachi Ltd ディジタル信号の受信方法及び装置
JP2003090979A (ja) 2001-09-18 2003-03-28 Nikon Corp 接眼光学系および該光学系を備えた画像表示装置
JP2010005761A (ja) 2008-06-27 2010-01-14 Honda Motor Co Ltd 行動制御システム
JP2011148081A (ja) 2009-12-24 2011-08-04 Honda Motor Co Ltd 行動制御システムおよびロボット

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006285899A (ja) 2005-04-05 2006-10-19 Sony Corp 学習装置および学習方法、生成装置および生成方法、並びにプログラム
JP2007011571A (ja) * 2005-06-29 2007-01-18 Advanced Telecommunication Research Institute International 情報処理装置、およびプログラム
JP5141876B2 (ja) * 2007-09-12 2013-02-13 株式会社国際電気通信基礎技術研究所 軌道探索装置
US8290885B2 (en) 2008-03-13 2012-10-16 Sony Corporation Information processing apparatus, information processing method, and computer program
DE102008020380B4 (de) 2008-04-23 2010-04-08 Siemens Aktiengesellschaft Verfahren zum rechnergestützten Lernen einer Steuerung und/oder Regelung eines technischen Systems
JP5329856B2 (ja) 2008-06-27 2013-10-30 本田技研工業株式会社 行動推定システム
EP2296062B1 (de) 2009-09-09 2021-06-23 Siemens Aktiengesellschaft Verfahren zum rechnergestützten Lernen einer Steuerung und/oder Regelung eines technischen Systems
JP5446788B2 (ja) * 2009-11-30 2014-03-19 コニカミノルタ株式会社 情報処理装置及びプログラム
EP2363251A1 (de) 2010-03-01 2011-09-07 Honda Research Institute Europe GmbH Roboter mit Verhaltenssequenzen auf Grundlage der erlernten Petri-Netz-Darstellungen
JP5552710B2 (ja) * 2010-11-25 2014-07-16 株式会社国際電気通信基礎技術研究所 ロボットの移動制御システム、ロボットの移動制御プログラムおよびロボットの移動制御方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003090979A (ja) 2001-09-18 2003-03-28 Nikon Corp 接眼光学系および該光学系を備えた画像表示装置
JP2003009078A (ja) 2002-04-25 2003-01-10 Hitachi Ltd ディジタル信号の受信方法及び装置
JP2010005761A (ja) 2008-06-27 2010-01-14 Honda Motor Co Ltd 行動制御システム
JP2011148081A (ja) 2009-12-24 2011-08-04 Honda Motor Co Ltd 行動制御システムおよびロボット

Also Published As

Publication number Publication date
US20130345865A1 (en) 2013-12-26
US9014852B2 (en) 2015-04-21
JP5908350B2 (ja) 2016-04-26
JP2014004640A (ja) 2014-01-16
DE102013203287B4 (de) 2016-01-21

Similar Documents

Publication Publication Date Title
DE102013203287B4 (de) Verhaltenssteuerungssystem
DE112019002310B4 (de) Ausführen einer "peg in hole"-aufgabe mit unbekannter neigung
DE102013202378B4 (de) Prozedurales Gedächtnislernen und Robotersteuerung
Di Vito et al. A comparison of damped least squares algorithms for inverse kinematics of robot manipulators
DE102020209685B4 (de) Verfahren zum steuern einer robotervorrichtung und robotervorrichtungssteuerung
DE102014108287A1 (de) Schnelles Erlernen durch Nachahmung von Kraftdrehmoment-Aufgaben durch Roboter
DE102011117094B4 (de) Robuster betrieb von sehnengetriebenen roboterfingern unter verwendung von kraft- und positionsbasierten steuergesetzen
DE102020120116B4 (de) Verfahren zur impedanzbasierten Multi-Tasking Tracking-Regelung, impedanzbasierter Multi-Tasking Tracking-Regler und kraft- und/oder drehmomentgeregelter Roboter
DE102021109332B4 (de) Vorrichtung und Verfahren zum Steuern eines Roboters zum Einsetzen eines Objekts in eine Einsetzstelle
DE102021109334B4 (de) Vorrichtung und Verfahren zum Trainieren eines Neuronalen Netzes zum Steuern eines Roboters für eine Einsetzaufgabe
DE102012213188B4 (de) Verfahren und System zum Steuern einer Ausführungssequenz eines geschickten Roboters unter Verwendung einer Zustandsklassifizierung
Rezaei-Shoshtari et al. Cascaded gaussian processes for data-efficient robot dynamics learning
DE102019205651B3 (de) Verfahren und System zum Ausführen von Roboterapplikationen
DE112019007222T5 (de) Motorsteuereinrichtung
Relaño et al. Gaussian process regression for forward and inverse kinematics of a soft robotic arm
Akbarimajd Reinforcement learning adaptive PID controller for an under-actuated robot arm
DE102020200165A1 (de) Robotersteuereinrichtung und Verfahren zum Steuern eines Roboters
JP2009023016A (ja) 逆運動学計算方法及び逆運動学計算装置
DE102021109333B4 (de) Vorrichtung und Verfahren zum Trainieren eines Neuronalen Netzes zum Steuern eines Roboters für eine Einsetzaufgabe
DE102020103854B4 (de) Maschinelles Lernen einer erfolgreich abgeschlossenen Roboteranwendung
DE102019220619B3 (de) Bewegen einer roboterfesten Referenz
DE102022212638B3 (de) Vorrichtung und Verfahren zum Steuern eines Roboters
DE102022208082B3 (de) Verfahren zum Steuern eines technischen Systems
DE102021209646B4 (de) Robotervorrichtung, Verfahren zum computerimplementierten Trainieren eines Roboter-Steuerungsmodells und Verfahren zum Steuern einer Robotervorrichtung
DE102021109336B4 (de) Vorrichtung und Verfahren zum Trainieren eines Neuronalen Netzes zum Steuern eines Roboters für eine Einsetzaufgabe

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R163 Identified publications notified

Effective date: 20131209

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R084 Declaration of willingness to licence