DE102013203287B4

DE102013203287B4 - Verhaltenssteuerungssystem

Info

Publication number: DE102013203287B4
Application number: DE102013203287.0A
Authority: DE
Inventors: Soshi Iba; Akinobu Hayashi
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2012-06-21
Filing date: 2013-02-27
Publication date: 2016-01-21
Anticipated expiration: 2033-02-28
Also published as: US20130345865A1; US9014852B2; JP5908350B2; JP2014004640A; DE102013203287A1

Abstract

System, das konfiguriert ist, um ein Verhalten eines Agenten zu steuern/zu regeln, um zu veranlassen, dass der Agent selektiv eine Mehrzahl von Teilaufgaben für ein Objekt ausführt, wobei das System umfasst: ein erstes Arithmetikprozesselement, das konfiguriert ist, um eine Mehrzahl von Zustandsvariablen-Trajektorien zu generieren, die Zeitserien einer Zustandsvariable des Objekts repräsentieren, gemäß einem stochastischen Übergangsmodell, worin die Zustandsvariable des Objekts als Zufallsvariable repräsentiert ist, und worin der Übergangsmodus der Zustandsvariable unter konstanter Berücksichtigung aller Ausführungswahrscheinlichkeiten der Mehrzahl von Teilaufgaben bestimmt ist, und alle diese Ausführungswahrscheinlichkeiten der Mehrzahl von Teilaufgaben durch eine durch eine Dirichlet-Verteilung evaluiert werden und sich entlang dem Zeitübergang verändern; und ein zweites Arithmetikprozesselement, das konfiguriert ist, um einen Betrieb des Agenten so zu steuern/zu regeln, dass die Zustandsvariable des Objekts in eine gewünschte Zustandsvariablen-Trajektorie übergeht, die eine Verknüpfungswahrscheinlichkeit einer Gesamtheit des stochastischen Übergangsmodells unter der Mehrzahl von Zustandsvariablen-Trajektorien, die von dem ersten Artihmetikprozesselement generiert werden, maximiert oder optimiert.

Description

Die vorliegende Erfindung betrifft ein System, das das Verhalten eines Roboters steuert/regelt, um zu veranlassen, dass der Roboter eine Mehrzahl von Teilaufgaben ausführt.
Es ist ein technisches Verfahren vorgeschlagen worden, worin eine Zustandsvariable(-variable), die das Verhalten eines Agenten definiert, durch eine kontinuierliche Zufallsvariable definiert wird, um die Kontinuität des Verhaltens des Agenten sicherzustellen, und worin das Verhalten des Agenten gemäß der Trajektorie der Zustandsvariable geregelt wird (siehe JP 2010-005761 A und JP 2011-148081 A ).
In dem Fall, wo der Agent veranlasst wird, kontinuierlich eine Aufgabe auszuführen, die aus einer Serie von unterschiedlichen Teilaufgaben zusammengesetzt ist, wird es jedoch schwierig, die Trajektorie der Zustandsvariable zu erzeugen, während der Zeitpunkt des Umschaltens zwischen den Teilaufgaben adaptiv gesetzt wird. Daher könnte die Kontinuität des Verhaltens derart beeinträchtigt werden, dass der Betrieb des Agenten zur Zeit des Umschaltens zwischen den Teilaufgaben vorübergehend anhält.
Aus der US 2011/0160908 A1 ist ein System bekannt, das konfiguriert ist, um ein Verhalten eines humanoiden Roboters zu steuern/zu regeln, um zu veranlassen, dass der Roboter selektiv eine Teilaufgabe für ein Objekt, nämlich einen Tennisschläger, ausführt, wobei das System umfasst: ein erstes Arithmetikprozesselement, das konfiguriert ist, um eine Mehrzahl von Zustandsvariablen-Trajektorien zu generieren, die Zeitserien einer Zustandsvariable des Objekts repräsentieren, gemäß einem stochastischen Übergangsmodell, worin die Zustandsvariable des Tennisschlägers als Zufallsvariable repräsentiert ist, und worin der Übergangsmodus der Zustandsvariable des Tennisschlägers als Zufallsvariable repräsentiert ist, und worin der Übergangsmodus der Zustandsvariable in Abhängigkeit von Ausführungswahrscheinlichkeit der Teilaufgabe bestimmt ist, und worin eine Wahrscheinlichkeitsverteilung durch eine Normal-Verteilung repräsentiert wird; und ein zweites Arithmetikprozesselement, das konfiguriert ist, um einen Betrieb des Roboters so zu steuern/zu regeln, dass der Zustand des Objekts in eine vorbestimmte Zustandsvariablen-Trajektorie übergeht.
In der US 2009/0326679 A1 führt ein humanoider Roboter selektiv eine Mehrzahl von Teilaufgaben für einen vom Roboter gehaltenen Tennisschläger aus, wobei der Übergangsmodus der Zustandsvariable in Abhängigkeit von jeder Ausführungswahrscheinlichkeit der Mehrzahl von Teilaufgaben bestimmt ist.
Daher ist es Aufgabe der vorliegenden Erfindung, ein System anzugeben, das in der Lage ist, den Agenten zu veranlassen, eine Mehrzahl von unterschiedlichen Teilaufgaben kontinuierlich auszuführen, während die Kontinuität des Verhaltens des Agenten sichergestellt wird.
Gemäß einem Aspekt der vorliegenden Erfindung wird ein System gemäß Anspruch 1 und ein Verfahren gemäß Anspruch 4 angegeben.
Gemäß dem Verhaltenssteuerungssystem der vorliegenden Erfindung wird die Mehrzahl von Zustandsvariablen-Trajektorien, die die Zeitserie der Zustandsvariable sind, gemäß dem stochastischen Übergangsmodell generiert, worin der Übergangsmodus der Zustandsvariable des Objekts in Abhängigkeit von jeder Ausführungswahrscheinlichkeit der Mehrzahl von Teilaufgaben bestimmt wird, worin eine Wahrscheinlichkeitsverteilung durch eine Dirichlet-Verteilung repräsentiert wird. Hierdurch werden die Mehrzahl von Zustandsvariablen-Trajektorien unter Berücksichtigung der verschiedenen Variationsmodi der Teilaufgaben erzeugt, welche selektiv von dem Agenten 1 ausgeführt werden, gemäß einem Unterschied im zeitorientierten Variationsmodus der Dirichlet-Verteilung.
Eine Zustandsvariablen-Trajektorie, der der Agent 1 unter der Mehrzahl von Zustandsvariablen-Trajektorien folgt, wird als gewünschte Zustandsvariablen-Trajektorie generiert, wenn sie die Verknüpfungswahrscheinlichkeit des stochastischen Übergangsmodells maximiert oder optimiert. Die gewünschte Zustandsvariablen-Trajektorie wird auf der Basis des stochastischen Übergangsmodells erzeugt, wie oben beschrieben. Daher lässt sich das Verhalten des Agenten, das von einer Interaktion mit dem Objekt begleitet wird, derart steuern/regeln, dass die Kontinuität der Zustandsvariablen, die den Zustand des Objekts 2 repräsentieren, sichergestellt wird. Im Ergebnis ist, während die Ausführbarkeit jeder Teilaufgabe die Kontinuität des Verhaltens des Agenten in Zeitserien sicherstellt, das Verhaltenssteuerungssystem in der Lage, den Agent zu veranlassen, eine Mehrzahl von unterschiedlichen Teilaufgaben kontinuierlich auszuführen.
Bevorzugt ist das erste Artihmetikprozesselement konfiguriert, um eine Mehrzahl von i-ten Zustandsvariablen-Trajektorien zu generieren, die Zeitserien der Zustandsvariable des Objekts repräsentieren, gemäß einem i-ten stochastischen Übergangsmodell, worin der Übergangsmodus der Zustandsvariable in Abhängigkeit von jeder Ausführungswahrscheinlichkeit einer Teilaufgabe mit einer i-ten Ausführungsreihenfolge (i = 1, 2, ..) und einer Teilaufgabe mit einer (i + 1)-ten Ausführungsfolge unter der Mehrzahl von Teilaufgaben bestimmt wird; und das zweite Arithmetikprozesselement ist konfiguriert, um eine i-te Zustandsvariablen-Trajektorie zu generieren, die eine Verknüpfungswahrscheinlichkeit einer Gesamtheit des i-ten stochastischen Übergangsmodells, als i-te gewünschte Zustandsvariablen-Trajektorie unter der Mehrzahl von i-ten Zustandsvariablen-Trajektorien, die von dem ersten Arithmetikprozesselement generiert werden, maximiert oder optimiert, und um eine Verbindungstrajektorie der i-ten gewünschten Zustandsvariablen-Trajektorie als die gewünschte Zustandsvariablen-Trajektorie zu generieren.
Gemäß dem Verhaltenssteuerungssystem mit der obigen Konfiguration werden nur zwei Teilaufgaben unter einer Mehrzahl von Teilaufgaben in jedem stochastischen Übergangsmodell berücksichtigt. Daher ist das Verhaltenssteuerungssystem in der Lage, den Agenten zu veranlassen, die Mehrzahl von unterschiedlichen Teilaufgaben fortlaufend auszuführen, während die Kontinuität des Verhaltens des Agenten sichergestellt wird, parallel zu einer Verminderung der Arithmetikprozesslast, die für die Erzeugung der Zustandsvariablen-Trajektorie gemäß jedem stochastischen Übergangsmodell erforderlich ist, oder zu einer Abnahme der Arithmetikprozesszeit.
Bevorzugt ist das erste Arithmetikprozesselement konfiguriert, um die Mehrzahl von Zustandsvariablen-Trajektorien gemäß jedem einer Mehrzahl von stochastischen Übergangsmodellen mit unterschiedlichem Umweltfaktor zu generieren, das ein stochastisches Übergangsmodell ist, worin der Übergangsmodus der Zustandsvariable in Abhängigkeit von dem Umweltfaktor des Objekts bestimmt wird, zusätzlich zu den jeweiligen Ausführungswahrscheinlichkeiten der Mehrzahl von Teilaufgaben; und das zweite Arithmetikprozesselement ist konfiguriert, um als aktuellen Umweltfaktor einen Umweltfaktor in einem stochastischen Übergangsmodell zu schätzen, das eine Erzeugungsbasis von einer Zustandsvariablen-Trajektorie ist, die eine Verknüpfungswahrscheinlichkeit einer Gesamtheit des stochastischen Übergangsmodells unter der Mehrzahl von Zustandsvariablen-Trajektorien, die von dem ersten Arithmetikprozesselement generiert werden, maximiert oder optimiert.
Gemäß dem Verhaltenssteuerungssystem mit der obigen Konfiguration lässt sich ein Umweltfaktor, der ein ungewisses Element ist, mit hohem Genauigkeitsgrad auf der Basis des Erzeugungsergebnisses der gewünschten Zustandsvariablen-Trajektorie schätzen. Die anschließenden stochastischen Übergangsmodelle werden auf der Basis des Schätzergebnisses ausgewählt oder konstruiert, um hierdurch das Erzeugen einer gewünschten Zustandsvariablen-Trajektorie zu ermöglichen, die den Zustand des Objekts widerspiegelt, basierend auf dem aktuellen Umweltfaktor.
KURZBESCHREIBUNG DER ZEICHNUNGEN
1 ist ein beispielhaftes Konfigurationsdiagramm, das ein Verhaltenssteuerungssystem der vorliegenden Erfindung darstellt;
2A ist ein Erläuterungsdiagramm, das eine Teilaufgabe gemäß einer ersten Ausführung und einen ersten kontinuierlichen Modus davon darstellt, und 2B ist ein Erläuterungsdiagramm, das eine Teilaufgabe der ersten Ausführung und einen zweiten kontinuierlichen Modus davon darstellt;
3 ist ein Erläuterungsdiagramm eines stochastischen Übergangsmodells (DBN) gemäß der ersten Ausführung;
4A ist ein Erläuterungsdiagramm eines ersten Rechenergebnisses einer gewünschten Zustandsvariablen-Trajektorie gemäß der ersten Ausführung, 4B ist ein Erläuterungsdiagramm eines zweiten Rechenergebnisses der gewünschten Zustandsvariablen-Trajektorie gemäß der ersten Ausführung, und 4C ist ein Erläuterungsdiagramm eines dritten Rechenergebnisses der gewünschten Zustandsvariablen-Trajektorie gemäß der ersten Ausführung;
5A ist ein allgemeines schematisches Diagramm, das eine erste Teilaufgabe gemäß einer zweiten Ausführung darstellt, 5B ist ein allgemeines schematisches Diagramm, das eine zweite Teilaufgabe gemäß der zweiten Ausführung darstellt, 5C ist ein allgemeines schematisches Diagramm, das eine dritte Teilaufgabe gemäß der zweiten Ausführung darstellt, und 5D ist ein allgemeines schematisches Diagramm, das eine vierte Teilaufgabe gemäß der zweiten Ausführung darstellt;
6 ist ein Erläuterungsdiagramm eines stochastischen Übergangsmodells (DBN) gemäß der zweiten Ausführung; und
7A ist ein Erläuterungsdiagramm eines ersten Rechenergebnisses einer gewünschten Zustandsvariablen-Trajektorie, 7B ist ein Erläuterungsdiagramm eines zweiten Rechenergebnisses der gewünschten Zustandsvariablen-Trajektorie, und 7C ist ein Erläuterungsdiagramm eines dritten Rechenergebnisses der gewünschten Zustandsvariablen-Trajektorie.
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGEN
(Struktur)
Ein in 1 dargestelltes Verhaltenssteuerungssystem 10 ist konfiguriert, um das Verhalten eines Agenten 1 zu steuern/zu regeln, durch Steuern/Regeln des Betriebs eines im Agenten 1 angebrachten Aktuators. Das Verhaltenssteuerungssystem 10 ist zum Beispiel aufgebaut aus einer elektronischen Steuereinheit (zusammengesetzt aus CPU, Rom, RAM, I/O-Schaltung und dergleichen), oder einem Computer, der in dem Agenten 1 angebracht ist.
Der Agent 1 ist zum Beispiel ein Roboterarm, der aus einer Mehrzahl von Gliedern zusammengesetzt ist, die über einen Gelenkmechanismus miteinander verbunden ist, mit einer vom Aktuator übertragenen Kraft, und ist konfiguriert, um den Gelenkmechanismus mit der vom Aktuator übertragenen Kraft beugen und strecken zu können. Die Anzahl der Gelenkmechanismen und der Freiheitsgrade (1 bis 3) jedes Gelenkmechanismus sind beliebig konstruierbar. Der Roboterarm kann ein Arm eines Humanoid-Robotors sein (siehe japanische nationale Nachveröffentlichung der internationalen PCT-Anmeldung 2003-09078 und 2003-090979 oder dergleichen).
Das Verhaltenssteuerungssystem 10 enthält ein erstes Arithmetikprozesselement 11 und ein zweites Arithmetikprozesselement 12, und ist konfiguriert, um den Agenten 1 zu veranlassen, selektiv eine Mehrzahl von Teilaufgaben auszuführen, so dass sich die den Zustand des Objekts 2 repräsentierende Zustandsvariable gemäß einer gewünschten Zustandsvariablen-Trajektorie in Zeitserien ändert.
Das erste Arithmetikprozesselement 11 ist konfiguriert, um eine Mehrzahl von Zustandsvariablen-Trajektorien zu erzeugen, die die Zeitserien der Zustandsvariable des Objekts 2 repräsentieren, gemäß einem stochastischen Übergangsmodell. Das stochastische Übergangsmodell ist so definiert, dass die Zustandsvariable des Objekts als Zufallsvariable repräsentiert wird, und der Übergangsmodus der Zustandsvariable gemäß jeder von Ausführungswahrscheinlichkeiten der Mehrzahl von Teilaufgaben bestimmt wird, wofür die Wahrscheinlichkeitsverteilung durch eine Dirichlet-Verteilung repräsentiert wird.
Das zweite Arithmetikprozesselement 12 ist konfiguriert, um einen Betrieb des Agenten 1 so zu steuern/zu regeln, dass der Zustand des Objekts 2 gemäß der gewünschten Zustandsvariablen-Trajektorie übergeht. Die gewünschte Zustandsvariable ist eine solche Zustandsvariablen-Trajektorie, die eine Verknüpfungswahrscheinlichkeit der Gesamtheit des stochastischen Übergangsmodells aus der Mehrzahl von Zustandsvariablen-Trajektorien, die durch das erste Arithmetikprozesselement 11 erzeugt werden, maximiert oder optimiert.
Der Begriff „Zustandsvariable” bedeutet ein Konzept, das einen Skalar und einen Vektor enthält, und bedeutet ein Konzept, das eine Wahrscheinlichkeitsverteilungsvariable oder -größe enthält. Die Position der Zustandsvariable bedeutet eine Position im Euklid'schen Raum oder im Hilbert-Raum mit einer Dimension, welche durch die Dimension der Zustandsvariable definiert ist.
Das Verhaltenssteuerungssystem 10 und das erste Arithmetikprozesselement 11 und das zweite Arithmetikprozesselement 12, welche Bauteile davon sind, sind jeweils zusammengesetzt aus einem Speicher und einer Arithmetikprozesseinheit (CPU), welche die erforderlichen Daten und Programme aus dem Speicher ausliest und einen der Arithmetikprozesseinheit zugeordneten Arithmetikprozess ausführt. Der Begriff „zusammengesetzt aus” enthält ein Konzept von „programmiert”.
(Funktion)
Das Verhaltenssteuerungssystem 10 mit der obigen Konfiguration führt einen Steuerarithmetikprozess aus, um den Agenten 1 zu veranlassen selektiv eine Mehrzahl von unterschiedlichen Teilaufgaben auszuführen, begleitet von einer Interaktion zwischen dem Agenten 1 und dem Objekt 2.
[Erste Ausführung]
Als Mehrzahl von Teilaufgaben verwendet ein Endeffektor, der am Ende eines Roboterarms als dem Agenten 1 angebracht ist, eine erste Teilaufgabe, die das Objekt 2 in der +x-Richtung um einen vorbestimmten Betrag in dem xy-Koordinatensystem bewegt, sowie eine zweite Teilaufgabe, die das Objekt 2 in der +y-Richtung um einen vorbestimmten Betrag in dem xy-Koordinatensystem bewegt (siehe 2A und 2B). Der Anfangszustand des Objekts 2 wird durch den ursprünglichen Koordinatenwert (0, 0) des xy-Koordinatensystems definiert.
(Stochastisches Übergangsmodell)
Das stochastische Übergangsmodell wird definiert durch Zustandsvariablen des Objekts 2, die in Tabelle 1 dargestellt sind, und Variablen, welche die in Tabelle 2 dargestellten Ausführungsteilaufgaben repräsentieren. [TABELLE 1]

X x-Koordinatenwert von Objekt 2

Y y-Koordinatenwert von Objekt 2

Δx Translationsbetrag des Objekts 2 in Richtung x

Δy Translationsbetrag des Objekts 2 in Richtung y

[TABELLE 2]

S₁ 1 wenn argmax(qi) = q1

0 sonst

S₂ 1 wenn argmax(qi) = q1

0 sonst
Insbesondere wird das stochastische Übergangsmodell definiert durch Relationsausdrücke (101) und (102) auf der Basis der Größen/Variablen zur Zeit t = k (genauer bedeutet dies ein Produkt k × T der Anzahl von k Ausführungen des Arithmetikprozesses und der Arithmetikprozesszyklus T mit der Zeit t = 0 als Referenz): x(k + 1) = x(k) + S₁δx(k + 1) (101) y(k + 1) = y(k) + S₂δy(k + 1) (102)
Jeder der Relationsausdrücke (101) und (102) repräsentiert, dass der x-Koordinatenwert und der y-Koordinatenwert des Objekts 2 kontinuierliche Zufallsvariablen sind, die sich kontinuierlich oder glattgängig ändern.
Die erste und zweite Teilaufgabe sind Ereignisse, die nicht gleichzeitig ausgeführt werden können, und daher wird eine Ausführungswahrscheinlichkeit q_i jeder Teilaufgabe gemäß der Dirichlet-Verteilung evaluiert oder berechnet (in dieser Ausführung eine Beta-Verteilung aufgrund von zwei Variablen). Jeder der Koeffizienten S₁ und S₂ wird gemäß der Ausführungswahrscheinlichkeit q_i für jede der ersten und zweiten Teilaufgaben bestimmt, wofür die Wahrscheinlichkeitsverteilung durch die Dirichlet-Verteilung repräsentiert wird, und der Wert der Ausführungswahrscheinlichkeit q_i bestimmt den Übergangsmodus der betreffenden Zustandsvariable.
Jeder der Koeffizienten S₁ und S₂ in den Relationsausdrücken (101) und (102) wird, wie in Tabelle 2 dargestellt, so definiert, dass er auf „1” oder „0” gesetzt wird, dementsprechend, ob die Wahrscheinlichkeit, dass jede der ersten und zweiten Teilaufgaben ausgeführt wird, hoch oder niedrig ist.
Der Koeffizient „S₁” wird so definiert, dass er auf „1” gesetzt wird, falls die Ausführungswahrscheinlichkeit q₁ der ersten Teilaufgabe in der Dirichlet-Verteilung maximal ist, und wird in anderen Fällen auf „0” gesetzt. Der Koeffizient „S₂” wird so definiert, dass er auf „1” gesetzt wird, falls die Ausführungswahrscheinlichkeit q₂ der zweiten Teilaufgabe in der Dirichlet-Verteilung maximal ist, und wird in anderen Fällen auf „0” gesetzt.
Das stochastische Übergangsmodell wird durch das in 3 dargestellte Dynamische Bayesche-Netzwerk (DBN) repräsentiert. Gemäß dem DBN werden die Relationsausdrücke (101) und (102) durch die Pfeile repräsentiert, welche Knoten (Kreise) verbinden, die die Zustandsvariablen zur Zeit k repräsentieren, sowie konditionelle Wahrscheinlichkeiten, unter Verwendung der Knoten und der konditionellen Wahrscheinlichkeiten.
Die konditionellen Wahrscheinlichkeiten, die jeweils den Relationsausdrücken (101) und (102) entsprechen, werden jeweils durch die Relationsausdrücke (111) und (112) ausgedrückt: P(x(k + 1)|x(k), S(k + 1)) = N(x(k) + S₁δx(k + 1), Σx) (111) P(y(k + 1)|y(k), S(k + 1)) = N(y(k) + S₂δx(k + 1), Σy) (112) Die Zustandsvariablen-Knoten δP in den jeweiligen Relationsausdrücken (111) und (112) werden durch die Relationsausdrücke (121) und (122) ausgedrückt: P(δx(k)) = N(0, e^–6) (121) P(δy(k)) = N(0, e^–6) (122)
Das erste Arithmetikprozesselement 11 erzeugt eine Mehrzahl von Zustandsvariablen-Trajektorien gemäß dem durch das DBN repräsentierte stochastische Übergangsmodell. Als Verfahren zur Schätzung der Knoten im DBN können auch andere Methoden verwendet werden, wie etwa eine geschleifte Vertrauensfortpflanzung (loopy belief propagation), Variablen-Elimination, Verknüpfungsbaum, Wichtigkeitsabtastung, Hugin-Algorithmus, Shafer-Shenoy-Algorithmus, Variational Message Passing, Gibbs-Abtastung, oder dergleichen.
Zum Beispiel in dem Fall, wo die Ausführungswahrscheinlichkeiten (q₁, q₂) der Teilaufgaben in der Dirichlet-Verteilung entlang dem Zeitübergang t = t₁ → t₂ → t₃ → t₄ so variieren wie in dem Balkendiagramm von 2A dargestellt, gehen die Koeffizienten (S₁, S₂) über wie in (1, 0) → (0, 1) → (1, 0) → (0, 1) (siehe Tabelle 2). Darüber hinaus in dem Fall, wo die Ausführungswahrscheinlichkeiten (q₁, q₂) der Teilaufgaben in der Dirichlet-Verteilung entlang dem Zeitübergang t = t₁ → t₂ → t₃ → t₄ so variieren wie im Balkendiagramm von 2B dargestellt, gehen die Koeffizienten (S₁, S₂) über wie in (1, 0) → (1, 1) → (0, 1) → (1, 0). Die Knoten werden in Bezug auf jeden dieser verschiedenen Übergangsmodi geschätzt, wodurch eine Mehrzahl von Zustandsvariablen-Trajektorien erzeugt werden (siehe die Pfeile in den 2A und 2B).
Das zweite Arithmetikprozesselement 12 steuert den Betrieb des Agenten 1 derart, dass der Zustand des Objekts 2 gemäß der gewünschten Zustandsvariablen-Trajektorie übergeht, welche eine Zustandsvariablen-Trajektorie ist, die die Verknüpfungswahrscheinlichkeit des stochastischen Übergangsmodells von der Mehrzahl der Zustandsvariablen-Trajektorien, die durch das erste Arithmetikprozesselement 11 generiert werden, maximiert oder optimiert. Hierdurch führt der Agent 1 selektiv die ersten und zweiten Teilaufgaben aus.
Der Wert der Zustandsvariable des Objekts 2 wird durch eine Sensorgruppe des Agenten 1 gemessen, und der Betrieb des den Agenten 1 darstellenden Aktuators wird rückkoppelnd geregelt, so dass der gemessene Wert mit einem gewünschten Wert (Ziel) übereinstimmt, der durch die gewünschte Zustandsvariablen-Trajektorie repräsentiert wird.
(Rechenbeispiel)
Aus dem Blickpunkt, die Arithmetikprozesslast des Verhaltenssteuerungssystems 10 zu reduzieren, wurde eine Berechnung an einer Zustandsvariablen-Trajektorie durchgeführt, um zu bewirken, dass die Zustandsvariable (x, y) des Objekts 2 das Ziel (Teilziel) Ziel erreicht, das an der rechten Seite der 4A bis 4C dargestellt ist, gemäß einer Regel, dass die zweite Teilaufgabe nach der Ausführung der ersten Teilaufgabe ausgeführt wird.
An der linken Seite jeder der 4A bis 4C ist ein Veränderungsmodus jeder Ausführungswahrscheinlichkeitsverteilung der ersten und zweiten Teilaufgaben dargestellt. Die horizontale Achse repräsentiert die Zeit k, und die vertikale Achse repräsentiert eine Wahrscheinlichkeit q₁, dass jede Teilaufgabe ausgeführt wird. Die Ausführungswahrscheinlichkeitverteilung der ersten Teilaufgabe ist mit geringer Helligkeit gezeichnet, und die maximale Wahrscheinlichkeit (nachfolgend als „erste Ausführungswahrscheinlichkeit” bezeichnet) ist mit „o” bezeichnet. Ähnlich ist die Ausführungswahrscheinlichkeitsverteilung der zweiten Teilaufgabe mit großer Helligkeit gezeichnet, die sich in vertikaler Richtung erstreckt, und die maximale Wahrscheinlichkeit (nachfolgend als „zweite Ausführungswahrscheinlichkeit” bezeichnet) ist mit „•” bezeichnet.
Die Position des Objekts 2 im Anfangszustand (k = 1) wird vorab auf die Ursprungsposition gesetzt, und daher ist die Streuung jeder Wahrscheinlichkeitsverteilung Null, während die Streuung jeder Wahrscheinlichkeitsverteilung sich mit der Zeit verändert. Dies bedeutet: selbst wenn als Ergebnis die Ausführung der ersten Teilaufgabe gewählt wird, wird auch die Ausführung der zweiten Teilaufgabe berücksichtigt, bis die erste Teilaufgabe gewählt ist. Insbesondere bedeutet dies, dass sowohl die Ausführungswahrscheinlichkeit q₁ der ersten Teilaufgabe als auch die Ausführungswahrscheinlichkeit q₂ der zweiten Teilaufgabe konstant berücksichtigt werden, wie durch die in den 2A und 2B dargestellten Balkengraphiken ausgedrückt.
Wie in der linken Seite von 4A dargestellt, ist zur Zeit k von 1 bis 16 (k = 1 bis 16) die erste Ausführungswahrscheinlichkeit höher als die zweite Ausführungswahrscheinlichkeit, während zur Zeit k von 17 bis 30 (k = 17 bis 30) die erste Ausführungswahrscheinlichkeit niedriger als die zweite Ausführungswahrscheinlichkeit ist. Dementsprechend wird, wie in der rechten Seite von 4A dargestellt, eine gewünschte Zustandsvariablen-Trajektorie des Objekts 2 erzeugt, um zu veranlassen, dass der Agent 1 die erste Teilaufgabe ausführt, bis die Zustandsvariable (x, y) des Objekts 2 zu (0,2, 0) wechselt, und zum Umschalten der Teilaufgaben zwischen der Zeit k von 16 und der Zeit k von 17 (k = 16 bis 17), und danach zum Ausführen der zweiten Teilaufgabe, bis die Zustandsvariable (x, y) des Objekts zu (0,2, 0, 2) wechselt. Die gewünschte Zustandsvariablen-Trajektorie wird durch eine Wahrscheinlichkeitsverteilung repräsentiert, die eine Verteilungsbreite hat, wie mit einer durchgehenden Linie an der rechten Seite von 4A angegeben.
Wie in der rechten Seite von 4B dargestellt, wird eine gewünschte Zustandsvariablen-Trajektorie des Objekts 2 erzeugt, um zu bewirken, dass der Agent 1 die erste Teilaufgabe ausführt, bis die Zustandsvariable (x, y) des Objekts 2 zu (0,1, 0) wechselt, und zum Schalten der Teilaufgaben zwischen der Zeit k von 10 und der Zeit k von 11 (k = 10 bis 11), und danach zum Ausführen der zweiten Teilaufgabe, bis die Zustandsvariable (x, y) des Objekts 2 zu (0,1, 0,4) wechselt.
Wie in der rechten Seite von 4C dargestellt, wird eine gewünschte Zustandsvariablen-Trajektorie des Objekts 2 erzeugt, um zu bewirken, dass der Agent 1 die erste Teilaufgabe ausführt, bis die Zustandsvariable (x, y) des Objekts 2 zu (0,4, 0) wechselt, und zum Schalten der Teilaufgabe zwischen der Zeit k von 23 und der Zeit k von 24 (k = 23 bis 24), und danach zum Ausführen der zweiten Teilaufgabe, bis die Zustandsvariable (x, y) des Objekts 2 zu (0,4, 0,1) wechselt.
[Zweite Ausführung]
Die erste Teilaufgabe (Neigen) ist eine Aufgabe, das Objekt 2 zu kippen, um die Unterseite (untere Fläche) des auf einer ersten Bodenfläche angeordneten Objekts 2 von der ersten Bodenfläche anzuheben, mit einer Seite der Unterseite des Objekts 2 als Achslinie (siehe 5A). Der Begriff „Bodenfläche” ist nicht auf die Bodenfläche einer Gebäudestruktur oder dergleichen beschränkt, sondern bedeutet eine Oberseite aller Arten eines strukturellen Objekts, wie etwa der Oberseite eines Tischs, eine Straßenoberfläche, eine Erdoberfläche, oder dergleichen.
Die zweite Teilaufgabe (Schieben) ist eine Aufgabe, das Objekt 2 translatorisch zu bewegen, wobei sich eine Seite der Unterseite auf der ersten Bodenfläche aufliegt, während die gekippte Lage des Objekts 2 erhalten bleibt, die durch die Ausführung der ersten Teilaufgabe erreicht wird (siehe 5B).
Die dritte Teilaufgabe (Hochdrücken) ist eine Aufgabe, das Objekt 2 so zu kippen, dass ein Teil der Unterseite des Objekts 2 sich gegen eine zweite Bodenfläche abstützt, die um eine Stufe höher ist als die erste Bodenfläche, wobei sich ein Liniensegment gegen den Rand des Stufenabschnitts zwischen der ersten Bodenfläche und der zweiten Bodenfläche als Achslinie an der Unterseite des Objekts 2 abstützt. Die Kipprichtung des Objekts 2 in der dritten Teilaufgabe ist entgegengesetzt zur Kipprichtung des Objekts 2 in der ersten Teilaufgabe (siehe 5C).
Die vierte Teilaufgabe (Drücken) ist eine Aufgabe zur translatorischen Bewegung des Objekts 2, wobei ein Teil der Unterseite auf der zweiten Bodenfläche aufliegt (siehe 5D).
Es werden eine Mehrzahl von Teilaufgaben ausgeführt, mit einem Endeffektor, der am Ende des Arm-Roboters als dem Agenten 1 angebracht ist, der sich gegen die Oberseite des Objekts 2 abstützt, das ein im Wesentlichen rechteckiges Parallelepiped ist. Das Verhalten des Agenten 1 wird gemäß der Position des Endeffektors und der Trajektorie einer auf das Objekt 2 angewendeten Kraft gesteuert.
Die Position des Endeffektors (die Position des Kraftwirkpunkts) wird zum Beispiel durch die Position der Handfläche eines Roboterhand definiert, die eine Mehrzahl von Fingermechanismen aufweist, die sich von der Handfläche erstrecken, oder der Position der Spitze von einem Fingermechanismus (Fingerspitze).
(Stochastisches Übergangsmodell)

Das stochastische Übergangsmodell wird durch die in Tabelle 3 dargestellten Zustandgrößen des Objekts und die in Tabelle 4 dargestellten Größen definiert, welche die Ausführungsteilaufgaben repräsentieren. [TABELLE 3]

F = (fx, fz)	Kraft des Endeffektors auf das Objekt 2
Pc = (Xc, zc)	Position, wo die Kraft F einwirkt (Position des Endeffektors)
fN	Normale Kraft, die auf das Objekt 2 von der Bodenoberfläche einwirkt
Fμ	Reibkraft, die auf das Objekt 2 von der Bodenoberfläche einwirkt
Pp = (xp, zp)	Positionen, wo die normale Kraft f_μ und die Reibkraft f_μ einwirkt
m	Masse des Objekts 2
g	Gravitationsbeschleunigung
Pg = (xg, zg)	Schwerpunkt des Objekts 2
Pe = (xe, ze)	Randposition des Stufenabschnitts zwischen den ersten und zweiten Bodenflächen
δP = (δx, 0)	Translationsbetrag des Objekts 2 in Richtung x
θ	Neigungswinkel der Unterseite des Objekts 2 zur horizontalen Ebene
δθ	Neigungsbetrag des Objekts 2 (Änderungsbetrag im Neigungswinkel θ)

[TABELLE 4]

S₁	1	wenn argmax(qi) = q1 oder q3
S₁	0	sonst
S₂	1	wenn argmax(qi) = q2 oder q4
S₂	0	sonst
S₃	1	wenn argmax(qi) = q3
S₃	0	sonst

Insbesondere wird das stochastische Übergangsmodell durch Relationsausdrücke (201) bis (207) auf der Basis der Größen zur Zeit t = k definiert (genauer gesagt bedeutet dies ein Produkt k × T der Anzahl k der Ausführungen des Arithmetikprozesses und des Arithmetikprozesszyklus T mit der t = 0 als Referenz: P_c(k + 1) = R(k){P_c(k) – P_p(k)} + P_p(k) + S₂δP(k + 1), R(k) = {r_ij}, r₁₁ = cosδθ, r₁₂ = –sinδθ, r₂₁ = sinδθ, r₂₂ = cosδθ (201) P_g(k + 1) = R(k){P_g(k) – P_p(k)} + P_p(k) + S₂δP(k + 1) (202) P_p(k + 1) = (1 – S₃)P_p(k) + S₃P_e(k) + S₂δP(k + 1) (203) θ(k + 1) = θ(k) + S₁δθ(k + 1) (204) P_e(k + 1) = P_e(k) (205) f_x(k) = μf_N(k), f_z(k) = f_N(k)_–mg (206) mg(x_g(k) – x_p(k)) + f_x(k)(z_c(k) – z_p(k)) + f_z(k)(x_c(k) – x_p(k)) = 0 (207)
Die Relationsausdrücke (201) bis (203) drücken aus, dass die Positionen Pc, Pp und Pg kontinuierliche Zufallsvariablen sind, die sich jeweils kontinuierlich oder glattgängig ändern. R ist eine Matrix zum Konvertieren des Neigungsbetrags δθ des Objekts 2 zu einem Veränderungsbetrag von jeder der Positionen Pc, Pp, und Pg. Der Relationsausdruck (204) drückt aus, dass ein Winkel θ eine kontinuierliche Zufallsvariable ist, die sich kontinuierlich oder glattgängig ändert. Der Relationsausdruck (205) bedeutet, dass die Randposition des Stufenabschnitts zwischen den ersten und zweiten Bodenflächen unverändert bleibt. Der Relationsausdruck (206) drückt aus, dass die auf das Objekt 2 ausgeübte Kraft ausgeglichen ist. Der Relationsausdruck (207) drückt aus, dass das auf das Objekt 2 ausgeübte Moment um die Position P_p herum ausgeglichen ist.
Die ersten bis vierten Teilaufgaben sind Ereignisse, die nicht ausgeführt werden können oder gleichzeitig auftreten, und daher eine Ausführungswahrscheinlichkeit q_i für jede Teilaufgabe gemäß der Dirichlet-Verteilung evaluiert oder berechnet wird. Jeder der Koeffizienten S₁ bis S₃ wird gemäß der Ausführungswahrscheinlichkeit q_i für jede der Mehrzahl von Teilaufgaben bestimmt, wofür die Wahrscheinlichkeitsverteilung durch die Dirichlet-Verteilung ausgedrückt wird, und der Wert der Ausführungswahrscheinlichkeit q_i bestimmt den Übergangsmodus der betreffenden Zustandsvariable.
Die Dirichlet-Verteilungsfunktion, die eine kontinuierliche Verteilungsfunktion ist, bedeutet eine multivariate Betaverteilung, worin eine Betaverteilung erweitert und generalisiert ist. Die Wahrscheinlichkeitsdichtefunktion P(^Q, ^K) der Dirichlet-Verteilung gibt eine Wahrscheinlichkeit an, dass jedes Ereignis mit der Wahrscheinlichkeit q_i stattfindet, in dem Fall, wo jedes der N Ereignisse (in dieser Ausführung vier Teilaufgaben), die nicht gleichzeitig stattfinden, (k_i – 1) Male auftritt (i = 1, 2...N), wobei „k_i” einen Hyperparameter (Parameter eines Parameters) bezeichnet und eine ganze Zahl sein oder nicht sein kann.
Der folgende Relationsausdruck (21) definiert eine Wahrscheinlichkeitsdichtefunktion P(^Q, ^K) der Dirichlet-Verteilung mit einem Vektor ^K = (k₁, -- k_i, -- k_N) als Parameter mit einem realen Vektor ^Q = (q₁, -- q_i, -- q_N) als Zufallsvariable: P(^Q, ^K) (21)
Hier ist „Z” eine Beta-Funktion, die multivariat erweitert ist und durch einen Relationsausdruck (22) mittels einer Gamma-Funktion Γ definiert ist. Z = _πi=1~_NΓ(k_i)/Γ(Σ_i=1~_Nk_i) (22)
Die Dirichlet-Verteilung wird dazu benutzt, Nicht-Übereinstimmungen zu repräsentieren, die in dem Fall zu beobachten sind, wo die Anzahl der Versuche endlich ist, in Bezug auf eine relative Häufigkeit q_i des Auftretens jedes Ereignisses in dem Fall, wo die Anzahl der Versuche unendlich ist. Ein erwarteter Wert E[q_i] der Wahrscheinlichkeit q_i, dass jedes Ereignis stattfindet, wird durch einen Relationsausdruck (23) ausgedrückt. Eine Varianz v[q_i] der Wahrscheinlichkeit q_i wird durch einen Relationsausdruck (24) ausgedrückt. E[q_i] = k_i/Σ_i=1~_Nk_i (23) V[q_i] = k_i/Σ_j=1~_N(ausschlj)/{(Σ_i=1~_Nk_i)²(1 + Σ_i=1~_Nk_i)} (24)
Jeder der Koeffizienten S₁ bis S₃ in den Relationsausdrücken (201) bis (204) wird, wie in Tabelle 2 dargestellt, so definiert, dass er auf „1” oder „0” gesetzt wird, je nachdem, ob die Wahrscheinlichkeit, dass jede der ersten bis vierten Teilaufgaben ausgeführt wird, hoch oder niedrig ist.
Der Koeffizient „S₁” wird so definiert, dass er auf „1” gesetzt wird, falls die Ausführungswahrscheinlichkeit q₁ der ersten Teilaufgabe oder die Ausführungswahrscheinlichkeit q₃ der dritten Teilaufgabe in der Dirichlet-Verteilung maximal ist, und wird in anderen Fällen auf „0” gesetzt. Der Koeffizient „S₂” wird so definiert, dass er auf „1” gesetzt wird, falls die Ausführungswahrscheinlichkeit q₂ der zweiten Teilaufgabe oder die Ausführungswahrscheinlichkeit q₄ der vierten Teilaufgabe in der Dirichlet-Verteilung maximal ist, und wird in anderen Fällen auf „0” gesetzt. Der Koeffizient „S₃” ist so definiert, dass er auf „1” gesetzt wird, falls die Ausführungswahrscheinlichkeit q₃ der dritten Teilaufgabe der Dirichlet-Verteilung maximal ist, und wird in anderen Fällen auf „0” gesetzt.
Das stochastische Übergangsmodell wird durch das dynamische Bayesche-Netzwerk (DBN) ausgedrückt, das in 6 dargestellt ist. Gemäß dem DBN werden die Relationsausdrücke (201) bis (207) durch Pfeile ausgedrückt, welche Knoten (Kreise) verbinden, welche die Zustandsvariablen zur Zeit k ausdrücken, und die konditionellen Wahrscheinlichkeiten unter Verwendung der Knoten und der konditionellen Wahrscheinlichkeiten.
Die konditionellen Wahrscheinlichkeiten, die jeweils den Relationsausdrücken (201) bis (206) entsprechen, werden jeweils durch die Relationsausdrücke (211) bis (216) ausgedrückt: P(P_c(k + 1)|P_c(k), δθ(k + 1), δP(k + 1), S(k + 1)) = N(R(k){P_c(k) – P_p(k)} + P_p(k) + S₂δP(k + 1), Σ_Pc) (211) P(P_g(k + 1)|P_g(k), δθ(k + 1), δP(k + 1), S(k + 1)) = N(R(k){P_g(k) – P_p(k)} + P_p(k) + S₂δP(k + 1), Σ_Pg) (212) P(P_p(k + 1)|P_p(k), δθ(k + 1), δP(k + 1), S(k + 1)) = N((1 – S₃)P_p(k) + S₃P_e(k) + S₂δP(k + 1), Σ_Pp) (213) P(θ(k + 1)|θ(k), δθ(k + 1)) = N(θ(k) + S₁δθ(k + 1), Σθ) (214) P(P_e(k + 1)|P_e(k)) = N(P_e(k), Σ_Pp) (215) P(f_x(k)|mg, μ, P_c(k), P_g(k), P_p(k), P_e(k)) = N(μmg(x_c – x_g)/{x_c – x_p + μ(z_c – z_p)}, Σ_fx), P(f_z(k)|mg, μ, P_c(k), P_g(k), P_p(k), P_e(k)) = N(mg(x_c – x_g)/{x_c – x_p + μ(z_c – z_p)} – mg, Σ_fz) (216)
Der Zustandsvariablen-Knoten δP in jedem der Relationsausdrücke (211) bis (213) wird durch einen Relationsausdruck (221) ausgedrückt. Der Zustandsvariablen-Knoten δθ in dem Relationsausdruck (214) wird durch einen Relationsausdruck (222) ausgedrückt. P(δP(k)) = N(0, e^–6) (221) P(δθ(k)) = N(0, Σ_β) (222)
Das erste Arithmetikprozesselement 11 erzeugt eine Mehrzahl von Zustandsvariablen-Trajektorien gemäß dem durch das DBN repräsentierte stochastische Übergangsmodell ähnlich der ersten Ausführung.
Zum Beispiel ändern sich in dem Fall, wo die Ausführungswahrscheinlichkeiten (q₁, q₂, q₃, q₄) der Teilaufgaben in der Dirichlet-Verteilung sich entlang dem Zeitübergang t = t₁ → t₂ → t₃ → t₄ ändern, wie (0,5, 0,2, 0,2, 0,1) → (0,2, 0,4, 0,3, 0,2) → (0,1, 0,2, 0,6, 0,1) → (0,1, 0,2, 0,3, 0,4), gehen die Koeffizienten (S₁, S₂, S₃, S₄) über wie (1, 0, 0) → (0, 1, 0) → (1, 0, 1) → (0, 1, 0) (siehe Tabelle 2). Darüber hinaus gehen in dem Fall, wo die Ausführungswahrscheinlichkeiten (q₁, q₂, q₃, q₄) der Teilaufgaben variieren wie (0,5, 0,2, 0,2, 0,1) → (0,2, 0,4, 0,3, 0,2) → (0,1, 0,2, 0,3, 0,4) → (0,1, 0,2, 0,6, 0,1), die Koeffizienten (S₁, S₂, S₃) über wie (1, 0, 0) → (0, 1, 0) → (0, 1, 0) → (1, 0, 1). Die Knoten werden in Bezug auf jeden dieser verschiedenen Übergangsmodi geschätzt, wodurch eine Mehrzahl von Zustandsvariablen-Trajektorien generiert werden.
Das zweite Arithmetikprozesselement 12 steuert den Betrieb des Agenten 1 derart, dass der Zustand des Objekts 2 gemäß der gewünschten Zustandsvariablen-Trajektorie übergeht, die eine Zustandsvariablen-Trajektorie ist, die die Verknüpfungswahrscheinlichkeit des stochastischen Übergangsmodells aus der Mehrzahl von Zustandsvariablen-Trajektorien, die von der ersten Arithmetikprozesseinheit 11 generiert werden, maximiert oder optimiert. Hierdurch führt der Agent 1 selektiv die ersten bis vierten Teilaufgaben aus, die in den 5A bis 5D dargestellt sind.
Der Wert der Zustandsvariable des Objekts 2 wird von einer Sensorgruppe des Agenten 1 gemessen, und der Betrieb des den Agenten 1 darstellenden Aktuators wird rückkoppelnd geregelt, so dass der gemessene Wert mit einem Sollwert übereinstimmt, der durch die gewünschte Zustandsvariablen-Trajektorie repräsentiert wird. Zum Beispiel wird eine Kraft F, die der Agent 1 auf das Objekt 2 ausübt, mit einem Kraftsensor (einem sechsachsigen Kraftsensor) oder dergleichen gemessen, der an dem Endeffektor angebracht ist. In Bezug auf die Position des Kraftanlegepunkts Pc werden die Winkel der den Agenten 1 darstellenden Gelenke gemäß einem kinematischen Modell des Agenten 1 auf der Basis von Ausgangssignalen von einem Winkelsensor gemessen, der auf einem Codierer oder dergleichen aufgebaut ist.
Die Randposition Pe des Stufenabschnitts zwischen den ersten und zweiten Bodenflächen kann auf der Basis eines Ausgangssignals von einem Objekterfassungssensor gemessen werden, wie etwa einem Bereichbildsensor des Agenten 1, oder kann vorab in einen Speicher eingegeben werden, der das Verhaltenssteuerungssystem 10 darstellt.
(Rechenbeispiel)
Vom Blickpunkt aus, die Arithmetikprozesslast des Verhaltenssteuerungssystems zu reduzieren, wurde eine Berechnung an einer Zustandsvariablen-Trajektorie durchgeführt, um zu bewirken, dass die Zustandsvariable des Objekts 2 das Ziel (Teilziel) erreicht, das in 5D dargestellt ist, gemäß einer Regel, dass die zweite Teilaufgabe nach der Ausführung der ersten Teilaufgabe ausgeführt wird, die dritte Teilaufgabe nach der Ausführung der zweiten Teilaufgabe ausgeführt wird, und die vierte Teilaufgabe nach der Ausführung der dritten Teilaufgabe ausgeführt wird.
Vom Blickpunkt, die Arithmetikprozesslast zu reduzieren, wurden die ersten bis dritten gewünschten Zustandsvariablen-Trajektorien gemäß jeweils einem „ersten stochastischen Übergangsmodell”, worin die ersten und zweiten Teilaufgaben berücksichtigt werden, „einem zweiten stochastischen Übergangsmodell”, worin die zweiten und dritten Teilaufgaben berücksichtigt werden, und einem „dritten stochastischen Übergangsmodell”, worin die dritten und vierten Teilaufgaben berücksichtigt werden, gemäß der Dirichlet-Verteilung mit N = 2 berechnet, anstatt der Dirichlet-Verteilung mit N = 4.
7A stellt einen Veränderungsmodus der Ausführungswahrscheinlichkeit q₂ der zweiten Teilaufgabe dar, der im Erzeugungsprozess der ersten gewünschten Zustandsvariablen-Trajektorie geschätzt wird. Insbesondere stellt 7A den Veränderungsmodus der Ausführungswahrscheinlichkeit q₂ der zweiten Teilaufgabe dar, der im Erzeugungsprozess von einer ersten Zustandsvariablen-Trajektorie geschätzt wird, worin die Verknüpfungswahrscheinlichkeit des ersten stochastischen Übergangsmodells maximal ist oder optimal ist unter einer Mehrzahl von ersten Zustandsvariablen-Trajektorien, einhergehend mit dem Schalten von der ersten Teilaufgabe (Neigen) zur zweiten Teilaufgabe (Schieben).
Ein Liniensegment, das in der vertikalen Achsrichtung mit der maximalen Wahrscheinlichkeit (siehe „o”) als Referenz existiert, repräsentiert die Streuung der Wahrscheinlichkeitsverteilung der Wahrscheinlichkeit q₂. Wenn die Wahrscheinlichkeit q₂ kleiner als 0,5 ist, bedeutet dies, dass die Wahrscheinlichkeit, dass die erste Teilaufgabe ausgeführt wird, höher ist als die Wahrscheinlichkeit, dass die zweite Teilaufgabe ausgeführt wird. Wenn die Wahrscheinlichkeit q₂ 0,5 überschreitet, bedeutet dies, dass die Wahrscheinlichkeit, dass die zweite Teilaufgabe ausgeführt wird, höher ist. Aus 7A versteht es sich, dass eine erste gewünschte Zustandsvariablen-Trajektorie generiert wird, worin das Ausführungsziel von der ersten Teilaufgabe zur zweiten Teilaufgabe zwischen 8 und 9 der Zeit k umgeschaltet wird.
7B stellt einen Veränderungsmodus der Ausführungswahrscheinlichkeit q₂ der zweiten Teilaufgabe dar, der im Erzeugungsprozess der zweiten gewünschten Zustandsvariablen-Trajektorie geschätzt wird. Insbesondere stellt 7B den Veränderungsmodus der Ausführungswahrscheinlichkeit q₂ der zweiten Teilaufgabe dar, der im Erzeugungsprozess für eine zweite Zustandsvariablen-Trajektorie, worin die Verknüpfungswahrscheinlichkeit des ersten stochastischen Übergangsmodells maximal oder optimal ist, unter einer Mehrzahl von zweiten Zustandsvariablen-Trajektorien einhergehend mit dem Umschalten von der zweiten Teilaufgabe (Schieben) zur dritten Teilaufgabe (Hochdrücken).
Wenn die Wahrscheinlichkeit q₂ 0,5 überschreitet, bedeutet dies, dass die Wahrscheinlichkeit, dass die zweite Teilaufgabe ausgeführt wird, höher ist als die Wahrscheinlichkeit, dass die dritte Teilaufgabe ausgeführt wird. Wenn die Wahrscheinlichkeit q₂ kleiner als 0,5 ist, bedeutet dies, dass die Wahrscheinlichkeit, dass die dritte Teilaufgabe ausgeführt wird, höher ist. Aus 7B versteht es sich, dass eine zweite gewünschte Zustandsvariablen-Trajektorie generiert wird, worin das Ausführungsziel von der zweiten Teilaufgabe zur dritten Teilaufgabe zwischen 8 und 9 der Zeit k umgeschaltet wird.
7C stellt einen Veränderungsmodus der Ausführungswahrscheinlichkeit q₄ der vierten Teilaufgabe dar, der im Erzeugungsprozess der dritten gewünschten Zustandsvariablen-Trajektorie geschätzt wird. Insbesondere stellt 7C den Veränderungsmodus der Ausführungswahrscheinlichkeit q₄ der vierten Teilaufgabe dar, der in dem Erzeugungsprozess der dritten Zustandsvariablen-Trajektorie geschätzt wird, worin die Verknüpfungswahrscheinlichkeit des ersten stochastischen Übergangsmodells maximal oder optimal ist, unter einer Mehrzahl von dritten Zustandsvariablen-Trajektorien, einhergehend mit dem Umschalten von der dritten Teilaufgabe (Hochdrücken) zur vierten Teilaufgabe (Drücken).
Wenn die Wahrscheinlichkeit q₄ 0,5 überschreitet, bedeutet dies, dass die Wahrscheinlichkeit, dass die vierte Teilaufgabe ausgeführt wird, höher ist als die Wahrscheinlichkeit, dass die dritte Teilaufgabe ausgeführt wird. Wenn die Wahrscheinlichkeit q₄ kleiner als 0,5 ist, bedeutet dies, dass die Wahrscheinlichkeit, dass die dritte Teilaufgabe ausgeführt wird, höher ist. Aus 7C versteht es sich, dass eine dritte gewünschte Zustandsvariablen-Trajektorie generiert wird, worin das Ausführungsziel von der dritten Teilaufgabe zur vierten Teilaufgabe zwischen 22 und 23 der Zeit k umgeschaltet wird.
Zusätzlich steuert das zweite Arithmetikprozesselement 12 das Verhalten des Agenten 1 derart, dass der Zustand des Objekts 2 gemäß der gewünschten Zustandsvariablen-Trajektorie als kontinuierliche Trajektorie der ersten, zweiten und dritten gewünschten Zustandsvariablen-Trajektorien übergeht. Dies bewirkt, dass der Agent 1 die ersten bis vierten Teilaufgaben sequentiell für das Objekt 2 ausführt, und ermöglicht, dass der Zustand des Objekts 2 das gewünschte Ziel erreicht.
(Betrieb und Wirkung)
Gemäß dem Verhaltenssteuerungssystem 10 mit der obigen Konfiguration werden eine Mehrzahl von Zustandsvariablen-Trajektorien, die eine Zeitserie der Zustandsvariable sind, gemäß dem stochastischen Übergangsmodell generiert (siehe 3 und 6), das derart definiert ist, dass der Übergangsmodus der Zustandsvariable des Objekts 2 in Abhängigkeit von jeder Ausführungswahrscheinlichkeit q_i der Mehrzahl von Teilaufgaben bestimmt wird, worin die Wahrscheinlichkeitsverteilung durch eine Dirichlet-Verteilung repräsentiert wird (siehe 2A und 2B). Hierdurch werden die Mehrzahl von Zustandsvariablen-Trajektorien unter Berücksichtigung von verschiedenen Veränderungsmodi von Teilaufgaben generiert, die selektiv von dem Agenten 1 ausgeführt werden, gemäß einer Differenz im zeitorientierten Veränderungsmodus der Dirichlet-Verteilung.
Eine Zustandsvariablen-Trajektorie, bei der der Agent 1 unter der Mehrzahl von Zustandsvariablen-Trajektorien folgt, wird als gewünschte Zustandsvariablen-Trajektorie generiert, wenn sie die Verknüpfungswahrscheinlichkeit des stochastischen Übergangsmodells maximiert oder optimiert (siehe 4A bis 4C und 7A bis 7C). die gewünschte Zustandsvariablen-Trajektorie wird auf der Basis des oben beschriebenen stochastischen Übergangsmodells generiert. Daher lässt sich das Verhalten des Agenten 1 einhergehend mit einer Wechselwirkung mit dem Objekt 2 derart steuern/regeln, dass die Kontinuität der den Zustand des Objekts 2 repräsentierenden Zustandsvariablen sichergestellt wird. Während die Ausführbarkeit jeder Teilaufgabe die Kontinuität des Verhaltens des Agenten 1 in Zeitserien sicherstellt, ist im Ergebnis das Verhaltenssteuerungssystem in der Lage, den Agenten 1 zu veranlassen, eine Mehrzahl von unterschiedlichen Teilaufgaben kontinuierlich auszuführen (siehe 5A bis 5D).
[Andere Ausführungen der vorliegenden Erfindung]
Das erste Arithmetikprozesselement 11 ist konfiguriert, um eine Mehrzahl von Zustandsvariablen-Trajektorien gemäß jedem einer Mehrzahl von stochastischen Übergangsmodellen zu generieren, worin ein Umweltfaktor unterschiedlich ist, welches das stochastische Übergangsmodell ist, worin der Übergangsmodus einer Zustandsvariable in Abhängigkeit vom Umweltfaktor des Objekts 2 bestimmt wird, zusätzlich zu den jeweiligen Ausführungswahrscheinlichkeiten der Mehrzahl von Teilaufgaben. Das zweite Arithmetikprozesselement 12 ist konfiguriert, um einen Umweltfaktor in einem stochastischen Übergangsmodell zu schätzen, das eine Erzeugungsbasis von einer Zustandsvariablen-Trajektorie ist, die die Verknüpfungswahrscheinlichkeit einer Gesamtheit des stochastischen Übergangsmodells unter der Mehrzahl von Zustandsvariablen-Trajektorien, die von dem ersten Arithmetikprozesselement 11 generiert werden, als aktuellen Umweltfaktor, maximiert oder optimiert.
Zum Beispiel wird eine Reibkraft f_μ, die von der Bodenfläche auf das Objekt 2 einwirkt, und/oder ein Reibkoeffizient μ und/oder eine normale Kraft f_N und/oder eine Haltung auf der Bodenfläche (Neigungswinkel) als Umweltfaktor geschätzt (siehe Tabelle 3).
Gemäß dem Verhaltenssteuerungssystem mit der obigen Konfiguration lässt sich ein Umweltfaktor, wie etwa ein Reibungskoeffizient μ, zwischen dem Objekt 2 und der Bodenfläche, der ein ungewisses Element ist, mit hohem Genauigkeitsgrad basierend auf dem Erzeugungsergebnis der gewünschten Zustandsvariablen-Trajektorie schätzen. Die anschließenden stochastischen. Übergangsmodelle werden auf der Basis des Schätzergebnisses ausgewählt oder konstruiert, um hierdurch das Erzeugen einer gewünschten Zustandsvariablen-Trajektorie zu ermöglichen, um den Zustand des Objekts 2 zu reflektieren, der für den aktuellen Umweltfaktor geeignet ist.
Bezugszeichenliste

1: Agent
2: Objekt
10: Verhaltenssteuerungssystem
11: Erstes Arithmetikprozesselement
12: Zweites Arithmetikprozesselement.

Es wird ein System angegeben, das in der Lage ist, einen Agenten zu veranlassen, eine Mehrzahl von unterschiedlichen Teilaufgaben kontinuierlich auszuführen, während die Verhaltenskontinuität des Agenten sichergestellt wird. Eine Mehrzahl von Zustandsvariablen-Trajektorien, die die Zeitserie einer Zustandsvariable eines Objekts repräsentieren, werden gemäß einem stochastischen Übergangsmodell generiert, worin die Zustandsvariable des Objekts als Zufallsvariable repräsentiert ist. Das stochastische Übergangsmodell ist so definiert, dass der Übergangsmodus der Zustandsvariable gemäß einer Ausführungswahrscheinlichkeit jeder Teilaufgabe bestimmt wird, worin eine Wahrscheinlichkeitsverteilung durch eine Dirichlet-Verteilung repräsentiert ist. Ein Betrieb des Agenten (1) wird derart gesteuert/geregelt, dass der Zustand des Objekts (2) gemäß einer Zustandsvariablen-Trajektorie (einer gewünschten Zustandsvariablen-Trajektorie) übergeht, welche die Verknüpfungswahrscheinlichkeit einer Gesamtheit des stochastischen Übergangsmodells unter der Mehrzahl von Zustandsvariablen-Trajektorien maximiert oder optimiert.

Claims

System, das konfiguriert ist, um ein Verhalten eines Agenten zu steuern/zu regeln, um zu veranlassen, dass der Agent selektiv eine Mehrzahl von Teilaufgaben für ein Objekt ausführt, wobei das System umfasst: ein erstes Arithmetikprozesselement, das konfiguriert ist, um eine Mehrzahl von Zustandsvariablen-Trajektorien zu generieren, die Zeitserien einer Zustandsvariable des Objekts repräsentieren, gemäß einem stochastischen Übergangsmodell, worin die Zustandsvariable des Objekts als Zufallsvariable repräsentiert ist, und worin der Übergangsmodus der Zustandsvariable unter konstanter Berücksichtigung aller Ausführungswahrscheinlichkeiten der Mehrzahl von Teilaufgaben bestimmt ist, und alle diese Ausführungswahrscheinlichkeiten der Mehrzahl von Teilaufgaben durch eine durch eine Dirichlet-Verteilung evaluiert werden und sich entlang dem Zeitübergang verändern; und ein zweites Arithmetikprozesselement, das konfiguriert ist, um einen Betrieb des Agenten so zu steuern/zu regeln, dass die Zustandsvariable des Objekts in eine gewünschte Zustandsvariablen-Trajektorie übergeht, die eine Verknüpfungswahrscheinlichkeit einer Gesamtheit des stochastischen Übergangsmodells unter der Mehrzahl von Zustandsvariablen-Trajektorien, die von dem ersten Artihmetikprozesselement generiert werden, maximiert oder optimiert.
Das System gemäß Anspruch 1, worin: das erste Arithmetikprozesselement konfiguriert ist, um eine Mehrzahl von i-ten Zustandsvariablen-Trajektorien zu generieren, die Zeitserien der Zustandsvariable des Objekts repräsentieren, gemäß einem i-ten stochastischen Übergangsmodell, worin der Übergangsmodus der Zustandsvariable in Abhängigkeit von jeder Ausführungswahrscheinlichkeit einer Teilaufgabe mit einer i-ten Ausführungsfolge (i = 1, 2, ..) und einer Teilaufgabe mit einer (i + 1)-ten Ausführungsfolge unter der Mehrzahl von Teilaufgaben bestimmt wird; und das zweite Arithmetikprozesselement konfiguriert ist, um eine i-te Zustandsvariablen-Trajektorie zu generieren, die eine Verknüpfungswahrscheinlichkeit einer Gesamtheit des i-ten stochastischen Übergangsmodells, als i-te gewünschte Zustandsvariablen-Trajektorie unter der Mehrzahl von i-ten Zustandsvariablen-Trajektorien, die von dem ersten Arithmetikprozesselement generiert werden, maximiert oder optimiert, und um eine Verbindungstrajektorie der i-ten gewünschten Zustandsvariablen-Trajektorie als die gewünschte Zustandsvariablen-Trajektorie zu generieren.
Das System gemäß Anspruch 1 oder 2, worin: das erste Arithmetikprozesselement konfiguriert ist, um die Mehrzahl von Zustandsvariablen-Trajektorien gemäß jedem einer Mehrzahl von stochastischen Übergangsmodellen mit unterschiedlichem Umweltfaktor zu generieren, das ein stochastisches Übergangsmodell ist, worin der Übergangsmodus der Zustandsvariable in Abhängigkeit von dem Umweltfaktor des Objekts bestimmt wird, zusätzlich zu den jeweiligen Ausführungswahrscheinlichkeiten der Mehrzahl von Teilaufgaben; und das zweite Arithmetikprozesselement konfiguriert ist, um als aktuellen Umweltfaktor einen Umweltfaktor in einem stochastischen Übergangsmodell zu schätzen, das eine Erzeugungsbasis von einer Zustandsvariablen-Trajektorie ist, die eine Verknüpfungswahrscheinlichkeit einer Gesamtheit des stochastischen Übergangsmodells unter der Mehrzahl von Zustandsvariablen-Trajektorien, die von dem ersten Arithmetikprozesselement generiert werden, maximiert oder optimiert.
Verfahren zum Steuern/Regeln eines Verhaltens eines Agenten, um zu veranlassen, dass der Agent selektiv eine Mehrzahl von Teilaufgaben ausführt, worin das Verfahren umfasst: einen ersten Arithmetikprozess zum Generieren einer Mehrzahl von Zustandsvariablen-Trajektorien, die Zeitserien einer Zustandsvariable des Objekts repräsentieren, gemäß einem stochastischen Übergangsmodell, worin die Zustandsvariable des Objekts als Zufallsvariable repräsentiert ist, und worin der Übergangsmodus der Zustandsvariable unter konstanter Berücksichtigung aller Ausführungswahrscheinlichkeiten der Mehrzahl von Teilaufgaben bestimmt wird, und alle diese Ausführungswahrscheinlichkeiten der Mehrzahl von Teilaufgaben durch eine durch eine Dirichlet-Verteilung evaluiert werden und sich entlang dem Zeitübergang verändern; und einen zweiten Arithmetikprozess zum Steuern/Regeln eines Betriebs des Agenten derart, dass die Zustandsvariable des Objekts in eine gewünschte Zustandsvariablen-Trajektorie übergeht, die eine Verknüpfungswahrscheinlichkeit einer Gesamtheit des stochastischen Übergangsmodells unter der Mehrzahl von Zustandsvariablen-Trajektorien, die von dem ersten Artihmetikprozesselement generiert werden, maximiert oder optimiert.