JP5908350B2 - 行動制御システム - Google Patents

行動制御システム Download PDF

Info

Publication number
JP5908350B2
JP5908350B2 JP2012140256A JP2012140256A JP5908350B2 JP 5908350 B2 JP5908350 B2 JP 5908350B2 JP 2012140256 A JP2012140256 A JP 2012140256A JP 2012140256 A JP2012140256 A JP 2012140256A JP 5908350 B2 JP5908350 B2 JP 5908350B2
Authority
JP
Japan
Prior art keywords
state variable
probability
subtask
arithmetic processing
processing element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012140256A
Other languages
English (en)
Other versions
JP2014004640A (ja
Inventor
総司 射場
総司 射場
昭伸 林
昭伸 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2012140256A priority Critical patent/JP5908350B2/ja
Priority to US13/774,380 priority patent/US9014852B2/en
Priority to DE102013203287.0A priority patent/DE102013203287B4/de
Publication of JP2014004640A publication Critical patent/JP2014004640A/ja
Application granted granted Critical
Publication of JP5908350B2 publication Critical patent/JP5908350B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33054Control agent, an active logical entity that can control logical objects

Description

本発明は、ロボットに複数のサブタスクを実行させるように、当該ロボットの行動を制御するシステムに関する。
エージェントの行動の連続性を確保するため、その行動を定義する状態変数が連続的な確率変数により定義され、当該状態変数の軌道にしたがって当該エージェントの行動が制御される技術的手法が提案されている(特許文献1及び2参照)。
特開2010−005761号公報 特開2011−148081号公報
しかし、エージェントに一連の異なるサブタスクよりなるタスクを連続的に実行させる場合、サブタスクの切り替え時点を適応的に設定しながら状態変数の軌道を生成することは困難である。このため、当該サブタスクの切り替え時にエージェントの動作が一時的に停止する等、その行動の連続性が損なわれる可能性がある。
そこで、本発明は、エージェントの行動の連続性を確保しながら、当該エージェントに複数の異なるサブタスクを連続的に実行させることができるシステムを提供することを解決課題とする。
本発明の行動制御システムは、エージェントにオブジェクトを対象とする複数のサブタスクを選択的に実行させるように当該エージェントの行動を制御するシステムであって、前記オブジェクトの状態変数が確率変数として表現され、かつ、ディリクレ分布により確率分布が表現されている前記複数のサブタスクのそれぞれの実行確率に応じて当該状態変数の遷移態様が定まるような確率遷移モデルにしたがって、前記オブジェクトの状態変数の時系列を表わす複数の状態変数軌道を生成するように構成されている第1演算処理要素と、前記第1演算処理要素により生成された前記複数の状態変数軌道のうち、前記確率遷移モデル全体の結合確率を最大化又は最適化する1つの状態変数軌道である目標状態変数軌道にしたがって前記オブジェクトの状態が遷移するように、前記エージェントの動作を制御するように構成されている第2演算処理要素と、を備え、前記第1演算処理要素が、前記複数のサブタスクのそれぞれの実行確率に加えて、前記オブジェクトの環境因子に応じて前記状態変数の遷移態様が定まるような確率遷移モデルであって、前記環境因子が異なる複数の確率遷移モデルのそれぞれにしたがって、前記複数の状態変数軌道を生成するように構成され、前記第2演算処理要素が、前記第1演算処理要素により生成された前記複数の状態変数軌道のうち、前記確率遷移モデル全体の結合確率を最大化又は最適化する1つの状態変数軌道の生成基礎となった1つの確率遷移モデルにおける環境因子を実際の環境因子として推定するように構成されていることを特徴とする。
本発明の行動制御システムによれば、ディリクレ分布により確率分布が表現されている複数のサブタスクのそれぞれの実行確率に応じて、オブジェクトの状態変数の遷移態様が定まるように定義されている確率遷移モデルにしたがって、当該状態変数の時系列である複数の状態変数軌道が生成される。これにより、ディリクレ分布の時系列的な変化態様の相違に応じて、エージェントにより選択的に実行されるサブタスクのさまざまな変化態様が勘案された形で複数の状態変数軌道が生成される。
複数の状態変数軌道のうち、エージェントがしたがう1つの状態変数軌道は、確率遷移モデルの結合確率を最大化又は最適化するものが目標状態変数軌道として生成される。目標状態変数軌道は前記のように確率変数モデルを基礎として生成されている。このため、オブジェクトの状態を表わす状態変数の連続性が確保されるように、当該オブジェクトとの相互作用を伴うエージェントの行動が制御されうる。その結果、各サブタスクの実行可能性が時系列的にエージェントの行動の連続性を確保しながら、当該エージェントに複数の異なるサブタスクを連続的に実行させることができる。さらに、不確定要素である環境因子が目標状態変数軌道の生成結果に基づいて高精度で推定されうる。当該推定結果に基づき、以後の確率遷移モデルが選定又は構築されることにより、実際の環境因子に応じたオブジェクトの状態が反映された形態の目標状態変数軌道が生成されうる。
前記第1演算処理要素が、前記複数のサブタスクのうち実行順位が第i位(i=1,2,‥)のサブタスク及び第i+1位のサブタスクのそれぞれの実行確率に応じて前記状態変数の遷移態様が定まるような第i確率遷移モデルにしたがって、前記オブジェクトの状態変数の時系列を表わす複数の第i状態変数軌道を生成するように構成され、前記第2演算処理要素が、前記第1演算処理要素により生成された前記複数の第i状態変数軌道のうち、前記第i確率遷移モデル全体の結合確率を最大化又は最適化する1つの第i状態変数軌道を第i目標状態変数軌道として生成するとともに、前記第i目標状態変数軌道の接続軌道を前記目標状態変数軌道として生成するように構成されていることが好ましい。
当該構成の行動制御システムによれば、複数のサブタスクのうち2つのサブタスクのみが各確率遷移モデルにおいて勘案される。このため、当該各確率遷移モデルにしたがった状態変数軌道の生成に要する演算処理負荷の軽減又は演算処理時間の短縮を図りつつ、エージェントの行動の連続性を確保しながら、当該エージェントに複数の異なるサブタスクを連続的に実行させることができる。
本発明の行動制御システムの構成説明図。 サブタスクの概要説明図(第1実施形態)。 確率遷移モデル(DBN)に関する説明図(第1実施形態)。 目標状態変数軌道の計算結果に関する説明図(第1実施形態)。 サブタスクの概要説明図(第2実施形態)。 確率遷移モデル(DBN)に関する説明図(第2実施形態)。 目標状態変数軌道の計算結果に関する説明図(第2実施形態)。
(構成)
図1に示されている行動制御システム10は、エージェント1に搭載されているアクチュエータの動作を制御することにより、当該エージェント1の行動を制御するように構成されている。行動制御システム10は、例えば、エージェント1に搭載されている電子制御ユニット(CPU,ROM,RAM,I/O回路等により構成されている。)又はコンピュータにより構成されている。
エージェント1は、例えば、アクチュエータから伝達される力により、関節機構を介して連結されている複数のリンクにより構成され、アクチュエータから伝達される力によって当該関節機構において屈伸することができるように構成されているアームロボットである。関節機構の数及び各関節機構の自由度(1〜3)は任意に設計されうる。アームロボットは、ヒューマノイドロボット(再表03/090978号公報及び再表03/090979号公報等参照)のアームであってもよい。
行動制御システム10は、第1演算処理要素11と、第2演算処理要素12とを備え、オブジェクト2の状態を表わす状態変数が目標状態変数軌道にしたがって時系列的に変化するように、エージェント1に複数のサブタスクを選択的に実行させるように構成されている。
第1演算処理要素11は、確率遷移モデルにしたがって、オブジェクト2の状態変数の時系列を表わす複数の状態変数軌道を生成するように構成されている。確率遷移モデルは、オブジェクトの状態変数が確率変数として表現され、かつ、ディリクレ分布により確率分布が表現されている複数のサブタスクのそれぞれの実行確率に応じて当該状態変数の遷移態様が定まるように定義されている。
第2演算処理要素12は、目標状態変数軌道にしたがってオブジェクト2の状態が遷移するように、エージェント1の動作を制御するよう構成されている。目標状態変数は、第1演算処理要素11により生成された複数の状態変数軌道のうち、確率遷移モデル全体の結合確率を最大化又は最適化する1つの状態変数軌道である。
「状態変数」とは、スカラー及びベクトルを包含する概念であり、確率分布変数を包含する概念である。状態変数の位置は、当該状態変数の次元により定義される次元を有するユークリッド空間又はヒルベルト空間における位置を意味する。
行動制御システム10並びにその構成要素である第1演算処理要素11及び第2演算処理要素12は、メモリと、当該メモリから必要なデータ及びプログラムを読み出して担当する演算処理を実行する演算処理装置(CPU)とにより構成されている。「構成されている」とは「プログラムされている」という概念を包含する。
(機能)
前記構成の行動制御システム10により、エージェント1とオブジェクト2との相互作用を伴う複数の異なるサブタスクをエージェント1に選択的に実行させるように制御演算処理が実行される。
(第1実施形態)
複数のサブタスクとして、エージェント1としてのアームロボットの先端部に取り付けられているエンドエフェクタにより、xy座標系においてオブジェクト2を+x方向に所定量だけ動かす第1サブタスクと、オブジェクト2を+y方向に所定量だけ動かす第2サブタスクとが採用される(図2(a)(b)参照)。オブジェクト2の初期状態はxy座標系の原点座標値(0,0)により定義されている。
(確率遷移モデル)
確率遷移モデルは、表1に示されているオブジェクト2の状態変数及び表2に示されている実行サブタスクを表わす変数により定義されている。
具体的には、確率遷移モデルは、時刻t=k(正確には、時刻t=0を基準とする演算処理の実行回数kと、当該演算処理周期Tとの積k×Tを意味する。)における前記変数に基づいて関係式(101)〜(102)により定義されている。
x(k+1)=x(k)+S1δx(k+1) ..(101)。
y(k+1)=y(k)+S2δy(k+1) ..(102)。
関係式(101)及び(102)のそれぞれは、オブジェクト2のx座標値及びy座標値が連続的又は円滑に変化する連続確率変数であることを表わしている。
第1及び第2サブタスクは同時には実行されえない又は発生し得ない事象であるため、各サブタスクの実行確率qiはディリクレ分布(本実施形態では2変数なのでベータ分布)にしたがって評価又は算定される。各係数S1及びS2は、ディリクレ分布により確率分布が表現されている第1及び第2サブタスクのそれぞれの実行確率qiに応じて定まり、その値によって当該状態変数の遷移態様が定まる。
関係式(101)及び(102)における係数S1及びS2のそれぞれは、表2に示されているように、第1及び第2サブタスクのそれぞれが実行されている確率の高低に応じて「1」又は「0」となるように定義されている。
「S1」は、ディリクレ分布における第1サブタスクの実行確率q1が最大になる場合には「1」となる一方、その他の場合は「0」となるように定義されている。「S2」は、ディリクレ分布における第2サブタスクの実行確率q2が最大になる場合には「1」となる一方、その他の場合は「0」となるように定義されている。
確率遷移モデルは、図3に示されているダイナミクスベイジアンネットワーク(DBN)により表現される。DBNによれば関係式(101)及び(102)が、各時刻kにおける状態変数を表わすノード(円)及び条件付き確率によりこれらをつなぐ矢印により表現されている。
関係式(101)及び(102)のそれぞれに対応する条件付き確率は、関係式(111)及び(112)のそれぞれにより表現される。
P(x(k+1)|x(k), S(k+1))=N(x(k)+S1δx(k+1), Σx) ..(111)。
P(y(k+1)|y(k), S(k+1))=N(y(k)+S2δy(k+1), Σy) ..(112)。
関係式(111)及び(112)のそれぞれにおける状態変数ノードδPは、関係式(121)及び(122)により表現される。
P(δx(k))=N(0,e-6) ..(121)。
P(δy(k))=N(0,e-6) ..(122)。
第1演算処理要素11により、DBNにより表現される確率遷移モデルにしたがって複数の状態変数軌道が生成される。DBNにおけるノードの推定方法としては、Loopy Belief Propagation, variable elimination, Junction Tree, Impartance sampling, Hugin Algorithm, Shafer-Shanoy Algorithm, variational message passing, gibbs sampling等の他の方法が採用されてもよい。
例えば、ディリクレ分布による各サブタスクの実行確率(q1,q2)がt=t1→t2→t3→t4という時間遷移とともに図2(a)に棒グラフで示されているように変化する場合、係数(S1,S2)は(1,0)→(0,1)→(1,0)→(0,1)と遷移する(表2参照)。また、ディリクレ分布による各サブタスクの実行確率(q1,q2)がt=t1→t2→t3→t4という時間遷移とともに図2(b)に棒グラフ示されているように変化する場合、係数(S1,S2)は(1,0)→(1,0)→(0,1)→(1,0)と遷移する。これらのようなさまざまな遷移態様のそれぞれについてノードが推定されることにより、複数の状態変数軌道が生成される(図2(a)(b)における矢印群参照)。
第2演算処理要素12により、第1演算処理要素11により生成された複数の状態変数軌道のうち、確率遷移モデルの結合確率を最大化又は最適化する1つの状態変数軌道である目標状態変数軌道にしたがってオブジェクト2の状態が遷移するようにエージェント1の動作が制御される。これにより、エージェント1が第1及び第2サブタスクを選択的に実行する。
オブジェクト2の状態変数の値はエージェント1が有するセンサ群により測定され、当該測定値が目標状態変数軌道により表わされる目標値(Goal)に一致するように、エージェント1を構成するアクチュエータの動作がフィードバック制御される。
(計算例)
行動制御システム10の演算処理負荷軽減の観点から、第1サブタスクが実行された後、第2サブタスクが実行されるという規則にしたがって、オブジェクト2の状態変数(x,y)を図4(a)〜(c)の右側に示されているゴール(サブゴール)Goalに到達させるための状態変数軌道が計算された。
図4(a)〜(c)のそれぞれの左側には、第1及び第2サブタスクのそれぞれの実行確率分布の変化態様が示されている。横軸は時刻kを表わし、縦軸は各サブタスクが実行される確率qiを表わしている。第1サブタスクの実行確率分布が低明度で描画され、最大確率(以下「第1実行確率」という。)が「○」により表わされている。同様に、第2サブタスクの実行確率分布が上下方向に延びる高明度で表わされ、最大確率(以下「第2実行確率」という。)が「●」により表わされている。
初期状態(k=1)におけるオブジェクト2の位置は予め原点位置に設定されているので、各確率分布の広がりは0である一方、時間経過に伴って各確率分布の広がりが変化する。これは、第1サブタスクを実行することが結果的に選択されたとしても、その選択に至るまでに第2サブタスクの実行についても同時に勘案されていることを意味する。すなわち、図2(a)及び(b)に示されている棒グラフにより表現されているように、第1サブタスクの実行確率q1及び第2サブタスクの実行確率q2の両方が定常的に勘案されていることを意味する。
図4(a)左側に示されているように、第1実行確率はk=1〜16では第2実行確率より高いが、k=17〜30では第2実行確率より低い。これに応じて、図4(a)右側に示されているように、エージェント1にオブジェクト2の状態変数(x,y)が(0.2,0)に変化するまで第1サブタスクを実行させ、k=16〜17の間にサブタスクを切り替えさせた後、オブジェクト2の状態変数(x,y)が(0.2,0.2)に変化するまで第2サブタスクを実行させるようなオブジェクト2の目標状態変数軌道が生成される。目標状態変数軌道は、図4(a)右側において実線により示されているように、分布幅を有する確率分布により表現される。
図4(b)右側に示されているように、エージェント1にオブジェクト2の状態変数(x,y)が(0.1,0)に変化するまで第1サブタスクを実行させ、k=10〜11の間にサブタスクを切り替えさせた後、オブジェクト2の状態変数(x,y)が(0.1,0.4)に変化するまで第2サブタスクを実行させるようなオブジェクト2の目標状態変数軌道が生成される。
図4(c)右側に示されているように、エージェント1にオブジェクト2の状態変数(x,y)が(0.4,0)に変化するまでエージェント1に第1サブタスクを実行させ、k=23〜24の間にサブタスクを切り替えさせた後、オブジェクト2の状態変数(x,y)が(0.4,0.1)に変化するまで第2サブタスクを実行させるようなオブジェクト2の目標状態変数軌道が生成される。
(第2実施形態)
第1サブタスク(roll)は、第1床面に置かれているオブジェクト2の下面(底面)の一辺を軸線として、当該下面を第1床面から持ち上げるように当該オブジェクト2を傾動させるタスクである(図5(a)参照)。「床面」とは、建造物等の床面に限定されず、机上面、路面又は地面等のあらゆる構造物の上面を意味する。
第2サブタスク(slide)は、第1サブタスクの実行により実現されたオブジェクト2の傾動姿勢を維持しながら、下面の一辺が第1床面に当接した状態の当該オブジェクト2を並進移動させるタスクである(図5(b)参照)。
第3サブタスク(hump)は、オブジェクト2の下面において、第1床面と、これより一段高い第2床面との段差部分の縁に当接している線分を軸線として、当該下面の一部を第2床面に当接させるように当該オブジェクト2を傾動させるタスクである。第3サブタスクにおけるオブジェクト2の傾動方向は、第1サブタスクにおけるオブジェクト2の傾動方向と反対である(図5(c)参照)。
第4サブタスク(push)は、下面の一部が第2床面に当接している状態のオブジェクト2を並進移動させるタスクである(図5(d)参照)。
複数のサブタスクは、エージェント1としてのアームロボットの先端部に取り付けられているエンドエフェクタを、略直方体状のオブジェクト2の上面に当接させた状態で実行される。エージェント1の行動は、エンドエフェクタの位置及びオブジェクト2に対する作用力の軌道にしたがって制御される。
エンドエフェクタの位置(力の作用点位置)は、例えば、手の平部から延設されている複数の指機構を備えているロボットハンドの当該手の平部又は一の指機構の先端部(指先)の位置により定義されている。
(確率遷移モデル)
確率遷移モデルは、表3に示されているオブジェクト2の状態変数及び表4に示されている実行サブタスクを表わす変数により定義されている。
具体的には、確率遷移モデルは、時刻t=k(正確には、時刻t=0を基準とする演算処理の実行回数kと、当該演算処理周期Tとの積k×Tを意味する。)における前記変数に基づいて関係式(201)〜(207)により定義されている。
Pc(k+1)=R(k){Pc(k)-Pp(k)}+Pp(k)+S2δP(k+1),
R(k)={rij}, r11=cosδθ, r12=-sinδθ, r21=sinδθ, r22=cosδθ ..(201)。
Pg(k+1)=R(k){Pg(k)-Pp(k)}+Pp(k)+S2δP(k+1) ..(202)。
Pp(k+1)=(1-S3)Pp(k)+S3Pe(k)+S2δP(k+1) ..(203)。
θ(k+1)=θ(k)+S1δθ(k+1) ..(204)。
Pe(k+1)=Pe(k) ..(205)。
fx(k)=μfN(k), fz(k)=fN(k)-mg ..(206)。
mg(xg(k)-xp(k))+fx(k)(zc(k)-zp(k))+fz(k)(xc(k)-xp(k))=0 ..(207)。
関係式(201)〜(203)のそれぞれは、各位置Pc、Pp及びPgが連続的又は円滑に変化する連続確率変数であることを表わしている。Rはオブジェクト2の傾動量δθを各位置Pc、Pp及びPgの変動量に変換するための行列である。関係式(204)は、角度θが連続的又は円滑に変化する連続確率変数であることを表わしている。関係式(205)は、第1及び第2床面の段差部分の縁位置が不変であることを意味している。関係式(206)は、オブジェクト2に作用する力が釣り合っていることを表わしている。関係式(207)は、オブジェクト2に作用する位置Pp回りのモーメントが釣り合っていることを表わしている。
第1〜第4サブタスクは同時には実行されえない又は発生し得ない事象であるため、各サブタスクの実行確率qiはディリクレ分布関数にしたがって評価又は算定される。各係数S1〜S3は、ディリクレ分布により確率分布が表現されている複数のサブタスクのそれぞれの実行確率qiに応じて定まり、その値によって当該状態変数の遷移態様を定めるものである。
ディリクレ分布関数は、連続型の分布関数であり、ベータ分布が拡張かつ一般化された多変量ベータ分布を意味する。ディリクレ分布の確率密度関数P(^Q,^K)により、同時に発生することのないN個の事象(本実施形態では4つのサブタスク)のそれぞれがki−1回(i=1,2,‥N)発生したときに、各事象が発生する確率がqiである確率が与えられる。「ki」はハイパーパラメータ(パラメータのパラメータ)であり、整数であってもなくてもよい。
ベクトル^K=(k1,‥ki,‥kN)をパラメータとし、かつ、実数ベクトル^Q=(q1,‥qi,‥qN)を確率変数とするディリクレ分布の確率密度関数P(^Q,^K)は関係式(21)により定義される。
P(^Q,^K)=(1/Z)πi=1~Nqi ki-1 ..(21)。
ここで「Z」は多変量に拡張されたベータ関数であり、ガンマ関数Γを用いて関係式(22)により定義される。
Z=πi=1~NΓ(ki)/Γ(Σi=1~Nki) ..(22)。
ディリクレ分布により、試行回数が無限大である場合における各事象の発生の相対頻度qiの、試行回数が有限である場合のずれが表わされる。各事象が発生する確率qiの期待値E[qi]は関係式(23)により表わされる。当該確率qiの分散V[qi]は関係式(24)により表わされる。
E[qi]=kii=1~Nki ..(23)。
V[qi]=kij=1~N(exclude j)/{(Σi=1~Nki)2(1+Σi=1~Nki)} ..(24)。
関係式(201)〜(204)における係数S1〜S3のそれぞれは、表2に示されているように、第1〜第4サブタスクのそれぞれが実行されている確率の高低に応じて「1」又は「0」となるように定義されている。
「S1」は、ディリクレ分布における第1サブタスクの実行確率q1又は第3サブタスクの実行確率q3が最大になる場合には「1」となる一方、その他の場合は「0」となるように定義されている。「S2」は、ディリクレ分布における第2サブタスクの実行確率q2又は第4サブタスクの実行確率q4が最大になる場合には「1」となる一方、その他の場合は「0」となるように定義されている。「S3」は、ディリクレ分布における第3サブタスクの実行確率q3が最大になる場合には「1」となる一方、その他の場合は「0」となるように定義されている。
確率遷移モデルは、図6に示されているダイナミクスベイジアンネットワーク(DBN)により表現される。DBNによれば関係式(201)〜(207)が、各時刻kにおける状態変数を表わすノード(円)及び条件付き確率によりこれらをつなぐ矢印により表現されている。
関係式(201)〜(206)のそれぞれに対応する条件付き確率は、関係式(211)〜(216)のそれぞれにより表現される。
P(Pc(k+1)|Pc(k),δθ(k+1),δP(k+1),S(k+1))
=N(R(k){Pc(k)-Pp(k)}+Pp(k)+S2δP(k+1), ΣPc) ..(211)。
P(Pg(k+1)|Pg(k),δθ(k+1),δP(k+1),S(k+1))
=N(R(k){Pg(k)-Pp(k)}+Pp(k)+S2δP(k+1), ΣPg) ..(212)。
P(Pp(k+1)|Pp(k),δθ(k+1),δP(k+1),S(k+1))
=N((1-S3)Pp(k)+S3Pe(k)+S2δP(k+1),ΣPp) ..(213)。
P(θ(k+1)|θ(k),δθ(k+1))=N(θ(k)+S1δθ(k+1),Σθ) ..(214)。
P(Pe(k+1)|Pe(k))=N(Pe(k),ΣPe) ..(215)。
P(fx(k)|mg,μ,Pc(k),Pg(k),Pp(k),Pe(k))=N(μmg(xc-xg)/{xc-xp+μ(zc-zp)},Σfx),
P(fz(k)|mg,μ,Pc(k),Pg(k),Pp(k),Pe(k))=N(mg(xc-xg)/{xc-xp+μ(zc-zp)}-mg,Σfz) ..(216)。
関係式(211)〜(213)のそれぞれにおける状態変数ノードδPは、関係式(221)により表現される。関係式(214)における状態変数ノードδθは、関係式(222)により表現される。
P(δP(k))=N(0,e-6) ..(221)。
P(δθ(k))=N(0,Σβ) ..(222)。
第1演算処理要素11により、第1実施形態と同様にDBNにより表現される確率遷移モデルにしたがって複数の状態変数軌道が生成される。
例えば、ディリクレ分布により各サブタスクの実行確率(q1,q2,q3,q4)がt=t1→t2→t3→t4という時間遷移とともに(0.5,0.2,0.2,0.1)→(0.2,0.4,0.3,0.2)→(0.1,0.2,0.6,0.1)→(0.1,0.2,0.3,0.4)と変化する場合、係数(S1,S2,S3)は(1,0,0)→(0,1,0)→(1,0,1)→(0,1,0)と遷移する(表2参照)。また、各サブタスクの実行確率(q1,q2,q3,q4)が(0.5,0.2,0.2,0.1)→(0.2,0.4,0.3,0.2)→(0.1,0.2,0.3,0.4)→(0.1,0.2,0.6,0.1)と変化する場合、係数(S1,S2,S3)は(1,0,0)→(0,1,0)→(0,1,0)→(1,0,1)と遷移する。これらのようなさまざまな遷移態様のそれぞれについてノードが推定されることにより、複数の状態変数軌道が生成される。
第2演算処理要素12により、第1演算処理要素11により生成された複数の状態変数軌道のうち、確率遷移モデルの結合確率を最大化又は最適化する1つの状態変数軌道である目標状態変数軌道にしたがってオブジェクト2の状態が遷移するようにエージェント1の動作が制御される。これにより、エージェント1が図5(a)〜(d)に示されている第1〜第4サブタスクを選択的に実行する。
オブジェクト2の状態変数の値はエージェント1が有するセンサ群により測定され、当該測定値が目標状態変数軌道により表わされる目標値に一致するように、エージェント1を構成するアクチュエータの動作がフィードバック制御される。例えば、エージェント1がオブジェクト2に対して作用させる力Fは、エンドエフェクタに取り付けられている力センサ(6軸力センサなど)により測定される。力の作用点位置Pcは、エージェント1を構成する各関節の角度がエンコーダ等により構成されている角度センサの出力信号に基づき、当該エージェント1のキネマティクスモデルにしたがって測定される。
第1及び第2床面の段差部分の縁位置Peは、エージェント1が有する距離画像センサ等の物体検知用のセンサの出力信号に基づいて測定されてもよいし、行動制御システム10を構成するメモリにあらかじめ入力されていてもよい。
(計算例)
行動制御システム10の演算処理負荷軽減の観点から、第1サブタスクが実行された後、第2サブタスクが実行され、第2サブタスクが実行された後、第3サブタスクが実行され、第3サブタスクが実行された後、第4サブタスクが実行されるという規則にしたがって、オブジェクト2の状態変数を図5(d)に示されているゴール(サブゴール)Goalに到達させるための状態変数軌道が計算された。
演算処理負荷の軽減の観点から、N=4のディリクレ分布ではなく、N=2のディリクレ分布にしたがって、第1及び第2サブタスクが勘案された「第1確率遷移モデル」、第2及び第3サブタスクが勘案された「第2確率遷移モデル」並びに第3及び第4サブタスクが勘案された「第3確率遷移モデル」のそれぞれにしたがって第1〜第3目標状態変数軌道が計算された。
図7(a)には、第1目標状態変数軌道の生成過程で推定された第2サブタスクの実行確率q2の変化態様が示されている。すなわち、図7(a)には、第1サブタスク(roll)から第2サブタスク(slide)への切り替えを伴う複数の第1状態変数軌道のうち、第1確率遷移モデルの結合確率が最大又は最適になる1つの第1状態変数軌道の生成過程で推定された第2サブタスクの実行確率q2の変化態様が示されている。
最大確率(「○」参照)を基準として縦軸方向に存在する線分は、当該確率q2の確率分布の広がりを表わしている。当該確率q2が0.5未満の場合は第1サブタスクが実行される確率の方が高く、当該確率q2が0.5を超えている場合は第2サブタスクが実行される確率の方が高いことを意味している。図7(a)から、時刻k=8〜9の間で実行対象が第1サブタスクから第2サブタスクに切り替えられるような第1目標状態変数軌道が生成されることがわかる。
図7(b)には、第2目標状態変数軌道の生成過程で推定された第2サブタスクの実行確率q2の変化態様が示されている。すなわち、図7(b)には、第2サブタスク(slide)から第3サブタスク(hump)への切り替えを伴う複数の第2状態変数軌道のうち、第1確率遷移モデルの結合確率が最大又は最適になる1つの第2状態変数軌道の生成過程で推定された第2サブタスクの実行確率q2の変化態様が示されている。
当該確率q2が0.5を超えている場合は第2サブタスクが実行される確率の方が高く、当該確率q2が0.5未満である場合は第3サブタスクが実行される確率の方が高いことを意味している。図7(b)から、時刻k=8〜9の間で実行対象が第2サブタスクから第3サブタスクに切り替えられるような第2目標状態変数軌道が生成されることがわかる。
図7(c)には、第3目標状態変数軌道の生成過程で推定された第4サブタスクの実行確率q4の変化態様が示されている。すなわち、図7(c)には、第3サブタスク(hump)から第4サブタスク(push)への切り替えを伴う複数の第3状態変数軌道のうち、第1確率遷移モデルの結合確率が最大又は最適になる1つの第3状態変数軌道の生成過程で推定された第4サブタスクの実行確率q4の変化態様が示されている。
当該確率q4が0.5を超えている場合は第4サブタスクが実行される確率の方が高く、当該確率q4が0.5未満である場合は第3サブタスクが実行される確率の方が高いことを意味している。図7(c)から、時刻k=22〜23の間で実行対象が第3サブタスクから第4サブタスクに切り替えられるような第3目標状態変数軌道が生成されることがわかる。
そして、第2演算処理要素12により、第1、第2及び第3目標状態変数軌道の連続軌道としての目標状態変数軌道にしたがってオブジェクト2の状態が遷移するように、エージェント1の行動が制御される。これにより、エージェント1によりオブジェクト2に対して第1〜第4サブタスクを順に実行させ、オブジェクト2の状態を所望のゴールへ到達させることができる。
(作用効果)
前記構成の行動制御システム10によれば、ディリクレ分布により確率分布が表現されている複数のサブタスクのそれぞれの実行確率qiに応じて、オブジェクト2の状態変数の遷移態様が定まるように定義されている確率遷移モデル(図3及び図6参照)にしたがって、当該状態変数の時系列である複数の状態変数軌道が生成される(図2(a)(b)参照)。これにより、ディリクレ分布の時系列的な変化態様の相違に応じて、エージェント1により選択的に実行されるサブタスクのさまざまな変化態様が勘案された形で複数の状態変数軌道が生成される。
複数の状態変数軌道のうち、エージェント1がしたがう1つの状態変数軌道は、確率遷移モデルの結合確率を最大化又は最適化するものが目標状態変数軌道として生成される(図4(a)〜(c)及び図7(a)〜(c)参照)。目標状態変数軌道は前記のように確率変数モデルを基礎として生成されている。このため、オブジェクト2の状態を表わす状態変数の連続性が確保されるように、当該オブジェクト2との相互作用を伴うエージェント1の行動が制御されうる。その結果、各サブタスクの実行可能性が時系列的にエージェント1の行動の連続性を確保しながら、当該エージェント1に複数の異なるサブタスクを連続的に実行させることができる(図5(a)〜(d)参照)。
(本発明の他の実施形態)
第1演算処理要素11が、複数のサブタスクのそれぞれの実行確率に加えて、オブジェクト2の環境因子に応じて状態変数の遷移態様が定まるような確率遷移モデルであって、環境因子が異なる複数の確率遷移モデルのそれぞれにしたがって、複数の状態変数軌道を生成するように構成されている。第2演算処理要素12が、第1演算処理要素11により生成された複数の状態変数軌道のうち確率遷移モデル全体の結合確率を最大化又は最適化する1つの状態変数軌道の生成基礎となった1つの確率遷移モデルにおける環境因子を実際の環境因子として推定するように構成されている。
例えば、オブジェクト2が床面から受ける摩擦力fμ又は摩擦係数μ並びに垂直抗力fN及び床面姿勢(傾斜角度)のうち少なくとも1つが環境因子として推定される(表3参照)。
当該構成の行動制御システムによれば、不確定要素であるオブジェクト2と床面との摩擦係数μ等の環境因子が、目標状態変数軌道の生成結果に基づいて高精度で推定されうる。当該推定結果に基づき、以後の確率遷移モデルが選定又は構築されることにより、実際の環境因子に応じたオブジェクト2の状態が反映された形態の目標状態変数軌道が生成されうる。
1‥エージェント、2‥オブジェクト、10‥行動制御システム、11‥第1演算処理要素、12‥第2演算処理要素。

Claims (2)

  1. エージェントにオブジェクトを対象とする複数のサブタスクを選択的に実行させるように当該エージェントの行動を制御するシステムであって、
    前記オブジェクトの状態変数が確率変数として表現され、かつ、ディリクレ分布により確率分布が表現されている前記複数のサブタスクのそれぞれの実行確率に応じて当該状態変数の遷移態様が定まるような確率遷移モデルにしたがって、前記オブジェクトの状態変数の時系列を表わす複数の状態変数軌道を生成するように構成されている第1演算処理要素と、
    前記第1演算処理要素により生成された前記複数の状態変数軌道のうち、前記確率遷移モデル全体の結合確率を最大化又は最適化する1つの状態変数軌道である目標状態変数軌道にしたがって前記オブジェクトの状態が遷移するように、前記エージェントの動作を制御するように構成されている第2演算処理要素と、を備え
    前記第1演算処理要素が、前記複数のサブタスクのそれぞれの実行確率に加えて、前記オブジェクトの環境因子に応じて前記状態変数の遷移態様が定まるような確率遷移モデルであって、前記環境因子が異なる複数の確率遷移モデルのそれぞれにしたがって、前記複数の状態変数軌道を生成するように構成され、
    前記第2演算処理要素が、前記第1演算処理要素により生成された前記複数の状態変数軌道のうち、前記確率遷移モデル全体の結合確率を最大化又は最適化する1つの状態変数軌道の生成基礎となった1つの確率遷移モデルにおける環境因子を実際の環境因子として推定するように構成されていることを特徴とする行動制御システム。
  2. 請求項1記載の行動制御システムにおいて、
    前記第1演算処理要素が、前記複数のサブタスクのうち実行順位が第i位(i=1,2,‥)のサブタスク及び第i+1位のサブタスクのそれぞれの実行確率に応じて前記状態変数の遷移態様が定まるような第i確率遷移モデルにしたがって、前記オブジェクトの状態変数の時系列を表わす複数の第i状態変数軌道を生成するように構成され、
    前記第2演算処理要素が、前記第1演算処理要素により生成された前記複数の第i状態変数軌道のうち、前記第i確率遷移モデル全体の結合確率を最大化又は最適化する1つの第i状態変数軌道を第i目標状態変数軌道として生成するとともに、前記第i目標状態変数軌道の接続軌道を前記目標状態変数軌道として生成するように構成されていることを特徴とする行動制御システム。
JP2012140256A 2012-06-21 2012-06-21 行動制御システム Active JP5908350B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012140256A JP5908350B2 (ja) 2012-06-21 2012-06-21 行動制御システム
US13/774,380 US9014852B2 (en) 2012-06-21 2013-02-22 Behavior control system
DE102013203287.0A DE102013203287B4 (de) 2012-06-21 2013-02-27 Verhaltenssteuerungssystem

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012140256A JP5908350B2 (ja) 2012-06-21 2012-06-21 行動制御システム

Publications (2)

Publication Number Publication Date
JP2014004640A JP2014004640A (ja) 2014-01-16
JP5908350B2 true JP5908350B2 (ja) 2016-04-26

Family

ID=49713838

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012140256A Active JP5908350B2 (ja) 2012-06-21 2012-06-21 行動制御システム

Country Status (3)

Country Link
US (1) US9014852B2 (ja)
JP (1) JP5908350B2 (ja)
DE (1) DE102013203287B4 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5867737B2 (ja) * 2013-01-17 2016-02-24 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
US10898999B1 (en) * 2017-09-18 2021-01-26 X Development Llc Selective human-robot interaction
JP7207207B2 (ja) * 2019-07-09 2023-01-18 トヨタ自動車株式会社 演算装置、機械学習方法及び制御プログラム
DE102020103854B4 (de) 2020-02-14 2022-06-15 Franka Emika Gmbh Maschinelles Lernen einer erfolgreich abgeschlossenen Roboteranwendung
US20220305649A1 (en) * 2021-03-25 2022-09-29 Naver Corporation Reachable manifold and inverse mapping training for robots

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003090979A (ja) 2001-09-18 2003-03-28 Nikon Corp 接眼光学系および該光学系を備えた画像表示装置
JP3714276B2 (ja) 2002-04-25 2005-11-09 株式会社日立製作所 ディジタル信号の受信方法及び装置
JP2006285899A (ja) 2005-04-05 2006-10-19 Sony Corp 学習装置および学習方法、生成装置および生成方法、並びにプログラム
JP2007011571A (ja) * 2005-06-29 2007-01-18 Advanced Telecommunication Research Institute International 情報処理装置、およびプログラム
JP5141876B2 (ja) * 2007-09-12 2013-02-13 株式会社国際電気通信基礎技術研究所 軌道探索装置
US8290885B2 (en) 2008-03-13 2012-10-16 Sony Corporation Information processing apparatus, information processing method, and computer program
DE102008020380B4 (de) 2008-04-23 2010-04-08 Siemens Aktiengesellschaft Verfahren zum rechnergestützten Lernen einer Steuerung und/oder Regelung eines technischen Systems
JP5313562B2 (ja) 2008-06-27 2013-10-09 本田技研工業株式会社 行動制御システム
JP5329856B2 (ja) 2008-06-27 2013-10-30 本田技研工業株式会社 行動推定システム
EP2296062B1 (de) 2009-09-09 2021-06-23 Siemens Aktiengesellschaft Verfahren zum rechnergestützten Lernen einer Steuerung und/oder Regelung eines technischen Systems
JP5446788B2 (ja) * 2009-11-30 2014-03-19 コニカミノルタ株式会社 情報処理装置及びプログラム
JP5489965B2 (ja) 2009-12-24 2014-05-14 本田技研工業株式会社 行動制御システムおよびロボット
EP2363251A1 (en) 2010-03-01 2011-09-07 Honda Research Institute Europe GmbH Robot with Behavioral Sequences on the basis of learned Petri Net Representations
JP5552710B2 (ja) * 2010-11-25 2014-07-16 株式会社国際電気通信基礎技術研究所 ロボットの移動制御システム、ロボットの移動制御プログラムおよびロボットの移動制御方法

Also Published As

Publication number Publication date
US20130345865A1 (en) 2013-12-26
DE102013203287B4 (de) 2016-01-21
US9014852B2 (en) 2015-04-21
DE102013203287A1 (de) 2013-12-24
JP2014004640A (ja) 2014-01-16

Similar Documents

Publication Publication Date Title
JP5908350B2 (ja) 行動制御システム
Nguyen-Tuong et al. Model learning for robot control: a survey
Berenson Manipulation of deformable objects without modeling and simulating deformation
US11878415B2 (en) Tactile dexterity and control
Goury et al. Real-time simulation for control of soft robots with self-collisions using model order reduction for contact forces
Iacca et al. Memory-saving memetic computing for path-following mobile robots
US20210362331A1 (en) Skill templates for robotic demonstration learning
JP2009099082A (ja) 力学シミュレーション装置及び力学シミュレーション方法、並びにコンピュータ・プログラム
KR20220080080A (ko) 동적 계획 제어기
Decré et al. Extending the iTaSC constraint-based robot task specification framework to time-independent trajectories and user-configurable task horizons
US11904473B2 (en) Transformation mode switching for a real-time robotic control system
Mazare et al. Adaptive variable impedance control for a modular soft robot manipulator in configuration space
Bös et al. Iteratively learned and temporally scaled force control with application to robotic assembly in unstructured environments
Zanchettin et al. Robust constraint-based control of robot manipulators: An application to a visual aided grasping task
US20220375210A1 (en) Method for controlling a robotic device
WO2021231242A1 (en) Accelerating robotic planning for operating on deformable objects
Shirai et al. Robust pivoting manipulation using contact implicit bilevel optimization
WO2021236506A1 (en) Distributed robotic demonstration learning
US20210362329A1 (en) Integrating sensor streams for robotic demonstration learning
Han et al. DeepSnake: Sequence learning of joint torques using a gated recurrent neural network
Sun et al. A Fuzzy Cluster-based Framework for Robot-Environment Collision Reaction
Lahariya et al. Learning physics-informed simulation models for soft robotic manipulation: A case study with dielectric elastomer actuators
Yip et al. Performance analysis of a manipulation task in time-delayed teleoperation
Mohtat et al. Energy-consistent force feedback laws for virtual environments
JP7435815B2 (ja) 動作指令生成装置、動作指令生成方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151008

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160323

R150 Certificate of patent or registration of utility model

Ref document number: 5908350

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150