JP2021094677A - ロボット制御装置、ロボット制御方法、プログラム及び学習モデル - Google Patents

ロボット制御装置、ロボット制御方法、プログラム及び学習モデル Download PDF

Info

Publication number
JP2021094677A
JP2021094677A JP2019229324A JP2019229324A JP2021094677A JP 2021094677 A JP2021094677 A JP 2021094677A JP 2019229324 A JP2019229324 A JP 2019229324A JP 2019229324 A JP2019229324 A JP 2019229324A JP 2021094677 A JP2021094677 A JP 2021094677A
Authority
JP
Japan
Prior art keywords
learning model
reinforcement learning
work
robot
control means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019229324A
Other languages
English (en)
Inventor
岳洋 藤元
Takehiro Fujimoto
岳洋 藤元
美砂子 吉村
Misako Yoshimura
美砂子 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2019229324A priority Critical patent/JP2021094677A/ja
Priority to US17/106,393 priority patent/US20210187737A1/en
Priority to CN202011400614.0A priority patent/CN113001539A/zh
Publication of JP2021094677A publication Critical patent/JP2021094677A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1661Programme controls characterised by programming, planning systems for manipulators characterised by task planning, object-oriented languages
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1612Programme controls characterised by the hand, wrist, grip control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33056Reinforcement learning, agent acts, receives reward, emotion, action selective

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • Orthopedic Medicine & Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Manipulator (AREA)

Abstract

【課題】個々の工程を組み合わせた作業をロボットに実行させる場合に、工程を実行可能な手段の組み合わせを人手によらず定めることが可能なロボット制御装置を提供する。【解決手段】本実施形態に係るロボット制御装置は、複数の作業工程からなる所定の作業を1つ以上のロボットに実施させるロボット制御装置であって、複数の作業工程のうちの作業工程ごとに1つ以上のロボットの動作を制御する第1制御手段と、複数の作業工程のなかで第1制御手段を実行する組み合わせ及び順序を特定して、組み合わせ及び順序でそれぞれの第1制御手段を動作させる第2制御手段と、を有する。【選択図】図2

Description

本発明は、ロボット制御装置、ロボット制御方法、プログラム及び学習モデルに関する。
近年、ロボットが歩行したり特定の物体をつかむなどの複雑な作業を行うロボット制御に、例えばニューラルネットワークなどの機械学習技術を適用する技術が知られている(特許文献1)。歩行や把持は複雑であるがそれぞれ一つの作業と考えることができる一方で、人間の行う作業には、物体を把持したり移動したりする作業を組み合わせた複数の工程により一つの目的を実現するような作業が存在する。そして、複数の工程により一つの目的を実現するような複雑な作業をロボット制御において実現するための有効な技術が模索されている。
再表2004/033159号公報
複数の工程からなる作業をロボット制御により実現するために、人間が作業を予め分解し、各作業に特化したニューラルネットワークを人手で予め設定することで上記制御を実現する方法が考えられる。しかしながら、工程の数が多くなったり選択可能な処理の数が増大して組み合わせが複雑になると、人手により予め定めることが困難になる。
本発明は、上記課題に鑑みてなされ、その目的は、個々の工程を組み合わせた作業をロボットに実行させる場合に、工程を実行可能な手段の組み合わせを人手によらず定めることが可能な技術を提供することである。
本発明によれば、
複数の作業工程からなる所定の作業を1つ以上のロボットに実施させるロボット制御装置であって、
前記複数の作業工程のうちの作業工程ごとに前記1つ以上のロボットの動作を制御する第1制御手段と、
複数の作業工程のなかで前記第1制御手段を実行する組み合わせ及び順序を特定して、前記組み合わせ及び順序でそれぞれの前記第1制御手段を動作させる第2制御手段と、を有することを特徴とするロボット制御装置が提供される。
本発明によれば、個々の工程を組み合わせた作業をロボットに実行させる場合に、工程を実行可能な手段の組み合わせを人手によらず定めることが可能になる。
本発明の実施形態に係るロボット制御装置の機能構成例を示すブロック図 本実施形態に係るロボット制御処理のための構成例を説明する図 本実施形態に係るロボット制御処理のための単体の学習モデルの構成例を説明する図 本実施形態に係るロボット制御における作業工程の学習の例を説明する図 本実施形態に係る作業工程に対応する学習モデルの例を説明する図(1) 本実施形態に係る作業工程に対応する学習モデルの例を説明する図(2) 本実施形態に係る、学習段階におけるロボット制御処理の一連の動作を示すフローチャート 本実施形態に係る、学習段階における下位階層のモデルの制御動作を示すフローチャート 本実施形態に係る、学習済み段階におけるロボット制御処理の一連の動作を示すフローチャート
以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでするものでなく、また実施形態で説明されている特徴の組み合わせの全てが発明に必須のものとは限らない。実施形態で説明されている複数の特徴うち二つ以上の特徴が任意に組み合わされてもよい。また、同一若しくは同様の構成には同一の参照番号を付し、重複した説明は省略する。
<ロボット制御装置の構成>
次に、図1を参照して、本実施形態に係るロボット制御装置100の機能構成例について説明する。なお、以降の図を参照して説明する機能ブロックの各々は、統合されまたは分離されてもよく、また説明する機能が別のブロックで実現されてもよい。また、ハードウェアとして説明するものがソフトウェアで実現されてもよく、その逆であってもよい。
電源部101は、例えばリチウムイオンバッテリ等で構成されるバッテリを含み、ロボット制御装置100内の各部に電力を供給する。通信部102は、例えば通信用回路等を含む通信デバイスであり、例えばWiFi通信、或いはLTE−Advanced等や所謂5Gとして規格化された移動体通信を介して外部のサーバなどと通信する。例えば、外部のサーバから、後述するモデル情報に更新がある場合などに最新のモデル情報を取得してよい。
センサ部103は、ロボット制御装置100によって制御されるロボットアーム(不図示)のマニピュレータの動作や姿勢を計測する各種センサを含む。ロボットアームは、例えば、物体(オブジェクト)を把持するための複数の指と、把持したオブジェクトを振ったり移動させたするための多関節のアームとを含み、例えば、ロボット制御装置100と一体的に構成される。ロボットアームは、1つに限らず複数あってよい。本実施形態に係るロボットアームは、例えば、食材、調理道具、調味料などを把持し、振ったり、移動させることができる既知のロボットアームを用いることができる。
各種センサは、例えば、ロボットアームの各関節の角度、及び指やアームの加速度を計測するセンサを含む。そのほか、ロボットアームの姿勢を(複数の方向から)撮像する撮像センサと、ロボットアームが扱うオブジェクトの位置や状態を(複数の方向から)撮影する撮像センサとを含み、センサ部103は撮像した画像情報を出力する。
ロボットアーム駆動部104は、1つ以上のロボットアームのそれぞれのアームや指の動作を駆動させるマニピュレータを含む。ロボットアーム駆動部104は、1つ以上のロボットアームのそれぞれを独立して駆動することができる。本実施形態はロボットアーム(及びロボットアーム駆動部104とロボットアームに係るセンサ)がロボット制御装置100に含まれる場合を例に説明するが、ロボットアームがロボット制御装置100と別体で構成されてもよい。
記憶部105は、半導体メモリなどの不揮発性の大容量のストレージデバイスであり、センサ部103で収集されたセンサデータを一時的或いは永続的にに記憶する。また、記憶部105はモデル情報DB220を含み、後述する複数の強化学習モデルのそれぞれの学習モデルの情報を含む。学習モデルの情報は、例えば、学習モデルのプログラムコード、学習済みパラメータの情報、各強化学習モデルが位置付けられてる階層構造の情報などを含む。なお、本実施形態では、学習済みパラメータの情報は、ニューラルネットワークのニューロン間の重み付けパラメータの値を指す場合を例に説明する。しかし、他の機械学習モデルが用いられる場合にはその学習モデルに応じたパラメータの値が用いられてよい。
各強化学習モデルは、ロボットアームの動作を制御する強化学習モデルと、下位階層の複数の強化学習モデルの実行を制御する上位階層の強化学習モデルとを含む。下位階層の強化学習モデルは、その一つ一つが、ロボットアームがオブジェクトを把持して動かすような、例えば「卵をつかむ」、「卵の殻を割る」、「塩をふる」、「フライパンに油を注ぐ」などの1つ1つの作業をさせる。
制御部200は、例えば、CPU210、RAM211、ROM212を含み、ロボット制御装置100の各部の動作を制御する。また、制御部200は、センサ部103からのセンサデータや学習モデルの情報に基づいて、ロボット制御処理の学習段階の処理や学習済み段階の処理を実行する。制御部200は、CPU210がROM212に格納されたコンピュータプログラムを、RAM211に展開、実行することにより、制御部200内の各部の機能を発揮させる。
CPU210は、1つ以上のプロセッサを含む。RAM211は、例えばDRAM等を含み、CPU210のワークメモリとして機能する。ROM212は、不揮発性の記憶媒体で構成され、CPU210によって実行されるコンピュータプログラムや制御部200を動作させる際の設定値などを記憶する。なお、以下の実施形態では、CPU210がロボット動作制御部214の処理を実行する場合を例に説明するが、ロボット動作制御部214の処理は不図示の1つ以上の他のプロセッサ(例えばGPU)で実行されてもよい。
モデル情報取得部213は、記憶部105に記憶されている学習モデルの情報の中から、ロボット動作制御部214の動作に必要な、階層ごとの学習モデルの情報を取得して、ロボット動作制御部214に供給する。階層ごとの学習モデルの情報は、上位階層の強化学習モデルが学習された際に特定されて、記憶部105に記憶される。
ロボット動作制御部214は、例えば深層強化学習などの機械学習アルゴリズム(強化学習モデル)の演算を行って、ロボットアーム駆動部104に制御変数を出力することにより、ロボットアームの動作を制御する。また、ロボット動作制御部214は、階層構造を有する複数の強化学習アルゴリズムについて、例えば、上位階層の強化学習アルゴリズムを実行することにより、下位階層の複数の強化学習アルゴリズムを最適な組み合わせ及び順序で実行させる。これにより、ロボットアームに複数の工程からなる一連の作業を実行させる。ロボット動作制御部214は、学習段階の処理では、下位階層の強化学習アルゴリズムの組み合わせ及び実行順序を、試行錯誤を通して学習する。
<階層的に強化学習モデルを用いたロボット制御処理の概要>
次に、図2を参照して、階層的に強化学習モデルを用いたロボット制御処理の概要について説明する。
本ロボット制御処理では、上位の強化学習モデルが、下位の強化学習モデルの中から実行すべき強化学習モデルを選択し、実行する強化学習モデルを適切なタイミングで活性化しながらロボットアームの動作を制御する。
図2の例では、例えば、上位階層の強化学習モデル251を実行することにより、当該学習モデルより下位階層の1つ以上の強化学習モデル(例えば、強化学習モデル253)の実行を制御する構成を示している。
強化学習モデル251は、下位階層の強化学習モデル253に対して選択信号を提供することにより、複数の強化学習モデルを選択する。そして、下位階層の強化学習モデル253を活性化させ(すなわちロボットアームを動作させ)、この強化学習モデル253の実行が終了(すなわち非活性化)すると、別の強化学習モデル253を活性化する。このようにして、ロボットアームの1つの作業を実行させる下位の強化学習モデルを組み合わせて、複数の作業を含む一連のロボットアームの動作を制御する。
上位階層にある強化学習モデル251は、例えば、図4に示すような、下位階層の強化学習モデル253によって実行される作業の組み合わせと順序を制御する。例えば、強化学習モデル251は、複数の作業が含まれる「卵焼きを焼く」作業をロボットアームに実行させる強化学習モデルである。下位階層の強化学習モデルのそれぞれは、「卵を割る」作業401、「塩をふる」作業402、「フライパンに油を注ぐ」作業403、「フライパンに卵を注ぐ」作業404などの個々の作業をロボットアームに実行させる。
図4に示す例は、強化学習モデル251が「卵焼きを焼く」作業を強化学習を用いて学習する過程を示している。例えば、作業n回目では、(下位階層の強化学習モデルに)「卵を割る」作業401、「塩をふる」作業402、「フライパンに油を注ぐ」作業403、「フライパンに卵を注ぐ」作業404などを順番にロボットアームに実行させている。401〜404などの各作業では、下位階層の対応する強化学習モデルがロボットアームに対応する作業を行わせる。強化学習モデル251が実行させた複数の下位階層の一連の動作(エピソードともいう)が完了すると、報酬決定部252は、実行した結果として得られる環境の状態(実績値)と目標値との乖離に基づいて、強化学習アルゴリズムに与える報酬を出力する。
強化学習モデル251は、より上位階層の強化学習モデルから、卵焼きを焼く作業の目標値として、例えば、焼いた卵焼きの画像情報を取得している。目標値となる画像情報は、例えば予め撮影された画像であってよく、強化学習モデル251がモデル情報DB220から取得した画像を、環境に応じて明るさや色を補正してもよい。
報酬決定部252は強化学習モデル251に報酬を与えるモジュールであり、下位階層の強化学習モデルを制御した結果として得られた卵焼きの画像情報を実績値として取得する。報酬決定部252は、目的地と実績値との乖離に基づいて、強化学習モデル251に与える報酬を決定する。例えば、報酬決定部252は、目標値である卵焼きの画像と実績値である卵焼きの画像との相違(例えば、卵焼きの色、形、大きさなど)に基づいて、その乖離に応じた報酬を強化学習モデル251に入力する。
強化学習モデル251は、例えば、報酬決定部252から出力された報酬(目標値と実績値との乖離に基づく報酬)に基づいて、強化学習モデルで用いる方策のパラメータを修正する。そのうえで、作用n+1回目の作業では、「卵を割る」作業401の後に、「コショウをふる」作業405の作業を行うようにしている。また、「フライパンに油を注ぐ」作業403の後に、「待つ」作業406を実行し、そのうえで、「フライパンに卵を注ぐ」作業404を行うようにしている。このように、強化学習モデル251は、下位階層の強化学習モデルの組み合わせについて試行錯誤を行って、最適な作業工程を学習する。
図5には、上位階層の学習モデルと下位階層の学習モデルとの関係の例を示している。例えば、上位階層mの「卵を割る」作業401は、「卵をつかむ」作業501と、「卵の殻を割る」作業502と、「割った卵を容器に入れる」作業503などの下位階層(m−1)の強化学習モデルを動作させて実現される。図5には図示していないが、「塩をふる」作業402や「フライパンに油を注ぐ」作業403なども、下位階層にその作業を実行するためのそれぞれの強化学習モデルが関連付けられている。このように、上位階層mで用いられる作業401〜404等を実行するために、下位階層の各作業が実行される。例えば、下位階層m−1が最も下位の階層である場合、この強化学習モデルはロボットアームを制御するように構成されている。
強化学習モデルの階層関係は、例えば、図6に示すように、予め定められていてよく、モデル情報DBに、各強化学習モデルが位置付けられてる階層構造の情報として含まれてよい。例えば、上述の「卵をつかむ」作業501と、「卵の殻を割る」作業502と、「割った卵を容器に入れる」作業503などのための強化学習モデルは、「卵を割る」作業401のための強化学習モデルより下位に位置づけられる。また、階層m+1の上位階層には、「卵を割る」作業を含んだより工程の長い作業(例えば、卵焼きを作る作業)のためのモデルが位置づけられている。例えば、「卵焼きを作る(厚み大)」601、「卵焼きを作る(厚み小)」602、及び「卵入りのスープを作る」603のための各モデルは、「卵を割る」作業401のためのモデルを含む、より上位階層のモデルである。
例えば、ユーザが、「卵焼きを作る(厚み大)」ための作業をロボット制御装置100に指示した場合、「卵焼きを作る(厚み大)」作業601に係る強化学習モデルは、階層mにおける複数の強化学習モデルを選択する。そして、学習済みの組み合わせ及び順序に基づいて、階層mの選択された強化学習モデルを順に活性化・不活性化して、ロボットアームに「卵を割る」作業401や「塩をふる」作業402などを実行させる。「卵を割る」作業401の強化学習モデルは、活性化されると、更に下位階層のモデルにロボットアームを制御させて、卵をつかむ、卵の殻を割る、などの一連の動作を行わせる。
モデル情報DB220に格納される各階層の強化学習モデルの情報は、例えば、強化学習による学習を終えた学習済みの強化学習モデルとしてプログラムコードや学習済みのパラメータを含む。強化学習モデルがロボットアームを用いた実環境において学習済みとなっていてもよいし、外部にある情報処理サーバにおいて、シュミレーションによって学習済み状態となっていてもよい。学習済みの下位階層の学習モデルがモデル情報DBに格納されていれば、上位階層の強化学習モデルは、学習済みの下位階層のモデルを用いて学習を進めることができる。このため、全階層のモデルを学習させる場合と比較して大幅に学習効率が向上する。それぞれの強化学習モデルは、学習の際に探索と活用を繰り返して、使用する下位階層の強化学習モデルを自律的に特定することができるため、人手を用いて下位階層のモデルを設定する必要がない。
再び図2を参照すると、下位階層の強化学習モデル253は、ロボットアーム駆動部107に制御変数を出力して、例えばロボットアームがオブジェクトを把持したり移動させたりするように制御する。すなわち、図5に示した「卵をつかむ」作業501の例では、強化学習モデル253は、(ロボットアーム駆動部107により)ロボットアームを制御してロボットアームが卵をつかむように制御する。
ロボットアームが動作すると、センサ部103は、関節角や加速度、或いはロボットアームの姿勢を撮影した画像、オブジェクトの姿勢(例えば卵)を撮影した画像などを取得して、環境からのフィードバックを取得する。また、後述する1エピソード分の制御を行ったタイミングで環境から取得するフィードバックは実績値として報酬決定部254における報酬の算出に用いられる。
更に、図3を参照して、強化学習モデル253のより詳細な構成例を説明する。なお、出力の形式(すなわち出力に係るニューラルネットワークの構成)は上位階層の強化学習モデルの出力の形式と異なり得るものの、当該強化学習モデル253に入力される入力信号や、出力層以外のニューラルネットワークの構成は同様であってよい。
本実施形態に係る強化学習モデル253は、上位階層の強化学習モデル251から選択信号304によって選択されると、記憶部105のモデル情報DBから読み出される。そして、強化学習モデル253は、上位階層の強化学習モデル251からの使用待ち状態、すなわちインアクティブ(不活性状態)となる。
また強化学習モデル253は、上位階層の強化学習モデル251からの活性化フラグが1である活性化信号が入力されている間には、アクティブ(活性状態)となってニューラルネットワークによる演算や情報の出力を行う。再び活性化フラグが0になると、その間はインアクティブ(不活性状態)となり、ニューラルネットワークの演算を行ったり、出力情報を出力することはしない。
強化学習モデル253は、更に、上位階層の強化学習モデル251から、目標値305を入力として取得する。上述したように目標値305は、例えば、対応する強化学習モデルを実行した際に得るべき目標値を表す画像情報である。
強化学習モデル253は、目標値305と、センサデータ(姿勢情報)306と、センサデータ(オブジェクト撮影画像)307とを入力し、ニューラルネットワーク310及びニューラルネットワーク301とを用いた演算を行う。強化学習モデル253が直接的にロボットアーム駆動部107を制御するモデルである場合、ニューラルネットワークの演算結果は、当該ロボットアーム駆動部107を制御するための制御変数を出力する。一方、強化学習モデル253がロボットアーム駆動部107を直接的に制御しないモデルである場合、下位階層のモデルを制御するための選択信号と活性化信号と目標値とを出力する。
ニューラルネットワーク301は、入力に応じて強化学習モデルの方策を出力するニューラルネットワークである。一方、ニューラルネットワーク310は、例えばCNN(Convolutional Neural Network)などのネットワーク構造を有する。例えば、入力画像に畳み込み処理とプーリング処理を段階的に施して、画像情報の優位な特徴量を抽出し、抽出した特徴量をニューラルネットワーク301に入力する。
センサデータ306及び307は、強化学習における環境の状態(s)に相当し、制御変数(或いは、選択信号、活性化信号及び目標値)は、環境に対する行動(a)に相当する。また、行動(a)がロボットアーム駆動部107により実行されると、センサ部103は、時刻t+1におけるセンサデータを取得して、制御部200に出力する。強化学習では、この新たなセンサデータは、環境における状態(st+1)に相当する。
学習段階では、強化学習モデル253は、1エピソードごと(強化学習モデル253が目的を果たすための一連の動作をいう。例えば「卵をつかむ」など)に、上述の実績値と目標値との乖離から得られる報酬を入力する。そして、入力した報酬に応じて、例えば、ニューラルネットワーク301を構成するニューロンの重み付けパラメータをバックプロパゲーションにより変更する。
<学習段階におけるロボット制御処理に係る一連の動作>
次に、ロボット制御装置100におけるロボット制御処理の一連の動作について、図7を参照して説明する。本処理は、ある階層の1つの強化学習モデルの学習段階の処理を示している。なお、モデル情報取得部213及びロボット動作制御部214などの制御部200内の構成による処理は、CPU210がROM212に格納されたプログラムをRAM211に展開、実行することにより実現される。また、本実施形態の例では、本処理の対象である強化学習モデルの階層より下位階層の動作は、学習済みの強化学習モデルによって実行されるものとする。この場合、下位階層の強化学習モデルにおいて試行錯誤を含む学習を行う必要がないため、上位階層のモデルの学習を効率的かつ高速に行うことができる。
S701において、ロボット動作制御部214は、対象となる処理が最下層の強化学習モデルによる処理であるかを判定する。ロボット動作制御部214は、モデル情報取得部213が取得したモデル情報DBの階層構造の情報に基づいて、対象となる処理が最下層の強化学習モデルによる処理であると判定した場合、処理をS703に進める。最下層の強化学習モデルは、ロボットアームを直接制御するための、最もプリミティブな強化学習モデルであり、下階層に他の強化学習モデルを有しない。一方、ロボット動作制御部214は、対象となる処理が最下層の強化学習モデルによる処理でないと判定した場合、処理をS702に進める。
S702において、ロボット動作制御部214は、現時点の方策に基づいて、下位階層の強化学習モデルに対する活性化信号等を出力(すなわち行動aに相当)し、下位階層の強化学習モデルの動作を制御する。なお、下位階層の強化学習モデルの動作を制御する処理の詳細については、図8を参照して後述する。一方、S703では、ロボット動作制御部214は、最下層の強化学習モデルによる処理であるため、現時点の方策に基づいて、ロボットアームに対する制御変数を出力(すなわち行動aに相当)する。
S704において、ロボット動作制御部214は、1エピソードの制御を終了したかを判定する。例えば、「卵を割る」作業401であれば、1エピソードは、「卵をつかむ」作業501から、例えば「卵の殻を捨てる」作業504までの作業が終了した場合に、1エピソードの制御が終了したと判定する。すなわち、ロボット動作制御部214は、選択された強化学習モデルによる全ての動作が終了した場合、1エピソードの制御が終了したと判定する。ロボット動作制御部214は、1エピソードの制御が終了していないと判定した場合、エピソードの制御を終了させるまで処理を繰り返すため、S701に戻る。一方、1エピソードの制御が終了したと判定した場合、処理をS705に進める。
S705において、ロボット動作制御部214は、所定のエポック数の制御が終了したかを判定する。所定のエポック数は、1エピソードの制御を何回繰り返すかを定めたハイパーパラメータである。所定のエポック数は、実験等によって定められる、十分にニューラルネットワークの重みパラメータが最適化された値に収束する回数であって且つ過学習を起こさない程度の適切な値である。ロボット動作制御部214は、予め定められたエポック数の制御を繰り返したと判定した場合、学習段階の処理は終了したと判定することができるため、本一連の処理を終了する。一方、所定のエポック数の制御が終了していないと判定した場合、処理をS706に進める。
S706において、ロボット動作制御部214の報酬決定部252(又は報酬決定部254)は、センサ部103から出力されるセンサデータに基づいて、エピソード終了時(時刻t+x)における目標値との差を取得する。上述したように、報酬決定部252又は254は、目標値として与えられている画像情報と、センサ部103から取得されるオブジェクト及びロボットアームの姿勢を撮影した画像情報とを比較する。このとき、報酬決定部は、単に画像情報を比較だけでなく、画像内のオブジェクトの種類、姿勢、色、大きさを認識したうえで、目標値と比較してもよい。
S707において、報酬決定部252(又は報酬決定部254)は、センサデータと目標値との差に基づいて、報酬rt+xを算出する。報酬は、例えば、時刻t+xのセンサデータ(実績値)と目標値との相違が小さくなるほど報酬が高くなるように設定することができる。目標値と実績値の差が小さくなるようにする報酬の決定方法であれば任意の方法を用いることができ、公知の方法であってよい。
S708において、ロボット動作制御部214は、強化学習モデルにおいて用いられる方策に係るニューラルネットワーク(例えばニューラルネットワーク301)の重み付けパラメータを、報酬を最大化するように変更する。ロボット動作制御部214は、ニューラルネットワークの重み付けパラメータを変更すると、処理をS701に戻す。このように、図7に示すロボット制御処理では、本実施形態に係る単一の強化学習モデルが、学習段階において目標値と実績値との相違に基づいて学習を進めることができる。
<下位階層の強化学習モデルの制御処理に係る一連の動作>
次に、上記S702に相当する、下位階層の強化学習モデルの制御処理の詳細について、図8を参照して説明する。なお、本処理は、図7に示した処理と同様、制御部200がプログラムを実行することによって実現される。また、本処理は、階層nより上の階層の強化学習モデルを学習させる処理である。
S801において、ロボット動作制御部214は、モデル情報DB220の階層構造の情報を用いて、処理対象の強化学習モデル(階層n)に対する下位階層(階層n−1)の強化学習モデルのデータを取得する。
S802において、ロボット動作制御部214は、上位(階層n)の強化学習モデルが、下位(階層n−1)の強化学習モデルの組み合わせを学習する。すなわち、本ステップの処理は、図4のおいて例示した作業工程の組み合わせを変更して新たな作業工程の組み合わせにおいて制御処理を実行することに相当する。
S803において、ロボット動作制御部214は、同階層である階層nに他の未処理の強化学習モデルが存在するかを判定する。未処理の強化学習モデルとは、例えば、図5に示した例において、S802で「卵を割る」作業401に係る強化学習モデルを制御した場合、行動を出力していない他の強化学習モデル(例えば「塩をふる」作業402に対応)が存在する場合を指す。S803において、ロボット動作制御部214は、未処理の強化学習モデルが存在する場合、処理をS805に進める。一方、ロボット動作制御部214は、同階層に他の未処理の強化学習モデルが存在しないと判定した場合、処理をS804に進める。
S804において、ロボット動作制御部214は、更に上位(階層n+1)の強化学習モデルが存在するかを判定する。ロボット動作制御部214は、モデル情報DB220の階層構造の情報を用いて、更に上位の強化学習モデルが存在するかを判定し、あると判定した場合には、処理をS806に進める。一方、更に上位に強化学習モデルがないと判定した場合、最上位の階層の最後の強化学習モデルの制御を実行したものとして、本一連の処理を終了する(すなわち呼び出し元に戻る)。
S805において、ロボット動作制御部214は、(上位階層の強化学習モデルにより)階層nの他の強化学習モデルを活性化させて、活性化された強化学習モデルについて再びS801から処理を繰り返す。
S806において、ロボット動作制御部214は、更に上位(階層n+1)の強化学習モデルを活性化させて、活性化された強化学習モデルについて再びS801から処理を繰り返す。
このように、下位階層の強化学習モデルの組み合わせを学習しながら、より上位階層の強化学習モデルを学習対象とすることで、階層ごとに強化学習モデルの学習を進めることができる。
<学習済みの強化学習モデルの制御処理に係る一連の動作>
次に、学習済みの強化学習モデルの制御処理に係る一連の動作について、図9を参照して説明する。なお、本処理は、全ての強化学習モデルが学習済みの段階であり、ある階層の1つの強化学習モデルに対して、下位階層のいかなる強化学習モデルがどの組み合わせでどの順序で用いられるかが学習された(すなわち環境に対して最適化された)状態である。また、本処理では、最上位の階層に位置する強化学習モデルをユーザが選択して、作業開始指示が行われた場合に開始される。例えば、上述の例では、階層m+1における「卵焼きを作る」作業601がユーザによって選択され、作業の開始指示が与えられた場合が対応する。
なお、図7において説明した学習段階の処理は、学習済みの段階では実行不要であるため、階層状態の強化学習モデルの制御処理に係る部分について説明する。また、図9に示す処理は、他の処理と同様、制御部200がプログラムをRAM211に展開、実行することにより実現される。
S901において、ロボット動作制御部214は、上位(階層n)の強化学習モデルが、下位(階層n−1)の強化学習モデルの学習済みの組み合わせを選択する。ロボット動作制御部214は、例えば、モデル情報取得部213を介してモデル情報DB220に格納された階層構造の情報を参照し、ある強化学習モデルの動作に関連付けられている下位の強化学習モデルの組み合わせを取得する。
S902において、ロボット動作制御部214は、上位(階層n)の強化学習モデルの処理を実行して、関連付けられている下位の強化学習モデルを順に(再帰的に)実行させる。更に、S903において、ロボット動作制御部214は、処理対象の強化学習モデルに関連付けられている階層n−1以下の全ての強化学習モデルが実行済みであるかを判定する。ロボット動作制御部214は、関連付けられている階層n−1以下の全ての強化学習モデルが実行済みであると判定した場合、本処理を終了する。一方、関連付けられている階層n−1以下の全ての強化学習モデルが実行済みではないと判定した場合、全てのモデルの実行を完了するまでS902の処理を繰り返すため、処理をS902に戻す。
以上説明したように、本実施形態では、複数の作業工程からなる所定の作業を1つ以上のロボットに実施させるロボット制御装置100において、作業を行うようにロボットアームを制御する強化学習モデルを階層化するようにした。また、上位階層に置かれた強化学習モデルが下位階層に置かれる複数の強化学習モデルをどの組み合わせでどの順序で実行するかを学習して特定し、その組み合わせを制御するようにした。このようにすることで、個々の工程を組み合わせた作業をロボットに実行させる場合に、工程を実行可能な手段の組み合わせを人手によらず定めることが可能になる。
また、上位階層の強化学習モデルが複数の下位階層の強化学習モデルの組み合わせを制御する構成により、新たな上位階層のモデルを、ユーザが容易に開発可能になる。また、下位階層の強化学習モデルが学習済みであれば、上位階層の強化学習モデルを学習させる際に下位階層のモデルを再度学習させる必要がないため、効率的に学習を進めることができる。また、多様な下位階層の強化学習モデルのなかから必要なモデルを任意に選択して上位階層の作業を実現することができるため、ニッチなニーズを含む多様にニーズに対応した強化学習モデルを生成することが可能になる。
なお、上述の実施形態では、ロボットアームがロボット制御装置100に含まれる形態を例に説明した。しかし、ロボット制御装置100がロボットアームと別体として構成され、ロボット制御装置が情報処理サーバとして遠隔からロボットアームを制御するようにしてもよい。この場合、センサ部103とロボットアーム駆動部104はロボット制御装置の外部に配置される。サーバとして動作するロボット制御装置は、センサ部からのセンサデータをネットワークを介して受信する。そして、ロボット動作制御部214による制御変数がネットワークを介してロボットアームに送信される。
また、上述の実施形態では、卵を用いた料理に必要な複数の工程を、ロボットアームを制御して実現する場合を例に説明したが、本発明は上述の例に限定されない。他の材料を用いた料理に必要な工程をロボットアームを制御して実現することができるのは勿論、他の道具を用いた作業に必要な複数の工程をロボットアームを制御して実現することもできる。
例えば、サイズや形状の異なる工具を用いて、ボルトを締めたり、ボルトからナットを外したりする場合にも本発明を適用することができる。このような複数の工程の作業を行う場合、例えば、ボルトやナットのサイズや形状に応じた工具を把持するそれぞれ異なる強化学習モデル、把持した工具によってボルト或いはナットを締める、或いは緩める作業を行う強化学習モデルなどを階層的に組み合わせ、その活性を制御することができる。
<実施形態のまとめ>
1.上記実施形態のロボット制御装置(例えば、100)は、
複数の作業工程からなる所定の作業を1つ以上のロボットに実施させるロボット制御装置であって、
複数の作業工程のうちの作業工程ごとに1つ以上のロボットの動作を制御する第1制御手段(例えば、214、253)と、
複数の作業工程のなかで第1制御手段を実行する組み合わせ及び順序を特定して、組み合わせ及び順序でそれぞれの第1制御手段を動作させる第2制御手段(例えば、214、251)と、を有する。
この実施形態によれば、個々の工程を組み合わせた作業をロボットに実行させる場合に、工程を実行可能な手段の組み合わせを人手によらず定めることが可能になる。
2.上記実施形態では、
複数の作業工程のなかで複数の第2制御手段(例えば、251)を実行する組み合わせ及び順序を特定して、特定した第2制御手段を実行する組み合わせ及び順序でそれぞれの第2制御手段を動作させる第3制御手段(例えば、251)を更に有する。
この実施形態によれば、第2制御手段を更に制御する第3制御手を備えるように構成することで、階層的に制御手段を構成することができ、多様な制御手段を実現することが可能になる。
3.上記実施形態では、
第1制御手段と第2制御手段とは、強化学習を用いた学習モデル(例えば、253及び251)により構成される。
この実施形態によれば、モデルを学習させるための教師データを十分に用意することができない作業であっても、学習モデルにおいて試行錯誤を行って学習を進めることができる。
4.上記実施形態では、
第2制御手段が、第1制御手段を実行する組み合わせ及び順序を学習する際に、予め学習された学習済みの第1制御手段を用いる。
この実施形態によれば、上位階層の学習モデルを学習させる際に、下位階層の学習モデルには学習済みのモデルを使用することができるため、学習を効率的に行うことができ、全てのモデルの学習を同時に行わないため高精度な学習を行うことが可能になる。
5.上記実施形態では、
第2制御手段は、第1制御手段を実行する組み合わせ及び順序を、強化学習を用いた学習モデルから複数の第1制御手段のそれぞれを活性化する活性化信号を出力することにより制御する。
この実施形態によれば、上位階層の学習モデルが、下位階層のそれぞれの学習モデルによる作業を単純な方法で順次切り替えて動作させることが可能になる。
発明は上記の実施形態に制限されるものではなく、発明の要旨の範囲内で、種々の変形・変更が可能である。
103…センサ部、104…ロボットアーム駆動部、200…制御部、214…ロボット動作制御部、220…モデル情報DB

Claims (8)

  1. 複数の作業工程からなる所定の作業を1つ以上のロボットに実施させるロボット制御装置であって、
    前記複数の作業工程のうちの作業工程ごとに前記1つ以上のロボットの動作を制御する第1制御手段と、
    複数の作業工程のなかで前記第1制御手段を実行する組み合わせ及び順序を特定して、前記組み合わせ及び順序でそれぞれの前記第1制御手段を動作させる第2制御手段と、を有することを特徴とするロボット制御装置。
  2. 複数の作業工程のなかで複数の前記第2制御手段を実行する組み合わせ及び順序を特定して、特定した前記第2制御手段を実行する組み合わせ及び順序でそれぞれの前記第2制御手段を動作させる第3制御手段を更に有する、ことを特徴とする請求項1に記載のロボット制御装置。
  3. 前記第1制御手段と前記第2制御手段とは、強化学習を用いた学習モデルにより構成される、ことを特徴とする請求項1または2に記載のロボット制御装置。
  4. 前記第2制御手段が、前記第1制御手段を実行する組み合わせ及び順序を学習する際に、予め学習された学習済みの前記第1制御手段を用いる、ことを特徴とする請求項3に記載のロボット制御装置。
  5. 前記第2制御手段は、前記第1制御手段を実行する前記組み合わせ及び順序を、前記強化学習を用いた学習モデルから複数の前記第1制御手段のそれぞれを活性化する活性化信号を出力することにより制御する、ことを特徴とする請求項3または4に記載のロボット制御装置。
  6. ロボット制御装置によって実行される、複数の作業工程からなる所定の作業を1つ以上のロボットに実施させるロボット制御方法であって、
    第1制御手段により、前記複数の作業工程のうちの作業工程ごとに前記1つ以上のロボットの動作を制御する第1制御工程と、
    第2制御手段により、複数の作業工程のなかで前記第1制御手段を実行する組み合わせ及び順序を特定して、前記組み合わせ及び順序でそれぞれの前記第1制御手段を動作させる第2制御工程と、を有することを特徴とするロボット制御方法。
  7. コンピュータを、ロボット制御装置の各手段として機能させるためのプログラムであって、
    前記ロボット制御装置は、複数の作業工程からなる所定の作業を1つ以上のロボットに実施させるロボット制御装置であって、
    前記複数の作業工程のうちの作業工程ごとに前記1つ以上のロボットの動作を制御する第1制御手段と、
    複数の作業工程のなかで前記第1制御手段を実行する組み合わせ及び順序を特定して、前記組み合わせ及び順序でそれぞれの前記第1制御手段を動作させる第2制御手段と、を有する、ことを特徴とするプログラム。
  8. 複数の作業工程からなる所定の作業を1つ以上のロボットに実施させるロボット制御装置において実行される学習モデルであって、
    前記複数の作業工程のうちの作業工程ごとに前記1つ以上のロボットの動作を制御する第1学習モデルと、
    複数の作業工程のなかで前記第1学習モデルを実行する組み合わせ及び順序を学習により特定して、前記組み合わせ及び順序でそれぞれの前記第1学習モデルを動作させる第2学習モデルと、を有することを特徴とする学習モデル。
JP2019229324A 2019-12-19 2019-12-19 ロボット制御装置、ロボット制御方法、プログラム及び学習モデル Pending JP2021094677A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019229324A JP2021094677A (ja) 2019-12-19 2019-12-19 ロボット制御装置、ロボット制御方法、プログラム及び学習モデル
US17/106,393 US20210187737A1 (en) 2019-12-19 2020-11-30 Robot control apparatus, robot control method, and non-transitory computer-readable storage medium for causing one or more robots to perform a predetermined task formed by a plurality of task processes
CN202011400614.0A CN113001539A (zh) 2019-12-19 2020-12-02 机器人控制装置、机器人控制方法以及记录介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019229324A JP2021094677A (ja) 2019-12-19 2019-12-19 ロボット制御装置、ロボット制御方法、プログラム及び学習モデル

Publications (1)

Publication Number Publication Date
JP2021094677A true JP2021094677A (ja) 2021-06-24

Family

ID=76383189

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019229324A Pending JP2021094677A (ja) 2019-12-19 2019-12-19 ロボット制御装置、ロボット制御方法、プログラム及び学習モデル

Country Status (3)

Country Link
US (1) US20210187737A1 (ja)
JP (1) JP2021094677A (ja)
CN (1) CN113001539A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022014485A1 (ja) * 2020-07-14 2022-01-20 国立大学法人筑波大学 情報処理装置、方法、及びプログラム
JP7545534B2 (ja) 2022-07-20 2024-09-04 株式会社日立製作所 自然言語およびビジョンデータを使用して制御ポリシーを学習する報酬生成方法、その命令を格納する非一時的コンピュータ可読媒体、及びそのシステム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7463777B2 (ja) * 2020-03-13 2024-04-09 オムロン株式会社 制御装置、学習装置、ロボットシステム、および方法
US11992945B2 (en) * 2020-11-10 2024-05-28 Google Llc System and methods for training robot policies in the real world
US20210107152A1 (en) * 2020-12-22 2021-04-15 Intel Corporation Autonomous machine collaboration

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10124130A (ja) * 1996-10-15 1998-05-15 Ricoh Co Ltd 組立装置
JP2004209599A (ja) * 2002-12-27 2004-07-29 Sony Corp ロボット装置、ロボット装置の行動学習方法、ロボット装置の行動生成方法
JP2009066692A (ja) * 2007-09-12 2009-04-02 Advanced Telecommunication Research Institute International 軌道探索装置
JP2017536247A (ja) * 2014-09-02 2017-12-07 エムビーエル リミテッド 電子小規模操作ライブラリを用いて計装環境内でドメイン特定アプリケーションを実行するためのロボット操作方法及びシステム
WO2018225862A1 (ja) * 2017-06-09 2018-12-13 川崎重工業株式会社 動作予測システム及び動作予測方法
WO2019004481A1 (ja) * 2017-06-27 2019-01-03 正好 石井 情報処理装置、マニピュレータ制御システム、及び自然言語処理システム。
JP2019155554A (ja) * 2018-03-14 2019-09-19 オムロン株式会社 ロボットの制御装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4377744B2 (ja) * 2004-05-13 2009-12-02 本田技研工業株式会社 ロボット制御装置
JP5768829B2 (ja) * 2013-03-15 2015-08-26 株式会社安川電機 ロボットシステム、ロボット制御方法及び被加工物の製造方法
JP5862611B2 (ja) * 2013-04-02 2016-02-16 トヨタ自動車株式会社 作業変更装置、作業変更方法、及び作業変更プログラム
CN104802174B (zh) * 2013-10-10 2016-09-07 精工爱普生株式会社 机器人控制系统、机器人、程序以及机器人控制方法
JP6114421B1 (ja) * 2016-02-19 2017-04-12 ファナック株式会社 複数の産業機械の作業分担を学習する機械学習装置,産業機械セル,製造システムおよび機械学習方法
CN108115678B (zh) * 2016-11-28 2020-10-23 深圳光启合众科技有限公司 机器人及其动作控制方法和装置
US10792810B1 (en) * 2017-12-14 2020-10-06 Amazon Technologies, Inc. Artificial intelligence system for learning robotic control policies
EP3590664B1 (en) * 2018-07-02 2024-09-04 Tata Consultancy Services Limited Method and system for hierarchical decomposition of tasks and action planning in a robotic network
US11345030B2 (en) * 2019-05-28 2022-05-31 Intel Corporation Methods and apparatus for complex assembly via autonomous robots using reinforcement learning action primitives
EP3753684B1 (en) * 2019-06-21 2022-08-10 Robert Bosch GmbH Method and system for robot manipulation planning
CN110561418B (zh) * 2019-08-06 2022-09-13 珠海格力智能装备有限公司 机器人控制方法、装置、存储介质、控制器及控制系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10124130A (ja) * 1996-10-15 1998-05-15 Ricoh Co Ltd 組立装置
JP2004209599A (ja) * 2002-12-27 2004-07-29 Sony Corp ロボット装置、ロボット装置の行動学習方法、ロボット装置の行動生成方法
JP2009066692A (ja) * 2007-09-12 2009-04-02 Advanced Telecommunication Research Institute International 軌道探索装置
JP2017536247A (ja) * 2014-09-02 2017-12-07 エムビーエル リミテッド 電子小規模操作ライブラリを用いて計装環境内でドメイン特定アプリケーションを実行するためのロボット操作方法及びシステム
WO2018225862A1 (ja) * 2017-06-09 2018-12-13 川崎重工業株式会社 動作予測システム及び動作予測方法
WO2019004481A1 (ja) * 2017-06-27 2019-01-03 正好 石井 情報処理装置、マニピュレータ制御システム、及び自然言語処理システム。
JP2019155554A (ja) * 2018-03-14 2019-09-19 オムロン株式会社 ロボットの制御装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022014485A1 (ja) * 2020-07-14 2022-01-20 国立大学法人筑波大学 情報処理装置、方法、及びプログラム
JP7545534B2 (ja) 2022-07-20 2024-09-04 株式会社日立製作所 自然言語およびビジョンデータを使用して制御ポリシーを学習する報酬生成方法、その命令を格納する非一時的コンピュータ可読媒体、及びそのシステム

Also Published As

Publication number Publication date
US20210187737A1 (en) 2021-06-24
CN113001539A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
JP2021094677A (ja) ロボット制御装置、ロボット制御方法、プログラム及び学習モデル
US11161241B2 (en) Apparatus and methods for online training of robots
US11224971B2 (en) Predictive robotic controller apparatus and methods
Zhu et al. Reinforcement and imitation learning for diverse visuomotor skills
WO2020154542A1 (en) Efficient adaption of robot control policy for new task using meta-learning based on meta-imitation learning and meta-reinforcement learning
CN114952828B (zh) 一种基于深度强化学习的机械臂运动规划方法和系统
US8996177B2 (en) Robotic training apparatus and methods
JP2002239960A (ja) ロボット装置の動作制御方法、プログラム、記録媒体及びロボット装置
US20150127150A1 (en) Apparatus and methods for haptic training of robots
US20150005937A1 (en) Action selection apparatus and methods
US11759947B2 (en) Method for controlling a robot device and robot device controller
JP7458741B2 (ja) ロボット制御装置及びその制御方法及びプログラム
Bekey Biologically inspired control of autonomous robots
JP2017211913A (ja) 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム
Bahl et al. Hierarchical neural dynamic policies
Valero-Cuevas et al. On neuromechanical approaches for the study of biological and robotic grasp and manipulation
Seepanomwan et al. Intrinsically motivated discovered outcomes boost user's goals achievement in a humanoid robot
WO2020071174A1 (ja) 学習装置、制御装置、学習方法、及び学習プログラム
KR20230119159A (ko) 파지 생성을 위한 픽셀단위 예측
Bauer et al. Design and control of foam hands for dexterous manipulation
CN114080304A (zh) 控制装置、控制方法及控制程序
Blom et al. Investigation of a bipedal platform for rapid acceleration and braking manoeuvres
US20230234232A1 (en) Autonomous control system, autonomous control method, and storage medium
Auerbach et al. How robot morphology and training order affect the learning of multiple behaviors
JP2002239952A (ja) ロボット装置、ロボット装置の行動制御方法、プログラム及び記録媒体

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20210103

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210125

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220916

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230414

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230707