JP2022041294A

JP2022041294A - 学習装置、学習方法、学習プログラム、制御装置、制御方法、及び制御プログラム

Info

Publication number: JP2022041294A
Application number: JP2020146401A
Authority: JP
Inventors: 一敏田中; Kazutoshi Tanaka; 政志 ▲濱▼屋; Masaya Hamaya; 竜米谷; Ryo Yonetani
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2022-03-11
Also published as: TWI781708B; WO2022044615A1; US20240054393A1; EP4205916A1; CN116194253A; TW202211073A

Abstract

【課題】作業を達成する制御則をロボットが自律的に獲得する際に、短時間で学習する。【解決手段】学習装置４０は、計測されたロボット１０の状態及びロボット１０に対する指令に基づきロボット１０の次状態を予測する状態遷移モデル３２、予測結果を集約する集約部３４を含む集約状態遷移モデル２０を作成する作成部４２、計測されたロボット１０の状態を入力し、ロボット１０に対する指令の候補を生成し、ロボット１０の状態及びロボット１０に対する指令の候補から集約状態遷移モデル２０を用いて予測されるロボット１０の状態を取得し、取得した状態に対応する報酬を最大化する指令を生成して出力する各処理を制御周期毎に実行する指令生成部４４、出力される指令に対応して予測されるロボット１０の次状態と、次状態に対応するロボット１０の計測された状態と、の間の誤差が小さくなるように集約状態遷移モデル２０を更新する学習部４３を備える。【選択図】図１

Description

本発明は、学習装置、学習方法、学習プログラム、制御装置、制御方法、及び制御プログラムに関する。

ロボットを制御する制御装置においては、作業を達成する制御則をロボットが自律的に獲得できれば、人間が行動計画及び制御装置を作る手間を省くことができる。

通常の運動学習手法で制御則を獲得させた場合、類似の他の作業にロボットを使うためには、白紙状態から学習し直す必要がある。

この問題に対して、過去に学習されたモデルを別の領域に適応させる転移学習を用いることが考えられる。

しかしながら、実際のロボットに一般的な転移学習を直接適用するのはあまり現実的ではない。これは、転移学習といえども、学習時間が長くなる、ロボットによる組立動作などの接触を伴う作業についての学習結果の転移は難しい等の理由による。

非特許文献１には、制御則を表現するネットワークの結合による再利用によって制御則を直接学習する技術が開示されている。

また、非特許文献２には、物体モデルと投擲速度を実機学習で修正する技術が開示されている。なお、非特許文献２記載の技術では、物体間における学習済みモデルの転用はない。

非特許文献３には、モデル誤差をニューラルネットで学習する技術が開示されている。なお、非特許文献３記載の技術では、ロボットの位置、角度、物体サイズなど、作業に関する大きな変化は考慮されていない。

"MULTIPOLAR: Multi-Source Policy Aggregation for Transfer Reinforcement Learning between Diverse Environmental Dynamics", 28 Sep 2019, Mohammadamin Barekatain, Ryo Yonetani, Masashi Hamaya, <URL:https://arxiv.org/abs/1909.13111> "TossingBot: Learning to Throw Arbitrary Objects with Residual Physics", 27 Mar 2019, Andy Zeng, Shuran Song, Johnny Lee, Alberto Rodriguez, Thomas Funkhouser, <URL: https://arxiv.org/abs/1903.11239> "Residual Reinforcement Learning for Robot Control", 7 Dec 2018, Tobias Johannink, Shikhar Bahl, Ashvin Nair, Jianlan Luo, Avinash Kumar, Matthias Loskyll, Juan Aparicio Ojea, Eugen Solowjow, Sergey Levine <URL:https://arxiv.org/abs/1812.03201>

非特許文献１に開示の技術では、モデルフリー強化学習に長時間の訓練が必要であるため、実機への適用が困難である、という問題があった。

また、非特許文献２に開示の技術では、特定の作業専用に制御装置及び計画が設計されているため、新規作業への転用が困難である、という問題があった。

また、非特許文献３に開示の技術では、特定の作業のモデル化誤差を修正するため、新規作業への転用が困難である、という問題があった。

本発明は、上記の点に鑑みてなされたものであり、作業を達成する制御則をロボットが自律的に獲得する際に、短時間で学習することができる学習装置、学習方法、学習プログラム、制御装置、制御方法、及び制御プログラムを提供することを目的とする。

開示の第１態様は、学習装置であって、計測された制御対象の状態及び前記制御対象に対する指令に基づき前記制御対象の次状態を予測する複数の状態遷移モデル、及び、前記複数の状態遷移モデルによる予測結果を集約する集約部、を含む集約状態遷移モデルを作成する作成部と、計測された前記制御対象の状態を入力し、前記制御対象に対する指令又は指令系列の複数の候補を生成し、前記制御対象の状態、及び、前記制御対象に対する指令又は指令系列の複数の候補から前記集約状態遷移モデルを用いて予測される前記制御対象の複数の状態又は状態系列を取得し、前記制御対象の複数の状態又は状態系列のそれぞれに対応する報酬を算出し、算出した報酬に基づいて報酬を最大化する指令を生成して出力する各処理を制御周期毎に実行する指令生成部と、出力される前記指令に対応して予測される前記制御対象の次状態と、前記次状態に対応する前記制御対象の計測された状態と、の間の誤差が小さくなるように前記集約状態遷移モデルを更新する学習部と、を備える。

上記第１態様において、前記指令生成部は、前記制御周期毎に、前記制御対象に対する指令又は指令系列の１の候補を生成し、生成した候補に基づく報酬を算出し、報酬をより大きくするように指令又は指令系列の候補を１回以上更新することによって、前記指令又は指令系列の候補を生成するようにしてもよい。

上記第１態様において、前記指令生成部は、前記制御周期毎に、前記制御対象に対する指令又は指令系列の複数の候補を生成し、その後、前記複数の候補のそれぞれから予測される前記制御対象の状態又は状態系列を取得するようにしてもよい。

上記第１態様において、前記集約状態遷移モデルは、前記集約部において前記複数の状態遷移モデルの出力をそれぞれの前記出力についての集約重みにしたがい統合する構造であってもよい。

上記第１態様において、前記学習部は、前記集約重みを更新するようにしてもよい。

上記第１態様において、前記集約状態遷移モデルは、前記複数の状態遷移モデルと並列に誤差補償モデルを含み、前記学習部は、前記誤差補償モデルを更新するようにしてもよい。

開示の第２態様は、学習方法であって、コンピュータが、計測された制御対象の状態及び前記制御対象に対する指令に基づき前記制御対象の次状態を予測する複数の状態遷移モデル、及び、前記複数の状態遷移モデルによる予測結果を集約する集約部、を含む集約状態遷移モデルを作成し、計測された前記制御対象の状態を入力し、前記制御対象に対する指令又は指令系列の複数の候補を生成し、前記制御対象の状態、及び、前記制御対象に対する指令又は指令系列の複数の候補から前記集約状態遷移モデルを用いて予測される前記制御対象の複数の状態又は状態系列を取得し、前記制御対象の複数の状態又は状態系列のそれぞれに対応する報酬を算出し、算出した報酬に基づいて報酬を最大化する指令を生成して出力する各処理を制御周期毎に実行し、出力される前記指令に対応して予測される前記制御対象の次状態と、前記次状態に対応する前記制御対象の計測された状態と、の間の誤差が小さくなるように前記集約状態遷移モデルを更新する処理を実行する。

開示の第３態様は、学習プログラムであって、コンピュータに、前記計測された制御対象の状態及び前記制御対象に対する指令に基づき前記制御対象の次状態を予測する複数の状態遷移モデル、及び、前記複数の状態遷移モデルによる予測結果を集約する集約部、を含む集約状態遷移モデルを作成し、計測された前記制御対象の状態を入力し、前記制御対象に対する指令又は指令系列の複数の候補を生成し、前記制御対象の状態、及び、前記制御対象に対する指令又は指令系列の複数の候補から前記集約状態遷移モデルを用いて予測される前記制御対象の複数の状態又は状態系列を取得し、前記制御対象の複数の状態又は状態系列のそれぞれに対応する報酬を算出し、算出した報酬に基づいて報酬を最大化する指令を生成して出力する各処理を制御周期毎に実行し、出力される前記指令に対応して予測される前記制御対象の次状態と、前記次状態に対応する前記制御対象の計測された状態と、の間の誤差が小さくなるように前記集約状態遷移モデルを更新する処理を実行させる。

開示の第４態様は、制御装置であって、第１態様に係る学習装置により学習された集約状態遷移モデルを記憶する記憶部と、計測された前記制御対象の状態を入力し、前記制御対象に対する指令又は指令系列の複数の候補を生成し、前記制御対象の状態、及び、前記制御対象に対する指令又は指令系列の複数の候補から前記集約状態遷移モデルを用いて予測される前記制御対象の複数の状態又は状態系列を取得し、前記制御対象の複数の状態又は状態系列のそれぞれに対応する報酬を算出し、算出した報酬に基づいて報酬を最大化する指令を生成して出力する各処理を制御周期毎に実行する指令生成部と、を備える。

開示の第５態様は、制御方法であって、コンピュータが、第１態様に係る学習装置により学習された集約状態遷移モデルを記憶する記憶部から前記集約状態遷移モデルを取得し、計測された前記制御対象の状態を入力し、前記制御対象に対する指令又は指令系列の複数の候補を生成し、前記制御対象の状態、及び、前記制御対象に対する指令又は指令系列の複数の候補から前記集約状態遷移モデルを用いて予測される前記制御対象の複数の状態又は状態系列を取得し、前記制御対象の複数の状態又は状態系列のそれぞれに対応する報酬を算出し、算出した報酬に基づいて報酬を最大化する指令を生成して出力する各処理を制御周期毎に実行する処理を実行する。

開示の第６態様は、制御プログラムであって、コンピュータに、第１態様に係る学習装置により学習された集約状態遷移モデルを記憶する記憶部から前記集約状態遷移モデルを取得し、計測された前記制御対象の状態を入力し、前記制御対象に対する指令又は指令系列の複数の候補を生成し、前記制御対象の状態、及び、前記制御対象に対する指令又は指令系列の複数の候補から前記集約状態遷移モデルを用いて予測される前記制御対象の複数の状態又は状態系列を取得し、前記制御対象の複数の状態又は状態系列のそれぞれに対応する報酬を算出し、算出した報酬に基づいて報酬を最大化する指令を生成して出力する各処理を制御周期毎に実行する処理を実行させる。

本発明によれば、作業を達成する制御則をロボットが自律的に獲得する際に、短時間で学習することができる。

学習フェーズにおけるロボットシステムの構成図である。（Ａ）はロボット１０の概略構成を示す図、（Ｂ）はロボットのアームの先端側を拡大した図である。学習装置のハードウェア構成を示すブロック図である。集約状態遷移モデルの構成図である。既知モデル群を示す図である。ペグの嵌め込み作業を構成する操作プリミティブ（ＭＰ）を説明するための図である。学習処理のフローチャートである。学習処理の他の例を示すフローチャートである。運用フェーズにおけるロボットシステムの構成図である。

以下、本発明の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されている場合があり、実際の比率とは異なる場合がある。

図１は、学習フェーズにおけるロボットシステムの構成を示す。学習フェーズにおいては、ロボットシステム１は、ロボット１０、状態観測センサ３０、及び学習装置４０を有する。

（ロボット）

図２（Ａ）、図２（Ｂ）は、制御対象の一例としてのロボット１０の概略構成を示す図である。本実施形態におけるロボット１０は、６軸垂直多関節ロボットであり、アーム１１の先端１１ａに柔軟部１３を介してグリッパ（ハンド）１２が設けられる。ロボット１０は、グリッパ１２によって部品（例えばペグ）を把持して穴に嵌め込む嵌め込み作業を行う。

図２（Ａ）に示すように、ロボット１０は、関節Ｊ１～Ｊ６を備えた６自由度のアーム１１を有する。各関節Ｊ１～Ｊ６は、図示しないモータによりリンク同士を矢印Ｃ１～Ｃ６の方向に回転可能に接続する。ここでは、垂直多関節ロボットを例に挙げたが、水平多関節ロボット（スカラーロボット）であってもよい。また、６軸ロボットを例に挙げたが、５軸や７軸などその他の自由度の多関節ロボットであってもよく、パラレルリンクロボットであってもよい。

グリッパ１２は、１組の挟持部１２ａを有し、挟持部１２ａを制御して部品を挟持する。グリッパ１２は、柔軟部１３を介してアーム１１の先端１１ａと接続され、アーム１１の移動に伴って移動する。本実施形態では、柔軟部１３は各バネの基部が正三角形の各頂点になる位置関係に配置された３つのバネ１３ａ～１３ｃにより構成されるが、バネの数はいくつであってもよい。また、柔軟部１３は、位置の変動に対して復元力を生じて、柔軟性が得られる機構であればその他の機構であってもよい。例えば、柔軟部１３は、バネやゴムのような弾性体、ダンパ、空気圧または液圧シリンダなどであってもよい。柔軟部１３は、受動要素によって構成されることが好ましい。柔軟部１３により、アーム１１の先端１１ａとグリッパ１２は、水平方向および垂直方向に、５ｍｍ以上、好ましくは１ｃｍ以上、更に好ましくは２ｃｍ以上、相対移動可能に構成される。

グリッパ１２がアーム１１に対して柔軟な状態と固定された状態とを切り替えられるような機構を設けてもよい。

また、ここではアーム１１の先端１１ａとグリッパ１２の間に柔軟部１３を設ける構成を例示したが、グリッパ１２の途中（例えば、指関節の場所または指の柱状部分の途中）、アームの途中（例えば、関節Ｊ１～Ｊ６のいずれかの場所またはアームの柱状部分の途中）に設けられてもよい。また、柔軟部１３は、これらのうちの複数の箇所に設けられてもよい。

ロボットシステム１は、上記のように柔軟部１３を備えるロボット１０の制御を行うためのモデルを、機械学習（例えばモデルベース強化学習）を用いて獲得する。ロボット１０は柔軟部１３を有しているため、把持した部品を環境に接触させても安全であり、また、制御周期が遅くても嵌め込み作業などを実現可能である。一方、柔軟部１３によってグリッパ１２および部品の位置が不確定となるため、解析的な制御モデルを得ることは困難である。そこで、本実施形態では機械学習を用いて制御モデルを獲得する。

制御モデルの機械学習を単純に行うと、非常に多くのデータ収集が必要となり、学習に時間がかかる。そこで、ロボットシステム１では、詳細は後述するが、既に学習済みの複数の状態遷移モデルを集約した集約状態遷移モデル２０を学習する。すなわち、既に学習済みの複数の状態遷移モデルを転移元の状態遷移モデルとして、これらを集約した集約状態遷移モデル２０を転移学習により作成する。これにより、一から状態遷移モデルを学習する場合と比較して、短時間で学習することができる。

（状態観測センサ）

状態観測センサ３０は、ロボット１０の状態を観測し、観測したデータを状態観測データとして出力する。状態観測センサ３０としては、例えば、ロボット１０の関節のエンコーダ、視覚センサ（カメラ）、モーションキャプチャ、力関連センサ等が用いられる。ロボット１０の状態として、各関節の角度からアーム１１の先端１１ａの位置・姿勢が特定でき、視覚センサおよび／または力関連センサから部品（作業対象物）の姿勢が推定できる。モーションキャプチャ用のマーカーがグリッパ１２に取り付けられている場合には、ロボット１０の状態としてグリッパ１２の位置・姿勢が特定でき、グリッパ１２の位置・姿勢から部品（作業対象物）の姿勢が推定できる。

力関連センサとは、力覚センサおよびトルクセンサの総称であり、さらにセンサを部品と接触する部位に設ける場合には触覚センサも含む総称である。力関連センサは、ロボット１０のグリッパが部品から受ける力を検出するように、グリッパ１２が部品を把持する部分の表面や、グリッパ１２内の関節部分に設けてもよい。グリッパ１２とアーム１１との間が柔軟部である場合、力関連センサは、グリッパ１２とアーム１１との間に設けてグリッパ１２とアーム１１との間に働く力を検出してもよい。力関連センサは、例えば、１要素または多要素の、１軸、３軸、または６軸の力をロボット１０の状態として検出するセンサである。力関連センサを用いることで、グリッパ１２が部品をどのように把持しているか、すなわち部品の姿勢をより精度良く把握でき、適切な制御が可能となる。

また、視覚センサによっても、グリッパ１２自体やグリッパ１２が把持している部品の位置および姿勢をロボット１０の状態として検出できる。グリッパ１２とアーム１１との間が柔軟部である場合、アーム１１に対するグリッパ１２の変位を検出する変位センサによってもアーム１１に対するグリッパ１２の位置・姿勢をロボット１０の状態として特定することができる。

このように、各種のセンサによって、柔軟部１３、柔軟部１３よりも対象物を把持する側のロボット１０の部位、および把持されている部品の少なくとも何れかについての状態を検出することができ、各種センサの検出結果を状態観測データとして取得することができる。

（学習装置）

学習装置４０は、機械学習を用いてロボット１０の集約状態遷移モデル２０を獲得する。

学習装置４０によって獲得された集約状態遷移モデル２０は、ロボット１０を制御する制御装置に搭載されて、実作業に供される。この制御装置は、学習機能を有していてもよく、その場合には追加の学習を行ってもよい。

本適用例によれば、ロボット１０が柔軟部１３を有しているため、複雑な力制御を行うことなく、グリッパ１２または対象物を環境に接触させながら動作することが容易である。また、あまり減速せずにグリッパまたは対象物を環境に接触させることが可能であるので、高速な作業ができる。また、機械学習によって学習モデルを獲得するため、簡便にシステム構築が行える。

図３は、本実施形態に係る学習装置のハードウェア構成を示すブロック図である。図３に示すように、学習装置４０は、一般的なコンピュータ（情報処理装置）と同様の構成であり、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）４０Ａ、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）４０Ｂ、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）４０Ｃ、ストレージ４０Ｄ、キーボード４０Ｅ、マウス４０Ｆ、モニタ４０Ｇ、及び通信インタフェース４０Ｈを有する。各構成は、バス４０Ｉを介して相互に通信可能に接続されている。

本実施形態では、ＲＯＭ４０Ｂ又はストレージ４０Ｄには、学習モデルの学習処理を実行するための学習プログラムが格納されている。ＣＰＵ４０Ａは、中央演算処理ユニットであり、各種プログラムを実行したり、各構成を制御したりする。すなわち、ＣＰＵ４０Ａは、ＲＯＭ４０Ｂ又はストレージ４０Ｄからプログラムを読み出し、ＲＡＭ４０Ｃを作業領域としてプログラムを実行する。ＣＰＵ４０Ａは、ＲＯＭ４０Ｂ又はストレージ４０Ｄに記録されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。ＲＯＭ４２は、各種プログラム及び各種データを格納する。ＲＡＭ４０Ｃは、作業領域として一時的にプログラム又はデータを記憶する。ストレージ４０Ｄは、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、又はフラッシュメモリにより構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。キーボード４０Ｅ及びマウス４０Ｆは入力装置の一例であり、各種の入力を行うために使用される。モニタ４０Ｇは、例えば、液晶ディスプレイであり、ユーザインタフェースを表示する。モニタ４０Ｇは、タッチパネル方式を採用して、入力部として機能してもよい。通信インタフェース４０Ｈは、他の機器と通信するためのインタフェースであり、例えば、イーサネット（登録商標）、ＦＤＤＩ又はＷｉ－Ｆｉ（登録商標）等の規格が用いられる。

次に、学習装置４０の機能構成について説明する。

図１に示すように、学習装置４０は、その機能構成として、作成部４２、学習部４３、及び指令生成部４４を有する。各機能構成は、ＣＰＵ４０ＡがＲＯＭ４０Ｂまたはストレージ４０Ｄに記憶された学習プログラムを読み出して、ＲＡＭ４０Ｃに展開して実行することにより実現される。なお、一部または全部の機能は専用のハードウェア装置によって実現されても構わない。

作成部４２は、集約状態遷移モデル２０を作成する。図４に示すように、集約状態遷移モデル２０は、計測された制御対象のロボット１０の状態及びロボット１０に対する指令に基づきロボット１０の次状態を予測して出力する複数の状態遷移モデル３２、及び、複数の状態遷移モデル３２による予測結果を集約する集約部３４と、誤差補償モデル３６と、を含む。

複数の状態遷移モデル３２は、既に学習済みの状態遷移モデルであり、図５に示す既知モデル群３１に含まれる学習済みの複数の状態遷移モデル３２の中から作成部４２によって選択される。本実施形態では、集約状態遷移モデル２０が、作成部４２によって選択された３つの状態遷移モデル３２Ａ～３２Ｃを含む場合について説明するが、状態遷移モデルの数はこれに限られるものではなく、２以上の状態遷移モデルを含んでいれば良い。作成部４２は、既知モデル群３１から選択された状態遷移モデル３２Ａ～３２Ｃ、集約部３４、及び誤差補償モデル３６を組み合わせて集約状態遷移モデル２０を作成する。なお、既知モデル群３１は、学習装置４０内に記憶されていてもよいし、外部サーバに記憶されていてもよい。

学習部４３は、指令生成部４４から出力される指令に対応して予測されるロボット１０の次状態と、次状態に対応するロボット１０の計測された状態、すなわち状態観測センサ３０で観測された状態と、の間の誤差が小さくなるように集約状態遷移モデル２０を更新する。

指令生成部４４は、最適行動計算部４５を備える。最適行動計算部４５は、ロボット１０の状態に応じた最適な行動を計算し、計算した行動に対応する指令をロボット１０に出力する。最適な行動の計算には、モデル予測制御の手法を用いることができる。モデル予測制御は、制御対象のモデルを利用し、制御周期毎に、将来の状態の予測に基づいて報酬が最大となる最適な指令値を求め、その指令値を用いて制御する手法である。本実施形態では、制御対象のモデルとして集約状態遷移モデル２０を用いる。

具体的には、最適行動計算部４５は、制御周期毎に、ロボット１０の状態ｘ（ｔ）を表すデータを状態観測センサ３０から取得する。ここでは、取得されるデータを状態観測データと称する。状態観測データは、例えばグリッパ１２あるいはグリッパ１２によって把持される部品の位置および姿勢を特定可能なデータを含む。最適行動計算部４５は、例えば、関節のエンコーダ、視覚センサ（カメラ）、モーションキャプチャ、力関連センサ（力覚センサ、トルクセンサ、触覚センサ）、変位センサ等を含む状態観測センサ３０から状態観測データを取得する。

また、最適行動計算部４５は、ロボット１０による動作が所定の成功条件を満たしたか否かを判定する。後述するように、本実施形態では、例えばペグの嵌め込み作業という１つの作業（スキル）を、複数のプリミティブ操作（ＭＰ）に分割して学習する。最適行動計算部４５は、各ＭＰに定められた成功条件を満たすか否かを判定する。成功条件の例は、例えば、ペグが穴近傍（非接触）に位置する、ペグが穴付近の表面に接触する、ペグの先端が穴にかかる、ペグが穴にかかりかつ穴と平行である、ペグが穴に完全に嵌め込まれる、などである。最適行動計算部４５は、状態観測データに基づいて判定を行ってもよいし、状態観測データとは異なるデータに基づいて判定を行ってもよい。

また、最適行動計算部４５は、制御対象であるロボット１０に対する指令の複数の候補を生成し、ロボット１０の状態ｘ（ｔ）及びロボット１０に対する指令の複数の候補から集約状態遷移モデルを用いて予測されるロボット１０の複数の次状態ｘ（ｔ＋１）を取得し、ロボット１０の複数の次状態ｘ（ｔ＋１）のそれぞれに対応する報酬を算出し、その結果に基づいて報酬を最大化する指令を生成して出力する各処理を制御周期毎に実行する。指令は、行動ｕ（ｔ）と表現することもある。報酬は、例えば実行中のＭＰにおける完了状態でのグリッパ１２（又はペグ５４）の状態（目標状態）と現在のグリッパ１２（又はペグ５４）の状態との間の距離が小さいほど大きくなる報酬である。実行中のＭＰにおけるグリッパ１２（又はペグ５４）の位置及び姿勢の目標軌道を設定し、現在のグリッパ１２（又はペグ５４）の位置及び姿勢と目標軌道との誤差が小さいほど大きくなる報酬を用いてもよい。

最適行動計算部４５は、複数の時間ステップにわたる指令系列の複数の候補を生成してもよい。その場合、最適行動計算部４５は、各指令系列の２番目以降の時間ステップの指令の候補から予測されるロボット１０の状態についても対応する報酬を算出したうえで、指令系列の候補毎に各時間ステップの指令の報酬の総和を算出し、算出した総和を各指令系列の候補に対応する報酬としてもよい。あるいは、各指令系列の候補の最後の指令に対応する報酬を各指令系列の候補に対応する報酬としてもよい。最適行動計算部４５は、指令系列に対応する報酬を最大化するように指令系列を生成してもよい。

すなわち、最適行動計算部４５は、制御対象であるロボット１０に対する指令又は指令系列の複数の候補を生成し、前記制御対象の状態及び前記制御対象に対する指令又は指令系列の複数の候補から前記集約状態遷移モデルを用いて予測される前記制御対象の複数の状態又は状態系列を取得し、前記制御対象の複数の状態又は状態系列のそれぞれに対応する報酬を算出し、算出した報酬に基づいて報酬を最大化する指令を生成して出力する各処理を制御周期毎に実行する。

最適行動計算部４５は、制御周期毎に、制御対象であるロボット１０に対する指令又は指令系列の１の候補を生成し、その候補に基づく報酬を算出し、報酬をより大きくするように指令又は指令系列の候補を１回以上更新することによって、指令又は指令系列の複数の候補を生成してもよい。

最適行動計算部４５は、制御周期毎に、制御対象であるロボット１０に対する指令又は指令系列の複数の候補を生成し、その後、複数の候補のそれぞれから予測されるロボット１０の状態又は状態系列を取得してもよい。

なお、図１に示すように、本実施形態では、最適行動計算部４５及び集約状態遷移モデル２０を含む構成をポリシ４６と称する。ポリシ４６は、観測した状態を受け取り、なすべき行動を返す存在（関数、写像、モジュールなど）を意味し、方策、制御器とよばれることもある。

状態遷移モデル３２は、状態ｘ（ｔ）とそのときの行動ｕ（ｔ）を入力として、行動後の次状態ｘ（ｔ＋１）を出力するモデルである。最適行動計算部４５は、状態ｘ（ｔ）を入力として、取るべき行動ｕ（ｔ）を生成する。最適行動計算部４５は、累積期待報酬が最大化されるように取るべき行動（指令）ｕ（ｔ）を生成する。最適行動計算部４５は、取るべき行動ｕ（ｔ）を生成するためのモデルを学習するようにしてもよい。最適行動計算部４５は、生成された行動ｕ（ｔ）に基づいて、ロボット１０に対する指令を生成し、送信する。

ここで、本実施形態において利用されうる状態観測データについて説明する。状態観測データの例は、グリッパ１２の対象物に接触する部位における触覚分布（たとえば圧力分布）のデータ、グリッパ１２の挟持部１２ａに設けられた力覚センサによって測定される力、ロボット１０の関節のエンコーダから取得される各関節の角度および角速度、ロボット１０の関節にかかるトルク、ロボット１０のアームに取り付けられた視覚センサによって得られる画像、力覚センサによって測定されるロボット１０の柔軟部１３が受ける力、柔軟部１３に設けた変位センサによって測定される柔軟部１３を挟む部位の間の相対的な変位、モーションキャプチャによって測定されるグリッパ１２の位置および姿勢が挙げられる。

関節エンコーダからのデータから、アーム１１の先端１１ａの位置、姿勢（角度）、速度、姿勢の変化についての角速度が求められる。なお、各時刻の位置および姿勢（角度）が取得できればその時間変化（速度、角速度）は取得できるので、以下では時間変化が取得可能であることの言及は省略することもある。視覚センサからのデータによって、アーム１１に対するグリッパ１２および把持対象物の位置および姿勢が求められる。力関連センサからのデータによっても、アーム１１に対するグリッパ１２の位置および姿勢、または、グリッパ１２に対する把持対象物の位置および姿勢が求められる。

また、グリッパ１２にモーションキャプチャ用のマーカーが取り付けられている場合には、モーションキャプチャデータのみによってグリッパ１２の位置および姿勢を取得できる。アームに対する把持対象物の位置および姿勢は視覚センサや力関連センサを用いて求めてもよい。また、把持対象物にもマーカーが取り付けられていれば、把持対象物の位置および姿勢も取得できる。

（モーションプリミティブ）

次に、モーションプリミティブについて説明する。本実施形態で学習するペグの嵌め込み作業は、複数の動作区間に分割され、それぞれの区間ごとに制御モデルの学習が行われる。この動作区間のそれぞれが、モーションプリミティブ（MotionPrimitive）である。モーションプリミティブは、ＭＰ、プリミティブ操作とも呼ばれる。

図６を参照して、本実施形態におけるペグの嵌め込み作業を構成するＭＰについて説明する。図６においては、５１はアーム先端、５２はグリッパ、５３は柔軟部、５４は把持対象物（ペグ）、５５は穴を表す。図６の、符号５６および５７はそれぞれ、各ＭＰにおいて考慮する状態および行動を示す。

ペグ嵌め込み作業全体の目的は、ペグ５４を穴５５に挿入することである。ペグの嵌め込み作業は、次の５つのＭＰに分割され、各ＭＰにおいて指定された目標値との誤差が閾値以下になると次のＭＰに遷移する。

ｎ１：アプローチ
ｎ２：コンタクト
ｎ３：フィット
ｎ４：アライン
ｎ５：インサート

「ｎ１：アプローチ」は、グリッパ５２を任意の初期位置から穴５５付近まで接近させる動作である。「ｎ２：コンタクト」は、ペグ５４を穴５５付近の表面に接触させる動作である。柔軟部５３を固定モードと柔軟モードで切り替え可能な場合には、接触前に柔軟部５３を柔軟モードに切り替える。「ｎ３：フィット」は、ペグ５４が表面に接触した状態を保ったままペグ５４を移動させて、ペグ５４の先端が穴５５の先端に嵌まるようにする動作である。「ｎ４：アライン」は、ペグ５４の先端が穴５５に嵌まって接触している状態を保ったまま、ペグ５４の姿勢が穴５５に平行（この例では垂直）になるようにする動作である。「ｎ５：インサート」は、ペグ５４を穴５５の底まで挿入する動作である。

「ｎ１：アプローチ」および「ｎ２：コンタクト」、すなわち、ペグ５４が表面に接触していないＭＰでは位置制御によってペグ５４を目標位置まで移動させればよい。「ｎ３：フィット」「ｎ４：アライン」「ｎ５：インサート」、すなわち、ペグ５４が環境に接触した状態を維持するＭＰ（接触プリミティブ操作）では、機械学習に基づく速度制御によりグリッパ５２およびペグ５４の位置を制御する。接触ＭＰにおける機械学習では、状態空間および行動空間の次元を削減した学習処理により集約状態遷移モデル２０が学習される。

ここでは、グリッパ５２およびペグ５４の移動がｙｚ平面内で行われるものとして説明する。「ｎ１：アプローチ」ＭＰでは、ペグ５４のｙｚ位置を入力として、ｙｚ面内での位置制御を行う。「ｎ２：コンタクト」ＭＰでは、ペグ５４のｚ位置を入力として、ｚ方向の位置制御を行う。

「ｎ３：フィット」ＭＰでは、環境拘束とアームの柔軟部５３によりｚ方向を陽に考慮しないモデルの表現が可能である。状態はｙ方向の位置・速度、行動はｙ方向の速度指令とすることができる。ペグ５４の先端が穴５５に嵌まったときのグリッパ５２の位置を目標値とする。

「ｎ４：アライン」ＭＰでは、状態はグリッパ５２の角度と角速度、行動はｙ方向の速度指令である。柔軟手首は６自由度（ｙｚ２次元平面上では３自由度）の変位が可能であるため、ペグ５４の先端と穴が接触した状態下では、ｙ方向の並進運動のみでペグ５４の回転運動が可能である。ペグ５４の姿勢が垂直になったときのグリッパ５２の角度を目標値とする。

「ｎ５：インサート」ＭＰでは、状態はｚ方向の位置と速度、行動はｙ方向とｚ方向の速度指令位置である。ｙ方向の速度指令は、ペグ５４のジャミング（挿入途中で動かなくなること）を回避するために導入されている。ペグ５４が穴５５の底に到達したときのグリッパの位置を目標位置とする。

（集約状態遷移モデル）

図４に示すように、集約状態遷移モデル２０は、本実施形態では一例として３つの状態遷移モデル３２Ａ～３２Ｃと、集約部３４と、誤差補償モデル３６と、を含む。

集約状態遷移モデル２０は、集約部３４において状態遷移モデル３２Ａ～３２Ｃの出力をそれぞれの出力についての集約重みにしたがい統合する構造である。本実施形態では、集約状態遷移モデル２０は、集約部３４において状態遷移モデル３２Ａ～３２Ｃに加えて誤差補償モデル３６の出力をそれぞれの出力についての集約重みにしたがい統合する構造である。なお、統合の方法は線形結合でもいいし、多層パーセプトロン（ＭｕｌｔｉｌａｙｅｒＰｅｒｃｅｐｔｒｏｎ：ＭＬＰ）等を用いて非線形な統合をしても良い。また、線形結合の場合、その重みの一部をユーザーが設定できるようにしてもよい。また、誤差補償モデル３６は学習可能（更新可能）なモデルであり、統合パラメータと同時に学習される（ｒｅｓｉｄｕａｌｌｅａｒｎｉｎｇ）。また、状態遷移モデル３２Ａ～３２Ｃが学習可能（微分可能）である場合、統合パラメータと同時に追加学習しても良い。

状態遷移モデル３２Ａ～３２Ｃ、誤差補償モデル３６には、最適行動計算部４５から出力された指令が入力される。状態遷移モデル３２Ａ～３２Ｃ、誤差補償モデル３６は、入力された指令に対応する状態を集約部３４に出力する。集約部３４は、入力された状態を集約して最適行動計算部４５及び学習部４３に出力する。

学習部４３は、集約重み、すなわち、状態遷移モデル３２Ａ～３２Ｃ及び誤差補償モデル３６の各々からの出力に対する重みを更新することにより集約状態遷移モデル２０を学習する。具体的には、学習部４３は、状態観測センサ３０により計測された状態と、集約部３４から出力された予測された状態と、の誤差を予測誤差として算出し、予測誤差をより小さくする集約重みを算出し、算出した新たな集約重みを集約部３４に設定することにより集約部３４を更新する。

また、集約状態遷移モデル２０は、状態遷移モデル３２Ａ～３２Ｃと並列に誤差補償モデル３６を含み、学習部４３は、予測誤差をより小さくする誤差補償モデル３６のモデルパラメータを算出し、算出した新たなモデルパラメータを誤差補償モデル３６に設定することにより誤差補償モデル３６を更新する。なお、本実施形態では、集約状態遷移モデル２０が誤差補償モデル３６を含む場合について説明するが、誤差補償モデル３６を含まない構成にしてもよい。

状態遷移モデル３２Ａは、環境Ａで既に学習された状態遷移モデルである。状態遷移モデル３２Ｂは、環境Ａと異なる環境Ｂで既に学習された状態遷移モデル３２である。状態遷移モデル３２Ｃは、環境Ａ及び環境Ｂと異なる環境Ｃで既に学習された状態遷移モデル３２である。

ここで、異なる環境とは、ロボット１０が目的の作業を実行する場合における作業条件が異なることをいう。異なる環境の一例としては、ロボット１０が操作する部品の種類が異なることが挙げられる。具体的には、例えばロボット１０が操作するペグ５４の形、太さ、及び長さの少なくとも１つが異なる場合である。また、異なる環境の一例として、ロボット１０が操作する部品の組み付け対象の種類が異なることが挙げられる。具体的には、ペグ５４が挿入される穴５５の位置、方向、及び形状の少なくとも１つが異なる場合である。

このように、集約状態遷移モデル２０は、各々異なる環境で既に学習された状態遷移モデル３２Ａ～３２Ｃを含む。

（学習処理）

図７は、機械学習を用いて学習装置４０が集約状態遷移モデル２０を学習する学習処理の流れを示すフローチャートである。図７に示すフローチャートは１つのＭＰに対する学習処理であり、それぞれのＭＰについてこの学習処理が適用される。

ステップＳ１００において、学習装置４０は、使用する集約状態遷移モデル２０を作成する。すなわち、作成部４２が、既知モデル群３１から状態遷移モデル３２Ａ～３２Ｃを選択し、集約部３４、及び誤差補償モデル３６を組み合わせて集約状態遷移モデル２０を作成する。

以下で説明するステップＳ１０２～ステップＳ１１０の処理は、制御周期に従って一定の時間間隔で実行される。制御周期は、ステップＳ１０２～ステップＳ１１０の処理を実行可能な時間に設定される。

ステップＳ１０１では、学習装置４０は、前回の制御周期を開始してから制御周期の長さに相当する所定時間が経過するまで待機する。なお、ステップＳ１０１の処理を省略し、前の制御周期の処理が完了したら直ぐに次の制御周期の処理が開始されるようにしてもよい。

ステップＳ１０２では、学習装置４０は、ロボット１０の状態を取得する。すなわち、状態観測センサ３０からロボット１０の状態観測データを取得する。具体的には、指令生成部４４は、状態観測センサ３０で観測されたグリッパ５２の位置、速度、角度、角速度のデータを状態観測データとして取得する。以下では、ステップＳ１０２で取得した状態を状態Ａと称する。

ステップＳ１０３では、学習装置４０は、ステップＳ１０２で取得した状態Ａが予め定めた終了条件を充足するか否かを判定する。ここで、終了条件を充足する場合とは、例えば状態Ａと目標状態との差が規定値以内の場合である。

ステップＳ１０３の判定が肯定判定の場合は、本ルーチンを終了する。一方、ステップＳ１０３の判定が否定判定の場合は、ステップＳ１０４へ移行する。

ステップＳ１０４では、学習装置４０は、前回の制御周期のステップＳ１１０で集約状態遷移モデル２０を用いて取得したロボット１０の予測される状態Ｃと、ステップＳ１０２で取得したロボット１０の実測された状態Ａと、の間の誤差が今後はより小さくなるように集約状態遷移モデル２０を更新する。すなわち、学習部４３が、前回の制御周期のステップＳ１１０で出力される指令Ｂに対応して予測されるロボット１０の次状態である状態Ｃと、状態Ｃに対応するロボット１０の計測された状態Ａと、の間の誤差が小さくなるように、集約重みを更新する。なお、最初の制御周期においては、ステップＳ１０４の処理はスキップされる。

ステップＳ１０５では、ロボット１０に対する指令又は指令系列の１の候補を生成する。具体的には、最適行動計算部４５が、ステップＳ１０２で計測されたロボット１０の状態Ａを入力し、ロボット１０に対する指令又は指令系列の１の候補を生成する。以下では、ロボット１０に対する指令又は指令系列の１の候補を指令Ａと称する。指令Ａの生成には、例えばニュートン法を用いることができるが、これに限られるものではない。なお、最初の制御周期においては、指令Ａはランダムに生成される。そして、２番目以降の制御周期においては、生成した指令Ａにより前回の指令Ａを更新する。

ステップＳ１０６では、学習装置４０は、ロボット１０の状態又は状態系列を予測する。すなわち、最適行動計算部４５は、ロボット１０の状態Ａ、及び、ロボット１０に対する指令Ａを集約状態遷移モデル２０に出力する。これにより、集約状態遷移モデル２０は、指令Ａに対応するロボット１０の次状態を予測し、予測された状態又は状態系列を最適行動計算部４５に出力する。これにより、最適行動計算部４５は、予測された状態又は状態系列を取得する。以下では、予測された状態又は状態系列を状態Ｂと称する。なお、最適行動計算部４５では、指令Ａが単独の指令の場合は、単独状態である状態Ｂが取得され、指令Ａが指令の系列の場合は、状態の系列である状態Ｂが取得される。

ステップＳ１０７では、学習装置４０は、状態Ｂに対応する報酬を算出する。

ステップＳ１０８では、学習装置４０は、ステップＳ１０７で算出した報酬が規定条件を充足するか否かを判定する。ここで、規定条件を充足する場合とは、例えば報酬が規定値を超えた場合、または、ステップＳ１０５～Ｓ１０８の処理のループを規定回数実行した場合等である。規定回数は、例えば１０回、１００回、１０００回等に設定される。

そして、ステップＳ１０８の判定が肯定判定の場合はステップＳ１０９へ移行し、ステップＳ１０８の判定が否定判定の場合はステップＳ１０５へ移行する。

ステップＳ１０９では、学習装置４０は、ステップＳ１０７で算出したロボット１０の状態又は状態系列に対応する報酬に基づいて指令Ｂを生成して出力する。なお、指令Ｂは、報酬が規定条件を充足したときの指令Ａそのものでもよいし、指令Ａの変化に対応する報酬の変化の履歴から予測される、更に報酬を最大化できる指令としてもよい。また、指令Ａが指令系列である場合には、指令系列の中の最初の指令に基づいて指令Ｂを決定する。

ステップＳ１１０では、学習装置４０は、ロボット１０の状態又は状態系列を予測する。すなわち、最適行動計算部４５は、ロボット１０の状態Ａ、及び、ロボット１０に対する指令Ｂを集約状態遷移モデル２０に出力する。これにより、集約状態遷移モデル２０は、指令Ｂに対応するロボット１０の次状態である状態Ｃを予測し、予測された状態又は状態系列を最適行動計算部４５に出力する。これにより、最適行動計算部４５は、予測された状態又は状態系列を取得する。

このように、制御周期毎にステップＳ１０１～Ｓ１１０の処理を繰り返す。

（学習処理の他の例）

次に、学習処理の他の例について図８に示すフローチャートを参照して説明する。なお、図７と同一の処理を行うステップには同一符号を付し、詳細な説明を省略する。

図８に示すように、ステップＳ１０５Ａ～Ｓ１０９Ａの処理が図７に示す処理と異なる。

ステップＳ１０５Ａでは、ロボット１０に対する指令又は指令系列の複数の候補を生成する。具体的には、最適行動計算部４５が、ステップＳ１０２で計測されたロボット１０の状態Ａを入力し、ロボット１０に対する指令又は指令系列の複数の候補（指令Ａ）を生成する。指令Ａの生成には、例えばクロスエントロピー法（ｃｒｏｓｓ－ｅｎｔｒｏｐｙｍｅｔｈｏｄ：ＣＥＭ）を用いることができるが、これに限られるものではない。

ステップＳ１０６Ａでは、学習装置４０は、ロボット１０の状態又は状態系列を予測する。すなわち、最適行動計算部４５は、ロボット１０の状態Ａ、及び、ロボット１０に対する指令Ａを集約状態遷移モデル２０に出力する。これにより、集約状態遷移モデル２０は、ロボット１０に対する指令又は指令系列の複数の候補の各候補に対応するロボット１０の次状態を予測し、予測された状態又は状態系列を最適行動計算部４５に出力する。これにより、最適行動計算部４５は、各候補について予測された状態又は状態系列（状態Ｂ）を取得する。

ステップＳ１０７Ａでは、学習装置４０は、各状態Ｂに対応する報酬を算出する。

ステップＳ１０９Ａでは、学習装置４０は、ステップＳ１０７Ａで算出したロボット１０の各状態Ｂのそれぞれに対応する報酬に基づいて報酬を最大化する指令Ｂを生成して出力する。例えば、各状態Ｂに対応する指令Ａと報酬との対応関係を表す関係式を算出し、算出した関係式によって表される曲線上における最大の報酬に対応する指令を指令Ｂとする。これにより、報酬を最大化した指令が得られる。

（制御装置）

図９は、ロボットシステム１の運用フェーズにおける構成を示す。運用フェーズでは、ロボットシステム１は、ロボット１０と制御装置８０を有する。

制御装置８０のハードウェア構成は学習装置４０と同様であるので繰り返しの説明は省略する。制御装置８０は、その機能構成として、指令生成部４４を有する。各機能構成は、ＣＰＵ４０ＡがＲＯＭ４０Ｂまたはストレージ４０Ｄに記憶された制御プログラムを読み出して、ＲＡＭ３３に展開して実行することにより実現される。なお、一部または全部の機能は専用のハードウェア装置によって実現されても構わない。

指令生成部４４は、最適行動計算部４５及び集約状態遷移モデル２０を含む。集約状態遷移モデル２０は、記憶部の一例としてのＲＡＭ４０Ｃに記憶される。なお、集約状態遷移モデル２０は、ＲＡＭ４０Ｃのように一時的に記憶する記憶部ではなく、ストレージ４０Ｄに記憶されてもよい。また、集約状態遷移モデル２０が外部サーバに記憶されている場合は、外部サーバからからダウンロードしてＲＡＭ４０Ｃに一時的に記憶してもよいし、ストレージ４０Ｄに記憶してもよい。また、学習装置４０による学習時にＲＡＭ４０Ｃに展開された状態の集約状態遷移モデル２０を用いてもよい。

最適行動計算部４５は、学習装置４０により学習済みの集約状態遷移モデル２０を用いて、ロボット１０に行わせる動作に対応する指令を生成する。図９における最適行動計算部４５は、学習済みの集約状態遷移モデル２０を用いる点が図１における最適行動計算部４５と異なるだけなので、ここでの詳細な説明は省略する。

指令生成部４４は、「フィット」以降の接触ＭＰにおいて、現在のＭＰの成功条件が満たされたと判断された場合は、次のＭＰに対応する集約状態遷移モデル２０及び取るべき行動（指令）ｕ（ｔ）を生成するモデルに切り替える。具体的には、「フィット」が成功した場合は「アライン」に対応する集約状態遷移モデル２０に切り替え、「アライン」が成功した場合は「インサート」に対応する集約状態遷移モデル２０及び取るべき行動（指令）ｕ（ｔ）を生成するモデルに切り替える。「インサート」が成功した場合は、ペグ５４の嵌め込み作業が完了したと判定する。

なお、それぞれのＭＰにおいてあらかじめ定められたタイムステップ以内に終了条件を満たさない場合、ロボット１０に過剰な力がかかった場合、指定領域外にロボットが到達した場合、にはタスクを中断して初期状態に戻る。

制御装置８０は、学習装置４０とは別の制御装置であってもよいし、学習装置４０の一部を構成する制御装置であってもよい。例えば、学習に用いた学習装置４０をそのまま制御装置４０として使用し、学習済みの集約状態遷移モデル２０を用いた制御を行ってもよい。また、制御装置４０は、学習を継続しながら制御を行ってもよい。

このように、本実施形態では、既に学習された状態遷移モデル３２Ａ～３２Ｃを用いて新たな環境における集約状態遷移モデル２０を学習するので、作業を達成する制御則をロボット１０が自律的に獲得する際に、短時間で学習することができる。

＜変形例＞

上記実施形態は、本発明の構成例を例示的に説明するものに過ぎない。本発明は上記の具体的な形態には限定されることはなく、その技術的思想の範囲内で種々の変形が可能である。

上記の例では、ペグ５４の嵌め込み作業を例に説明したが、学習および制御対象の作業は任意の作業であってよい。ただし、本発明は、グリッパ５２自体もしくはグリッパ５２が把持する部品が環境と接触するような動作を含む作業に好適である。また、上記の例では、把持対象物が環境に接触している動作区間（ＭＰ）のみで集約状態遷移モデル２０の学習を行っているが、把持対象物またはグリッパ５２が環境に接触していない動作区間（ＭＰ）においても集約状態遷移モデル２０の学習を行ってもよい。また、作業を複数の動作区間に分割することなく集約状態遷移モデル２０の学習を行ってもよい。すなわち、アプローチからインサート完了までを分割することなく、図７又は図８のフローチャートで示した処理を実行してもよい。なお、この場合の報酬は、例えばインサート完了状態でのグリッパ１２（又はペグ５４）の状態（目標状態）と現在のグリッパ１２（又はペグ５４）の状態との間の距離が小さいほど大きくなる報酬である。この距離は、３次元空間内での直線距離、位置・姿勢の６次元空間内での距離等を用いることができる。

なお、上各実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行した学習処理及び制御処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、及びＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、学習処理及び制御処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

また、上記各実施形態では、学習プログラム及び制御プログラムがストレージ４０Ｄ又はＲＯＭ４０Ｂに予め記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及びＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリ等の記録媒体に記録された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

１ロボットシステム
１０ロボット
１１アーム
１１ａアーム先端
１２グリッパ
１２ａ挟持部
１３柔軟部
１３ａバネ
２０集約状態遷移モデル
２２記憶装置
２６ポリシ更新部
３０状態観測センサ
３２Ａ、３２Ｂ、３２Ｃ状態遷移モデル
３４集約部
３６誤差補償モデル
４０学習装置
４１入力部
４２作成部
４３学習部
４４指令生成部
４５最適行動計算部
５２グリッパ
５３柔軟部
５４ペグ
５５穴
８０制御装置

Claims

計測された制御対象の状態及び前記制御対象に対する指令に基づき前記制御対象の次状態を予測する複数の状態遷移モデル、及び、前記複数の状態遷移モデルによる予測結果を集約する集約部、を含む集約状態遷移モデルを作成する作成部と、
計測された前記制御対象の状態を入力し、前記制御対象に対する指令又は指令系列の複数の候補を生成し、前記制御対象の状態、及び、前記制御対象に対する指令又は指令系列の複数の候補から前記集約状態遷移モデルを用いて予測される前記制御対象の複数の状態又は状態系列を取得し、前記制御対象の複数の状態又は状態系列のそれぞれに対応する報酬を算出し、算出した報酬に基づいて報酬を最大化する指令を生成して出力する各処理を制御周期毎に実行する指令生成部と、
出力される前記指令に対応して予測される前記制御対象の次状態と、前記次状態に対応する前記制御対象の計測された状態と、の間の誤差が小さくなるように前記集約状態遷移モデルを更新する学習部と、
を備えた学習装置。
前記指令生成部は、前記制御周期毎に、前記制御対象に対する指令又は指令系列の１の候補を生成し、生成した候補に基づく報酬を算出し、報酬をより大きくするように指令又は指令系列の候補を１回以上更新することによって、前記指令又は指令系列の候補を生成する、
請求項１記載の学習装置。
前記指令生成部は、前記制御周期毎に、前記制御対象に対する指令又は指令系列の複数の候補を生成し、その後、前記複数の候補のそれぞれから予測される前記制御対象の状態又は状態系列を取得する、
請求項１記載の学習装置。
前記集約状態遷移モデルは、前記集約部において前記複数の状態遷移モデルの出力をそれぞれの前記出力についての集約重みにしたがい統合する構造である、
請求項１～３の何れか１項に記載の学習装置。
前記学習部は、前記集約重みを更新する
請求項４記載の学習装置。
前記集約状態遷移モデルは、前記複数の状態遷移モデルと並列に誤差補償モデルを含み、
前記学習部は、前記誤差補償モデルを更新する
請求項１～５の何れか１項に記載の学習装置。
コンピュータが、
計測された制御対象の状態及び前記制御対象に対する指令に基づき前記制御対象の次状態を予測する複数の状態遷移モデル、及び、前記複数の状態遷移モデルによる予測結果を集約する集約部、を含む集約状態遷移モデルを作成し、
計測された前記制御対象の状態を入力し、前記制御対象に対する指令又は指令系列の複数の候補を生成し、前記制御対象の状態、及び、前記制御対象に対する指令又は指令系列の複数の候補から前記集約状態遷移モデルを用いて予測される前記制御対象の複数の状態又は状態系列を取得し、前記制御対象の複数の状態又は状態系列のそれぞれに対応する報酬を算出し、算出した報酬に基づいて報酬を最大化する指令を生成して出力する各処理を制御周期毎に実行し、
出力される前記指令に対応して予測される前記制御対象の次状態と、前記次状態に対応する前記制御対象の計測された状態と、の間の誤差が小さくなるように前記集約状態遷移モデルを更新する
処理を実行する学習方法。
コンピュータに、
計測された制御対象の状態及び前記制御対象に対する指令に基づき前記制御対象の次状態を予測する複数の状態遷移モデル、及び、前記複数の状態遷移モデルによる予測結果を集約する集約部、を含む集約状態遷移モデルを作成し、
計測された前記制御対象の状態を入力し、前記制御対象に対する指令又は指令系列の複数の候補を生成し、前記制御対象の状態、及び、前記制御対象に対する指令又は指令系列の複数の候補から前記集約状態遷移モデルを用いて予測される前記制御対象の複数の状態又は状態系列を取得し、前記制御対象の複数の状態又は状態系列のそれぞれに対応する報酬を算出し、算出した報酬に基づいて報酬を最大化する指令を生成して出力する各処理を制御周期毎に実行し、
出力される前記指令に対応して予測される前記制御対象の次状態と、前記次状態に対応する前記制御対象の計測された状態と、の間の誤差が小さくなるように前記集約状態遷移モデルを更新する
処理を実行させる学習プログラム。
請求項１～６の何れか１項に記載の学習装置により学習された集約状態遷移モデルを記憶する記憶部と、
計測された前記制御対象の状態を入力し、前記制御対象に対する指令又は指令系列の複数の候補を生成し、前記制御対象の状態、及び、前記制御対象に対する指令又は指令系列の複数の候補から前記集約状態遷移モデルを用いて予測される前記制御対象の複数の状態又は状態系列を取得し、前記制御対象の複数の状態又は状態系列のそれぞれに対応する報酬を算出し、算出した報酬に基づいて報酬を最大化する指令を生成して出力する各処理を制御周期毎に実行する指令生成部と、
を備えた制御装置。
コンピュータが、
請求項１～６の何れか１項に記載の学習装置により学習された集約状態遷移モデルを記憶する記憶部から前記集約状態遷移モデルを取得し、
計測された前記制御対象の状態を入力し、前記制御対象に対する指令又は指令系列の複数の候補を生成し、前記制御対象の状態、及び、前記制御対象に対する指令又は指令系列の複数の候補から前記集約状態遷移モデルを用いて予測される前記制御対象の複数の状態又は状態系列を取得し、前記制御対象の複数の状態又は状態系列のそれぞれに対応する報酬を算出し、算出した報酬に基づいて報酬を最大化する指令を生成して出力する各処理を制御周期毎に実行する
処理を実行する制御方法。
コンピュータに、
請求項１～６の何れか１項に記載の学習装置により学習された集約状態遷移モデルを記憶する記憶部から前記集約状態遷移モデルを取得し、
計測された前記制御対象の状態を入力し、前記制御対象に対する指令又は指令系列の複数の候補を生成し、前記制御対象の状態、及び、前記制御対象に対する指令又は指令系列の複数の候補から前記集約状態遷移モデルを用いて予測される前記制御対象の複数の状態又は状態系列を取得し、前記制御対象の複数の状態又は状態系列のそれぞれに対応する報酬を算出し、算出した報酬に基づいて報酬を最大化する指令を生成して出力する各処理を制御周期毎に実行する
処理を実行させる制御プログラム。