JP2023107484A

JP2023107484A - 自律制御システム、自律制御方法、及びプログラム

Info

Publication number: JP2023107484A
Application number: JP2022008713A
Authority: JP
Inventors: 昭伸林; Akinobu Hayashi; 五十志奈良村; Itoshi Naramura
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2023-08-03
Also published as: US20230234232A1

Abstract

【課題】目的のタスクがより達成しやすくなる自律制御システム、自律制御方法、及びプログラムを提供する。
【解決手段】自律制御システムは、ロボットの状態データと、前記ロボットの視覚データと、前記ロボットの触覚データとを取得する取得部と、前記状態データ、前記触覚データ、及び前記触覚データに基づいて、前記ロボットに与えられたタスクを達成可能な前記ロボットの行動を決定する処理部と、を備え、前記処理部は、前記触覚データ及び前記触覚データを融合し且つ次元圧縮することで、前記触覚データ及び前記触覚データを合わせたデータに比べて低次元の第１圧縮データを生成し、前記触覚データを次元圧縮することで、前記触覚データに比べて低次元の第２圧縮データを生成し、前記状態データ、前記第１圧縮データ、及び前記第２圧縮データを一つに結合した結合状態データに基づいて、前記行動を決定する。
【選択図】図３

Description

本発明は、自律制御システム、自律制御方法、及びプログラムに関する。

機械学習を用いてロボットを自律制御する研究が進められている。これに関連し、ニューラルネットワークの学習を効率的に行う技術が知られている（例えば、特許文献１参照）。

特開２０１９－１８５１２７号公報

従来、ロボットの手をカメラで撮像しながら目的のタスクが達成されるようにロボットの動作を制御する際に、ロボットが手の中で対象物を持ち替えたり、移動させたり、又は操作したりした場合、自らの手で対象物を覆い隠してしまい、オクルージョンが発生することがあった。そのため、視覚情報だけでは、対象物の姿勢を推定したり、その推定を基にしてロボットの行動を決定することが困難な場合があった。

これを解決するため、機械学習を用いてロボットの視覚と触覚を融合する研究が進められているが、目的のタスクを達成するためには十分でなかった。

本発明は、このような事情を考慮してなされたものであり、目的のタスクがより達成しやすくなる自律制御システム、自律制御方法、及びプログラムを提供することを目的の一つとする。

本発明に係る自律制御システム、自律制御方法、及びプログラムは以下の構成を採用した。
（１）本発明の第１の態様は、ロボットの状態データと、前記ロボットの視覚データと、前記ロボットの触覚データとを取得する取得部と、前記状態データ、前記視覚データ、及び前記触覚データに基づいて、前記ロボットに与えられたタスクを達成可能な前記ロボットの行動を決定する処理部と、を備え、前記処理部は、前記視覚データ及び前記触覚データを融合し且つ次元圧縮することで、前記視覚データ及び前記触覚データを合わせたデータに比べて低次元の第１圧縮データを生成し、前記触覚データを次元圧縮することで、前記触覚データに比べて低次元の第２圧縮データを生成し、前記状態データ、前記第１圧縮データ、及び前記第２圧縮データを一つに結合した結合状態データに基づいて、前記行動を決定する、自律制御システムである。

（２）本発明の第２の態様は、第１の態様において、前記取得部は、前記ロボットのボディと前記タスクのターゲットとを撮像するカメラにより生成された深度画像データを、前記視覚データとして取得し、前記ボディに配置された複数の触覚センサの分布に対して各触覚センサによって検出された接触力が対応付けられたデータを、前記触覚データとして取得し、前記処理部は、前記複数の触覚センサの分布と前記深度画像データとを融合し且つ次元圧縮することで、前記第１圧縮データを生成するものである。

（３）本発明の第３の態様は、第２の態様において、前記処理部は、前記複数の触覚センサの分布に対して各触覚センサによって検出された接触力が対応付けられたデータを次元圧縮することで、前記第２圧縮データを生成するものである。

（４）本発明の第４の態様は、第１から第３の態様のうちいずれか一つにおいて、前記処理部は、ある第１エンコーダを用いて、前記視覚データ及び前記触覚データから前記第１圧縮データを生成し、前記第１エンコーダは、前記視覚データ及び前記触覚データに対して、前記タスクのターゲットの正解の状態がラベル付けられた第１トレーニングデータセットに基づいて学習されたニューラルネットワークであるものである。

（５）本発明の第５の態様は、第１から第４の態様のうちいずれか一つにおいて、前記処理部は、ある第１エンコーダを用いて、前記視覚データ及び前記触覚データから前記第１圧縮データを生成し、前記第１エンコーダは、入力されたデータを低次元のデータに変換して出力するニューラルネットワークであって、入力されたデータを高次元のデータに変換して出力するデコーダと組み合わされて、前記第１エンコーダに入力したデータと、前記デコーダによって出力されたデータとが一致するように学習されたニューラルネットワークであるものである。

（６）本発明の第６の態様は、第１から第４の態様のうちいずれか一つにおいて、前記処理部は、ある第２エンコーダを用いて、前記触覚データから前記第２圧縮データを生成し、前記第２エンコーダは、入力されたデータを低次元のデータに変換して出力するニューラルネットワークであって、入力されたデータを高次元のデータに変換して出力するデコーダと組み合わされて、前記第２エンコーダに入力したデータと、前記デコーダによって出力されたデータとが一致するように学習されたニューラルネットワークであるものである。

（７）本発明の第７の態様は、第１から第５の態様のうちいずれか一つにおいて、前記処理部は、強化学習を用いて、前記結合状態データから前記行動を決定するものである。

（８）本発明の第８の態様は、第２又は第３の態様において、前記処理部は、更に、前記結合状態データに基づいて、前記触覚センサの感度を決定するものである。

（９）本発明の第９の態様は、第２又は第３の態様において、前記処理部は、更に、前記結合状態データに基づいて、前記ボディ及び前記ターゲットを撮像する際の前記カメラの角度を決定するものである。

（１０）本発明の第１０の態様は、ロボットの状態データと、前記ロボットの視覚データと、前記ロボットの触覚データとを取得し、前記状態データ、前記視覚データ、及び前記触覚データに基づいて、前記ロボットに与えられたタスクを達成可能な前記ロボットの行動を決定し、前記視覚データ及び前記触覚データを融合し且つ次元圧縮することで、前記視覚データ及び前記触覚データを合わせたデータに比べて低次元の第１圧縮データを生成し、前記触覚データを次元圧縮することで、前記触覚データに比べて低次元の第２圧縮データを生成し、前記状態データ、前記第１圧縮データ、及び前記第２圧縮データを一つに結合した結合状態データに基づいて、前記行動を決定する、自律制御方法である。

（１１）本発明の第１１の態様は、コンピュータに、ロボットの状態データと、前記ロボットの視覚データと、前記ロボットの触覚データとを取得すること、前記状態データ、前記視覚データ、及び前記触覚データに基づいて、前記ロボットに与えられたタスクを達成可能な前記ロボットの行動を決定すること、前記視覚データ及び前記触覚データを融合し且つ次元圧縮することで、前記視覚データ及び前記触覚データを合わせたデータに比べて低次元の第１圧縮データを生成すること、前記触覚データを次元圧縮することで、前記触覚データに比べて低次元の第２圧縮データを生成すること、前記状態データ、前記第１圧縮データ、及び前記第２圧縮データを一つに結合した結合状態データに基づいて、前記行動を決定すること、を実行させるためのプログラムである。

上記の態様によれば、目的のタスクがより達成しやすくなる。

第１実施形態に係る自律制御システム１の構成の一例を表す図である。第１実施形態に係るロボット１０の外観を模式的に表す図である。第１実施形態に係るロボット１０及び自律制御装置１００の構成図である。第１実施形態に係る処理部１２０の一連の処理の流れを表すフローチャートである。第１実施形態に係る処理部１２０の一連の処理の流れを模式的に表す図である。第１実施形態に係る学習装置２００の構成図である。第１エンコーダＭＤＬ１の学習方法を説明するための図である。第２エンコーダＭＤＬ２の学習方法を説明するための図である。第１エンコーダＭＤＬ１の他の学習方法を説明するための図である。第２実施形態に係る処理部１２０の一連の処理の流れを表すフローチャートである。第２実施形態に係る処理部１２０の一連の処理の流れを模式的に表す図である。

以下、図面を参照し、本発明の自律制御システム、自律制御方法、及びプログラムの実施形態について説明する。

＜第１実施形態＞
［システムの構成］
図１は、第１実施形態に係る自律制御システム１の構成の一例を表す図である。自律制御システム１は、例えば、自律制御装置１００と、学習装置２００とを備える。自律制御装置１００及び学習装置２００は、ネットワークＮＷを介して接続される。ネットワークＮＷは、ＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）などを含む。

自律制御装置１００は、ロボット１０が自律的に行動するように自律制御を行う装置である。自律制御装置１００は、典型的には、ロボット１０に搭載され、直接ロボット１０を制御する。また、自律制御装置１００は、ロボット１０から遠く離れた遠隔地に設置され、ネットワークＮＷを介して遠隔でロボット１０を制御してもよい。例えば、自律制御装置１００は、機械学習モデルを利用して、ロボット１０がとるべき最適な行動を決定する。

学習装置２００は、自律制御装置１００によって利用される機械学習モデルを学習する装置である。学習装置２００は、単一の装置であってもよいし、ネットワークＮＷを介して接続された複数の装置が互いに協働して動作する一つのシステムであってもよい。すなわち、学習装置２００は、分散コンピューティングシステムやクラウドコンピューティングシステムに含まれる複数のコンピュータ（プロセッサ）によって実現されてもよい。

［ロボットの外観］
図２は、第１実施形態に係るロボット１０の外観を模式的に表す図である。ロボット１０は、典型的には、２つの手を有する人型ロボット（ヒューマノイドロボット）であるがこれに限られず、四足歩行の動物型のロボットであってもよいし、産業用ロボットであってもよいし、軍事用ロボットであってもよいし、家庭用の掃除用ロボットであってもよいし、自律的に行動可能なその他種々のロボットであってよい。

ロボット１０は、例えば、ロボット１０から見た外界環境を画像化するための視覚センサ１１や、ロボットの触覚を再現する複数の触覚センサ１２を備えており、それらセンサを利用しながら自律制御装置１００によって決定された行動に従って目的のタスクを実行する。

タスクとは、例えば、ペットボトルのようなターゲットＴＲを考えた場合、そのペットボトルを手で掴んだり、ペットボトルをもう一方の手に持ち替えたり、ペットボトルを移動させたり、又はペットボトルをキャップを外したり着けたりすることである。なお、タスクはこれらに限られず、任意のタスクが設定可能である。

視覚センサ１１は、ロボット１０のボディの一部（典型的には頭部）に設置される。視覚センサ１１は、例えば、デプスカメラであってよい。デプスカメラは、ロボット１０の正面を撮像し、カラー且つ３次元の画像（つまり、幅（Ｗ）、高さ（Ｈ）、レッド（Ｒ）、グリーン（Ｇ）、ブルー（Ｂ）、デプス（Ｄ）の６次元画像）を生成する。なお、視覚センサ１１は、デプスカメラに限られず、例えば、レーダーやライダーといった電磁波を照射することで外界環境を画像化するセンサであってもよい。以下、便宜上、一例として視覚センサ１１がデプスカメラであるものとして説明する。ロボット１０の作業空間上に監視カメラ２０が存在し、その監視カメラ２０によってデプスカメラが代用可能な場合、視覚センサ１１は省略されてもよい。

複数の触覚センサ１２は、例えば、ロボット１０のボディの一部（典型的には指や手のひら）に分布して配置される。具体的には、触覚センサ１２は、指や手のひらの１０領域に分布してよい。例えば、親指には、３２点で接触力を感知可能な触覚センサ１２－１及び１２－２が配置される。接触力は、例えば、圧力や応力、歪みといった物理的な力である。手のひらには、３２点で接触力を感知可能な触覚センサ１２－３及び１２－４が配置される。親指を除いた残りの３本の指には、２４点で接触力を感知可能な触覚センサ１２－５と、８点で接触力を感知可能な触覚センサ１２－６が設置される。このような分布で配置された複数の触覚センサ１２は、ターゲットＴＲを掴んだりしたときに指や手のひらに加えられた力を合計２２４チャネルで感知する。なお、チャネル数は２２４に限られず、例えば数十～数百程度であってよい。

［ロボット及び自律制御装置の構成］
図３は、第１実施形態に係るロボット１０及び自律制御装置１００の構成図である。ロボット１０は、上述した視覚センサ１１と触覚センサ１２に加えて、更にアクチュエータ１３と、状態センサ１４と、駆動制御部１５とを備える。

アクチュエータ１３は、駆動制御部１５の制御を受けてロボット１０の各部位（腕、指、足、頭、胴、腰等）を駆動する。アクチュエータ１３は、例えば、電磁モータ、ギア、人工筋などを含む。

状態センサ１４は、ロボット１０の状態（例えば関節角度や角速度、トルク等）を検出するセンサである。状態センサ１４は、例えば、ロボット１０の関節の回動の度合いを検出するロータリエンコーダや、関節を回動させるためのワイヤーの張力を検出する張力センサ、関節軸にかかるトルクを検出するトルクセンサ、ロボット１０の姿勢を検出するための加速度センサやジャイロセンサなどを含む。

駆動制御部１５は、自律制御装置１００によって生成された制御コマンドに基づいて、アクチュエータ１３を制御する。

自律制御装置１００は、例えば、通信インターフェース１１０と、処理部１２０と、記憶部１３０とを備える。

通信インターフェース１１０は、ネットワークＮＷを介して学習装置２００と通信したり、バスのような通信線を介してロボット１０と通信したりする。通信インターフェース１１０には、例えば、受信機や送信機を含む無線通信モジュールや、ＮＩＣ（Network Interface Card）などが含まれる。

処理部１２０は、例えば、取得部１２１と、データ圧縮部１２２と、行動決定部１２３と、コマンド生成部１２４と、通信制御部１２５とを備える。

処理部１２０の構成要素は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）などが記憶部１３０に格納されたプログラムを実行することにより実現される。これらの構成要素の一部または全部は、ＬＳＩ（Large Scale Integration）、ＡＳＩＣ（Application Specific Integrated Circuit）、またはＦＰＧＡ（Field-Programmable Gate Array）などのハードウェアにより実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。

記憶部１３０は、例えば、ＨＤＤ（Hard Disc Drive）、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）などにより実現される。記憶部１３０は、ファームウェアやアプリケーションプログラムなどの各種プログラムの他に、モデルデータを格納する。モデルデータは、ロボット１０の行動を決定するためのいくつかの機械学習モデルを定義したデータ（プログラム又はアルゴリズム）である。モデルデータは、例えば、ネットワークＮＷを介して学習装置２００から記憶部１３０にインストールされてもよいし、自律制御装置１００のドライブ装置に接続された可搬型の記憶媒体から記憶部１３０にインストールされてもよい。

［自律制御装置の処理フロー］
以下、処理部１２０の各構成要素についてフローチャートを用いて説明する。図４は、第１実施形態に係る処理部１２０の一連の処理の流れを表すフローチャートである。

まず、取得部１２１は、通信インターフェース１１０を介して、ロボット１０から状態データと、深度画像データと、触覚データとを取得する（ステップＳ１００）。

状態データは、例えば、ロボット１０の状態センサ１４の検出値が要素として含まれる多次元のベクトルである。以下、状態データのベクトルのことを特に「状態ベクトル」という。状態ベクトルには、例えば、ロータリエンコーダにより検出された関節角度、張力センサにより検出された関節ワイヤーの張力、トルクセンサにより検出された関節軸のトルク、加速度センサにより検出されたロボット１０の加速度、ジャイロセンサにより検出されたロボット１０の角速度などが要素値として含まれる。

深度画像データは、例えば、ロボット１０の視覚センサ１１により得られたカラー且つ３次元の画像（６次元画像）のベクトルである。以下、深度画像データのベクトルのことを特に「画像ベクトル」という。例えば、幅（Ｗ）及び高さ（Ｈ）で表される画像の１ピクセルごとに深度（Ｄ）とＲＧＢ値が対応付けられた４次元の情報がＸＹＺのワールド座標に射影され、その射影後のＲＧＢ－ＸＹＺで表される６次元ベクトルが画像ベクトルとなる。なお、視覚センサ１１により得られた画像が白黒である場合、画像ベクトルは、ＸＹＺに対して１チャネルの画素値が対応付けられた４次元ベクトルとなる。

例えば、ロボット１０がタスクを達成するためにターゲットＴＲを手で把持している様子がデプスカメラにより撮像されたとする。この場合、深度画像データには、（ｉ）ロボット１０に搭載のデプスカメラからロボット１０の手までの距離情報や色情報、（ｉｉ）ロボット１０に搭載のデプスカメラからターゲットＴＲまでの距離情報や色情報のうち一方又は双方が含まれることになる。

ロボット１０の作業空間上に監視カメラ２０が存在する場合、取得部１２１は、ロボット１０から深度画像データを取得することに加えて、或いは代えて、監視カメラ２０から深度画像データを取得してもよい。この場合、深度画像データには、（ｉｉｉ）監視カメラ２０からロボット１０の手までの距離情報や色情報、（ｉｖ）監視カメラ２０からターゲットＴＲまでの距離情報や色情報とのうち一方又は双方が含まれることになる。

触覚データは、例えば、ロボット１０のボディの一部に配置された複数の触覚センサ１２の分布（接触点群）に対して、各触覚センサ１２によって検出された接触力が対応付けられた多次元のベクトルである。以下、触覚データのベクトルのことを特に「触覚ベクトル」という。例えば図２の例では、触覚ベクトルは、２２４次元のベクトルとなるが、上述したように数十～数百次元のベクトルであってよい。

次に、データ圧縮部１２２は、取得部１２１によって取得された状態データ（状態ベクトル）、深度画像データ（画像ベクトル）、及び触覚データ（触覚ベクトル）のうち、深度画像データ（画像ベクトル）と触覚データ（触覚ベクトル）とを融合し且つ次元圧縮することで、深度画像データ（画像ベクトル）と触覚データ（触覚ベクトル）とを合わせたものに比べて低次元のデータ（以下、第１圧縮データという）を生成する（ステップＳ１０２）。

図５は、第１実施形態に係る処理部１２０の一連の処理の流れを模式的に表す図である。図中のＭＤＬ１は、入力データの次元を圧縮するように予め学習された第１エンコーダ（オートエンコーダ）を表し、ＭＤＬ２は、第１エンコーダＭＤＬ１同様に、入力データの次元を圧縮するように予め学習された第２エンコーダ（オートエンコーダ）を表している。ＭＤＬ３は、状態データからロボット１０の行動を決定するように予め学習された方策ネットワークを表している。

第１エンコーダＭＤＬ１及び／又は第２エンコーダＭＤＬ２は、例えば、畳み込み層を含むニューラルネットワークによって実装されてよい。

方策ネットワークＭＤＬ３は、深層強化学習を利用したネットワークである。深層強化学習には、例えば、価値ベース（Value based）、方策ベース（Policy based）、価値と方策を組み合わせたActor-Critic、予測モデルベース、といったいくつかの種類が知られている。Actor-Criticには、例えば、ＴＤ３（Twin Delayed DDPG）やＳＡＣ（Soft Actor-Critic）などが含まれる。本実施形態では、例えば、方策ベースやActor-Critic、予測モデルベースなどが適用できる。

これらの各種モデルは、記憶部１３０に格納されたモデルデータによって定義される。モデルデータには、例えば、ニューラルネットワークを構成する複数の層のそれぞれに含まれるユニットが互いにどのように結合されるのかという結合情報や、結合されたユニット間で入出力されるデータに付与される結合係数などの各種情報が含まれる。結合情報とは、例えば、各層に含まれるユニット数や、各ユニットの結合先のユニットの種類を指定する情報、各ユニットを実現する活性化関数、隠れ層のユニット間に設けられたゲートなどの情報を含む。ユニットを実現する活性化関数は、例えば、正規化線形関数（ＲｅＬＵ関数）であってもよいし、シグモイド関数や、ステップ関数、その他の関数などであってもよい。ゲートは、例えば、活性化関数によって返される値（例えば１または０）に応じて、ユニット間で伝達されるデータを選択的に通過させたり、重み付けたりする。結合係数は、例えば、ニューラルネットワークの隠れ層において、ある層のユニットから、より深い層のユニットにデータが出力される際に、出力データに対して付与される重みを含む。結合係数は、各層の固有のバイアス成分などを含んでもよい。

例えば、データ圧縮部１２２は、深度画像データ（Ｗ（画像サイズ幅）×Ｈ（画像サイズ高さ）×Ｄ（奥行き））を、ＸＹＺのワールド座標に射影する。更に、データ圧縮部１２２は、触覚センサ１２の接触点（２２４ｃｈ分の点群のうち、閾値以上の接触力を検知した点）を、ＸＹＺのワールド座標に射影する。そして、データ圧縮部１２２は、ワールド座標に射影した深度画像データ由来の点群と触覚センサ１２の接触点とを合わせたものを一つのベクトルとし、そのベクトルを学習済みの第１エンコーダＭＤＬ１に入力する。これを受けて学習済みの第１エンコーダＭＤＬ１は、ターゲットＴＲの位置や姿勢といった状態を表す状態データ（状態ベクトル）を、第１圧縮データとして出力する。

つまり、第１エンコーダＭＤＬ１は、深度画像データ単独では、ロボット１０の手などにターゲットＴＲの一部又は全部が覆われてロボット１０の視点からターゲットＴＲの位置や姿勢を判断できない場合（つまりオクルージョンが発生した場合）であっても、触覚センサ１２の接触点からターゲットＴＲがロボット１０の手の中でどういった位置や姿勢にあるのかその判断を補うように学習されている。

図４のフローチャートの説明に戻る。次に、データ圧縮部１２２は、取得部１２１によって取得された状態データ（状態ベクトル）、深度画像データ（画像ベクトル）、及び触覚データ（触覚ベクトル）のうち、触覚データ（触覚ベクトル）を次元圧縮することで、触覚データ（触覚ベクトル）に比べて低次元のデータ（以下、第２圧縮データという）を生成する（ステップＳ１０４）。

図５に示すように、例えば、データ圧縮部１２２は、複数の触覚センサ１２の分布（接触点群）に対して、各触覚センサ１２によって検出された接触力が対応付けられた触覚データ（触覚ベクトル）を学習済みの第２エンコーダＭＤＬ２に入力する。これを受けて学習済みの第２エンコーダＭＤＬ２は、例えば、２２４次元の触覚ベクトルを、１０次元や２０次元といった数十次元の触覚ベクトルに変換し、それを第２圧縮データとして出力する。

図４のフローチャートの説明に戻る。次に、行動決定部１２３は、状態データ（状態ベクトル）と、第１圧縮データと、第２圧縮データとを一つに結合したデータ（以下、結合状態データという）を生成する（ステップＳ１０６）。

次に、行動決定部１２３は、方策ネットワークＭＤＬ３を用いて、結合状態データからロボット１０の行動を決定する（ステップＳ１０８）。

図５に示すように、例えば、行動決定部１２３は、ある時刻ｔにおける環境状態ｓ_ｔの観測結果ｏ_ｔとして、状態データ（状態ベクトル）、深度画像データ（画像ベクトル）、及び触覚データ（触覚ベクトル）をそのまま方策ネットワークＭＤＬ３に入力するのではなく、第１エンコーダＭＤＬ１と第２エンコーダＭＤＬ２を用いて観測結果ｏ_ｔを低次元に圧縮した結合状態データ（図中ｚ_ｔ）を方策ネットワークＭＤＬ３に入力する。これを受けて方策ネットワークＭＤＬ３は、ある時刻ｔの環境状態ｓ_ｔの下でロボット１０が取り得ることが可能な一つ又は複数の行動（行動変数）ａ_ｔのうち、価値（Ｑ値）が最大となる行動（行動変数）ａ_ｔを出力する。行動（行動変数）ａ_ｔは、例えば、ターゲットＴＲを手で掴んだり、持ち替えたり、移動させたり、といった種々の行動であってよい。このような方策ネットワークＭＤＬ３に出力させる行動ａ_ｔは、ロボット１０に要求されるタスクに応じて適切に学習される。

図４のフローチャートの説明に戻る。次に、コマンド生成部１２４は、方策ネットワークＭＤＬ３を用いて決定されたロボット１０の行動ａ_ｔに基づいて、ロボット１０の各アクチュエータ１３を制御するための制御コマンドを生成する（ステップＳ１１０）。

次に、通信制御部１２５は、通信インターフェース１１０を介して、制御コマンドをロボット１０に送信する（ステップＳ１１２）。ロボット１０の駆動制御部１５は、制御コマンドを受信すると、その制御コマンドに基づいてアクチュエータ１３を制御する。これによってロボット１０が行動し、ターゲットＴＲが持ち上げられたり、移動させられたりしてロボット１０を取り巻く環境状態ｓ_ｔがｓ_ｔ＋１へと変化する。

次に、取得部１２１は、通信インターフェース１１０を介して、ロボット１０から状態データと、深度画像データと、触覚データとを再取得する（ステップＳ１１４）。つまり、取得部１２１は、時刻ｔ＋１における環境状態ｓ_ｔ＋１の観測結果ｏ_ｔ＋１として、状態データ（状態ベクトル）、深度画像データ（画像ベクトル）、及び触覚データ（触覚ベクトル）を再取得する。

処理部１２０は、ロボット１０から再取得された各種データ（つまり観測結果ｏ_ｔ＋１）に基づいて、目的のタスクが達成されたか否かを判定する（ステップＳ１１６）。言い換えれば、処理部１２０は、時刻ｔ＋１における環境状態ｓ_ｔ＋１が、ロボット１０によって目的のタスクが達成された所望の状態にあるか否かを判定する。

目的のタスクが達成された場合（環境状態ｓ_ｔ＋１が所望の状態にある場合）、本フローチャートの処理が終了する。

一方、目的のタスクが達成されていない場合（環境状態ｓ_ｔ＋１が所望の状態にない場合）、処理部１２０は、上述したＳ１０２に処理を戻し、目的のタスクが達成されるまでＳ１０２からＳ１１４までの一連の処理を繰り返す。これによって本フローチャートの処理が終了する。

［学習装置の構成］
以下、第１実施形態に係る学習装置２００の構成を説明する。図６は、第１実施形態に係る学習装置２００の構成図である。学習装置２００は、例えば、通信インターフェース２１０と、処理部２２０と、記憶部２３０とを備える。

通信インターフェース２１０は、ネットワークＮＷを介して自律制御装置１００と通信する。通信インターフェース２１０には、例えば、受信機や送信機を含む無線通信モジュールや、ＮＩＣなどが含まれる。

処理部２２０は、例えば、取得部２２１と、学習部２２２と、通信制御部２２３とを備える。

処理部２２０の構成要素は、例えば、ＣＰＵやＧＰＵなどが記憶部２３０に格納されたプログラムを実行することにより実現される。これらの構成要素の一部または全部は、ＬＳＩ、ＡＳＩＣ、またはＦＰＧＡなどのハードウェアにより実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。

記憶部２３０は、例えば、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ、ＲＯＭ、ＲＡＭなどにより実現される。記憶部２３０は、ファームウェアやアプリケーションプログラムなどの各種プログラムの他に、未学習の第１エンコーダＭＤＬ１や未学習の第２エンコーダＭＤＬ２、未学習の方策ネットワークＭＤＬ３を定義したモデルデータを格納する。

取得部２２１は、未学習の第１エンコーダＭＤＬ１を学習するためのトレーニングデータセットを取得する。

トレーニングデータセットは、トレーニングのために用意された深度画像データ（画像ベクトル）及び触覚データ（触覚ベクトル）に対して、第１エンコーダＭＤＬ１が出力すべき正解（理想）のターゲットＴＲの状態データ（状態ベクトル）がラベル付けられたデータセットである。言い換えれば、トレーニングデータセットは、深度画像データ（画像ベクトル）及び触覚データ（触覚ベクトル）を入力データとし、正解のターゲットＴＲの状態データ（状態ベクトル）を出力データとしたデータセットである。

例えば、取得部２２１は、通信インターフェース２１０を介して他の装置（例えばデータソース）からトレーニングデータセットを取得してよい。また、記憶部２３０に既にトレーニングデータセットが格納されている場合、取得部２２１は、記憶部２３０からトレーニングデータセットを読み出してよい。更に学習装置２００のドライブ装置に、トレーニングデータセットが格納された非一過性の記憶媒体（例えばフレッシュメモリ等）が接続された場合、取得部２２１は、記憶媒体からトレーニングデータセットを読み出してもよい。

学習部２２２は、取得部２２１によって取得されたトレーニングデータセットを用いて第１エンコーダＭＤＬ１を学習する。

図７は、第１エンコーダＭＤＬ１の学習方法を説明するための図である。例えば、学習部２２２は、トレーニングデータセットに入力データとして含まれる深度画像データ（画像ベクトル）及び触覚データ（触覚ベクトル）を、未学習の第１エンコーダＭＤＬ１に入力する。

未学習の第１エンコーダＭＤＬ１は、深度画像データ（画像ベクトル）及び触覚データ（触覚ベクトル）が入力されたことに応じて、それらデータの次元数を圧縮し、その圧縮したデータを第１圧縮データとして出力する。

学習部２２２は、未学習の第１エンコーダＭＤＬ１によって出力された第１圧縮データと、トレーニングデータセットに出力データとして含まれるターゲットＴＲの状態データ（状態ベクトル）との差分Δを算出する。そして、学習部２２２は、差分Δが小さくなるように、第１エンコーダＭＤＬ１のパラメータである重み係数やバイアス成分などを確率的勾配降下法などを用いて決定（更新）する。

学習部２２２は、更に第２エンコーダＭＤＬ２を学習する。

図８は、第２エンコーダＭＤＬ２の学習方法を説明するための図である。第２エンコーダＭＤＬ２の学習には、第２エンコーダＭＤＬ２と機能的に対となるデコーダＭＤＬ４が用いられる。上述したように、第２エンコーダＭＤＬ２は、入力されたデータを低次元のデータに変換して出力するニューラルネットワークである。これに対して、デコーダＭＤＬ４は、入力されたデータを高次元のデータに変換して出力するニューラルネットワークである。

学習部２２２は、トレーニングのために用意された触覚データ（触覚ベクトル）を未学習の第２エンコーダＭＤＬ２に入力する。未学習の第２エンコーダＭＤＬ２は、触覚データ（触覚ベクトル）が入力されたことに応じて、その触覚データ（触覚ベクトル）の次元数を圧縮し、その圧縮したデータを第２圧縮データとして出力する。

第２エンコーダＭＤＬ２によって出力された第２圧縮データは、未学習のデコーダＭＤＬ４に入力される。未学習のデコーダＭＤＬ４は、第２圧縮データが入力されたことに応じて、その第２圧縮データを高次元のデータに変換して出力する。

学習部２２２は、第２エンコーダＭＤＬ２に入力した触覚データ（触覚ベクトル）と、デコーダＭＤＬ４によって出力された高次元のデータとの差分Δを算出する。そして、学習部２２２は、差分Δが小さくなるように、第２エンコーダＭＤＬ２及びデコーダＭＤＬ４のパラメータである重み係数やバイアス成分などを確率的勾配降下法などを用いて決定（更新）する。すなわち、学習部２２２は、第２エンコーダＭＤＬ２に入力した触覚データ（触覚ベクトル）と、デコーダＭＤＬ４によって出力された高次元のデータとが一致するように、第２エンコーダＭＤＬ２及びデコーダＭＤＬ４を学習する。

学習部２２２は、更に方策ネットワークＭＤＬ３を学習する。例えば、方策ネットワークＭＤＬ３が方策ベースである場合、学習部２２２は、方策勾配法（Policy Gradients）などを用いて方策ネットワークＭＤＬ３を学習してよい。また、例えば、方策ネットワークＭＤＬ３がActor-Criticである場合、学習部２２２は、行動を決めるActor（行動器）を学習しながら、方策を評価するCritic（評価器）も同時に学習する。

通信制御部２２３は、学習部２２２によって学習された第１エンコーダＭＤＬ１、第２エンコーダＭＤＬ２、及び方策ネットワークＭＤＬ３を定義したモデルデータを、通信インターフェース２１０を介して自律制御装置１００に送信する。これによって自律制御装置１００では、学習済みの各モデルを用いてロボット１０の行動を決定することができる。

以上説明した第実施形態によれば、自律制御装置１００は、第１エンコーダＭＤＬ１を用いて深度画像データ（画像ベクトル）及び触覚データ（触覚ベクトル）を融合し且つ次元圧縮することで、より低次元の第１圧縮データを生成する。自律制御装置１００は、第２エンコーダＭＤＬ２を用いて触覚データ（触覚ベクトル）を次元圧縮することで、より低次元の第２圧縮データを生成する。自律制御装置１００は、ロボット１０の状態データ（状態ベクトル）と、第１圧縮データと、第２圧縮データとを一つに結合した結合状態データｚ_ｔを生成し、方策ネットワークＭＤＬ３を用いて、結合状態データｚ_ｔからタスクを達成可能なロボット１０の行動ａ_ｔを決定する。このように、第１エンコーダＭＤＬ１及び第２エンコーダＭＤＬ２を用いてを用いて方策ネットワークＭＤＬ３に入力するデータの次元数を圧縮することで、方策ネットワークＭＤＬ３の精度を向上させることができる。この結果、目的のタスクがより達成しやすくなる。

また、上述した第１実施形態によれば、第１エンコーダＭＤＬ１と、第２エンコーダＭＤＬ２と、方策ネットワークＭＤＬ３とをそれぞれ分離させて個別に学習するため、学習効率を向上させつつ、各モデルの精度を向上させることができる。

＜第１実施形態の変形例＞
上述した第１実施形態では、学習部２２２は、トレーニングデータセットを用いて第１エンコーダＭＤＬ１を学習するものとして説明したがこれに限られない。例えば、学習部２２２は、第２エンコーダＭＤＬ２の学習と同じように、第１エンコーダＭＤＬ１を学習してもよい。

図９は、第１エンコーダＭＤＬ１の他の学習方法を説明するための図である。第２エンコーダＭＤＬ２同様に、第１エンコーダＭＤＬ１の学習には、第１エンコーダＭＤＬ１と機能的に対となるデコーダＭＤＬ５が用いられる。上述したように、第１エンコーダＭＤＬ１は、入力されたデータを低次元のデータに変換して出力するニューラルネットワークである。これに対して、デコーダＭＤＬ５は、入力されたデータを高次元のデータに変換して出力するニューラルネットワークである。

学習部２２２は、トレーニングのために用意された深度画像データ（画像ベクトル）及び触覚データ（触覚ベクトル）を未学習の第１エンコーダＭＤＬ１に入力する。未学習の第１エンコーダＭＤＬ１は、深度画像データ（画像ベクトル）及び触覚データ（触覚ベクトル）が入力されたことに応じて、それらデータの次元数を圧縮し、その圧縮したデータを第１圧縮データとして出力する。

第１エンコーダＭＤＬ１によって出力された第１圧縮データは、未学習のデコーダＭＤＬ５に入力される。未学習のデコーダＭＤＬ５は、第１圧縮データが入力されたことに応じて、その第１圧縮データを高次元のデータに変換して出力する。

学習部２２２は、第１エンコーダＭＤＬ１に入力した深度画像データ（画像ベクトル）及び触覚データ（触覚ベクトル）と、デコーダＭＤＬ５によって出力された高次元のデータとの差分Δを算出する。そして、学習部２２２は、差分Δが小さくなるように、第１エンコーダＭＤＬ１及びデコーダＭＤＬ５のパラメータである重み係数やバイアス成分などを確率的勾配降下法などを用いて決定（更新）する。すなわち、学習部２２２は、第１エンコーダＭＤＬ１に入力した深度画像データ（画像ベクトル）及び触覚データ（触覚ベクトル）と、デコーダＭＤＬ５によって出力された高次元のデータとが一致するように、第１エンコーダＭＤＬ１及びデコーダＭＤＬ５を学習する。

＜第２実施形態＞
以下、第２実施形態について説明する。第２実施形態では、方策ネットワークＭＤＬ３が、ロボット１０の行動ａ_ｔに加えて触覚センサ１２の感度パラメータを出力する点で上述した第１実施形態と相違する。感度パラメータとは、触覚センサ１２の感度を調整するためのパラメータであり、例えば、触覚センサ１２の各接触点において、接触があったのか、それとも接触がなかったのかの接触力の境界となる閾値である。また、感度パラメータは、閾値に加えて或いは代えて、接触力の勾配（傾き）であってもよい。以下、第１実施形態との相違点を中心に説明し、第１実施形態と共通する点については説明を省略する。なお、第２実施形態の説明において、第１実施形態と同じ部分については同一符号を付して説明する。

図１０は、第２実施形態に係る処理部１２０の一連の処理の流れを表すフローチャートである。図１１は、第２実施形態に係る処理部１２０の一連の処理の流れを模式的に表す図である。

まず、取得部１２１は、通信インターフェース１１０を介して、ロボット１０から状態データと、深度画像データと、触覚データとを取得する（ステップＳ２００）。

次に、データ圧縮部１２２は、取得部１２１によって取得された状態データ（状態ベクトル）、深度画像データ（画像ベクトル）、及び触覚データ（触覚ベクトル）のうち、深度画像データ（画像ベクトル）と触覚データ（触覚ベクトル）とを融合し且つ次元圧縮することで、第１圧縮データを生成する（ステップＳ２０２）。

次に、データ圧縮部１２２は、取得部１２１によって取得された状態データ（状態ベクトル）、深度画像データ（画像ベクトル）、及び触覚データ（触覚ベクトル）のうち、触覚データ（触覚ベクトル）を次元圧縮することで、第２圧縮データを生成する（ステップＳ２０４）。

次に、行動決定部１２３は、状態データ（状態ベクトル）と、第１圧縮データと、第２圧縮データとを一つに結合した結合状態データｚ_ｔを生成し（ステップＳ２０６）、方策ネットワークＭＤＬ３を用いて、結合状態データｚ_ｔからロボット１０の行動ａ_ｔと触覚センサ１２の感度パラメータと決定する（ステップＳ２０８）。方策ネットワークＭＤＬ３は、行動ａ_ｔと感度パラメータを出力するように事前に学習されているものとする。

次に、コマンド生成部１２４は、方策ネットワークＭＤＬ３を用いて決定されたロボット１０の行動ａ_ｔに基づいて、ロボット１０の各アクチュエータ１３を制御するための制御コマンドを生成する（ステップＳ２１０）。

次に、通信制御部１２５は、通信インターフェース１１０を介して、制御コマンドと、触覚センサ１２の感度パラメータをロボット１０に送信する（ステップＳ２１２）。ロボット１０の駆動制御部１５は、制御コマンドを受信すると、その制御コマンドに基づいてアクチュエータ１３を制御する。これによってロボット１０が行動し、ロボット１０を取り巻く環境状態ｓ_ｔがｓ_ｔ＋１へと変化する。

次に、取得部１２１は、通信インターフェース１１０を介して、ロボット１０から状態データと、深度画像データと、触覚データとを再取得する（ステップＳ２１４）。つまり、取得部１２１は、時刻ｔ＋１における環境状態ｓ_ｔ＋１の観測結果ｏ_ｔ＋１として、状態データ（状態ベクトル）、深度画像データ（画像ベクトル）、及び触覚データ（触覚ベクトル）を再取得する。

処理部１２０は、ロボット１０から再取得された各種データ（つまり観測結果ｏ_ｔ＋１）に基づいて、目的のタスクが達成されたか否かを判定する（ステップＳ２１６）。言い換えれば、処理部１２０は、時刻ｔ＋１における環境状態ｓ_ｔ＋１が、ロボット１０によって目的のタスクが達成された所望の状態にあるか否かを判定する。

一方、目的のタスクが達成されていない場合（環境状態ｓ_ｔ＋１が所望の状態にない場合）、ロボット１０の駆動制御部１５は、触覚センサ１２の感度パラメータに従って、触覚センサ１２の感度を更新する（ステップＳ２１８）。そして、処理部１２０は、上述したＳ２０２に処理を戻し、目的のタスクが達成されるまでＳ２０２からＳ２１８までの一連の処理を繰り返す。これによって本フローチャートの処理が終了する。

以上説明した第２実施形態によれば、自律制御装置１００は、方策ネットワークＭＤＬ３を用いて、結合状態データｚ_ｔからタスクを達成可能なロボット１０の行動ａ_ｔを決定することに加えて、更に触覚センサ１２の感度パラメータを決定する。これによって、タスクが達成されるようにロボット１０の触覚センサ１２の感度が調整されるため、第１実施形態に比べて更に目的のタスクが達成しやすくなる。

例えば、感度パラメータとして決定された閾値が小さく、触覚センサ１２の感度が高感度に設定された場合、触覚センサ１２に小さな力が加えられても高精度にそれを検出することができる。この結果、例えばターゲットＴＲがテーブルに置かれたヘアピンであったとしても、触覚だけでヘアピンを探し出すことができる。

一方、例えば、感度パラメータとして決定された閾値が大きく、触覚センサ１２の感度が低感度に設定された場合、触覚センサ１２に大きな力が加えられても高精度にそれを検出することができる。この結果、例えば、瓶の蓋がきつく締まっている場合であっても、力強く蓋を開けることができる。

また、上述した第２実施形態では、結合状態データｚ_ｔからロボット１０の行動ａ_ｔを決定することに加えて、更に触覚センサ１２の感度パラメータを決定するものとして説明したがこれに限られない。例えば、ロボット１０の行動ａ_ｔ及び／又は触覚センサ１２の感度パラメータに加えて、更に、ロボット１０のボディやターゲットＴＲを撮像する際の視覚センサ１１（デプスカメラ）の角度を決定してもよい。

上記説明した実施形態は、以下のように表現することができる。
コンピュータによって読み込み可能な命令（computer-readable instructions）を格納する記憶媒体（storage medium）と、
前記記憶媒体に接続されたプロセッサと、を備え、
前記プロセッサは、前命令を実行することにより（the processor executing the computer-readable instructions to:）
ロボットの状態データと、前記ロボットの視覚データと、前記ロボットの触覚データとを取得し、
前記状態データ、前記視覚データ、及び前記触覚データに基づいて、前記ロボットに与えられたタスクを達成可能な前記ロボットの行動を決定し、
前記視覚データ及び前記触覚データを融合し且つ次元圧縮することで、前記視覚データ及び前記触覚データを合わせたデータに比べて低次元の第１圧縮データを生成し、
前記触覚データを次元圧縮することで、前記触覚データに比べて低次元の第２圧縮データを生成し、
前記状態データ、前記第１圧縮データ、及び前記第２圧縮データを一つに結合した結合状態データに基づいて、前記行動を決定する、
自律制御システム。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１…自律制御システム、１０…ロボット、１１…視覚センサ、１２…触覚センサ、１３…アクチュエータ、１４…状態センサ、１５…駆動制御部、１００…自律制御装置、１１０…通信インターフェース、１２０…処理部、１３０…記憶部、２００…学習装置、２１０…通信インターフェース、２２０…処理部、２３０…記憶部、ＮＷ…ネットワーク、ＭＤＬ１…第１エンコーダ、ＭＤＬ２…第２エンコーダ、ＭＤＬ３…方策ネットワーク

Claims

ロボットの状態データと、前記ロボットの視覚データと、前記ロボットの触覚データとを取得する取得部と、
前記状態データ、前記視覚データ、及び前記触覚データに基づいて、前記ロボットに与えられたタスクを達成可能な前記ロボットの行動を決定する処理部と、を備え、
前記処理部は、
前記視覚データ及び前記触覚データを融合し且つ次元圧縮することで、前記視覚データ及び前記触覚データを合わせたデータに比べて低次元の第１圧縮データを生成し、
前記触覚データを次元圧縮することで、前記触覚データに比べて低次元の第２圧縮データを生成し、
前記状態データ、前記第１圧縮データ、及び前記第２圧縮データを一つに結合した結合状態データに基づいて、前記行動を決定する、
自律制御システム。
前記取得部は、
前記ロボットのボディと前記タスクのターゲットとを撮像するカメラにより生成された深度画像データを、前記視覚データとして取得し、
前記ボディに配置された複数の触覚センサの分布に対して各触覚センサによって検出された接触力が対応付けられたデータを、前記触覚データとして取得し、
前記処理部は、前記複数の触覚センサの分布と前記深度画像データとを融合し且つ次元圧縮することで、前記第１圧縮データを生成する、
請求項１に記載の自律制御システム。
前記処理部は、前記複数の触覚センサの分布に対して各触覚センサによって検出された接触力が対応付けられたデータを次元圧縮することで、前記第２圧縮データを生成する、
請求項２に記載の自律制御システム。
前記処理部は、ある第１エンコーダを用いて、前記視覚データ及び前記触覚データから前記第１圧縮データを生成し、
前記第１エンコーダは、前記視覚データ及び前記触覚データに対して、前記タスクのターゲットの正解の状態がラベル付けられたトレーニングデータセットに基づいて学習されたニューラルネットワークである、
請求項１から３のうちいずれか一項に記載の自律制御システム。
前記処理部は、ある第１エンコーダを用いて、前記視覚データ及び前記触覚データから前記第１圧縮データを生成し、
前記第１エンコーダは、入力されたデータを低次元のデータに変換して出力するニューラルネットワークであって、入力されたデータを高次元のデータに変換して出力するデコーダと組み合わされて、前記第１エンコーダに入力したデータと、前記デコーダによって出力されたデータとが一致するように学習されたニューラルネットワークである、
請求項１から３のうちいずれか一項に記載の自律制御システム。
前記処理部は、ある第２エンコーダを用いて、前記触覚データから前記第２圧縮データを生成し、
前記第２エンコーダは、入力されたデータを低次元のデータに変換して出力するニューラルネットワークであって、入力されたデータを高次元のデータに変換して出力するデコーダと組み合わされて、前記第２エンコーダに入力したデータと、前記デコーダによって出力されたデータとが一致するように学習されたニューラルネットワークである、
請求項１から５のうちいずれか一項に記載の自律制御システム。
前記処理部は、強化学習を用いて、前記結合状態データから前記行動を決定する、
請求項１から６のうちいずれか一項に記載の自律制御システム。
前記処理部は、更に、前記結合状態データに基づいて、前記触覚センサの感度を決定する、
請求項２又は３に記載の自律制御システム。
前記処理部は、更に、前記結合状態データに基づいて、前記ボディ及び前記ターゲットを撮像する際の前記カメラの角度を決定する、
請求項２又は３に記載の自律制御システム。
ロボットの状態データと、前記ロボットの視覚データと、前記ロボットの触覚データとを取得し、
前記状態データ、前記視覚データ、及び前記触覚データに基づいて、前記ロボットに与えられたタスクを達成可能な前記ロボットの行動を決定し、
前記視覚データ及び前記触覚データを融合し且つ次元圧縮することで、前記視覚データ及び前記触覚データを合わせたデータに比べて低次元の第１圧縮データを生成し、
前記触覚データを次元圧縮することで、前記触覚データに比べて低次元の第２圧縮データを生成し、
前記状態データ、前記第１圧縮データ、及び前記第２圧縮データを一つに結合した結合状態データに基づいて、前記行動を決定する、
自律制御方法。
コンピュータに、
ロボットの状態データと、前記ロボットの視覚データと、前記ロボットの触覚データとを取得すること、
前記状態データ、前記視覚データ、及び前記触覚データに基づいて、前記ロボットに与えられたタスクを達成可能な前記ロボットの行動を決定すること、
前記視覚データ及び前記触覚データを融合し且つ次元圧縮することで、前記視覚データ及び前記触覚データを合わせたデータに比べて低次元の第１圧縮データを生成すること、
前記触覚データを次元圧縮することで、前記触覚データに比べて低次元の第２圧縮データを生成すること、
前記状態データ、前記第１圧縮データ、及び前記第２圧縮データを一つに結合した結合状態データに基づいて、前記行動を決定すること、
を実行させるためのプログラム。