JP2020194242A

JP2020194242A - 学習装置、学習方法、学習プログラム、自動制御装置、自動制御方法および自動制御プログラム

Info

Publication number: JP2020194242A
Application number: JP2019098109A
Authority: JP
Inventors: 学嗣浅谷; Satotsugu Asatani
Original assignee: Exa Wizards Inc
Current assignee: Exa Wizards Inc
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2020-12-03
Anticipated expiration: 2039-05-24
Also published as: JP6811465B2; WO2020241037A1

Abstract

【課題】高い精度で対象機器の動作の学習を行うこと。【解決手段】学習装置（１００）は、動作中のマニピュレータ（１０）の状態値および当該動作の計測値を経時的に取得して蓄積する蓄積部（１０３）と、動作中のマニピュレータ（１０）の状態値および動作の計測値が少なくとも入力され、マニピュレータ（１０）の未来の状態値を予測する第１の学習モデル（１０１）に、教師データを学習させる学習部（１０５）と、を備え、教師データは、蓄積部（１０３）に蓄積された状態値および計測値の時系列データを含む。【選択図】図１

Description

本発明は、対象機器の制御のための学習モデルに学習させる学習装置、学習方法および学習プログラムならびに当該学習モデルを用いた自動制御装置、自動制御方法および自動制御プログラムに関する。

本発明者らは、ディープラーニングを用いて、対象機器（例えばロボット）の動作の学習（自己組織化）を行うことを検討している。非特許文献１には、ロボットを直接教示して物体操作タスクを行わせ、画像、音声信号、モータの各モーダリティーを複数のDeep Autoencoderによって統合して学習させることで、運動パターンを自己組織化できたことが記載されている。

尾形、「ロボティクスと深層学習」、人工知能３１巻２号、２１０−２１５頁、２０１６年３月

本発明者らは、より高い精度で対象機器の動作の学習を行うことを検討している。本発明の一態様は、高い精度で対象機器の動作の学習を行うことができる学習装置、学習方法および学習プログラムを実現することを目的とする。

上記の課題を解決するために、本発明の一態様に係る学習装置は、動作中の対象機器の状態値および当該動作の計測値を経時的に取得して蓄積する蓄積部と、動作中の対象機器の状態値および当該動作の計測値が少なくとも入力され、当該対象機器の未来の状態値を予測する第１の学習モデルに、教師データを学習させる学習部と、を備え、前記教師データは、前記蓄積部に蓄積された前記状態値および前記計測値の時系列データを含む。

本発明の一態様に係る学習方法は、動作中の対象機器の状態値および当該動作の計測値を経時的に取得して蓄積する蓄積工程と、動作中の対象機器の状態値および当該動作の計測値が少なくとも入力され、当該対象機器の未来の状態値を予測する第１の学習モデルに、教師データを学習させる学習工程と、を含み、前記教師データは、前記蓄積工程で蓄積された前記状態値および前記計測値の時系列データを含む。

本発明の一態様に係る自動制御装置は、動作中の対象機器の状態値および当該動作の計測値が少なくとも入力され、当該対象機器の未来の状態値を予測する第１の学習モデルと、少なくとも動作中の前記対象機器の状態値および当該動作の計測値を前記第１の学習モデルに入力し、前記第１の学習モデルが予測した前記未来の状態値に前記対象機器の状態値を近づけるように前記対象機器を制御する自動制御部と、を備え、前記第１の学習モデルは、過去の前記対象機器の前記状態値および前記計測値の時系列データを含む教師データを学習している。

本発明の一態様に係る自動制御方法は、動作中の対象機器の状態値および当該動作の計測値が少なくとも入力され、当該対象機器の未来の状態値を予測する第１の学習モデルに、少なくとも動作中の前記対象機器の状態値および当該動作の計測値を入力し、前記第１の学習モデルが予測した前記未来の状態値に前記対象機器の状態値を近づけるように前記対象機器を制御する自動制御工程を含み、前記第１の学習モデルは、過去の前記対象機器の前記状態値および前記計測値の時系列データを含む教師データを学習している。

本発明の一態様によれば、高い精度で対象機器の動作の学習を行うことができる。

本発明の一実施形態に係る学習システムの概略構成を示すブロック図である。本発明の一実施形態に係る学習システムの外観を模式的に示す図である。本発明の一実施形態に係る学習装置による対象機器の自動制御の流れの一例を示すフローチャートである。本発明の一実施形態に係る第１の学習モデルの入力パラメータおよび出力パラメータを説明する図である。本発明の一実施形態に係る表示部の表示内容の一例を示す図である。本発明の一実施形態に係る学習装置による手動学習の流れの一例を示すフローチャートである。本発明の一実施形態に係る学習装置による自動学習の流れの一例を示すフローチャートである。本発明の一実施形態に係る学習装置として利用可能なコンピュータの構成を例示したブロック図である。

以下、本発明の一実施形態について、詳細に説明する。

図１は、本発明の一実施形態に係る学習システム１の概略構成を示すブロック図である。学習システム１は、図１に示すように、マニピュレータ（対象機器）１０、カメラ１３、計測装置１４、入力デバイス１５、ディスプレイ（表示部）１６、および、学習装置（自動制御装置）１００を備えている。

図２は、学習システム１の外観を模式的に示す図である。本実施形態において、マニピュレータ１０には、エンドエフェクタとしてスプーン１７が装着されており、塩２を秤量する動作を行う。例えば、容器３内の塩２を、設定された量だけ、容器４に移す動作を行う。なお、マニピュレータ１０の動作は塩の秤量に限定されず、他の物体（粉体、液体）の秤量を行うようになっていてもよいし、エンドエフェクタを交換することによって他の動作が可能になるように構成されていてもよい。エンドエフェクタは、スプーン、ハンド（グリッパ）、吸着ハンド、スプレーガン、又は溶接トーチであるが、これに限られない。

マニピュレータ１０は、１以上の関節１１を備えており、各関節１１が駆動されることによって動作する。関節１１は、アームの関節であってもよいし、エンドエフェクタの関節であってもよい。マニピュレータ１０はまた、１以上のセンサ１２を備えており、各センサ１２には、例えば、各関節１１の状態値（例えば、ジョイント角度、指角度）を検知する角度センサ、マニピュレータ１０の特定の箇所における力覚（モーメント）を検知する力覚センサなどが含まれ得る。

カメラ１３は、マニピュレータ１０の動作（塩の秤量）の目的物（塩２、容器３、容器４）を撮像して撮像画像を取得する。

計測装置１４は、重量計であり、マニピュレータ１０の動作（塩の秤量）の計測値（容器３から容器４に移された塩２の量）を計測する。計測装置１４は、重量計に限られず、対象機器の動作による変化量（例えば、塩の量）を計測可能な任意の装置であり得る。

入力デバイス１５は、マニピュレータ１０を手動で操作するための入力デバイスである。本実施形態において、入力デバイス１５は、図２に示すような、マニピュレータ１０と同じ形状を有し、各関節のジョイント角度を検知するセンサを備え、手で掴んで動かすことにより、マニピュレータ１０を直感的に操作することができるマスタスレーブ方式の入力デバイスであるが、これに限定されず、入力デバイス１５は、ロボットコントローラ、ティーチペンダント、キーボード、レバー、ボタン、スイッチ、タッチパッド等から構成されていてもよい。

ディスプレイ１６は、各種情報を表示するための表示装置であり、例えば、ＬＣＤディスプレイなどであり得る。

（学習装置）
学習装置１００は、図１に示すように、第１の学習モデル１０１、第２の学習モデル１０２、蓄積部１０３、取得部１０４、学習部１０５、手動制御部１０６、自動制御部１０７および表示制御部１０８を備えている。

第１の学習モデル１０１は、動作中のマニピュレータ１０の状態値および当該動作の計測値が少なくとも入力され、マニピュレータ１０の未来の状態値および計測値を予測する学習モデルであり、時系列データを学習可能な学習モデルであり得る。一態様において、第１の学習モデル１０１は、ＭＴＲＮＮ（Multi Timescale RNN）、ＬＳＴＭ（Long Short Term Memory）等のＲＮＮ（Recurrent Neural Network）であるが、これに限定されず、ＡＲＩＭＡ（AutoRegressive, Integrated and Moving Average）モデル、１次元ＣＮＮ（Convolutional Neural Network）等であってもよい。

第２の学習モデル１０２は、画像を圧縮および復元可能な学習モデルであり得る。一態様において、第２の学習モデル１０２は、ＣＡＥ（Convolutional Auto Encoder）であるが、これに限定されず、オートエンコーダ（Autoencoder）、ＲＢＭ（Restricted Boltzmann Machine）、主成分分析（Principal Component Analysis）モデル等であってもよい。

蓄積部１０３は、動作中のマニピュレータ１０の状態値を経時的に取得して蓄積する。一態様において、蓄積部１０３は、センサ１２からマニピュレータ１０の各関節１１のジョイント角度（状態値）および力覚（状態値）を取得し、図示しない記憶部に記憶する。

蓄積部１０３はまた、マニピュレータ１０の動作の目的物の撮像画像、および、当該撮像画像の特徴量の少なくとも一方を経時的に取得して蓄積する。一態様において、蓄積部１０３は、カメラ１３が撮像した目的物（塩２、容器３、容器４）の撮像画像を図示しない記憶部に記憶する。また、一態様において、蓄積部１０３は、カメラ１３が撮像した目的物の撮像画像を第２の学習モデル１０２によって圧縮し、圧縮したデータを撮像画像の特徴量として取得し、図示しない記憶部に記憶する。

蓄積部１０３はまた、マニピュレータ１０の動作の計測値を経時的に取得して蓄積する。一態様において、蓄積部１０３は、取得部１０４が取得した計測値を、図示しない記憶部に記憶する。

一態様において、第２の学習モデル１０２は、ＣＡＥ、オートエンコーダのような、入力画像と出力画像とが一致するように深層学習される学習モデルである。学習部１０５は、蓄積部１０３が取得したカメラ１３の撮像画像の時系列データ（マニピュレータ１０の動作の動画データ）を、第２の学習モデル１０２に学習させる。これにより、蓄積部１０３は、撮像画像を入力した第２の学習モデル１０２の中間層から当該撮像画像の特徴量を取得することができる。すなわち、入力画像と出力画像とが一致するように深層学習された学習モデルの中間層は、入力画像の次元よりも少ない次元で、入力画像の情報量を落とさずに表現したものと言えるため、目的物の撮像画像の特徴を示す特徴量として好適に用いることができる。

取得部１０４は、マニピュレータ１０の動作（塩の秤量）の計測値（容器４に移動した塩２の量）を取得する。一態様において、取得部１０４は、容器４を計量する計測装置１４から有線または無線により計測値を取得してもよいし、カメラ１３が計測装置１４のディスプレイを撮像するようになっており、カメラ１３の撮像画像を画像解析することにより、計測値を取得してもよい。取得部１０４はまた、マニピュレータ１０の動作が完了したときの計測値を結果値として取得する。

学習部１０５は、第１の学習モデル１０１に教師データを学習させる。教師データの詳細については後述する。

学習部１０５はまた、蓄積部１０３に蓄積されたカメラ１３の撮像画像の時系列データを、第２の学習モデル１０２に学習させる。

手動制御部１０６は、入力デバイス１５（外部）からの指示に応じてマニピュレータ１０を制御する。

自動制御部１０７は、設定された目標値（塩２を容器４に移動させる量）、マニピュレータ１０の状態値、撮像画像の特徴量、および、マニピュレータ１０の動作の計測値を、第１の学習モデル１０１に入力し、第１の学習モデル１０１が予測した未来の状態値にマニピュレータ１０の状態値を近づけるようにマニピュレータ１０を制御する。詳細については後述する。

表示制御部１０８は、各種情報をディスプレイ１６に表示させる。表示内容としては、特に限定されないが、カメラ１３の撮像画像、未来の撮像画像の予測画像（詳細については後述する）、マニピュレータ１０のモデリング画像、設定された目標値、計測された計測値等があり得る。

（自動制御）
図３は、学習装置１００によるマニピュレータ１０の自動制御の流れの一例を示すフローチャートである。なお、一部のステップは並行して、または、順序を替えて実行してもよい。事前（過去）に後述する手動学習または自動学習がなされた学習装置１００は、マニピュレータ１０（対象機器）を自動制御することができる。

ステップＳ１において、自動制御部１０７は、マニピュレータ１０の動作の目標値を設定する。例えば、自動制御部１０７は、図示しない入力部を介して入力された値を目標値として設定してもよい。

ステップＳ２において、自動制御部１０７は、センサ１２からマニピュレータ１０の状態値（各関節１１のジョイント角、所定位置における力覚等）を取得する。

ステップＳ３において、自動制御部１０７は、第２の学習モデル１０２から、カメラ１３が撮像した撮像画像の特徴量を取得する。

ステップＳ４において、自動制御部１０７は、取得部１０４から、マニピュレータ１０の動作の計測値を取得する。

ステップＳ５において、自動制御部１０７は、第１の学習モデル１０１に入力する入力パラメータを生成する。図４は、第１の学習モデル１０１の入力パラメータおよび出力パラメータを説明する図である。図４に示すように、入力パラメータの各次元には、取得した状態値、特徴量および計測値ならびに設定した目標値が割り振られている。状態値、特徴量、計測値および目標値は、複数次元に割り当てられていてもよい。また、状態値、特徴量、計測値および目標値は、各次元に対応する正規化項によって正規化される。

ステップＳ６において、自動制御部１０７は、第１の学習モデル１０１に入力パラメータを入力し、出力パラメータを取得する。第１の学習モデル１０１は、入力パラメータが入力されたとき、未来に入力される入力パラメータを予測するように学習されており、例えば、時刻ｔの入力パラメータを入力したときに、第１の学習モデル１０１は、時刻ｔ＋１の入力パラメータの予測値を出力するように学習されている。換言すれば、第１の学習モデル１０１は、１フレーム先の入力パラメータを予測する。なお、目標値は固定値である。

ステップＳ７において、自動制御部１０７は、第１の学習モデル１０１が予測した未来の状態値にマニピュレータ１０の状態値を近づけるようにマニピュレータ１０を制御する。一態様において、自動制御部１０７は、第１の学習モデル１０１が出力した出力パラメータのうち、各関節１１のジョイント角を示すパラメータを参照し、マニピュレータ１０の各関節１１のジョイント角が、予測されたジョイント角に近づくように、各関節１１を制御してもよい。

ステップＳ８において、自動制御部１０７は、第１の学習モデル１０１が出力した出力パラメータのうち、未来の撮像画像の特徴量を示すパラメータを表示制御部１０８に出力する。表示制御部１０８は、第２の学習モデル１０２を用いて、未来の撮像画像の特徴量を示すパラメータから、未来の撮像画像を復元する。そして、表示制御部１０８は、カメラ１３が撮像した撮像画像と、復元した未来の撮像画像とをディスプレイ１６に表示させる。

図５は、ステップＳ８におけるディスプレイ１６の表示内容の一例を示す図である。表示制御部１０８は、ディスプレイ１６に、カメラ１３が撮像した現在の撮像画像２００と、復元した未来の撮像画像２０１とを表示させる。そして、自動制御部１０７は、結果的に、現在の撮像画像２００が未来の撮像画像２０１の状態になるように、マニピュレータ１０を制御する。なお、ステップＳ８では、表示制御部１０８は、カメラ１３が撮像した現在の撮像画像２００のみをディスプレイ１６に表示させてもよい。

ステップＳ９において、自動制御部１０７は、マニピュレータ１０の動作が完了したか否かを判定し、完了していなかった場合は（ステップＳ９のＮＯ）、ステップＳ２に戻って処理を継続し、完了していた場合は（ステップＳ９のＹＥＳ）、処理を終了する。自動制御部１０７は、取得部１０４が取得した計測値が目標値以上となった場合、または、取得部１０４が取得した計測値と目標値との差が予め設定された閾値以下となった場合に、動作が完了したと判定すればよい。なお、一態様において、第１の学習モデル１０１は、マニピュレータ１０の動作が完了している場合には、当該動作が完了したことを示す特定のパラメータを出力するように学習されており、自動制御部１０７は、第１の学習モデル１０１から、当該特定のパラメータが出力された場合に、マニピュレータ１０の動作が完了したと判定してもよい。

（手動学習）
図６は、学習装置１００による手動学習の流れの一例を示すフローチャートである。なお、一部のステップは並行して、または、順序を替えて実行してもよい。

ステップＳ１１において、ユーザは、入力デバイス１５を操作して、マニピュレータ１０の動作を入力する。一態様において、入力デバイス１５は、図２に示すような、マニピュレータ１０と同じ形状を有し、各関節のジョイント角度を検知するセンサを備えるものであり、入力デバイス１５から手動制御部１０６に入力デバイス１５の各関節のジョイント角を示す指示信号が送信される。

ステップＳ１２において、手動制御部１０６は、入力デバイス１５（外部）からの指示を取得し、マニピュレータ１０を制御する。一態様において、手動制御部１０６は、入力デバイス１５からの指示信号を参照して、マニピュレータ１０の各関節１１のジョイント角が、入力デバイス１５の各関節のジョイント角と同じになるように各関節を制御する。

ステップＳ１３において、蓄積部１０３は、センサ１２からマニピュレータ１０の状態値（各関節１１のジョイント角、所定位置における力覚等）を取得し、時系列に沿って蓄積する。

ステップＳ１４において、蓄積部１０３は、カメラ１３が撮像した撮像画像を取得し、時系列に沿って蓄積する。

ステップＳ１５において、蓄積部１０３は、取得部１０４が計測装置１４から取得した計測値を取得し、時系列に沿って蓄積する。

ステップＳ１６において、手動制御部１０６は、マニピュレータ１０の動作が完了したか否かを判定し、完了していなかった場合は（ステップＳ１６のＮＯ）、ステップＳ１１に戻って処理を継続し、完了していた場合は（ステップＳ１６のＹＥＳ）、ステップＳ１７に進む。一態様において、ユーザは入力デバイス１５の操作により、動作の完了を指定することができる。

ステップＳ１７において、取得部１０４は、完了した動作の結果値を取得する。取得部１０４は、マニピュレータ１０の動作の結果値（容器４に移動した塩２の量）を、計測装置１４から有線または無線を介して受信することにより、または、カメラ１３の撮像画像を画像解析することにより取得する。

なお、ステップＳ１１〜ステップＳ１７は、十分な教師データを得るために複数回繰り返してもよい。

ステップＳ１８において、学習部１０５は、第２の学習モデル１０２が撮像画像を圧縮および復元できるようになるように、蓄積部１０３に蓄積された撮像画像の時系列データを、第２の学習モデル１０２に学習させる。

ステップＳ１９において、学習部１０５は、手動制御部１０６による制御の結果として、マニピュレータ１０の動作毎に、蓄積部１０３に蓄積された状態値、撮像画像および計測値の時系列データと取得部１０４が取得した結果値とを用いて教師データを生成する。まず、学習部１０５は、撮像画像の時系列データを第２の学習モデル１０２に入力し、特徴量の時系列データを取得する。そして、学習部１０５は、状態値、特徴量および計測値の時系列データならびに結果値を含む教師データを生成する。そして、ステップＳ２０において、学習部１０５は、生成した教師データを第１の学習モデル１０１に学習させる。その後、手動制御部１０６は、処理を終了する。

（教師データの詳細）
教師データは、状態値、特徴量および計測値の時系列データと、目標値に代えて、結果値と、を含む。すなわち、一態様において、教師データは、図４に示す入力パラメータの時系列データであって、設定された目標値が割り当てられていたパラメータの代わりに、取得部１０４が取得した結果値が固定値として入力されたデータである。

一態様において、学習部１０５は、教師データに含まれる状態値、特徴量および計測値の時系列データを結果値（固定値）とともに順次入力し、次の時点の状態値、特徴量および計測値ならびに結果値（固定値）を正解データとして用いて、第１の学習モデル１０１の学習を行う。

以上のように、本実施形態では、学習装置１００は、対象機器の動作を学習するとき、状態値や撮像画像の特徴量の時系列データに加えて、対象機器の動作の計測値（例えば、塩の秤量の場合の塩の移動量など）の時系列データを学習することにより、強化学習とは異なるアルゴリズムにより、計測値を反映させた学習を行うことができ、高い精度で対象機器の動作の学習を行うことができる。

また、学習装置１００は、対象機器の動作を学習するとき、当該動作の結果値を取得した後に、当該動作は当該結果値を目標値とした動作であったものとみなして学習を行う。換言すれば、学習装置１００は、当該動作に係る状態値、特徴量、計測値等を蓄積しておき、当該動作の結果値を取得した後、蓄積しておいた状態値、特徴量、計測値等を、当該結果値を得るための動作の教師データとして用いて学習モデルを学習させる。これにより、強化学習とは異なるアルゴリズムにより、結果値を反映させた学習を行うことができ、高い精度で対象機器の動作の学習を行うことができる。

なお、教師データに含まれる、複数次元のパラメータの時系列データは、パラメータの次元毎に正規化項を設け、正規化することが好ましい。すなわち、一態様において、学習部１０５は、教師データにおける各次元の平均および分散を算出して、各次元のパラメータが平均０、分散１になるように正規化項を算出し、教師データを正規化した後に、第１の学習モデルに学習させる。これにより、オーダーが異なるマルチモーダルなパラメータの平均および分散を合わせ、高い精度で対象機器の動作の学習を行うことができる。

この場合、第１の学習モデル１０１の学習に用いる損失関数に、次元差を埋める制約をつけることが好ましい。すなわち、損失関数を最小化する場合に次元数が大きいものを最小化する方向のみへ学習が進まないように、次元数が小さい値の損失関数への寄与度を大きくすることが好ましい。例えば、以下の式（１）に示す損失関数を用いることができる。Ｄｉｍは、総次元数を表す。Ｍｉは、各モダリティ（例えば、ジョイント角度（状態値）、力覚（状態値）、特徴量および計測値）の次元数を表す。ｔは、正解データを表す。ｙは、予測データを表す。Ｎはデータ数を表す。

（自動学習）
学習装置１００は、図２に示す自動制御部１０７による制御の結果として蓄積部１０３に蓄積された状態値および特徴量の時系列データと、取得部１０４が取得した計測値および結果値とを用いて教師データを生成し、学習を行うことができる。これにより、動作精度を自動的に向上させることができる。つまり、学習装置１００は、人の手を介さずに、学習モデルを自習することができる。したがって、手動学習の回数が少なく、手動学習により得られた対象機器の動作精度が所望の動作精度より低い場合であっても、自動学習により、対象機器の動作精度を所望の動作精度まで向上させることができる。言い換えると、少ない手動学習により、高い動作精度を得ることができる。結果として、手動学習を行う作業者の手間を減らすと共に、学習に要する時間を短くすることができる。

図７は、学習装置１００による自動学習の流れの一例を示すフローチャートである。なお、一部のステップは並行して、または、順序を替えて実行してもよい。

図７に示すフローチャートは、図３に示すフローチャートの一部を改変することによって実行される。まず、ステップＳ１を行った後、Ｓ２〜Ｓ４に代えてステップＳ２１〜Ｓ２３を行う。

ステップＳ２１において、自動制御部１０７は、センサ１２からマニピュレータ１０の状態値（各関節１１のジョイント角、所定位置における力覚等）を取得し、蓄積する。

ステップＳ２２において、自動制御部１０７は、第２の学習モデル１０２から、カメラ１３が撮像した撮像画像の特徴量を取得し、蓄積する。

ステップＳ２３において、自動制御部１０７は、取得部１０４から、マニピュレータ１０の動作の計測値を取得し、蓄積する。

続いて、ステップＳ５〜Ｓ９を行い、ステップＳ９がＹＥＳであった場合に、ステップＳ２４〜Ｓ２６を行う。

ステップＳ２４において、取得部１０４は、完了した動作の結果値を計測装置１４から取得する。

ステップＳ２５において、学習部１０５は、自動制御部１０７による制御の結果として、マニピュレータ１０の動作毎に、蓄積部１０３に蓄積された状態値、特徴量および計測値の時系列データと取得部１０４が取得した結果値と含む教師データを生成する。そして、ステップＳ２６において、学習部１０５は、生成した教師データを第１の学習モデル１０１に学習させる。その後、自動制御部１０７は、処理を終了する。

また、一態様において、学習部１０５は、マニピュレータ１０の動作を完了させるまでに掛かった時間に基づいて、ステップＳ２５〜Ｓ２６を行うか否かを判定してもよい。すなわち、学習装置１００は、自動制御の結果得られた時系列データのうち、動作速度が速いもの（動作を完了させるまでにかかった時間が閾値より短いもの）のみを教師データとして第１の学習モデル１０１に学習させることにより、自動制御時の動作を高速化することができる。一態様において、学習装置１００は、結果値を所定の段階に分け、各段階の結果値が得られた動作の時系列データのうち、動作速度が速いものの時系列データのみを教師データとして第１の学習モデル１０１に学習させてもよい。

（サンプリングレートについて）
蓄積部１０３が状態値、特徴量および計測値を取得する間隔は、マニピュレータ１０の制御に要する時間に近いことが好ましい。換言すれば、教師データに用いる状態値、特徴量および計測値のサンプリングレートは、マニピュレータ１０の制御の処理レートに近いことが好ましい。

そこで、一態様において、自動制御部１０７は、あらかじめ用意した擬似的な第１の学習モデル１０１を用いて自動制御を行い、自動制御部１０７が状態値、特徴量および計測値の少なくとも一つを取得してからマニピュレータ１０を制御するまでに掛かった時間を測定する。そして、当該時間に基づいて、蓄積部１０３が、状態値、特徴量および計測値の少なくとも一つを取得する間隔を、当該時間に近づくように調整する。これにより、より高い精度で対象機器の動作の学習を行うことができる。

（変形例）
上記実施形態では、入力パラメータとして、撮像画像の特徴量が含まれているが、当該特徴量は含めなくともよい。また、入力パラメータとして、目標値（結果値）が含まれているが、目標値（結果値）は含めなくともよい。

また、マニピュレータ１０の動作は、物体の秤量の他、物体の移動動作、塗装動作、溶接動作等であってもよい。また、計測値は、物体の量（重さ）の他、物体の移動距離、塗装色または範囲、温度等であってもよい。また、計測装置１４は、重量計の他、測距装置、カメラ、温度計等であってもよい。計測装置１４がカメラである場合、カメラ１３を計測装置１４として利用することも可能である。

また、マニピュレータ１０に替えて、その他制御可能な対象機器（例えば、工作機械、３Ｄプリンタ、建設機械、医療機器など）に対して本発明を適用することも可能である。

〔ソフトウェアによる実現例〕
学習装置１００の制御ブロック（特に、蓄積部１０３、取得部１０４、学習部１０５、手動制御部１０６、自動制御部１０７および表示制御部１０８）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ソフトウェアによって実現してもよい。

後者の場合、学習装置１００を、図８に示すようなコンピュータ（電子計算機）を用いて構成することができる。図８は、学習装置１００として利用可能なコンピュータ９１０の構成を例示したブロック図である。コンピュータ９１０は、バス９１１を介して互いに接続された演算装置９１２と、主記憶装置９１３と、補助記憶装置９１４と、入出力インターフェース９１５と、通信インターフェース９１６とを備えている。演算装置９１２、主記憶装置９１３、および補助記憶装置９１４は、それぞれ、例えばプロセッサ、ＲＡＭ（random access memory）、ハードディスクドライブであってもよい。上記プロセッサとしては、例えばＣＰＵ（Central Processing Unit）およびＧＰＵ（Graphics Processing Unit）を用いることができる。第１の学習モデル１０１および第２の学習モデル１０２の学習は、ＧＰＵにより実行されるのが好ましい。入出力インターフェース９１５には、ユーザがコンピュータ９１０に各種情報を入力するための入力装置９２０、および、コンピュータ９１０がユーザに各種情報を出力するための出力装置９３０が接続される。入力装置９２０および出力装置９３０は、コンピュータ９１０に内蔵されたものであってもよいし、コンピュータ９１０に接続された（外付けされた）ものであってもよい。例えば、入力装置９２０は、キーボード、マウス、タッチセンサなどであってもよく、出力装置９３０は、ディスプレイ、プリンタ、スピーカなどであってもよい。また、タッチセンサとディスプレイとが一体化されたタッチパネルのような、入力装置９２０および出力装置９３０の双方の機能を有する装置を適用してもよい。そして、通信インターフェース９１６は、コンピュータ９１０が外部の装置と通信するためのインターフェースである。

補助記憶装置９１４には、コンピュータ９１０を学習装置１００として動作させるための各種のプログラムが格納されている。そして、演算装置９１２は、補助記憶装置９１４に格納された上記プログラムを主記憶装置９１３上に展開して該プログラムに含まれる命令を実行することによって、コンピュータ９１０を、学習装置１００が備える各部として機能させる。なお、補助記憶装置９１４が備える、プログラム等の情報を記録する記録媒体は、コンピュータ読み取り可能な「一時的でない有形の媒体」であればよく、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブル論理回路などであってもよい。また、記録媒体に記録されているプログラムを、主記憶装置９１３上に展開することなく実行可能なコンピュータであれば、主記憶装置９１３を省略してもよい。なお、上記各装置（演算装置９１２、主記憶装置９１３、補助記憶装置９１４、入出力インターフェース９１５、通信インターフェース９１６、入力装置９２０、および出力装置９３０）は、それぞれ１つであってもよいし、複数であってもよい。

また、上記プログラムは、コンピュータ９１０の外部から取得してもよく、この場合、任意の伝送媒体（通信ネットワークや放送波等）を介して取得してもよい。そして、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

（まとめ）
本発明の態様１に係る学習装置は、動作中の対象機器の状態値および当該動作の計測値を経時的に取得して蓄積する蓄積部と、動作中の対象機器の状態値および当該動作の計測値が少なくとも入力され、当該対象機器の未来の状態値を予測する第１の学習モデルに、教師データを学習させる学習部と、を備え、前記教師データは、前記蓄積部に蓄積された前記状態値および前記計測値の時系列データを含む。

本発明の態様２に係る学習装置は、前記態様１において、前記動作が完了したときの計測値である結果値を取得する取得部をさらに備え、前記第１の学習モデルの入力データは、前記対象機器の動作の目標値をさらに含み、前記教師データは、さらに、前記目標値に代えて、前記取得部が取得した前記結果値を含むものとしてもよい。

本発明の態様３に係る学習装置は、前記態様１または２において、外部からの指示に応じて前記対象機器を制御する手動制御部をさらに備え、前記学習部は、前記手動制御部による制御の結果として前記蓄積部に蓄積された前記状態値および前記計測値の時系列データを少なくとも用いて学習を行うこととしてもよい。

本発明の態様４に係る学習装置は、前記態様１〜３において、動作中の前記対象機器の状態値および前記動作の計測値を前記第１の学習モデルに入力し、前記第１の学習モデルが予測した前記未来の状態値に前記対象機器の状態値を近づけるように前記対象機器を制御する自動制御部をさらに備えていることとしてもよい。

本発明の態様５に係る学習装置は、前記態様４において、前記学習部が、前記自動制御部による制御の結果として前記蓄積部に蓄積された前記状態値および前記計測値の時系列データを少なくとも用いて、学習を行うこととしてもよい。

本発明の態様６に係る学習装置は、前記態様５において、前記自動制御部は、前記動作を完了させるまでに掛かった時間に基づいて、当該動作の結果として前記蓄積部に蓄積された前記状態値および前記計測値の時系列データを少なくとも用いた学習を前記学習部に行わせるか否かを判定することとしてもよい。

本発明の態様７に係る学習装置は、前記態様４〜６において、前記自動制御部は、前記状態値または前記計測値を取得してから前記対象機器を制御するまでに掛かった時間を測定し、当該時間に基づいて、前記蓄積部が、前記状態値または前記計測値を取得する間隔を調整することとしてもよい。

本発明の態様８に係る学習装置は、前記態様１〜７において、前記蓄積部は、さらに、前記対象機器の動作の目的物を撮像した撮像画像の特徴量を経時的に取得して蓄積し、前記第１の学習モデルには、さらに、前記撮像画像の特徴量が入力され、前記教師データは、さらに、前記蓄積部に蓄積された前記特徴量の時系列データを含むこととしてもよい。

本発明の態様９に係る学習装置は、前記態様８において、前記蓄積部は、さらに、前記撮像画像を蓄積し、前記学習部は、入力画像と出力画像とが一致するように深層学習される第２の学習モデルに、前記蓄積部に蓄積された前記撮像画像を学習させ、前記撮像画像の特徴量は、当該撮像画像が入力された前記第２の学習モデルから得られることとしてもよい。

本発明の態様１０に係る学習装置は、前記態様８または９において、前記第１の学習モデルは、さらに、未来の撮像画像の特徴量を予測し、前記第１の学習モデルが予測した前記未来の撮像画像の特徴量から復元した前記未来の撮像画像と、前記目的物を撮像した撮像画像とを表示部に表示させる表示制御部をさらに備えていることとしてもよい。

本発明の態様１１に係る学習装置は、前記態様１〜１０において、複数次元のパラメータの時系列データを含み、次元毎に前記パラメータが正規化されていることとしてもよい。

本発明の態様１２に係る学習装置は、前記態様１〜１１において、前記第１の学習モデルが、ＲＮＮであることとしてもよい。

本発明の態様１３に係る学習装置は、前記態様１〜１２において、前記対象機器が、関節を有するマニピュレータであり、前記状態値が、前記関節の状態値であることとしてもよい。

本発明の態様１４に係る学習方法は、動作中の対象機器の状態値および当該動作の計測値を経時的に取得して蓄積する蓄積工程と、動作中の対象機器の状態値および当該動作の計測値が少なくとも入力され、当該対象機器の未来の状態値を予測する第１の学習モデルに、教師データを学習させる学習工程と、を含み、前記教師データは、前記蓄積工程で蓄積された前記状態値および前記計測値の時系列データを含む。

本発明の態様１５に係る自動制御装置は、動作中の対象機器の状態値および当該動作の計測値が少なくとも入力され、当該対象機器の未来の状態値を予測する第１の学習モデルと、少なくとも動作中の前記対象機器の状態値および当該動作の計測値を前記第１の学習モデルに入力し、前記第１の学習モデルが予測した前記未来の状態値に前記対象機器の状態値を近づけるように前記対象機器を制御する自動制御部と、を備え、前記第１の学習モデルは、過去の前記対象機器の前記状態値および前記計測値の時系列データを含む教師データを学習している。

本発明の態様１６に係る自動制御方法は、動作中の対象機器の状態値および当該動作の計測値が少なくとも入力され、当該対象機器の未来の状態値を予測する第１の学習モデルに、少なくとも動作中の前記対象機器の状態値および当該動作の計測値を入力し、前記第１の学習モデルが予測した前記未来の状態値に前記対象機器の状態値を近づけるように前記対象機器を制御する自動制御工程を含み、前記第１の学習モデルは、過去の前記対象機器の前記状態値および前記計測値の時系列データを含む教師データを学習している。

本発明の各態様に係る学習装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記学習装置が備える各部（ソフトウェア要素）として動作させることにより上記学習装置をコンピュータにて実現させる学習装置の学習プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

１学習システム
２塩
１０マニピュレータ（対象機器）
１１関節
１２センサ
１３カメラ
１４計測装置
１５入力デバイス
１６ディスプレイ（表示部）
１００学習装置
１０１第１の学習モデル
１０２第２の学習モデル
１０３蓄積部
１０４取得部
１０５学習部
１０６手動制御部
１０７自動制御部
１０８表示制御部
２００現在の撮像画像
２０１未来の撮像画像

Claims

動作中の対象機器の状態値および当該動作の計測値を経時的に取得して蓄積する蓄積部と、
動作中の対象機器の状態値および当該動作の計測値が少なくとも入力され、当該対象機器の未来の状態値を予測する第１の学習モデルに、教師データを学習させる学習部と、を備え、
前記教師データは、前記蓄積部に蓄積された前記状態値および前記計測値の時系列データを含むことを特徴とする学習装置。
前記動作が完了したときの計測値である結果値を取得する取得部をさらに備え、
前記第１の学習モデルの入力データは、前記対象機器の動作の目標値をさらに含み、
前記教師データは、さらに、前記目標値に代えて、前記取得部が取得した前記結果値を含むことを特徴とする請求項１に記載の学習装置。
外部からの指示に応じて前記対象機器を制御する手動制御部をさらに備え、
前記学習部は、前記手動制御部による制御の結果として前記蓄積部に蓄積された前記状態値および前記計測値の時系列データを少なくとも用いて学習を行うことを特徴とする請求項１または２に記載の学習装置。
動作中の前記対象機器の状態値および前記動作の計測値を前記第１の学習モデルに入力し、前記第１の学習モデルが予測した前記未来の状態値に前記対象機器の状態値を近づけるように前記対象機器を制御する自動制御部をさらに備えていることを特徴とする請求項１〜３のいずれか一項に記載の学習装置。
前記学習部は、前記自動制御部による制御の結果として前記蓄積部に蓄積された前記状態値および前記計測値の時系列データを少なくとも用いて、学習を行うことを特徴とする請求項４に記載の学習装置。
前記自動制御部は、前記動作を完了させるまでに掛かった時間に基づいて、当該動作の結果として前記蓄積部に蓄積された前記状態値および前記計測値の時系列データを少なくとも用いた学習を前記学習部に行わせるか否かを判定することを特徴とする請求項５に記載の学習装置。
前記自動制御部は、前記状態値または前記計測値を取得してから前記対象機器を制御するまでに掛かった時間を測定し、当該時間に基づいて、前記蓄積部が、前記状態値または前記計測値を取得する間隔を調整することを特徴とする請求項４〜６のいずれか一項に記載の学習装置。
前記蓄積部は、さらに、前記対象機器の動作の目的物を撮像した撮像画像の特徴量を経時的に取得して蓄積し、
前記第１の学習モデルには、さらに、前記撮像画像の特徴量が入力され、
前記教師データは、さらに、前記蓄積部に蓄積された前記特徴量の時系列データを含むことを特徴とする請求項１〜７のいずれか一項に記載の学習装置。
前記蓄積部は、さらに、前記撮像画像を蓄積し、
前記学習部は、入力画像と出力画像とが一致するように深層学習される第２の学習モデルに、前記蓄積部に蓄積された前記撮像画像を学習させ、
前記撮像画像の特徴量は、当該撮像画像が入力された前記第２の学習モデルから得られることを特徴とする請求項８に記載の学習装置。
前記第１の学習モデルは、さらに、未来の撮像画像の特徴量を予測し、
前記第１の学習モデルが予測した前記未来の撮像画像の特徴量から復元した前記未来の撮像画像と、前記目的物を撮像した撮像画像とを表示部に表示させる表示制御部をさらに備えていることを特徴とする請求項８または９に記載の学習装置。
前記教師データは、複数次元のパラメータの時系列データを含み、次元毎に前記パラメータが正規化されていることを特徴とする請求項１〜１０のいずれか一項に記載の学習装置。
前記第１の学習モデルは、ＲＮＮであることを特徴とする請求項１〜１１のいずれか一項に記載の学習装置。
前記対象機器は、関節を有するマニピュレータであり、
前記状態値は、前記関節の状態値を含むことを特徴とする請求項１〜１２のいずれか一項に記載の学習装置。
動作中の対象機器の状態値および当該動作の計測値を経時的に取得して蓄積する蓄積工程と、
動作中の対象機器の状態値および当該動作の計測値が少なくとも入力され、当該対象機器の未来の状態値を予測する第１の学習モデルに、教師データを学習させる学習工程と、を含み、
前記教師データは、前記蓄積工程で蓄積された前記状態値および前記計測値の時系列データを含むことを特徴とする学習方法。
請求項１に記載の学習装置としてコンピュータを機能させるための学習プログラム。
請求項１５に記載の学習プログラムを記録したコンピュータ読み取り可能な記録媒体。
動作中の対象機器の状態値および当該動作の計測値が少なくとも入力され、当該対象機器の未来の状態値を予測する第１の学習モデルと、
少なくとも動作中の前記対象機器の状態値および当該動作の計測値を前記第１の学習モデルに入力し、前記第１の学習モデルが予測した前記未来の状態値に前記対象機器の状態値を近づけるように前記対象機器を制御する自動制御部と、を備え、
前記第１の学習モデルは、過去の前記対象機器の前記状態値および前記計測値の時系列データを含む教師データを学習していることを特徴とする自動制御装置。
動作中の対象機器の状態値および当該動作の計測値が少なくとも入力され、当該対象機器の未来の状態値を予測する第１の学習モデルに、少なくとも動作中の前記対象機器の状態値および当該動作の計測値を入力し、前記第１の学習モデルが予測した前記未来の状態値に前記対象機器の状態値を近づけるように前記対象機器を制御する自動制御工程を含み、
前記第１の学習モデルは、過去の前記対象機器の前記状態値および前記計測値の時系列データを含む教師データを学習していることを特徴とする自動制御方法。
請求項１７に記載の自動制御装置としてコンピュータを機能させるための自動制御プログラム。
請求項１９に記載の自動制御プログラムを記録したコンピュータ読み取り可能な記録媒体。