JP2022143969A

JP2022143969A - データ生成装置、データ生成方法、制御装置、制御方法及びプログラム

Info

Publication number: JP2022143969A
Application number: JP2021044782A
Authority: JP
Inventors: 達也田中; Tatsuya Tanaka; 敏充金子; Toshimitsu Kaneko
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2022-10-03
Also published as: US20220297298A1

Abstract

【課題】制御対象の動作を学習させる環境をモデル化するときのモデル化誤差を低減させる。【解決手段】実施形態の制御装置は、決定部と報酬生成部と模擬部と次状態生成部とを備える。決定部は、現在時刻の状態に基づいて行動を決定する。報酬生成部は、前記現在時刻の状態と、前記行動とに基づいて報酬を生成する。模擬部は、前記現在時刻の状態に基づいて設定された現在時刻の模擬状態と、前記行動と、から次時刻の模擬状態を生成する。次状態生成部は、前記現在時刻の状態と、前記行動と、前記次時刻の模擬状態とから、次時刻の状態を生成する。【選択図】図３

Description

本発明の実施形態はデータ生成装置、データ生成方法、制御装置、制御方法及びプログラムに関する。

製造・物流現場等における労働力不足などにより、作業の自動化が求められている。ティーチングが不要で、自律的にロボットの動作を獲得できる方法として、強化学習がある。強化学習は、試行錯誤に行動を繰り返すことにより動作を学習するため、一般的にロボット実機を用いた強化学習は、データの取得に手間のかかる高コストな学習となる。そのため、行動の試行回数に対してデータ効率を高める方法が求められている。その方法の一つとして、モデルベース強化学習が従来から知られている。

ＡｎｕｓｈａＮａｇａｂａｎｄｉ，ＧｒｅｇｏｒｙＫａｈｎ，ＲｏｎａｌｄＳ．Ｆｅａｒｉｎｇ，ＳｅｒｇｅｙＬｅｖｉｎｅ，"ＮｅｕｒａｌＮｅｔｗｏｒｋＤｙｎａｍｉｃｓｆｏｒＭｏｄｅｌ－ＢａｓｅｄＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇｗｉｔｈＭｏｄｅｌ－ＦｒｅｅＦｉｎｅ－Ｔｕｎｉｎｇ"，ａｒＸｉｖ：１７０８．０２５９６（［令和２年１１月２日検索］，インターネット＜ＵＲＬ：ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１７０８．０２５９６＞），２０１７．ＪｏｈｎＳｃｈｕｌｍａｎ，ＦｉｌｉｐＷｏｌｓｋｉ，ＰｒａｆｕｌｌａＤｈａｒｉｗａｌ，ＡｌｅｃＲａｄｆｏｒｄ，ＯｌｅｇＫｌｉｍｏｖ，"ＰｒｏｘｉｍａｌＰｏｌｉｃｙＯｐｔｉｍｉｚａｔｉｏｎＡｌｇｏｒｉｔｈｍｓ"，ａｒＸｉｖ：１７０７．０６３４７（［令和２年１１月２日検索］，インターネット＜ＵＲＬ：ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１７０７．０６３４７＞），２０１７．

しかしながら従来の技術では、制御対象の動作を学習させる環境をモデル化するときのモデル化誤差を低減させることが難しかった。

実施形態の制御装置は、決定部と報酬生成部と模擬部と次状態生成部とを備える。決定部は、現在時刻の状態に基づいて行動を決定する。報酬生成部は、前記現在時刻の状態と、前記行動とに基づいて報酬を生成する。模擬部は、前記現在時刻の状態に基づいて設定された現在時刻の模擬状態と、前記行動から次時刻の模擬状態を生成する。次状態生成部は、前記現在時刻の状態と、前記行動と、前記次時刻の模擬状態とから、次時刻の状態を生成する。

実施形態のロボットシステムの装置構成の例を示す図。実施形態のデータ生成装置及び制御装置の機能構成の例を示す図。実施形態の生成部の機能構成の例を示す図。実施形態の模擬部の動作を説明するための図。実施形態の報酬の生成処理の例を説明するための図。実施形態の次状態生成部の動作を説明するための図。実施形態の次状態の生成処理の例を説明するための図。実施形態の次状態の生成処理の例を説明するための図。実施形態の次状態の生成処理の例を説明するための図。実施形態の報酬の生成処理と次状態の生成処理とを、ニューラルネットワークの一部を共有する構成で実現する例を説明するための図。実施形態のデータ生成方法の例を示すフローチャート。実施形態の制御方法の例を示すフローチャート。実施形態のデータ生成装置及び制御装置のハードウェア構成の例を示す図。

以下に添付図面を参照して、データ生成装置、データ生成方法、制御装置、制御方法及びプログラムの実施形態を詳細に説明する。

実施形態では、物品（対象物の一例）を把持する機能を有するロボットを制御するロボットシステムを例にして説明する。

［装置構成の例］
図１は、実施形態のロボットシステム１の装置構成の例を示す図である。実施形態のロボットシステム１は、制御装置１００、ロボット１１０及び観測装置１２０を備える。ロボット１１０は、複数のアクチュエータ１１１、多関節アーム１１２及びエンドエフェクタ１１３を備える。

制御装置１００は、ロボット１１０の動作を制御する。制御装置１００は、例えばコンピュータ、及び、ロボット１１０の動作制御のための専用の装置等により実現される。

制御装置１００は、物品１０を把持するためにアクチュエータ１１１に送出する制御信号を決定する方策を学習する際に用いられる。これにより、ロボット１１０等の実機のデータ取得が高コストなシステムの動作計画を効率的に学習することが可能となる。

制御装置１００は、観測装置１２０により生成された観測情報を用いて、対象物を把持するための動作計画を作成する。制御装置１００は、作成された動作計画に基づく制御信号をロボット１１０のアクチュエータ１１１に送出することにより、ロボット１１０を動作させる。

ロボット１１０は、操作の対象物である物品１０を把持する機能を有する。ロボット１１０は、例えば多関節ロボット、直行ロボット、及び、これらの組み合わせ等により構成される。以下では、ロボット１１０が複数のアクチュエータ１１１を備える多関節ロボットである場合を例にして説明する。

エンドエフェクタ１１３は、対象物（例えば物品１０）を移動させるために、多関節アーム１１２の先端に取り付けられる。エンドエフェクタ１１３は、例えば対象物を把持可能なグリッパー、及び、真空式ロボットハンドなどである。多関節アーム１１２及びエンドエフェクタ１１３は、アクチュエータ１１１による駆動に応じて制御される。より具体的には、多関節アーム１１２は、アクチュエータ１１１による駆動に応じて、移動、回転、及び、伸縮（すなわち関節間の角度の変更）等を行う。エンドエフェクタ１１３は、アクチュエータ１１１による駆動に応じて、対象物の把持（グリップまたは吸着）を行う。

観測装置１２０は、物品１０及びロボット１１０の状態を観測することにより、観測情報を生成する。観測装置１２０は、例えば画像を生成するカメラ、及び、デプスデータ（奥行き情報）を生成する距離センサ等である。観測装置１２０は、ロボット１１０を含む環境内（例えば室内の柱及び天井等）に設置されていてもよいし、ロボット１１０に取り付けられていてもよい。

［制御装置の機能構成の例］
図２は実施形態の制御装置１００の機能構成の例を示す図である。実施形態の制御装置１００は、取得部２００と、生成部２０１と、記憶部２０２と、推論部２０３と、更新部２０４と、ロボット制御部２０５とを備える。

取得部２００は、観測装置１２０から観測情報を取得し、状態ｓ_ｔ ^ｏを生成する。状態ｓ_ｔ ^ｏは、観測情報から得られる情報を含む。また、状態ｓ_ｔ ^ｏには、ロボット１１０から取得されたロボット１１０の内部状態（各関節の角度・位置、エンドエフェクタの位置など）が含まれていてもよい。

生成部２０１は、取得部２００から状態ｓ_ｔ ^ｏを受け付けると、経験データ（ｓ_ｔ，ａ_ｔ，ｒ_ｔ，ｓ_ｔ＋１）を生成する。経験データ（ｓ_ｔ，ａ_ｔ，ｒ_ｔ，ｓ_ｔ＋１）、及び、生成部２０１の処理の詳細は、図３を参照して後述する。

記憶部２０２は、生成部２０１で生成された経験データを蓄積するバッファである。記憶部２０２は、例えばメモリ、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）及びＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）などで構成される。

推論部２０３は、時刻ｔの状態ｓ_ｔ ^ｏを用いて、アクチュエータ１１１に送出する制御信号を決定する。推論には、様々な強化学習アルゴリズムが使用できる。例えば非特許文献２のＰＰＯ（ＰｒｏｘｉｍａｌＰｏｌｉｃｙＯｐｔｉｍｉｚａｔｉｏｎ）により推論を行う場合、推論部２０３は、状態ｓ_ｔ ^ｏをニューラルネットワークで構成された方策π（ａ│ｓ）に入力し、得られた確率密度関数Ｐ（ａ｜ｓ）に基づいて行動ａ_ｔを決定する。行動ａ_ｔは、例えば多関節アーム１１２を移動、回転、伸縮（関節間の角度の変更）、などを行ったり、エンドエフェクタの座標位置を指定したりするための制御信号である。

更新部２０４は、記憶部２０２に蓄積された経験データを用いて、推論部２０３の方策π（ａ│ｓ）を更新する。例えば、方策π（ａ│ｓ）がニューラルネットワークで決定される場合、ニューラルネットワークの重みやバイアスを更新する。重みやバイアスは、ＰＰＯなどの各種強化学習アルゴリズムで用いられる目的関数に従って、誤差逆伝搬法などを用いることで更新することができる。

ロボット制御部２０５は、推論部２０３からの出力情報に基づいて、アクチュエータ１１１に制御信号を送出することによって、ロボット１１０を制御する。

次に、生成部２０１の処理の詳細について説明する。

［生成部の機能構成の例］
図３は実施形態の生成部２０１の機能構成の例を示す図である。ここでは、制御装置１００を構成する生成部２０１として実勢形態を説明するが、生成部２０１の機能構成の一部または全部を構成するデータ生成装置であってもよい。実施形態の生成部２０１は、初期状態取得部３００と、選択部３０１と、決定部３０２と、模擬部３０３と、報酬生成部３０４と、次状態生成部３０５と、次状態取得部３０６とを備える。

初期状態取得部３００は、ロボット１１０の動作の開始時刻における状態ｓ_ｔ ^ｏを取得し、状態ｓ_ｔ ^ｏを初期状態ｓ_０とする。ここでは開始時刻に取得した状態ｓ_ｔ ^ｏで説明するが、過去に取得したｓ_ｔ ^ｏを保持しておき、再利用してもよく、観測装置１２０で観測した観測情報に基づいて、データ拡張技術などを用い、ｓ_ｔ ^ｏを合成して用いてもよい。

選択部３０１は、初期状態取得部３００により取得された状態ｓ_０、または次状態取得部３０６により取得された状態ｓ_ｔのいずれかを選択し、選択された状態ｓ_ｔを決定部３０２及び報酬生成部３０４へ入力する。状態ｓ_０及び状態ｓ_ｔは、観測装置１２０から観測情報であり、例えば、画像又は奥行き情報等であり、どちらか一方、又は両方であってもよく、ロボット１１０から取得されたロボット１１０の内部状態（各関節の角度・位置、エンドエフェクタの位置など）であってよく、更にはそれらの組み合わせ、それらに対して演算を行った結果得られた情報であってもよい。次状態取得部３０６により取得された状態ｓ_ｔは、前回（例えば時刻ｔ－１）の次状態生成部３０６の処理によって生成された前回の次時刻の状態ｓ_{（ｔ－１）＋１}である。例えば、選択部３０１は、ロボット１１０の動作の開始時刻においては状態ｓ_０を選択し、それ以外の場合には、次状態取得部３０６により取得された状態ｓ_ｔを選択する。

決定部３０２は、方策μに従い、状態ｓ_ｔにおいてとる行動ａ_ｔを決定する。方策μは、推論部２０３で用いられる方策π（ａ│ｓ）でもよいし、推論部２０３とは別の行動決定基準に基づいた方策でもよい。

模擬部３０３は、ロボット１１０の動きをシミュレートする。模擬部３０３は、例えばロボットシミュレータによって、ロボット１１０の動きをシミュレートしてもよい。また例えば、模擬部３０３は、実機（ロボット１１０）を実際に用いてロボット１１０の動きをシミュレートしてもよい。ピッキング対象の対象物（例えば物品１０）は存在していなくてもよい。

模擬部３０３は、動作開始時刻に、選択部３０１からの初期化指示に基づいて、模擬状態を初期化する。模擬状態は、例えば、画像又は奥行き情報等であり、どちらか一方、又は両方であってもよく、ロボット１１０から取得されたロボット１１０の内部状態（各関節の角度・位置、エンドエフェクタの位置など）であってよく、更にはそれらの組み合わせ、それらに対して演算を行った結果得られた情報であってもよい。まず、模擬部３０３は、開始時刻におけるロボット１１０の状態（例えば関節角度など）に基づいて、模擬部３０３内部の状態を修正し、ロボット１１０と同じ姿勢・状態になるように模擬状態を設定する。次に、模擬部３０３は、決定部３０２により決定された行動ａ_ｔに基づいて、一時刻後のロボット１１０の状態をシミュレートする。模擬部３０３は、シミュレートの結果得られた、一時刻後のロボット１１０の模擬状態ｓ’_ｔ＋１を、次状態生成部３０５へ入力する。また、報酬生成部３０４で報酬ｒ_ｔを算出する際に利用する場合には、報酬生成部３０４にも模擬状態ｓ’_ｔ＋１を入力してもよい。

図４は実施形態の模擬部３０３の動作を説明するための図である。ここでは、模擬部３０３がロボットシミュレータで構成（実現）される場合を例にとって説明する。模擬部３０３は、ロボット１１０に対応するロボットのモデル（例えばＣＡＤデータ、質量及び摩擦係数など）を持ったシミュレータである。

模擬部３０３は、時刻ｔの模擬状態ｓ’_ｔを生成する。例えば、観測装置１２０がカメラで構成される場合、模擬部３０３は、ロボット１１０を観測装置１２０の視点から撮影したときの画像に相当する画像をレンダリングし、レンダリングされた画像によって模擬状態ｓ’_ｔ（模擬状態ｓ’_ｔを観測した情報）を生成する。なお、模擬状態ｓ’_ｔは、奥行き情報を用いて表されていてもよい。

模擬部３０３は、決定部３０２により決定された行動ａ_ｔに基づいて、模擬状態ｓ’_ｔからロボット１１０の状態をシミュレートする。模擬部３０３は、シミュレート後、ロボット１１０を観測装置１２０の視点から撮影したときの画像に相当する画像をレンダリングすることで、時刻ｔ＋１の模擬状態ｓ’_ｔ＋１を生成する。

報酬生成部３０４は、状態ｓ_ｔにおいて行動ａ_ｔを行った場合に得られる報酬ｒ_ｔを出力する。報酬ｒ_ｔは、例えばニューラルネットワークなどの統計的手法により算出されてもよい。また例えば、報酬ｒ_ｔは、あらかじめ決められた関数などを用いて算出されてもよい。

図５は実施形態の報酬ｒ_ｔの生成処理の例を説明するための図である。図５の例は、報酬生成部３０４をニューラルネットワークで構成（実現）する場合を示す。ここでは、状態ｓ_ｔが画像で表現される場合を例に挙げて説明する。

図５の例では、状態ｓ_ｔが、畳み込み層（ＣｏｎｖｏｌｕｔｉｏｎＬａｙｅｒ）によって畳み込み処理が施された後、全結合層（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）によって処理されることによって、Ｄ_ｓ次元の特徴が得られる。また、行動ａ_ｔが、全結合層によって処理されることによって、Ｄ_ａ次元の特徴が得られる。これらＤ_ｓ次元の特徴、及び、Ｄ_ａ次元の特徴を連結し、全結合層によって処理することで、報酬ｒ_ｔが算出される。畳み込み層または全結合層での各処理の後に、正規化線形関数、シグモイド関数等の活性化関数による変換処理を加えても良い。

なお、報酬ｒ_ｔの生成に模擬状態ｓ’_ｔ＋１を使ってもよい。報酬生成部３０４が、次時刻の模擬状態ｓ’_ｔ＋１に更に基づいて報酬ｒ_ｔを生成する場合、模擬状態ｓ’_ｔ＋１に状態ｓ_ｔと同様の処理を施し、得られたＤ_ｓ’次元の特徴を、Ｄ_ｓ次元の特徴、及び、Ｄ_ａ次元の特徴に更に連結し、全結合層によって処理することで、報酬ｒ_ｔを算出する。

報酬生成部３０４を構成するニューラルネットワークの重み及びバイアスは、経験データ（ｓ_ｔ，ａ_ｔ，ｒ_ｔ，ｓ_ｔ＋１）の教師データから求められる。経験データ（ｓ_ｔ，ａ_ｔ，ｒ_ｔ，ｓ_ｔ＋１）の教師データは、例えば、図１に示すロボットシステム１を稼働させることによって集められる。具体的には、報酬生成部３０４が、報酬生成部３０４を構成するニューラルネットワークで求めた報酬ｒ_ｔと、教師データの報酬ｒ_ｔとを比較し、当該ニューラルネットワークの重み及びバイアスを、例えば二乗誤差を最小化するように、誤差逆伝搬法などを用いて求める。

図３に戻り、次状態生成部３０５は、選択部３０１により選択された状態ｓ_ｔと、決定部３０２により決定された行動ａ_ｔと、模擬部３０３により生成された一時刻後のロボット１１０の模擬状態ｓ’_ｔ＋１とに基づいて、次時刻の状態（次状態）ｓ_ｔ＋１を生成する。状態ｓ_ｔ＋１を算出する方法には、例えばニューラルネットワークなどの統計的手法を用いられる。

図６は実施形態の次状態生成部３０５の動作を説明するための図である。図６は、次状態生成部３０５が、次の時刻の状態ｓ_ｔ＋１を生成する動作を示す。次状態生成部３０５は、状態ｓ_ｔ、模擬状態ｓ’_ｔ＋１、及び、行動ａ_ｔに基づいて、次時刻の状態ｓ_ｔ＋１を生成する。図６の例では、状態ｓ_ｔは、観測装置１２０により観測された画像を用いて表される。模擬状態ｓ’_ｔ＋１は、模擬部３０３によりレンダリングされた画像により表される。行動ａ_ｔは、決定部３０２により決定された行動ａ_ｔである。

なお、状態ｓ_ｔ、状態ｓ_ｔ＋１、模擬状態ｓ’_ｔ、及び、模擬状態ｓ’_ｔ＋１の表現方法は、画像形式に限られない。例えば、状態ｓ_ｔ、状態ｓ_ｔ＋１、模擬状態ｓ’_ｔ、及び、模擬状態ｓ’_ｔ＋１は、画像及び奥行き情報の少なくとも一方を含んでいてもよい。

図７は実施形態の次状態の生成処理の例を説明するための図である。図７の例は、次状態生成部３０５をニューラルネットワークで構成する場合を示す。ここでは、状態ｓ_ｔが画像で表現される場合を例に挙げて説明する。状態ｓ_ｔが、畳み込み層（ＣｏｎｖｏｌｕｔｉｏｎＬａｙｅｒ）によって畳み込み処理が施された後、全結合層（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）によって処理されることによって、Ｄ_ｓ次元の特徴が得られる。また、行動ａ_ｔが、全結合層によって処理されることによって、Ｄ_ａ次元の特徴が得られる。これらＤ_ｓ次元の特徴、及び、Ｄ_ａ次元の特徴を連結し、全結合層によって処理したのち、逆畳み込み層（ＤｅｃｏｎｖｏｌｕｔｉｏｎＬａｙｅｒ）で逆畳み込み処理を施すことにより、次状態ｓ_ｔ＋１が生成される。

なお、次状態ｓ_ｔ＋１の生成に模擬状態ｓ’_ｔ＋１を使ってもよい。その場合、模擬状態ｓ’_ｔ＋１に状態ｓ_ｔと同様の処理を施し、Ｄ_ｓ’次元の特徴を得る。そして、Ｄ_ｓ’次元の特徴を、Ｄ_ｓ次元の特徴、及び、Ｄ_ａ次元の特徴に更に連結し、全結合層によって処理したのち、逆畳み込み層（ＤｅｃｏｎｖｏｌｕｔｉｏｎＬａｙｅｒ）で逆畳み込み処理を施すことにより、次状態ｓ_ｔ＋１が生成される。
畳み込み層、全結合層、逆畳み込み層での各処理の後に、正規化線形関数、シグモイド関数等の活性化関数による変換処理を加えても良い。

次状態生成部３０５を構成するニューラルネットワークの重み及びバイアスは、経験データ（ｓ_ｔ，ａ_ｔ，ｒ_ｔ，ｓ_ｔ＋１）の教師データから求められる。経験データ（ｓ_ｔ，ａ_ｔ，ｒ_ｔ，ｓ_ｔ＋１）の教師データは、例えば、図１に示すロボットシステム１を稼働させることによって集められる。具体的には、次状態生成部３０５が、次状態生成部３０５を構成するニューラルネットワークで求めた次状態ｓ_ｔ＋１と、教師データの次状態ｓ_ｔ＋１とを比較し、当該ニューラルネットワークの重み及びバイアスを、例えば二乗誤差を最小化するように、誤差逆伝搬法などを用いて求める。

図８Ａ及び８Ｂは、実施形態の次状態ｓ_ｔ＋１の生成処理の例を説明するための図である。実施形態の制御装置１００によれば、図８Ａに示すように、ロボット１１０の次時刻での状態ｓ_ｔ＋１については、模擬部３０３（例えばロボットシミュレータ）により生成された模擬状態ｓ’_ｔ＋１に基づいて生成することができる。そのため、次状態生成部３０５は、物品１０等のピッキング対象物の次時刻での状態（例えば物品１０の位置、大きさ、形状及び姿勢等）に関する情報ｆ（ｓ_ｔ，ａ_ｔ，ｓ’_ｔ＋１）のみを補正情報として生成すればよい（実際には、ロボット１１０とロボットシミュレータとの間の誤差があり得るため、その誤差も補正情報として生成する）。

すなわち実施形態の制御装置１００では、次状態生成部３０５が、次時刻の模擬状態ｓ’_ｔ＋１を補正する補正情報を生成し、当該補正情報と次時刻の模擬状態ｓ’_ｔ＋１とから、次時刻の状態ｓ_ｔ＋１を生成する。これにより、ロボット１１０に関する誤差を削減することができるので、モデル化誤差を低減できる。従来は、ロボット１１０の次時刻での状態ｓ_ｔ＋１、及び、ピッキング対象物の次時刻での状態の両方を生成する必要があり、また、次状態ｓ_ｔ＋１は、状態ｓ_ｔ及び行動ａ_ｔのみに基づいて生成されていたため、モデル化誤差を低減させることが難しかった。

また、実施形態のピッキング動作の学習においては、ロボット１１０及び対象物（例えば物品１０）の大まかなレイアウトが既知であるため、例えば観測装置１２０がカメラで構成される場合、取得された画像中から、パターン認識技術などを用いて、対象物（例えば物品１０）の領域を検出することが可能である。すなわち、次状態生成部３０５は、画像及び奥行き情報の少なくとも一方から、対象物を含む領域ｉ_ｔを抽出し、当該対象物を含む領域に更に基づいて、次時刻の状態ｓ_ｔ＋１を生成してもよい。例えば、次状態生成部３０５は、あらかじめ対象物（例えば物品１０）の領域を画像から切り出しておき、その領域を示す情報ｉ_ｔも用いて次状態ｓ_ｔ＋１を生成することで、さらにモデル化誤差を低減することが可能となる。

図３に戻り、次状態取得部３０６は、次状態生成部３０５により生成された次状態ｓ_ｔ＋１を取得し、当該次状態ｓ_ｔ＋１を次回の処理（次時刻における処理）に用いる状態ｓ_ｔとし、当該状態ｓ_ｔ状態を選択部３０１へ入力する。

なお、上述の説明では、報酬生成部３０４と、次状態生成部３０５とが、それぞれ別々に、報酬ｒ_ｔ及び次状態ｓ_ｔ＋１を生成する例をあげて説明したが、両者がニューラルネットワークで構成される場合、図９の例のように、そのニューラルネットワークの一部を共通化して利用してもよい。

図９は実施形態の報酬ｒ_ｔの生成処理と次状態ｓ_ｔ＋１の生成処理とを、ニューラルネットワークの一部を共有する構成で実現する例を説明するための図である。図９の例のように、ニューラルネットワークの一部を共通化することにより、ニューラルネットワークの学習効率化が期待できる。

［データ生成方法の例］
図１０は実施形態のデータ生成方法の例を示すフローチャートである。はじめに、選択部３０１が、状態ｓ_０（初期状態）、または、状態ｓ_ｔ（次状態生成部３０５の前回の処理によって生成された次時刻の状態ｓ_ｔ＋１）を取得する（ステップＳ１）。次に、選択部３０１が、ステップＳ１の処理により取得された状態ｓ_０または状態ｓ_ｔを、現在時刻の状態ｓ_ｔとして選択する（ステップＳ２）。

次に、決定部３０２が、現在時刻の状態ｓ_ｔに基づいて行動ａ_ｔを決定する（ステップＳ３）。次に、報酬生成部３０４が、現在時刻の状態ｓ_ｔと、行動ａ_ｔとに基づいて報酬ｒ_ｔを生成する（ステップＳ４）。次に、模擬部３０３が、現在時刻の状態ｓ_ｔに基づいて設定された現在時刻の模擬状態ｓ’_ｔと、行動ａ_ｔと、から次時刻の模擬状態ｓ’_ｔ＋１を生成する（ステップＳ５）。次に、次状態生成部３０５が、現在時刻の状態ｓ_ｔと、行動ａ_ｔと、次時刻の模擬状態ｓ’_ｔ＋１とから、次時刻の状態ｓ_ｔ＋１を生成する（ステップＳ６）。

経験データは、ステップＳ１～Ｓ６の処理またはその繰り返しによって、記憶部２０２に蓄積される。
［制御方法の例］
図１１は実施形態の制御方法の例を示すフローチャーとである。ステップＳ１からステップＳ６まではデータ生成方法と同じであり、説明を省略する。ステップＳ６で次時刻の状態ｓ_ｔ＋１を生成した後、次に、推論部２０３が、現在時刻の状態ｓｔと、行動ａｔと、報酬ｒｔと、次時刻の状態ｓｔ＋１とを含む経験データから強化学習によって得られた方策πに基づいて、制御対象（実施形態ではロボット１１０）を制御する制御信号を決定する。なお、方策πは、更新部２０４が、記憶部２０２に記憶された経験データを用いて更新する。経験データは、ステップＳ１～Ｓ６の処理またはその繰り返しによって、記憶部２０２に蓄積される。

更新部２０４は、記憶部２０２に記憶された経験データを用いて方策πを更新する。推論部２０３は、現在時刻の状態ｓ_ｔと、行動ａ_ｔと、報酬ｒ_ｔと、次時刻の状態ｓ_ｔ＋１とを含む経験データから強化学習によって得られた方策πに基づいて、制御対象（実施形態ではロボット１１０）を制御する制御信号を決定する（ステップＳ７）。

以上、説明したように、実施形態の制御装置１００によれば、制御対象の動作を学習させる環境をモデル化するときのモデル化誤差を低減させることができる。

従来の技術では、ロボットの動作を学習させる環境をモデル化する際、モデル化誤差が発生するという問題があった。一般的に、ロボットの動作を完全にモデル化して再現することは困難であるため、モデル化誤差が発生する。モデル化した環境を用いて生成した経験データによってロボットの動作を学習させた場合、このモデル化誤差が原因となり、実際のロボット上では所望の動作を実現できない可能性があった。

一方、実施形態の制御装置１００によれば、モデルベース強化学習において、モデル化の誤差を低減した経験データ（ｓ_ｔ，ａ_ｔ，ｒ_ｔ，ｓ_ｔ＋１）を生成することができる。具体的には、次時刻の状態ｓ_ｔ＋１を生成する際に、模擬部３０３により生成された模擬状態ｓ’_ｔ＋１を用いることで、模擬部３０３が模擬可能な情報に関しては誤差を低減することができる。その結果、生成される学習データの誤差を低減することができるので、実際のロボット１１０上でも、所望の動作を従来よりも高精度に実現することができる。

［ハードウェア構成の例］
図１２は実施形態の制御装置１００のハードウェア構成の例を示す図である。実施形態の制御装置１００は、プロセッサ４０１、主記憶装置４０２、補助記憶装置４０３、表示装置４０４、入力装置４０５及び通信装置４０６を備える。プロセッサ４０１、主記憶装置４０２、補助記憶装置４０３、表示装置４０４、入力装置４０５及び通信装置４０６は、バス４１０を介して接続されている。

プロセッサ４０１は、補助記憶装置４０３から主記憶装置４０２に読み出されたプログラムを実行する。主記憶装置４０２は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及び、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等のメモリである。補助記憶装置４０３は、ＨＤＤ、及び、メモリカード等である。

表示装置４０４は表示情報を表示する。表示装置４０４は、例えば液晶ディスプレイ等である。入力装置４０５は、制御装置１００を操作するためのインタフェースである。入力装置４０５は、例えばキーボードやマウス等である。通信装置４０６は、他の装置と通信するためのインタフェースである。なお、制御装置１００は、表示装置４０４及び入力装置４０５を備えていなくてもよい。制御装置１００が、表示装置４０４及び入力装置４０５を備えていない場合は、例えば通信装置４０６を介して他の装置から制御装置１００の設定等が行われる。

実施形態の制御装置１００で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ、メモリカード、ＣＤ－Ｒ及びＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）等のコンピュータで読み取り可能な記憶媒体に記録されてコンピュータ・プログラム・プロダクトとして提供される。

また実施形態の制御装置１００で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また実施形態の制御装置１００で実行されるプログラムをダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。

また実施形態の制御装置１００のプログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

実施形態の制御装置１００で実行されるプログラムは、上述の機能ブロックのうち、プログラムによっても実現可能な機能ブロックを含むモジュール構成となっている。当該各機能ブロックは、実際のハードウェアとしては、プロセッサ４０１が記憶媒体からプログラムを読み出して実行することにより、上記各機能ブロックが主記憶装置４０２上にロードされる。すなわち上記各機能ブロックは主記憶装置４０２上に生成される。

なお上述した各機能ブロックの一部又は全部をソフトウェアにより実現せずに、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等のハードウェアにより実現してもよい。

また複数のプロセッサ４０１を用いて各機能を実現してもよい。その場合、各プロセッサ４０１は、各機能のうち１つを実現してもよいし、各機能のうち２以上を実現してもよい。

また実施形態の制御装置１００の動作形態は任意でよい。実施形態の制御装置１００の機能の一部を、例えばネットワーク上のクラウドシステムとして動作させてもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１ロボットシステム
１０物品
１００制御装置
１１０ロボット
１１１アクチュエータ
１１２多関節アーム
１１３エンドエフェクタ
１２０観測装置
２００取得部
２０１生成部
２０２記憶部
２０３推論部
２０４更新部
２０５ロボット制御部
３００初期状態取得部
３０１選択部
３０２決定部
３０３模擬部
３０４報酬生成部
３０５次状態生成部
３０６次状態取得部
４０１プロセッサ
４０２主記憶装置
４０３補助記憶装置
４０４表示装置
４０５入力装置
４０６通信装置

Claims

現在時刻の状態に基づいて行動を決定する決定部と、
前記現在時刻の状態と、前記行動とに基づいて報酬を生成する報酬生成部と、
前記現在時刻の状態に基づいて設定された現在時刻の模擬状態と、前記行動から次時刻の模擬状態を生成する模擬部と、
前記現在時刻の状態と、前記行動と、前記次時刻の模擬状態とから、次時刻の状態を生成する次状態生成部と、
を備えるデータ生成装置。
前記報酬生成部は、前記次時刻の模擬状態に更に基づいて前記報酬を生成する、
請求項１に記載のデータ生成装置。
前記次状態生成部は、前記次時刻の模擬状態を補正する補正情報を生成し、前記補正情報と前記次時刻の模擬状態とから、前記次時刻の状態を生成する、
請求項１又は２に記載のデータ生成装置。
前記現在時刻の状態、前記次時刻の状態、前記現在時刻の模擬状態、及び、前記次時刻の模擬状態は、画像及び奥行き情報の少なくとも一方を含む、
請求項２又は３に記載のデータ生成装置。
前記模擬部は、ロボットシミュレータまたは前記ロボットを用いて、前記次時刻の模擬状態を生成する請求項４に記載のデータ生成装置。
前記次状態生成部は、前記画像及び前記奥行き情報の少なくとも一方から、前記ピッキング対象物を含む領域を抽出し、前記ピッキング対象物を含む領域に更に基づいて、前記次時刻の状態を生成する、
請求項５に記載のデータ生成装置。
初期状態を取得する初期状態取得部と、
前回の前記次状態生成部の処理によって生成された前回の前記次時刻の状態を取得する次状態取得部と、
前記初期状態または前記前回の次時刻の状態のいずれかから、前記現在時刻の状態を選択する選択部と、
を更に備える請求項１乃至６のいずれか１項に記載のデータ生成装置。
前記データ生成装置と、
更に、前記現在時刻の状態と、前記行動と、前記報酬と、前記次時刻の状態とを含む経験データから強化学習によって得られた方策に基づいて、制御対象を制御する制御信号を決定する推論部と、
を備える請求項１乃至７のいずれか１項に記載の制御装置。
決定部が、現在時刻の状態に基づいて行動を決定するステップと、
報酬生成部が、前記現在時刻の状態と、前記行動とに基づいて報酬を生成するステップと、
前記模擬部が、前記現在時刻の状態に基づいて設定された現在時刻の模擬状態と、前記行動と、から次時刻の模擬状態を生成するステップと、
前記次状態生成部が、前記現在時刻の状態と、前記行動と、前記次時刻の模擬状態とから、次時刻の状態を生成するステップと、
を備えるデータ生成方法。
前記報酬を生成するステップは、前記次時刻の模擬状態に更に基づいて前記報酬を生成する、
請求項９に記載のデータ生成方法。
前記次時刻の状態を生成するステップは、前記次時刻の模擬状態を補正する補正情報を生成し、前記補正情報と前記次時刻の模擬状態とから、前記次時刻の状態を生成する、
請求項９又は１０に記載のデータ生成方法。
前記現在時刻の状態、前記次時刻の状態、前記現在時刻の模擬状態、及び、前記次時刻の模擬状態は、画像及び奥行き情報の少なくとも一方を含む、
請求項１１に記載のデータ生成方法。
前記次時刻の状態を生成するステップは、前記画像及び前記奥行き情報の少なくとも一方から、前記ピッキング対象物を含む領域を抽出し、前記ピッキング対象物を含む領域に更に基づいて、前記次時刻の状態を生成する、
請求項１２に記載のデータ生成方法。
初期状態を取得するステップと、
前回の前記次時刻の状態を生成するステップによって生成された前回の前記次時刻の状態を取得するステップと、
前記初期状態または前記前回の次時刻の状態のいずれかから、前記現在時刻の状態を選択するステップと、
を更に含む請求項９乃至１３のいずれか１項に記載のデータ生成方法。
前記データ生成方法の各ステップと、
推論部が、前記現在時刻の状態と、前記行動と、前記報酬と、前記次時刻の状態とを含む経験データから強化学習によって得られた方策に基づいて、制御対象を制御する制御信号を決定するステップと、
を更に含む請求項９乃至１４のいずれか１項に記載の制御方法。
コンピュータを、
現在時刻の状態に基づいて行動を決定する決定部と、
前記現在時刻の状態と、前記行動とに基づいて報酬を生成する報酬生成部と、
前記現在時刻の状態に基づいて設定された現在時刻の模擬状態と、前記行動と、から次時刻の模擬状態を生成する模擬部と、
前記現在時刻の状態と、前記行動と、前記次時刻の模擬状態とから、次時刻の状態を生成する次状態生成部と、
として機能させるためのプログラム。
前記報酬生成部は、前記次時刻の模擬状態に更に基づいて前記報酬を生成する、
請求項１６に記載のプログラム。
前記次状態生成部は、前記次時刻の模擬状態を補正する補正情報を生成し、前記補正情報と前記次時刻の模擬状態とから、前記次時刻の状態を生成する、
請求項１６又は１７に記載のプログラム。
前記現在時刻の状態、前記次時刻の状態、前記現在時刻の模擬状態、及び、前記次時刻の模擬状態は、画像及び奥行き情報の少なくとも一方を含む、
請求項１８に記載のプログラム。
前記模擬部は、ロボットシミュレータまたは前記ロボットを用いて、前記次時刻の模擬状態を生成する、
請求項１９に記載のプログラム。
前記次状態生成部は、前記画像及び前記奥行き情報の少なくとも一方から、前記ピッキング対象物を含む領域を抽出し、前記ピッキング対象物を含む領域に更に基づいて、前記次時刻の状態を生成する、
請求項２０に記載のプログラム。
初期状態を取得する初期状態取得部と、
前回の前記次状態生成部の処理によって生成された前回の前記次時刻の状態を取得する次状態取得部と、
前記初期状態または前記前回の次時刻の状態のいずれかから、前記現在時刻の状態を選択する選択部と、
を更に備える請求項１６乃至２１のいずれか１項に記載のプログラム。
請求項１６乃至２２のいずれか１項に記載の前記プログラムの各機能と、
更に、前記現在時刻の状態と、前記行動と、前記報酬と、前記次時刻の状態とを含む経験データから強化学習によって得られた方策に基づいて、制御対象を制御する制御信号を決定する推論部、
として機能させるためのプログラム。