JP2021091022A

JP2021091022A - ロボット制御装置、学習済みモデル、ロボット制御方法およびプログラム

Info

Publication number: JP2021091022A
Application number: JP2019222170A
Authority: JP
Inventors: 茂鳥井原; Shigeru Toriihara; 悠基和田; Yuki Wada
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2021-06-17
Also published as: US11679496B2; US20210170579A1

Abstract

【課題】広範なロボットを好適に制御できる制御器を自動的に得てロボットを制御することを目的とする。【解決手段】ロボットの制御を行うロボット制御装置は、ロボットを含む環境を撮影する撮像装置から画像を取得する取得手段と、画像をニューラルネットワークに入力して得られる出力結果に基づいてロボットを駆動する駆動手段と、を含む。ニューラルネットワークは、環境を仮想化した仮想環境の環境条件および仮想ロボットの状態を変更させながら撮影した複数の仮想画像を入力として、出力される仮想ロボットの方策が所定の条件を満たした場合に発生させる報酬に応じて更新される。【選択図】図１

Description

本発明は、ロボットの制御を行うロボット制御装置、学習済みモデル、ロボット制御方法およびプログラムに関する。

ロボットの利用シーンの一例として、工場がある。ロボットは、工場という保証された環境の下で制御器により制御される。制御器は、専門知識を有するロボットエンジニアにより作成される。一方、近年、ロボットの利用シーンは多様化している。例えば、店舗での接客や家庭における掃除等に、ロボットが利用される。このような利用シーンでは、ロボットの利用環境を保証することが難しく、また専門知識を有するロボットエンジニアを用意することは難しい。関連する技術として、非特許文献１の技術が提案されている。非特許文献１の技術では、カメラを用いて、ロボットのアームによりワークをピックするタスクを取り扱っている。また、非特許文献１の技術は、カメラの撮影画像からワークの位置および姿勢を算出する変換器を、仮想環境における深層学習で生成する。仮想環境には、実空間のロボットを含む環境を仮想化した仮想アームや仮想ワーク、仮想カメラ、仮想照明等が配置される。そして、人工ニューラルネットワークおよび大量の教師データを用いて学習を行う。また、ＣＮＮおよびＬＳＴＭを用いた技術が非特許文献２に提案されている。

OpenAI、[Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World]、2017年3月20日、[Online]、[2019年4月15日検索]、インターネット<https://arxiv.org/pdf/1703.06907.pdf> DeepMind、[Reinforcement Learning with Unsupervised Auxiliary Tasks]、2016年11月16日、[Online]、[2019年4月15日検索]、インターネット<https://arxiv.org/abs/1611.05397.pdf>

非特許文献１では、深層学習により生成される３層以上の人工ニューラルネットワーク（モデル）を用いて、カメラの撮影画像からワークの位置および姿勢が算出される。よって、非特許文献１は、布や液体等、位置および姿勢を定義できないワークをピックするロボットの制御器には適さない。また、非特許文献１では、ワークの位置および姿勢を算出した後のアームの駆動は、逆運動学および動作計画に基づいて行われる。逆運動学では、ロボットのアームの各部の寸法および先端の位置および姿勢に基づいて、アームの各駆動軸の位相が推定される。また、動作計画は、ロボットのアームが自身や障害物等に接触することなく、望ましい姿勢に至るために逆運動学の解を順次選択する手法である。

ここで、逆運動学の解は唯一ではなく、また逆運動学および動作計画に基づくアームの駆動には誤差が生じる。例えば、アームの寸法誤差が場合やアームの剛性が低い場合、駆動軸の位相の計測誤差が大きい場合等においては、逆運動学による推定の誤差が大きくなる。このため、小さなワークのピックアップ等の高精度の駆動が要求されるタスクには、非特許文献１の技術は適さない。このため、非特許文献１の技術は、ワークやロボットの種類によっては、好適にロボットを制御できないことがある。

本発明は、広範なロボットを好適に制御できる制御器を自動的に得てロボットを制御することを目的とする。

上記目的を達成するために、本発明のロボット制御装置は、ロボットの制御を行うロボット制御装置であって、前記ロボットを含む環境を撮影する撮像装置から画像を取得する取得手段と、前記画像をニューラルネットワークに入力して得られる出力結果に基づいて前記ロボットを駆動する駆動手段と、を備え、前記ニューラルネットワークは、前記環境を仮想化した仮想環境の環境条件および仮想ロボットの状態を変更させながら撮影した複数の仮想画像を入力として、出力される前記仮想ロボットの方策が所定の条件を満たした場合に発生させる報酬に応じて更新されることを特徴とする。

本発明によれば、広範なロボットを好適に制御できる制御器を自動的に得てロボットを制御することができる。

ロボット制御装置の概要を示す図である。モデルを表す図である。仮想環境における学習の処理の流れを示すフローチャートである。仮想環境における学習が行われる際の複数の報酬の発生条件を表す図である。仮想環境において学習が行われるときの各種条件のランダム化を表す図である。実環境における推論の処理の流れを示すフローチャートである。

以下、本発明の各実施の形態について図面を参照しながら詳細に説明する。しかしながら、以下の各実施の形態に記載されている構成はあくまで例示に過ぎず、本発明の範囲は各実施の形態に記載されている構成によって限定されることはない。

以下、図面を参照して、本実施形態について説明する。本実施形態は、ロボットを制御する制御器の生成に適用される。以下、制御器は、カメラが撮影した画像を用いて、ロボットのアームがワークをピックするというタスクを行うものとして説明する。ただし、本実施形態は、ワークのピック以外の任意のタスクに適用可能であり、様々なロボットに適用可能である。

図１は、本実施形態に係るロボット制御装置の概要を示す図である。図１（ａ）は、ロボットの制御器を生成する際の環境およびデータの流れを示す図である。図１（ａ）では、実環境Ｒ、仮想環境Ｖ、モデルＭおよびスクリプトＳが示されている。図１（ａ）の実環境Ｒには、アームＡ、ワークＷ、グローバルカメラＣ１およびオンハンドカメラＣ２が含まれる。また、実環境Ｒには、照明や暗室等が含まれる。実環境Ｒは、現実の空間である。アームＡは、後述するロボット１１のアームであり、アームＡの先端にグリッパーＧが取り付けられている。アームＡは、例えば、多関節構造を有する。グリッパーＧは、ワークＷを把持することができる把持部である。グリッパーＧがワークＷを把持した状態でアームＡが動作すると、ワークＷは持ち上げられる。グリッパーＧは、例えば、液体を掬う部位を有していてもよい。グリッパーＧは、アームＡと一体的に構成されていてもよい。また、アームＡとロボット１１とは一体的に構成されたロボットアームであってもよいし、それぞれ個別に設けられてもよい。

グローバルカメラＣ１は、アームＡの略全身およびワークＷを含む全体の風景を撮影できる。オンハンドカメラＣ２は、アームＡのグリッパーＧの近傍に取り付けられ、グリッパーＧの略全身およびグリッパーＧの周囲を撮影できる。グローバルカメラＣ１は、ほぼ常にワークＷを撮影できるが、アームＡがワークＷを隠すと、ワークＷを撮影できなくなる。オンハンドカメラＣ２は、ワークＷを撮影できる状態が限られるが、グリッパーＧがワークＷを向いており、且つ両者の距離が近い状態では、ワークＷを大きく撮影することができる。従って、グローバルカメラＣ１とオンハンドカメラＣ２とは、互いの死角を補う。また、オンハンドカメラＣ２が撮影した画像に基づいて、アームＡは、ワークＷが把持を行う前後の駆動を精密に行うことができる。グローバルカメラＣ１およびオンハンドカメラＣ２は、撮像装置である。撮像装置は、１台のカメラであってもよい。

仮想環境Ｖは、実環境Ｒを仮想化した物理シミュレータである。仮想環境Ｖには、実環境Ｒに対応して、仮想アームＶＡ、仮想ワークＶＷ、仮想グローバルカメラＶＣ１および仮想オンハンドカメラＶＣ２が含まれる。また、仮想環境Ｖには、仮想照明等が含まれる。仮想アームＶＡはアームＡに、仮想ワークＶＷはワークＷに、仮想グローバルカメラＶＣ１はグローバルカメラＣ１に、仮想オンハンドカメラＶＣ２はオンハンドカメラＣ２にそれぞれ対応する。仮想グローバルカメラＶＣ１および仮想オンハンドカメラＶＣ２は、仮想撮像装置であり、仮想撮像装置が撮影する画像は仮想画像である。仮想環境Ｖの外観を含む仕様は、できる限り実環境Ｒと類似させることが望ましい。物理シミュレータに実装された物理現象の範囲内で、仮想アームＶＡ等の各オブジェクト同士は相互に作用できる。例えば、仮想環境Ｖにおいて、仮想アームＶＡは仮想ワークＶＷを把持し、持ち上げることができる。

モデルＭは、ニューロンとシナプスとからなり、３層以上の層構造を有する人工ニューラルネットワーク（以下、単にニューラルネットワークとする）である。モデルＭの詳細については後述する。モデルＭは、深層強化学習により得られる学習済みモデルであり、現実のロボット１１のアームＡの制御に適した制御器に対応する。

スクリプトＳは、スクリプト言語で書かれたスクリプトである。スクリプトＳに、学習フレームワークを用いたモデルＭの実装が記述される。また、スクリプトＳには、グローバルカメラＣ１およびオンハンドカメラＣ２に対する撮影指示や、撮影した画像を連結する処理も記述される。さらに、スクリプトＳには、アームＡに対する駆動指示やアームＡの各駆動軸およびグリッパーＧの状態を取得する処理も記述される。同様に、スクリプトＳには、仮想アームＶＡ、仮想グローバルカメラＶＣ1、仮想オンハンドカメラＶＣ２に対する処理も記述される。スクリプトＳは、学習フレームワークや仮想環境、実環境等の複数のシステム間の連結を担うプログラムである。このようなスクリプトＳの記述に適したプログラミング言語としては、グルー言語が好適である。

次に、仮想環境Ｖにおいて強化学習が行われる際のデータの流れを説明する。強化学習は、ある環境に置かれたエージェントが試行を繰り返し、試行の結果得られる報酬を最大化する行動選択基準（方策）を生成する機械学習の手法である。仮想環境Ｖにおいて、仮想グローバルカメラＶＣ１および仮想オンハンドカメラＶＣ２による撮影画像は、連結されて1枚の画像として、スクリプトＳに送られる。スクリプトＳは、モデルＭに画像を入力し、出力として方策を得る。方策は、複数の行動と各行動の選択確率との組である。選択確率の合計は「１」になるように調整される。スクリプトＳは、得られた方策に基づき、仮想アームＶＡの制御量を決定する。スクリプトＳは、決定した制御量を、仮想アームＶＡに送る。仮想アームＶＡは、制御量に従い、仮想ロボットの仮想アームＶＡの姿勢を変更する。仮想アームＶＡの姿勢変更により、仮想環境Ｖでは、報酬が発生することがある。スクリプトＳは、報酬の発生を検知すると、モデルＭを更新する。報酬の発生に基づくモデルＭの更新を、学習Ｌと称する。本実施形態では、学習Ｌとしては、深層強化学習が適用される。以上が仮想環境Ｖにおける学習処理である。

次に、実環境Ｒにおいて推論が行われる際のデータの流れを説明する。グローバルカメラＣ１およびオンハンドカメラＣ２が撮影した画像は、連結されてスクリプトＳに送られる。スクリプトＳは、モデルＭに画像を入力し、出力として方策を得る。実環境Ｒにおいて撮影された画像をモデルＭに入力して、方策を得る処理をモデルＭの推論Ｉと呼ぶ。スクリプトＳは、得られた方策に基づき、アームＡの制御量を決定する。スクリプトＳは、決定された制御量を、アームＡに送る。アームＡは、制御量に従い、姿勢を変更する。以上が実環境Ｒにおける推論処理である。

図１（ｂ）は、本実施形態のシステムの構成を示す図である。本実施形態のシステムの構成は、図１（ｂ）の例には限定されない。ロボット制御装置１０は、アームＡが取り付けられたロボット１１を駆動制御する。また、ロボット制御装置１０には、グローバルカメラＣ１およびオンハンドカメラＣ２が接続されている。ロボット制御装置１０は、ＣＰＵ１５、ＧＰＵ１６およびメモリ１７を有する。ＣＰＵ１５は、本実施形態の処理を行うプロセッサであり、取得手段および駆動手段に対応する。ＧＰＵ１６は、主に、モデルＭの演算を行う際に使用されるグラフィックスプロセッシングユニットである。ＧＰＵ１６の代わりに、機械学習の処理に特化した半導体回路が用いられてもよい。メモリ１７は、ＣＰＵ１５が実行するプログラムを記憶するメモリである。スクリプトＳは、メモリ１７に記憶される。ＣＰＵ１５が、スクリプトＳの記述内容を実行することで、本実施形態の処理が実現される。ロボット制御装置１０は、単体の装置であってもよいし、ロボット１１に内蔵されてもよい。

以下、ＣＰＵ１５が物理シミュレータを実行するものとして説明するが、物理シミュレータは、ロボット制御装置１０と異なるシミュレータ装置により実現されてもよい。この場合、シミュレータ装置とロボット制御装置１０とは通信可能に接続される。また、モデルＭの演算および更新は、ロボット制御装置１０のＧＰＵ１６ではなく、所定の処理装置が行ってもよい。例えば、エッジコンピュータやクラウドサーバ等がモデルＭの演算および更新を行ってもよい。この場合、所定の処理装置とロボット制御装置１０とは通信可能に接続される。

図２は、モデルＭを表す図である。モデルＭに対する入力は、画像２１である。仮想環境Ｖにおける強化学習が行われるとき、画像２１は、仮想グローバルカメラＶＣ１の撮影画像と仮想オンハンドカメラＶＣ２の撮影画像とが連結された画像となり、ノイズが印可される。実環境Ｒにおける推論が行われるとき、画像２１は、グローバルカメラＣ１の撮影画像とオンハンドカメラＣ２の撮影画像とが連結された画像となる。モデルＭは、２つのＣＮＮ２２、２３を有する。ＣＮＮは、畳み込みニューラルネットワークであり、画像処理器の生成に適する。ＣＮＮ２２とＣＮＮ２３とは結合されており、ＣＮＮ２３の出力先に全結合層ＦＣが結合されている。全結合層ＦＣの出力先にＬＳＴＭ２４が結合されている。

ＬＳＴＭは、リカレントニューラルネットワーク（再帰型ニューラルネットワーク）の一種であり、系列処理器の生成に適する。系列処理は、時系列データや文字列を所望の単位に分割し、意味を抽出する処理である。ＬＳＴＭは、音声認識や文字列認識等に好適である。画像２１がＣＮＮ２２に入力されると、ＣＮＮ２３、ＦＣおよびＬＳＴＭを経て、方策２５が出力される。図２では、方策２５は「ＡｃｔｉｏｎＰｏｌｉｃｙ」と表記される。図２のその他の要素および入出力は、入力の変化の認識や学習の促進、望ましくない方策の獲得の回避に作用する。図２のその他の要素および入出力に関する定義や機能は、非特許文献２に基づくものであってよい。モデルＭは、図２の例には限定されない。

図３は、仮想環境Ｖにおける学習の処理の流れを示すフローチャートである。図３の各処理は、例えば、ＣＰＵ１５がメモリ１７に記憶されているスクリプトＳを実行することにより実現される。ＣＰＵ１５は、モデルＭの初期化を行う（Ｓ３０１）。Ｓ３０１では、学習フレームワークを用いて、モデルＭが生成される。このとき、モデルＭの多数のパラメータが全て初期値に設定される。該初期値は、ランダムな値であってもよいし、以降の学習が可能か否か、或いは学習の速度に応じて、試行錯誤的に決定されてもよい。

次に、ＣＰＵ１５は、仮想環境Ｖの初期化を行う（Ｓ３０２）。Ｓ３０２では、物理シミュレータの立ち上げが行われる。ＣＰＵ１５は、スクリプトＳの内容に基づいて、物理シミュレータ内に、仮想アームＶＡ、仮想グローバルカメラＶＣ１、仮想オンハンドカメラＶＣ２および仮想ワークＶＷを配置する。また、ＣＰＵ１５は、必要に応じて、仮想アームＶＡ等を照らす仮想照明やその他のオブジェクトも物理シミュレータ内に配置する。Ｓ３０２では、全てのオブジェクトの位置、姿勢、テクスチャおよび仮想照明についての明るさと色味とが初期値に設定される。該初期値は、ランダムな値であってもよいし、以降の学習が可能か否か、或いは学習の速度に応じて、試行錯誤的に決定されてもよい。ただし、Ｓ３０２において、重力等の現実の法則を逸脱する初期状態、或いはタスクの達成が容易過ぎる初期状態に設定されることは、望ましくない。

ＣＰＵ１５は、物理シミュレータ内で、仮想カメラが撮影した画像を取得する（Ｓ３０３）。Ｓ３０３では、仮想グローバルカメラＶＣ１および仮想オンハンドカメラＶＣ２が撮影した画像の縮小および連結が行われる。ＣＰＵ１５は、Ｓ３０３で取得された画像に対して、意図的にノイズを印可する処理を行う（Ｓ３０４）。ノイズの印可は常に行われてもよい。Ｓ３０４の処理は、仮想環境Ｖにおける学習時の条件をランダム化する処理の一種である。詳細については、後述する。ＣＰＵ１５は、Ｓ３０４の処理が施された画像を、モデルＭに入力する（Ｓ３０５）。

ＣＰＵ１５は、ＧＰＵ１６に対して、モデルＭに対する画像を入力として、ニューラルネットワークの順伝搬の演算を行うように制御する。これにより、ＧＰＵ１６は、順伝搬の演算結果として方策３５を出力する（Ｓ３０６）。本実施形態の方策３５は、仮想アームＶＡの全ての可動軸を、それぞれ正または負に一定量駆動する行動と選択確率との組である。ＣＰＵ１５は、物理シミュレータ内で、Ｓ３０６で出力された方策３５に基づいて、仮想アームＶＡの姿勢を変更する処理を行う（Ｓ３０７）。姿勢の変更、すなわち、仮想アームＶＡの何れかの可動軸の正または負の駆動は、選択確率に比例して選択される。ＣＰＵ１５は、仮想アームＶＡの姿勢を変更したことで、報酬が発生したかを判定する（Ｓ３０８）。報酬の発生条件についての詳細は、後述する。報酬が発生した場合、Ｓ２０８でＹＥＳと判定される。この場合、ＣＰＵ１５は、モデルＭを更新する（Ｓ３０９）。Ｓ３０９では、報酬が得られた行動の選択確率が高まるように、画像を方策５１に変換するようにモデルＭが更新される。具体的には、モデルＭのパラメータの調整が行われる。例えば、確率的勾配降下法等の最適化計算を、誤差逆伝搬法等で効率的に適用することで、Ｓ３０９の処理が行われる。

Ｓ３０８でＮＯと判定された場合、またはＳ３０９の処理が行われた場合、ＣＰＵ１５は、学習を終了するかを判定する（Ｓ３１０）。ＣＰＵ１５は、一定時間が経過したかに基づいて、または報酬の発生頻度が一定値以上になったかに基づいて、Ｓ３１０の判定を行ってもよい。例えば、一定時間が経過した場合、または報酬の発生頻度が一定値以上になった場合に、ＣＰＵ１５は、学習を終了すると判定してもよい。また、ＣＰＵ１５は、実行しているスクリプトＳや物理シミュレータに例外が発生したかに基づいて、またはユーザの終了指示の有無に基づいて、Ｓ３１０の判定を行ってもよい。例えば、例外が発生した場合、またはユーザの終了指示があった場合、ＣＰＵ１５は、学習を終了すると判定してもよい。Ｓ３１０でＹＥＳと判定された場合、ＣＰＵ１５は、モデルＭを保存する（Ｓ３１５）。そして、学習は終了する。

Ｓ３１０でＮＯと判定された場合、学習は終了しない。この場合、ＣＰＵ１５は、エピソードを終了するかを判定する（Ｓ３１１）。エピソードは、報酬が発生する状態に行き当たるための複数回の試行のまとまりである。ＣＰＵ１５は、仮想アームＶＡが仮想ワークＶＷに作用するタスクが完了したときに、エピソードが終了したと判定してもよい。また、ＣＰＵ１５は、試行の回数が一定回数に達したときに、エピソードが終了したと判定してもよい。

Ｓ３１１でＮＯと判定された場合、フローは、Ｓ３０３に戻る。Ｓ３１１でＹＥＳと判定された場合、ＣＰＵ１５は、仮想アームＶＡの姿勢を初期化する（Ｓ３１２）。Ｓ３１２では、仮想アームＶＡの姿勢が、Ｓ３０２が実行されたときと同様の姿勢に初期化される。そして、ＣＰＵ１５は、仮想ワーク位置および姿勢をランダムに変更する（Ｓ３１３）。さらに、ＣＰＵ１５は、仮想照明の明るさと色味との何れか一方または両方をランダムに変更する（Ｓ３１４）。仮想照明の明るさの変更および色味の変更は、環境条件の変更の一例である。Ｓ３１３およびＳ３１４は、仮想環境Ｖにおける学習時の条件のランダム化の一種であり、仮想ロボットの状態の変更である。詳細については、後述する。仮想環境Ｖにおける強化学習は、多様な画像から報酬が発生しやすい方策が得られるまで、モデルＭのパラメータを調整する処理でもある。

図４は、仮想環境Ｖにおける学習が行われる際の複数の報酬の発生条件を表す図である。図４の例では、仮想環境Ｖの状態は、状態４１から状態４８まで変遷している。状態４１は、エピソードの開始状態である。状態４１では、仮想アームＶＡが初期状態になっており、仮想ワークＶＷが床に置かれている。仮想ターゲットＶＴは、仮想アームＶＡが仮想ワークＶＷを持ち上げて、仮想ワークＶＷを持ち運び、最後に仮想ワークＶＷを置く領域である。仮想ターゲットＶＴは、例えば、ユーザにより指定される。状態４２は、第１の報酬の発生条件を満たす状態である。状態４２に遷移したときに、ＣＰＵ１５は、報酬を発生させる制御を行う。状態４２は、仮想カメラの画像とモデルＭとを用いた複数回の行動選択（仮想ワークＶＷを駆動させる選択）が行われて、仮想グリッパーＶＧと仮想ワークＶＷとが、状態４１から少し近接した状態である。この場合、ＣＰＵ１５は、仮想グリッパーＶＧと仮想ワークＶＷとの間の距離が所定距離以下となったときに報酬を発生させる制御を行う。仮想グリッパーＶＧは、仮想アームＶＡの先端に取り付けられた仮想的なグリッパーであり、仮想環境ＶＭにおいて仮想ワークＶＷを把持して持ち上げ、所定の領域に置くことができる。仮想グリッパーＶＧは、仮想把持部に対応する。仮想グリッパーＶＧは、仮想アームＶＡと一体的に構成されていてもよい。

本実施形態では、ＣＰＵ１５は、仮想グリッパーＶＧと仮想ワークＶＷとの間の距離を利用して、報酬を発生させる制御を行う。ＣＰＵ１５は、仮想アームＶＡと仮想ワークＶＷとの間の距離を利用して、報酬を発生させてもよい。例えば、ＣＰＵ１５は、報酬の発生に応じて、点数を１点ずつ加算してもよい。仮想環境Ｖは、実環境Ｒと異なり、物理シミュレータで実現されるため、各オブジェクトの位置および姿勢を容易に取得できる。このため、ＣＰＵ１５は、仮想グリッパーＶＧと仮想ワークＶＷとの間の距離も、容易に算出できる。状態４３は、第２の報酬の発生条件を満たす状態である。状態４３は、仮想グリッパーＶＧと仮想ワークＶＷとが、状態４２よりもさらに近接した状態である。状態４３に遷移したときに、報酬が発生する。状態４４は、第３の報酬の発生条件を満たす状態である。状態４４は、仮想グリッパーＶＧを閉じれば、仮想ワークＶＷが把持できるまで、仮想グリッパーＶＧと仮想ワークＶＷとが近接した状態である。状態４４に遷移したときに、報酬が発生する。

状態４５は、第４の報酬の発生条件を満たす状態である。図４のうち状態４５は、仮想オンハンドカメラＶＣ２が撮影した撮影画像である。該撮影画像には、仮想グリッパーＶＧと仮想ワークＶＷとが含まれている。状態４５は、仮想アームＶＡが、仮想グリッパーＶＧを閉じ、仮想ワークＶＷを把持した状態である。仮想グリッパーＶＧを閉じる駆動（行動）も、モデルＭが出力する方策に含まれる。状態４５に遷移したときに、報酬が発生する。状態４６は、第５の報酬の発生条件を満たす状態である。状態４６は、仮想グリッパーＶＧに把持された仮想ワークＶＷが、仮想アームＶＡの駆動により、床から一定以上、持ち上げられた状態である。この状態を、アームによるワークのピック達成とする。状態４６に遷移したときに、報酬が発生する。

状態４７は、第６の報酬の発生条件である。仮想アームＶＡの駆動により、仮想ワークＶＷと仮想ターゲットＶＴとの間の距離が、一定距離以下に近づいた状態である。状態４６に遷移したときに、報酬が発生する。状態４８は、第７の報酬の発生条件である。仮想グリッパーＶＧが開かれ、床の仮想ターゲットＶＴ内に、仮想ワークＶＷが置かれた状態である。仮想グリッパーＶＧを開く駆動（行動）も、モデルＭが出力する方策に含まれる。この状態を、アームによるワークのプレース達成とする。状態４８に遷移したときに、報酬が発生する。以上の第１の報酬の発生条件乃至第７の報酬の発生条件は、所定の条件に対応する。

状態４１から状態４８に遷移すると、仮想アームＶＡの仮想グリッパーＶＧによる仮想ワークＶＷのピック・アンド・プレースが達成される。この場合、ピック・アンド・プレースという１つのタスクが完了する。ピック・アンド・プレースのタスクが完了すると、図３のＳ３１１でＹＥＳと判定される。報酬が発生するごとに、モデルＭは更新される。これにより、更新されたモデルＭは、入力した画像から、さらに報酬が発生しやすい方策を出力するようになる。以上の例では、第１の報酬の発生条件乃至第７の報酬の発生条件（所定の条件）が満たされた場合に一定の報酬が発生するが、条件によって、発生させる報酬の値を異ならせるように制御がされてもよい。例えば、ピックが完了したときに発生させる報酬およびプレースが完了したときに発生させる報酬を、他の状態のときに発生させる報酬より大きくしてもよい。

仮想ワークＶＷは、位置および姿勢を定義し易い仮想物体でなく、位置および姿勢を定義できない仮想的な布や液体等であってもよい。以上の図３および図４の各処理は、物理シミュレータで実行される。よって、仮想ワークＶＷの位置および姿勢を利用しない条件下でも、ＣＰＵ１５は、仮想環境Ｖの状態を変化させて、布や液体等のピックを行う場合に報酬を与え、モデルＭを更新することができる。従って、本実施形態は、位置および姿勢を定義できないワーク（布や液体等）にも適用できる。

図５は、仮想環境Ｖにおいて学習が行われるときの各種条件のランダム化を表す図である。図５（ａ）は、仮想ワークＶＷの位置および姿勢のランダム化を表す図である。３つのエピソード５ａ１、５ａ２および５ａ３は開始状態を示し、それぞれ異なる位置および姿勢で仮想ワークＶＷが置かれている。仮想ワークＶＷの位置および姿勢は、エピソードごとに、ランダムに変更される。仮想環境Ｖにおける学習は、仮想ワークＶＷの位置および姿勢が、エピソードごとに、ランダムに変更しながら行われる。これにより、モデルＭは、仮想ワークＶＷの位置および姿勢によらず、報酬が発生しやすい方策を出力できるようになる。すなわち、様々な仮想ワークＶＷの位置および姿勢に対応して、ピック・アンド・プレースを達成できるようなモデルＭが得られる。

図５（ｂ）は、仮想照明の明るさと色味とのランダム化を表す図である。４つのエピソード５ｂ１、５ｂ２、５ｂ３および５ｂ４は全景を示す。エピソード５ｂ１では、全景は、暗く、且つ赤く照らされている。エピソード５ｂ２では、全景は、暗く、且つ青く照らされている。エピソード５ｂ３では、全景は、明るく、且つ緑に照らされている。エピソード５ｂ４では、全景は、中間的な明るさで、且つ白く照らされている。仮想グローバルカメラＶＣ１および仮想オンハンドカメラＶＣ２が撮影する画像の明るさと色味とは、それぞれの試行で異なる。仮想環境Ｖにおける学習は、仮想照明の明るさと色味とを、エピソードごとに、ランダムに変更しながら行われる。これにより、モデルＭは、全景の明るさや色味によらず、報酬が発生しやすい方策を出力できるようになる。すなわち、様々な全景の明るさと色味とに対応した、ピック・アンド・プレースを達成できるようなモデルＭが得られる。

図５（ｃ）は、モデルＭに対する入力画像のランダム化を表す図である。入力画像は、仮想グローバルカメラＶＣ１および仮想オンハンドカメラＶＣ２が撮影した画像を、連結し、さらにノイズを印加した画像である。例えば、ＣＰＵ１５は、入力画像の全域に対して、画素値の上下限の差の「３０％」程度を標準偏差とするホワイトノイズを印可する。そして、ＣＰＵ１５は、入力画像が生成されるごとに、異なるホワイトノイズを印加する。仮想環境Ｖにおける学習は、入力画像に印可するノイズを、エピソードごとに、ランダムに変更しながら行われる。これにより、モデルＭは、カメラのノイズによらず、報酬が発生しやすい方策を出力できるようになる。すなわち、カメラに対する様々なノイズに対応した、ピック・アンド・プレースを達成できるようなモデルＭが得られる。

仮想環境Ｖにおいて学習が行われるときの、各種条件のランダム化は、上述した例には限定されない。例えば、ＣＰＵ１５は、仮想アームＶＡ、仮想グローバルカメラＶＣ１および仮想オンハンドカメラＶＣ２の位置および姿勢を微小にランダム化してもよい。また、ＣＰＵ１５は、入力画像に含まれる全てのオブジェクトのテクスチャをランダム化してもよい。この場合、ＣＰＵ１５は、各オブジェクトのテクスチャの色および質感をランダムに変更する。ＣＰＵ１５は、各種条件のランダム化を、仮想環境Ｖにおける学習時に施すことで、モデルＭの汎化性能が高まる。汎化性能は、学習時に経験しなかった、未知の入力に対しても、報酬が発生しやすい条件を出力できるかを示す指標である。以上の汎化性能の高いモデルＭを用いることで、実環境Ｒにおいても、仮想環境Ｖにおける学習と同様のタスクを達成できる。

図６は、実環境Ｒにおける推論の処理の流れを示すフローチャートである。ＣＰＵ１５は、学習フレームワークを用いて、モデルＭを読み込む（Ｓ６０１）。モデルＭは、仮想環境Ｖにおける学習によって獲得されたものである。そして、ＣＰＵ１５は、アームＡの姿勢を初期化する（Ｓ６０２）。これにより、実環境ＲにおけるアームＡは、仮想アームＶＡと略同一の初期状態（初期姿勢）になる。そして、ＣＰＵ１５は、グローバルカメラＣ１およびオンハンドカメラＣ２が撮影した画像を縮小および連結することで、カメラが撮影した画像を取得する（Ｓ６０３）。ＣＰＵ１５は、Ｓ６０３で生成された画像をモデルＭに入力する（Ｓ６０４）。これにより、例えば、ＣＰＵ１５は、ＧＰＵ１６に、画像を入力としたニューラルネットワークの順伝搬の演算を実行させる。そして、ＧＰＵ１６は、画像を入力としたモデルＭの演算結果として方策を出力する（Ｓ６０５）。該方策は、仮想環境Ｖにおける学習時の方策と同種である。

ＣＰＵ１５は、モデルＭが出力した出力結果である方策に基づき、アームＡを駆動して、アームＡの姿勢を変更する制御を行う（Ｓ６０６）。ＣＰＵ１５は、アームＡの姿勢の変更、すなわち、アームＡの各可動軸のうち何れかの可動軸の正または負の駆動を、方策に示される選択確率に比例して、選択する。ＣＰＵ１５は、エピソードが終了したかを判定する（Ｓ６０７）。ＣＰＵ１５は、アームＡがワークＷに対して行うタスクが完了したかに基づいてエピソードが終了したかを判定してもよいし、エピソードが所定回数行われたかに基づいて、エピソードが終了したかを判定してもよい。Ｓ６０７でＮＯと判定された場合、フローは、Ｓ６０３に戻る。Ｓ６０７でＹＥＳと判定された場合、処理は終了する。

上述したように、モデルＭは、実環境Ｒでも利用可能な汎化性能を有する。つまり、モデルＭは、仮想環境Ｖにおいて、実環境Ｒでも適用可能なように学習がされている。従って、ロボット制御装置１０は、実環境ＲにおけるワークＷの位置および姿勢を利用することなく、また逆運動学や動作計画を利用することなく、モデルＭを用いて、ロボット１１のアームＡを制御することができる。よって、本実施形態では、逆運動学や動作計画に基づくアームＡの駆動誤差が発生することがない。また、本実施形態は、小さなワークのピック等の高精度な駆動が要求されるタスクにも容易に適用でき、また位置および姿勢の中間値を定義できない布や液体等がワークである場合にも適用できる。従って、本実施形態によれば、ロボットエンジニアのような専門家を要することなく、広範なロボットを好適に制御できる制御器を自動的に得てロボットを制御することができるようになる。

以上、本発明の好ましい実施の形態について説明したが、本発明は上述した各実施の形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。本発明は、上述の各実施の形態の１以上の機能を実現するプログラムを、ネットワークや記憶媒体を介してシステムや装置に供給し、そのシステム又は装置のコンピュータの１つ以上のプロセッサがプログラムを読み出して実行する処理でも実現可能である。また、本発明は、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０ロボット制御装置
１１ロボット
１５ＣＰＵ
１６ＧＰＵ
２２、２３ＣＮＮ
２４ＬＳＴＭ
Ａアーム
Ｇグリッパー
Ｒ実環境
Ｖ仮想環境
Ｃ１グローバルカメラ
Ｃ２オンハンドカメラ
ＶＡ仮想アーム
ＶＧ仮想グリッパー
ＶＣ１仮想グローバルカメラ
ＶＣ２仮想オンハンドカメラ

Claims

ロボットの制御を行うロボット制御装置であって、
前記ロボットを含む環境を撮影する撮像装置から画像を取得する取得手段と、
前記画像をニューラルネットワークに入力して得られる出力結果に基づいて前記ロボットを駆動する駆動手段と、を備え、
前記ニューラルネットワークは、前記環境を仮想化した仮想環境の環境条件および仮想ロボットの状態を変更させながら撮影した複数の仮想画像を入力として、出力される前記仮想ロボットの方策が所定の条件を満たした場合に発生させる報酬に応じて更新されることを特徴とするロボット制御装置。
前記ニューラルネットワークは、畳み込みニューラルネットワークと再帰型ニューラルネットワークとを含むことを特徴とする請求項１に記載のロボット制御装置。
前記方策は、前記仮想ロボットの複数の行動と該複数の行動のそれぞれの選択確率であることを特徴とする請求項１または２に記載のロボット制御装置。
前記ニューラルネットワークは、前記報酬が得られた行動の選択確率が高まるように更新されることを特徴とする請求項３に記載のロボット制御装置。
前記所定の条件に応じて、前記報酬が異なることを特徴とする請求項１乃至４のうち何れか１項に記載のロボット制御装置。
前記仮想画像にノイズが印可されることを特徴とする請求項１乃至５のうち何れか１項に記載のロボット制御装置。
前記ノイズは、エピソードごとにランダムに変更されることを特徴とする請求項６に記載のロボット制御装置。
前記環境条件は、前記仮想環境における仮想照明の明るさと色味とのうち何れか一方または両方であることを特徴とする請求項１乃至７のうち何れか１項に記載のロボット制御装置。
前記明るさまたは前記色味は、エピソードごとにランダムに変更されることを特徴とする請求項８に記載のロボット制御装置。
前記環境条件は、前記仮想環境に含まれる複数のオブジェクトのテクスチャであることを特徴とする請求項１乃至７のうち何れか１項に記載のロボット制御装置。
前記ロボットはワークを把持するアームを有しており、前記仮想ロボットは仮想ワークを把持する仮想アームを有することを特徴とする請求項１乃至９のうち何れか１項に記載のロボット制御装置。
前記ワークと前記仮想アームに取り付けられた仮想把持部との間の距離に応じて、前記報酬が発生することを特徴とする請求項１１に記載のロボット制御装置。
前記仮想環境において前記仮想ロボットは前記仮想ワークを持ち上げ、所定の領域に置くことができることを特徴とする請求項１１または１２に記載のロボット制御装置。
前記仮想ワークの位置および姿勢は、エピソードごとにランダムに変更されることを特徴とする請求項１１乃至１３のうち何れか１項に記載のロボット制御装置。
前記ワークは、布または液体であることを特徴とする請求項１１乃至１４のうち何れか１項に記載のロボット制御装置。
ロボットを含む環境を仮想化した仮想環境の環境条件および仮想ロボットの状態を変更させながら撮影した複数の仮想画像を入力として、出力される前記仮想ロボットの方策が所定の条件を満たした場合に発生させる報酬に応じてニューラルネットワークを更新することにより取得されることを特徴とする学習済みモデル。
ロボットの制御を行うロボット制御方法であって、
前記ロボットを含む環境を撮影する撮像装置から画像を取得する工程と、
前記画像をニューラルネットワークに入力して得られる出力結果に基づいて前記ロボットを駆動する工程と、を備え、
前記ニューラルネットワークは、前記環境を仮想化した仮想環境の環境条件および仮想ロボットの状態を変更して撮影した仮想画像を入力として、出力される前記仮想ロボットの方策が所定の条件を満たした場合に発生させる報酬に応じて更新されることを特徴とするロボット制御方法。
請求項１乃至１５のうち何れか１項に記載のロボット制御装置の各手段をコンピュータに実行させるためのプログラム。