JP2023175199A

JP2023175199A - 学習装置、制御装置、ロボットシステム、学習方法、およびプログラム

Info

Publication number: JP2023175199A
Application number: JP2022087530A
Authority: JP
Inventors: 貴大石井; Takahiro Ishii
Original assignee: Proterial Ltd
Current assignee: Proterial Ltd
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2023-12-12

Abstract

【課題】様々な移動先に対する最適な軌道を容易に生成することが可能な学習装置等を提供する。【解決手段】学習装置３は、アームおよび先端部を備えたロボット２の軌道を生成する数理モデル５であって、１以上のハイパーパラメータｈが定義された数理モデル５を記憶し、ロボット２の可動範囲内においてロボット２の先端部の目標座標をランダムに設定する位置設定部２４１と、数理モデル５を用いて、先端部が目標座標まで移動するためのロボット２の軌道を生成する軌道生成部２４２と、仮想空間内または実空間内において軌道に従ってロボット２を動作させる動作部２４３と、ロボット２の動作結果に対する報酬を所定の基準により算出する報酬算出部２２と、報酬に基づいて数理モデル５のハイパーパラメータｈを更新する更新部２３と、を備える。【選択図】図３

Description

本発明は、学習装置、制御装置、ロボットシステム、学習方法、およびプログラムに関し、特に、ロボットの軌道を生成する技術に関する。

多関節ロボット等のロボットの軌道を得る一般的な方法として、教示による方法がある。この方法では、ロボットの初期座標と目標座標を設定したうえで、初期座標から目標座標の間の中継座標をティーチングペンダント等を用いて操作者が教示する。教示した中継座標を通る軌道が適切でなかった場合や、ロボットの関節に大きな負荷がかかるような場合には、操作者が中継座標の教示をやり直し、より最適な軌道となるように調整を行う。

しかしながら、上記した方法は、中継座標を人手で教示するため膨大な手間がかかる。また、教示した軌道しか辿ることができないため、汎化性能が低い。また、初期座標や目標座標を変更した場合、教示をはじめからやり直さなければならない。

一方で近年、機械学習等を用いて、ロボットの軌道を自動で得る方法が開発されている。例えば、特許文献１では、ロボットの位置座標、移動速度、障害物に移動を遮られたか否か等のロボットの移動状態を入力とし、その状態からロボットが移動する移動方向、移動速度等を出力としたニューラルネットワークを学習することで、ロボットが目標座標に移動する軌道を自動で生成する方法が提案されている。

特開２０２０－００６４８９号公報

特許文献１のようにロボットの軌道が自動で得られれば、中継座標を人手で教示する必要がなくなるため、手間が大幅に削減される。しかしながら、特許文献１の方法も、１つの目標座標に対して軌道を生成するものであるため、依然として汎化性能が低い。また汎化性能を上げるためには、目標座標ごとにニューラルネットワークを学習する必要があり、学習工数が膨大となり現実的でない。

本発明は、前述した問題点に鑑みてなされたものであり、様々な移動先に対する最適な軌道を容易に生成することが可能な学習装置等を提供することを目的とする。

前述した目的を達成するための第１の発明は、アームおよび先端部を備えたロボットの軌道を生成する数理モデルであって、１以上のハイパーパラメータが定義された数理モデルを記憶する記憶部と、前記ロボットの可動範囲内において前記ロボットの先端部の目標座標をランダムに設定する位置設定部と、前記数理モデルを用いて、前記先端部が前記目標座標まで移動するための前記ロボットの軌道を生成する軌道生成部と、仮想空間内または実空間内において前記軌道に従って前記ロボットを動作させる動作部と、前記ロボットの動作結果に対する報酬を所定の基準により算出する報酬算出部と、前記報酬に基づいて前記数理モデルの前記ハイパーパラメータを更新する更新部と、を備えることを特徴とする学習装置である。

第１の発明によれば、アームおよび先端部を備えたロボットの軌道を生成する数理モデル（軌道生成アルゴリズム）を用いて、ランダムに設定した目標座標までの軌道を生成し、当該軌道に従ってロボットを動作させ、ロボットの動作結果に対する報酬に基づいて数理モデルのハイパーパラメータを更新する。これにより、ロボットの軌道を生成する数理モデルのハイパーパラメータを最適化することができる。また、学習時に目標座標をランダムに設定することで、様々な移動先に対して軌道が生成できるようにハイパーパラメータが学習されるので、数理モデルの汎化性能を向上させることができる。また、移動距離や移動時間などの動作結果を考慮した最適な軌道が数理モデルによって生成可能となる。

また第１の発明において、前記報酬算出部は、前記ロボットの先端部の移動距離に基づいて報酬を算出するようにしてもよい。例えば、前記報酬算出部は、前記移動距離と、前記先端部の軌道の初期座標から目標座標までの直線距離に所定の係数を乗算した値とを比較し、報酬を算出する。これにより、ロボットの移動距離の情報を、数理モデルのハイパーパラメータの学習に反映させることができる。

また第１の発明において、前記報酬算出部は、前記ロボットの移動時間に基づいて報酬を算出するようにしてもよい。例えば、前記報酬算出部は、前記移動時間と、前記ロボットの先端部が前記軌道の初期座標から目標座標までの直線距離を移動した場合の移動時間に所定の係数を乗算した値とを比較し、報酬を算出することができる。これにより、ロボットの移動時間の情報を、数理モデルのハイパーパラメータの学習に反映させることができる。

また第１の発明において、前記報酬算出部は、前記ロボットの先端部の移動距離に基づいて算出した報酬、および前記ロボットの移動時間に基づいて算出した報酬を合算してもよい。移動距離と移動時間のそれぞれの報酬を算出し、それを合算することで、移動距離と移動時間の情報を、数理モデルのハイパーパラメータの学習に反映することもできる。

また第１の発明において、前記ロボットの状態を示す状態変数を観測する状態観測部、を更に備え、前記更新部は、前記状態変数と前記報酬に基づいて、前記ハイパーパラメータの変化量の価値を表す価値関数を更新する価値関数更新部と、前記価値関数の更新結果に基づいて前記ハイパーパラメータの変化量を決定し、前記ハイパーパラメータを更新するパラメータ更新部と、を備えるようにしてもよい。これにより、ロボットの状態とロボットの動作結果に対する報酬に基づいて、ハイパーパラメータの変化量の価値を表す価値関数（学習モデル）を更新しながら、ハイパーパラメータの適切な変化量を決定し、ハイパーパラメータを更新していくことができる。

前述した目的を達成するための第２の発明は、アームおよび先端部を備えたロボットの軌道を生成する数理モデルであって、１以上のハイパーパラメータが定義された数理モデルを記憶する記憶部と、前記ロボットの可動範囲内においてロボットの先端部の初期座標および目標座標を設定する位置設定部と、前記ハイパーパラメータを、第１の発明に係る学習装置により更新されたハイパーパラメータとしたうえで、前記数理モデルを用いて、前記先端部が前記初期座標から前記目標座標まで移動するための前記ロボットの軌道を生成する軌道生成部と、前記軌道に従って前記ロボットを動作させる動作部と、を備えることを特徴とする制御装置である。
第２の発明によれば、第１の発明によりハイパーパラメータが最適化された数理モデルを用いてロボットの軌道を生成し、ロボットを動作させる制御装置が提供される。

前述した目的を達成するための第３の発明は、ロボットと、第２の発明に係る制御装置と、を備えるロボットシステムである。
第３の発明によれば、第２の発明に係る制御装置と、ロボットから構成されるロボットシステムが提供される。

前述した目的を達成するための第４の発明は、アームおよび先端部を備えたロボットの軌道を生成する数理モデルであって、１以上のハイパーパラメータが定義された数理モデルを記憶するコンピュータが、前記ロボットの可動範囲内において前記ロボットの先端部の目標座標をランダムに設定する位置設定ステップと、前記数理モデルを用いて、前記先端部が前記目標座標まで移動するための前記ロボットの軌道を生成する軌道生成ステップと、仮想空間内または実空間内において前記軌道に従って前記ロボットを動作させる動作ステップと、前記ロボットの動作結果に対する報酬を所定の基準により算出する報酬算出ステップと、前記報酬に基づいて前記数理モデルの前記ハイパーパラメータを更新する更新ステップと、を実行することを特徴とする学習方法である。

第４の発明の学習方法によれば、アームおよび先端部を備えたロボットの軌道を生成する数理モデル（軌道生成アルゴリズム）を用いて、ランダムに設定した目標座標までの軌道を生成し、当該軌道に従ってロボットを動作させ、ロボットの動作結果に対する報酬に基づいて数理モデルのハイパーパラメータを更新する。これにより、ロボットの軌道を生成する数理モデルのハイパーパラメータを最適化することができる。また、学習時に目標座標をランダムに設定することで、様々な移動先に対して軌道が生成できるようにハイパーパラメータが学習されるので、数理モデルの汎化性能を向上させることができる。また、移動距離や移動時間などの動作結果を考慮した最適な軌道が数理モデルによって生成可能となる。

前述した目的を達成するための第５の発明は、アームおよび先端部を備えたロボットの軌道を生成する数理モデルであって、１以上のハイパーパラメータが定義された数理モデルを記憶するコンピュータを、前記ロボットの可動範囲内において前記ロボットの先端部の目標座標をランダムに設定する位置設定部、前記数理モデルを用いて、前記先端部が前記目標座標まで移動するための前記ロボットの軌道を生成する軌道生成部、仮想空間内または実空間内において前記軌道に従って前記ロボットを動作させる動作部、前記ロボットの動作結果に対する報酬を所定の基準により算出する報酬算出部、前記報酬に基づいて前記数理モデルの前記ハイパーパラメータを更新する更新部、として機能させることを特徴とするプログラムである。
第５の発明によれば、コンピュータを第１の発明に係る学習装置として機能させることができる。

本発明により、様々な移動先に対する最適な軌道を容易に生成することが可能な学習装置等が提供される。

ロボットシステム１の全体構成を示す図ロボット２の構成例と動作例の概要を示す図学習装置３の機能構成を示す図ロボットシミュレータの設定例を説明する図数理モデル５の処理の概要を示す図報酬ルール５０の例を示す図ロボット２の状態データ（状態変数）の例を示す図ＤＱＮ（Deep Q-Network）法の学習モデル７０（深層ニューラルネットワーク）の概念図学習時におけるロボット２の先端部Ｅの初期座標Ｐｓと目標座標Ｐｇの設定例を示す図制御装置４の機能構成を示す図学習装置３、制御装置４を実現するコンピュータのハードウェア構成の例を示す図学習装置３が実行する設定処理の流れを示すフローチャート学習装置３が実行する学習処理の流れを示すフローチャート制御装置４が実行する制御処理の流れを示すフローチャート

以下、図面に基づいて本発明の好適な実施形態（以下、本実施形態という。）について詳細に説明する。

（１．ロボットシステム１の全体構成）
図１は、本実施形態のロボットシステム１の全体構成を示す図である。
ロボットシステム１は、ロボット２、学習装置３、制御装置４から構成される。ロボット２は、本実施形態の制御対象であり、例えば多関節ロボットである。学習装置３は、ロボット２の軌道を生成する数理モデル（軌道生成アルゴリズム）のハイパーパラメータを学習し最適化するコンピュータである。制御装置４は、学習装置３によりハイパーパラメータが最適化された数理モデルを用いて、ロボット２の動作を制御するコンピュータである。なお、図１の例では、学習装置３と制御装置４を別々のコンピュータで構成しているが、１つのコンピュータで構成してもよい。
以下、ロボットシステム１の各構成について説明する。

（２．ロボット２の構成）
図２は、本実施形態のロボット２（多関節ロボット）の構成例と動作例の概要を示す図である。ロボット２は、ｎ本のリンク（Ｌ１、Ｌ２、・・・、Ｌｎ）とｎ個の関節（J１、J２、・・・、Jｎ）からなるアームと、アームの先端にエンドエフェクタ（ロボットハンド等）に相当する先端部Ｅを備える、３次元または２次元の多関節ロボットである。ロボット２は、制御装置４の制御命令を受け、各関節のアクチュエータを駆動させることで動作する。例えば図２のように、初期座標Ｐｓ（移動開始点における先端部Ｅの位置および姿勢）と目標座標Ｐｇ（移動終了点における先端部Ｅの位置および姿勢）が与えられると、ロボット２の先端部Ｅが、初期座標Ｐｓから目標座標Ｐｇまでの軌道Ｏｂｔを辿るように動作する。軌道Ｏｂｔは後述する数理モデル５（軌道生成アルゴリズム）によって生成される。図２のように障害物Ｏｂｓがある場合には、障害物Ｏｂｓを避けるように軌道Ｏｂｔが生成される。なお、ロボット２は、多関節ロボットに限定されず、例えば、スカラロボット、直交座標ロボット、円筒座標ロボット、極座標ロボット、パラレルリンクロボットなどであってもよい。

（３．学習装置３の構成）
図３は、本実施形態の学習装置３の機能構成を示す図である。
学習装置３は、設定部１０、学習部２０を備える。
設定部１０は、学習の事前設定を行う機能部であり、主に、シミュレータ設定部１１、数理モデル設定部１２、報酬ルール設定部１３から構成される。

シミュレータ設定部１１は、ロボット２の動作シミュレーションをコンピュータ上で行うためのソフトウェアであるロボットシミュレータの各種設定を行う。ロボットシミュレータとしては、例えばＧａｚｅｂｏが利用できる。Ｇａｚｅｂｏは、ＲＯＳ（Robot Operating System）をサポートする３次元のマルチロボットシミュレータである。センサの反応やフィードバック、複数のロボットや物体の相互作用を３次元でシミュレーションすることができる。なおＵｎｉｔｙ、ＰｙＢｕｌｌｅｔ、Ｍｕｊｏｃｏなどの他のロボットシミュレータを利用してもよい。

シミュレータ設定部１１は、図４に示すように、実空間のロボット２（図２）の３次元モデルを仮想空間に作成し、ロボット２の各リンクＬ１、Ｌ２、・・・、Ｌｎの長さの設定、各関節J１、Ｊ２、・・・、Ｊｎの可動範囲の設定、先端部Ｅのサイズの設定、ロボット２の可動範囲Ｗの設定、ロボット２周辺に存在する障害物Ｏｂｓの設定等を行う。
ロボット２の可動範囲Ｗとは、ロボット２のアームおよび先端部Ｅが稼働できる範囲である。具体的には、可動範囲Ｗは、ロボット２以外の物体が存在しないと仮定した場合におけるロボット２のアームおよび先端部Ｅが理論上稼働できる範囲から、ロボット２が設置される架台等の範囲（非可動領域）と障害物Ｏｂｓの範囲（進入禁止領域）を除外した範囲となる。
なお、仮想空間におけるロボットは、実空間におけるロボットを再現したものであるため、実空間および仮想空間におけるロボットおよびロボットの各構成（各リンク、各関節、先端部など）には同一の符号を付すものとする。

数理モデル設定部１２は、ロボット２の軌道（先端部Ｅおよびアームの軌道）を生成する数理モデル５の設定を行う。なお本明細書および図面において、ロボット２の先端部Ｅの軌道を、特に軌道Ｏｂｔと表している。
本実施形態において、数理モデル５とは、ロボット２の軌道を生成するアルゴリズム（軌道生成アルゴリズム）であって、１以上のハイパーパラメータｈが定義されているものをいう。またハイパーパラメータとは、数理モデル５のアルゴリズムの挙動を制御するパラメータであり、数理モデル５のアルゴリズムの枠組みの中では決定されないパラメータ（アルゴリズムの実行中には一般的に定数として扱われるパラメータ）のことをいう。例えばコスト関数の正則化項の影響度を表す係数などが該当する。

上記のような数理モデル５としては、軌道最適化法をベースとしたアルゴリズムを利用することが望ましい。例えばＣＨＯＭＰ（Co- variant Hamiltonian Optimization for Motion Planning）やＳＴＯＭＰ（Stochastic Trajectory Optimization for Motion Planning）やＴｒａｊＯｐｔ（Trajectory Optimization for Motion Planning）などの公知のアルゴリズムを利用できる。ＣＨＯＭＰはロボットの動作や障害物との距離を要素とするコスト関数を勾配計算により最適化することで軌道を生成する手法である。ＳＴＯＭＰはＣＨＯＭＰと似たアルゴリズムであるが、ＣＨＯＭＰのように勾配計算ではなく、確率的手法によってコスト関数を最適化し、軌道を生成するものである。ＴｒａｊＯｐｔもＣＨＯＭＰ、ＳＴＯＭＰと同じ軌道最適化法をベースとしたアルゴリズムである。ＣＨＯＭＰ、ＳＴＯＭＰ、ＴｒａｊＯｐｔには複数のハイパーパラメータｈが定義されている。

図５は、数理モデル５の処理の概要を表す。図５に示すように、数理モデル５には、外部から１以上のハイパーパラメータｈ（ｈ１、ｈ２、・・・、ｈｍ）を設定することができる。数理モデル５は、ハイパーパラメータｈと、初期座標Ｐｓおよび目標座標Ｐｇが設定されると、内部アルゴリズムに従って先端部Ｅが初期座標Ｐｓから目標座標Ｐｇまで移動するための最適なロボット２の軌道を生成する。
数理モデル５は、ロボットシミュレータと連携しており、ロボット２周辺の環境（障害物Ｏｂｓ等）を考慮しながら最適なロボット２の軌道を生成する。

数理モデル設定部１２は、いずれの数理モデル５を使用するかの選択をユーザから受け付け、選択された数理モデル５のハイパーパラメータｈの初期値を設定する。初期値はユーザが定めた値としてもよいし、アルゴリズム内部で規定されているデフォルト値（推奨値）としてもよい。

報酬ルール設定部１３は、ロボット２の動作結果に対する報酬（評価）を算出するための報酬ルール５０を設定する。
ロボット２の動作結果とは、例えば、ロボット２の先端部Ｅの移動距離（軌道Ｏｂｔの長さ）やロボット２の移動時間（初期座標Ｐｓから目標座標Ｐｇまで移動するのにかかった時間）である。
報酬とは、あるハイパーパラメータｈが設定された数理モデル５により生成された軌道に従ってロボット２を動作させた際の、ロボットの動作結果（移動距離や移動時間など）に対する評価を表すものであり、報酬が大きいほど良好なハイパーパラメータｈであることを意味する。

図６は、報酬ルール５０の例を示す図である。
例えば、報酬の評価項目５１が「移動距離」の場合、条件５２、報酬５３に示すように、Ｄ≦１．５ｄ（移動距離が短い場合）であればプラスの報酬（＋ｒ１；ｒ１は正値）とし、Ｄ＞１．５ｄ（移動距離が長い場合）であれば報酬を０とする。ここで、Ｄはロボット２の先端部Ｅの移動距離（軌道Ｏｂｔの長さ）、ｄはロボット２の先端部Ｅの初期座標Ｐｓから目標座標Ｐｇまでの直線距離である。図６の例では、直線距離ｄに係数１．５を乗じた距離を基準距離とし、基準距離と移動距離Ｄの大小を比較することで報酬が決定される。なお、直線距離ｄに乗じる係数は１．５である必要はなく、１．０以上の他の数値としてもよい。

また、報酬の評価項目５１が「移動時間」の場合、条件５２、報酬５３に示すように、Ｔ≦１．５ｔ（移動時間が短い場合）であればプラスの報酬（＋ｒ２；；ｒ２は正値）とし、Ｔ＞１．５ｔ（移動時間が長い場合）であれば報酬を０とする。ここで、Ｔはロボット２の実移動時間であり、ｔはロボット２が平均速度ｖで直線距離ｄを移動した場合の移動時間（ｔ＝ｄ/ｖ）である。図６の例では、移動時間ｔに係数１．５を乗じた距離を基準移動時間とし、基準移動時間と移動時間Ｔの大小を比較することで報酬が決定される。なお、移動時間ｔに乗じる係数は１．５である必要はなく、１．０以上の他の数値としてもよい。

また、報酬の評価項目５１が「軌道生成の可否」の場合であって、軌道の生成が「否」の場合（軌道が生成されなかった場合）には、マイナスの報酬（－ｒ３；ｒ３は正値）が適用される。

なお、報酬ルール５０は図６の例に限定されない。例えば、移動後のロボット２の先端部Ｅの角度が所定の範囲内の場合にはプラスの報酬、角度が範囲外となる場合にはマイナスの報酬を算出するようなルールを設定してもよい。また、各関節軸の負荷（モーター電流値）の最大値が所定の範囲内の場合にはプラスの報酬、負荷の最大値が範囲外となる場合にはマイナスの報酬を算出するようなルールを設定することもできる。

学習部２０は、報酬に基づいて数理モデル５のハイパーパラメータｈを学習する機能部であり、主に、状態観測部２１、報酬算出部２２、更新部２３（価値関数更新部２３１、パラメータ更新部２３２）、行動実行部２４（位置設定部２４１、軌道生成部２４２、動作部２４３）から構成される。

状態観測部２１は、ロボット２が動作を開始してから終了するまでの間、ロボット２の状態を観測し、ロボット２の状態を示す状態データ６０（状態変数）を取得する。状態観測部２１は、ロボット２を動作させる度に、状態データ６０を取得する。

図７は、ロボット２の状態データ６０（状態変数）のデータ項目例を示す。
図７に示すように、状態データ６０には、例えば、動作後のロボット２の各関節の角度θ１、θ２、・・・θｎ、ロボット２の先端部Ｅの初期座標Ｐｓ、ロボット２の先端部Ｅの目標座標Ｐｇ、ロボット２の先端部Ｅの軌道Ｏｂｔ（軌道Ｏｂｔの座標系列）、ロボット２の先端部Ｅの移動距離Ｄ、ロボット２の移動時間Ｔが含まれる。状態データ６０のデータ項目は図の例に限定されず、他のデータが含まれてもよい。例えば、ロボット２周辺に位置する障害物Ｏｂｓの位置座標、ロボット２の先端部Ｅの移動速度、ロボット２の各関節の負荷（モーター電流値）等が含まれてもよい。
なお図７の例では、初期座標Ｐｓおよび目標座標Ｐｇにおける先端部Ｅの姿勢をオイラー座標系で表しているが、クォータニオン、回転行列、回転ベクトル等の他の座標系で表してもよい。

報酬算出部２２は、状態データ６０等から得られるロボット２の動作結果（移動距離や移動時間など）に対する報酬を報酬ルール５０（図６）に基づいて算出する。
例えば、報酬算出部２２は、ロボット２の先端部Ｅの移動距離ＤがＤ≦１．５ｄ（移動距離が短い場合）であればプラスの報酬（＋ｒ１）、Ｄ＞１．５ｄ（移動距離が長い場合）であれば報酬を０として算出する（図６参照）。
また、報酬算出部２２は、ロボット２の移動時間ＴがＴ≦１．５ｔ（移動時間が短い場合）であればプラスの報酬（＋ｒ２）、Ｔ＞１．５ｔ（移動時間が長い場合）であれば報酬を０として算出する（図６参照）。

なお報酬算出部２２は、移動距離と移動時間の報酬を合算してもよい。
例えば、Ｄ≦１．５ｄ（移動距離が短い場合）およびＴ≦１．５ｔ（移動時間が短い場合）であれば報酬を＋（ｒ１＋ｒ２）として算出する。
また、Ｄ≦１．５ｄ（移動距離が短い場合）およびＴ＞１．５ｔ（移動時間が長い場合）であれば報酬を＋ｒ１として算出する。
また、Ｄ＞１．５ｄ（移動距離が長い場合）およびＴ≦１．５ｔ（移動時間が短い場合）であれば報酬を＋ｒ２として算出する。
また、Ｄ＞１．５ｄ（移動距離が長い場合）およびＴ＞１．５ｔ（移動時間が長い場合）であれば報酬を０として算出する。
これにより、移動距離と移動時間の両方を考慮して報酬を算出することもできる。

また、報酬算出部２２は、軌道が生成されなかった場合、報酬ルール５０（図６）に基づいてマイナスの報酬（－ｒ３）を算出する（図６参照）。
なお、軌道が生成されなかった場合は、ロボット２の動作が実行されないため、マイナスの報酬（－ｒ３）が単独で発生する。すなわち、ｒ１やｒ２と合算されて報酬が算出されることはない。

更新部２３は、報酬算出部２２により算出された報酬に基づいて数理モデル５のハイパーパラメータｈを学習し更新する機能部である。本実施形態では、強化学習を用いてハイパーパラメータｈを更新するものとする。
強化学習は、ある環境内の観測対象（本実施形態では「ロボット２」）の状態（本実施形態では「状態データ６０（状態変数）」）を観測し、取るべき行動（本実施形態では「ハイパーパラメータｈの変化量」）を決定する問題を扱う機械学習の一種である。強化学習では、行動を選択することで報酬を得て、一連の行動を通じて報酬が最も多く得られるような方策を学習する。

具体的には、更新部２３は、状態観測部２１により観測されたロボット２の状態データ６０（状態変数）の一部または全部と、報酬算出部２２により算出された報酬に基づいて、行動（ハイパーパラメータｈの変化量）の価値を表す行動価値関数Ｑ（ｓ，ａ）を更新するとともに、適切な行動（ハイパーパラメータｈの変化量）を選択し、ハイパーパラメータｈを更新する。行動価値関数Ｑ（ｓ，ａ）とは、ある状態ｓにおいてある行動ａを選択した際に期待される価値（将来にわたっての報酬の合計）を表す関数のことである。

更新部２３は、更に、価値関数更新部２３１と、パラメータ更新部２３２から構成される。
価値関数更新部２３１は、ＤＱＮ（Deep Q-Network）法を用いて、深層強化学習により行動価値関数Ｑ（ｓ，ａ）を更新する。ＤＱＮ法では、行動価値関数Ｑ（ｓ，ａ）を深層ニューラルネットワーク（学習モデル７０）で表現する。
図８は、ＤＱＮ法の学習モデル７０の概念図である。図８に示すように、学習モデル７０は、ロボット２の状態ｓ（状態データ６０の一部または全部）を入力層に入力し、行動ａ１、ａ２、・・・、ａＫ（ハイパーパラメータｈの変化量の候補）と行動ａ１、ａ２、・・・、ａＫの価値を表す行動価値関数Ｑ（ｓ，ａ１）、Ｑ（ｓ，ａ２）、・・・、Ｑ（ｓ，ａＫ）が出力層のノードとなるようなニューラルネットワークで構築される。
なお、学習モデル７０の入力層に現在のハイパーパラメータｈを入力してもよい。

行動価値関数Ｑ（ｓ，ａ）（学習モデル７０）を更新するためのアルゴリズムとしては、例えば、ＴＤ（Temporal Difference）誤差法等の既知の深層強化学習の手法を用いることができる。行動価値関数Ｑ（ｓ，ａ）（学習モデル７０）が適切に収束した場合には、当該行動価値関数Ｑ（ｓ，ａ）を最大化する行動ａを最適な行動（ハイパーパラメータｈの変化量）と見做すことができる。

パラメータ更新部２３２は、更新された行動価値関数Ｑ（ｓ，ａ）（学習モデル７０の出力）を参照して、現在の状態ｓに対して、適切な行動ａ（ハイパーパラメータｈの変化量）を選択する。パラメータ更新部１３２が行動ａ（ハイパーパラメータｈの変化量）を選択するためのアルゴリズムとしては、例えば、ε－Ｇｒｅｅｄｙ法等の既知の深層強化学習の手法を用いることができる。
またパラメータ更新部２３２は、選択したハイパーパラメータｈの変化量に基づいて、数理モデル５のハイパーパラメータｈを更新する。

なお、本実施形態では、深層強化学習の手法として、ＤＱＮ法を用いているが、これに限られず、例えば、ＰＧ（Policy Gradient）法やＡＣ（Actor Critic）法等の公知の深層強化学習の手法を用いてもよい。
また、強化学習の手法は深層強化学習に限定されず、通常の強化学習を用いてもよい。例えば、ニューラルネットワークを用いないモンテカルロ法やＱラーニング法などを用いることができる。

行動実行部２４は、数理モデル５によってロボット２の軌道を生成し、生成した軌道に従ってロボット２を動作させる機能部であり、主に、位置設定部２４１、軌道生成部２４２、動作部２４３から構成される。

位置設定部２４１は、図９に示すように、可動範囲Ｗ内において、ロボット２の先端部Ｅの初期座標Ｐｓ（移動開始点における先端部Ｅの位置および姿勢）と目標座標Ｐｇ（移動終了点における先端部Ｅの位置および姿勢）を設定する。この際、位置設定部２４１は、ロボット２の先端部Ｅの目標座標Ｐｇをランダムな値に設定する。ランダムな値は公知の乱数生成アルゴリズムを利用して生成される。目標座標Ｐｇをランダムに設定することで、あらゆる目標座標（移動先）に対して適切な軌道が生成できるようにハイパーパラメータｈが学習されるため、数理モデル５の汎化性能が向上する。

また位置設定部２４１は、目標座標Ｐｇだけでなく、ロボット２の先端部Ｅの初期座標Ｐｓもランダムな値に設定してもよい。これにより、あらゆる初期座標および目標座標に対して適切な軌道が生成できるようにハイパーパラメータｈが学習されるため、数理モデル５の汎化性能が更に向上する。
なお、目標座標Ｐｇや初期座標Ｐｓをランダムに設定する場合、少なくとも位置座標（ｘ、ｙ、ｚ）をランダムに設定すればよい。加え、姿勢（ｒｏｌｌ、ｐｉｔｃｈ、ｙａｗ）をランダムに設定してもよい。なお姿勢はオイラー座標系（ｒｏｌｌ、ｐｉｔｃｈ、ｙａｗ）で設定される必要はなく、クォータニオン、回転行列、回転ベクトル等の他の座標系で設定されてもよい。

軌道生成部２４２は、更新部２３によって更新されたハイパーパラメータｈ（学習開始時は初期設定されたハイパーパラメータｈ）と、位置設定部２４１によって設定された初期座標Ｐｓおよび目標座標Ｐｇを数理モデル５に入力し、数理モデル５の内部アルゴリズムに従って、先端部Ｅが初期座標Ｐｓから目標座標Ｐｇまで移動するための最適なロボット２の軌道を生成する。

動作部２４３は、軌道生成部２４２によって生成された軌道に従って、仮想空間内または実空間内においてロボット２を動作させる。

学習部２０は、上記した状態観測部２１、報酬算出部２２、更新部２３、行動実行部２４の処理を繰り返し実行しながら、数理モデル５のハイパーパラメータｈを学習し更新していく。
そして学習部２０は、所定の収束条件を満たすと学習を終了する。所定の収束条件とは、例えば、報酬が最大となった場合やハイパーパラメータｈの変化量が０となった場合等である。

（４．制御装置４の構成）
図１０は、本実施形態の制御装置４の機能構成を示す図である。
制御装置４は、主に、位置設定部４１、軌道生成部４２、動作部４３から構成される。

位置設定部４１は、ロボット２の先端部Ｅの初期座標Ｐｓと目標座標Ｐｇをユーザ操作により設定する。

軌道生成部４２は、数理モデル５を用いて、先端部Ｅが位置設定部４１により設定された初期座標Ｐｓから目標座標Ｐｇまで移動するための最適なロボット２の軌道を生成する。この際、軌道生成部４２は、学習装置３によって学習されたハイパーパラメータｈを数理モデル５に設定したうえで、数理モデル５の内部アルゴリズムに従って軌道を生成する。

動作部４３は、ロボット２の各関節のアクチュエータ等に制御命令を送り、軌道生成部４２により生成された軌道に従って実空間のロボット２を動作させる。

（５．学習装置３、制御装置４のハードウェア構成）
図１１は、本実施形態の学習装置３、制御装置４を実現するコンピュータのハードウェア構成例である。

図１１に示すように、コンピュータは、制御部４０１、記憶部４０２、通信部４０３、入力部４０４、表示部４０５、周辺機器Ｉ／Ｆ部４０６等が、バス４０９を介して接続される。但し、これに限ることなく、用途、目的に応じて様々な構成を採ることが可能である。

制御部４０１は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等によって構成される。ＣＰＵは、記憶部４０２、ＲＯＭ、記録媒体等に格納されるプログラムをＲＡＭ上のワークメモリ領域に呼び出して実行し、バス４０９を介して接続された各装置を駆動制御し、学習装置３、制御装置４が行う後述する処理（図１２～図１４参照）を実現する。

ＲＯＭは、不揮発性メモリであり、コンピュータのブートプログラムやＢＩＯＳ等のプログラム、データ等を恒久的に保持している。ＲＡＭは、揮発性メモリであり、記憶部４０２、ＲＯＭ、記録媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部４０１が各種処理を行う為に使用するワークエリアを備える。

記憶部４０２は、ＨＤＤ（Hard Disk Drive）等であり、制御部４０１が実行するプログラム、プログラム実行に必要なデータ、ＯＳ（Operating System）等が格納される。プログラムに関しては、ＯＳに相当する制御プログラムや、後述する処理（図１２～図１４参照）をコンピュータに実行させるためのアプリケーションプログラムが格納されている。これらの各プログラムコードは、制御部４０１により必要に応じて読み出されてＲＡＭに移され、ＣＰＵに読み出されて各種処理を実行する。

本実施形態では、記憶部４０２には、ＲＯＳ（Robot Operation
System）、Ｇａｚｅｂｏなどのロボットシミュレータ、数理モデル５、数理モデル５に設定するハイパーパラメータｈ、報酬ルール５０、状態データ６０、強化学習用の学習モデル７０等が格納される。

通信部４０３は、通信制御装置、通信ポート等を有し、コンピュータとネットワーク間の通信を媒介する通信インタフェースであり、ネットワークを介して、他のコンピュータ間との通信制御を行う。ネットワークは、有線、無線を問わない。

入力部４０４は、データの入力を行い、例えば、キーボード、マウス等のポインティングデバイス、テンキー等の入力装置を有する。入力部４０４を介して、コンピュータに対して、操作指示、動作指示、データ入力等を行うことができる。表示部４０５は、液晶パネル等のディスプレイ装置、ディスプレイ装置と連携してコンピュータのビデオ機能を実現するための論理回路等（ビデオアダプタ等）を有する。なお、入力部４０４及び表示部４０５は、タッチパネルディスプレイのように、一体となっていてもよい。

周辺機器Ｉ／Ｆ（Interface）部４０６は、コンピュータに周辺機器を接続させるためのポートであり、周辺機器Ｉ／Ｆ部４０６を介してコンピュータは周辺機器とのデータの送受信を行う。周辺機器Ｉ／Ｆ部４０６は、ＵＳＢ（Universal Serial Bus）やＬＡＮやＩＥＥＥ１３９４やＲＳ－２３２Ｃ等によって構成されており、通常複数の周辺機器Ｉ／Ｆを有する。周辺機器との接続形態は有線、無線を問わない。制御装置４は、周辺機器Ｉ／Ｆ（Interface）部４０６を介して、ロボット２の各関節や先端部Ｅを稼働させるアクチュエータや、エンコーダ、加速度センサ、トルクセンサ等の各種センサと接続される。

バス４０９は、各装置間の制御信号、データ信号等の授受を媒介する経路である。

次に、図１２～図１４のフローチャートを参照しながら、本実施形態の処理について説明する。

（６．設定処理）
まず、図１２のフローチャートを参照して、学習装置３が行う設定処理の流れを説明する。

学習装置３の制御部４０１（シミュレータ設定部１１）は、ロボット２のシミュレーションをコンピュータ上で行うためのソフトウェアであるロボットシミュレータの各種設定を行う（ステップＳ１１）。ロボットシミュレータとしては、Ｇａｚｅｂｏ等が利用できる。例えば、制御部４０１（シミュレータ設定部１１）は、図４に示すように、実空間のロボット２（図２）の３次元モデルを仮想空間に作成し、ロボット２の各リンクＬ１、Ｌ２、・・・、Ｌｎの長さの設定、各関節Ｊ１、Ｊ２、・・・、Ｊｎの可動範囲の設定、先端部Ｅのサイズの設定、ロボット２の可動範囲Ｗの設定、ロボット２周辺に存在する障害物Ｏｂｓの設定等を行う。

また、学習装置３の制御部４０１（数理モデル設定部１２）は、ロボット２の軌道を生成する数理モデル５（軌道生成アルゴリズム）の設定を行う（ステップＳ１２）。具体的には、制御部４０１（数理モデル設定部１２）は、いずれの数理モデル５を使用するかの選択をユーザから受け付け、選択された数理モデル５のハイパーパラメータｈの初期値を設定する。初期値はユーザが設定してもよいし、アルゴリズム内部で規定されているデフォルト値（推奨値）を設定してもよい。

また、学習装置３の制御部４０１（報酬ルール設定部１３）は、ロボット２の動作結果に対する報酬を算出するための報酬ルール５０を設定する（ステップＳ１３）。例えば、制御部４０１（報酬ルール設定部１３）は、図６に示すように、ロボット２の移動距離Ｄや移動時間Ｔが短い場合にはプラスの報酬、移動距離Ｄや移動時間Ｔが長い場合には報酬を０とするルールや、ロボット２の軌道が生成されなかった場合にはマイナスの報酬とするようなルールを設定する。
なお上記したステップＳ１１～Ｓ１３の処理の順序は任意であり、どのような順序で実行されてもよい。

（７．学習処理）
次に、図１３のフローチャートを参照して、学習装置３が実行する学習処理の流れを説明する。
まず、学習装置３の制御部４０１（学習部２０）は、学習回数ＮｍａｘをＮｍａｘ＝Ｎ（例えばＮ＝５万回）、現在の学習ステップｎをｎ＝１に設定する（ステップＳ２０）。
次に、学習装置３の制御部４０１（位置設定部２４１）は、図１２のステップＳ１１において設定された可動範囲Ｗ内において、ロボット２の先端部Ｅの初期座標Ｐｓと目標座標Ｐｇをランダムに設定する（ステップＳ２１）。

次に、学習装置３の制御部４０１（軌道生成部２４２）は、数理モデル５を用いて、先端部Ｅが初期座標Ｐｓから目標座標Ｐｇまで移動するための最適なロボット２の軌道を生成する（ステップＳ２２）。この際、本ステップが１回目の場合（ｎ＝１の場合）には、図１２のステップＳ１２において初期設定されたハイパーパラメータｈを数理モデル５に設定し、本処理が２回目以降の場合（ｎ＞１の場合）には、後述するステップＳ２７において更新されたハイパーパラメータｈを数理モデル５に設定したうえで、軌道を生成する。

次に、学習装置３の制御部４０１（動作部２４３）は、生成された軌道に従って、仮想空間内または実空間内においてロボット２を動作させる（ステップＳ２３）。
ロボット２が動作を開始してから終了するまでの間、学習装置３の制御部４０１（状態観測部２１）は、ロボット２の状態を観測し、ロボット２の状態を示す状態データ６０（状態変数）を取得する（ステップＳ２４）。例えば、制御部４０１（状態観測部２１）は、図７に示すように、動作後のロボット２の各関節の角度θ１、θ２、・・・θｎ、ロボット２の先端部Ｅの初期座標Ｐｓ、ロボット２の先端部Ｅの目標座標Ｐｇ、ロボット２の先端部Ｅの軌道Ｏｂｔ（軌道Ｏｂｔの座標系列）、ロボット２の先端部Ｅの移動距離Ｄ、ロボット２の移動時間Ｔ等を状態データ６０として取得する。

次に、学習装置３の制御部４０１（報酬算出部２２）は、状態データ６０等から得られるロボット２の動作結果（移動距離や移動時間など）に対する報酬を報酬ルール５０（図６）に基づいて算出する（ステップＳ２５）。具体的には、制御部４０１（報酬算出部２２）は、報酬ルール５０（図６）に基づいて、ロボット２の移動距離ＤがＤ＜１．５ｄ（移動距離が短い場合）であればプラスの報酬（＋ｒ１）、Ｄ≧１．５ｄ（移動距離が長い場合）であれば報酬を０として算出する。また、制御部４０１（報酬算出部２２）は、報酬ルール５０（図６）に基づいて、ロボット２の移動時間ＴがＴ≦１．５ｔ（移動時間が短い場合）であればプラスの報酬（＋ｒ２）、Ｔ＞１．５ｔ（移動時間が長い場合）であれば報酬を０として算出する。移動距離と移動時間の両方を考慮するのは、ロボット２の動作範囲、特異点、外部環境等を考慮すると、どちらか一方が短ければ最適というわけではなく、そのバランスが重要となるためである。
また、制御部４０１（報酬算出部２２）は、ステップＳ２２において軌道がそもそも生成されなかった場合には、報酬ルール５０（図６）に基づいてマイナスの報酬（－ｒ３）を算出する。

次に、学習装置３の制御部４０１（更新部２３）は、算出された報酬に基づいて数理モデル５のハイパーパラメータｈを更新する。
まず、学習装置３の制御部４０１（価値関数更新部２３１）は、ＤＱＮ（Deep
Q-Network）法を用いて、深層強化学習により行動価値関数Ｑ（ｓ，ａ）を更新する（ステップＳ２６）。具体的には、制御部４０１（価値関数更新部２３１）は、図８に示すように、ロボット２の状態ｓ（状態データ６０の一部または全部）を入力層に入力し、行動ａ１、ａ２、・・・、ａＫ（ハイパーパラメータｈの変化量の候補）と行動ａ１、ａ２、・・・、ａＫの価値を表す行動価値関数Ｑ（ｓ，ａ１）、Ｑ（ｓ，ａ２）、・・・、Ｑ（ｓ，ａＫ）が出力層のノードとなるようなニューラルネットワーク（学習モデル７０）を更新する。

そして、学習装置３の制御部４０１（パラメータ更新部２３２）は、ステップＳ２６において更新された行動価値関数Ｑ（ｓ，ａ）（学習モデル７０の出力）を参照して、現在の状態ｓに対して、適切な行動ａ（ハイパーパラメータｈの変化量）を選択し、数理モデル５のハイパーパラメータｈを更新する（ステップＳ２７）。行動ａ（ハイパーパラメータｈの変化量）を選択するためのアルゴリズムとしては、例えば、ε－Ｇｒｅｅｄｙ法等の公知の深層強化学習の手法を用いることができる。

次に、学習装置３の制御部４０１（学習部２０）は、ハイパーパラメータｈの学習が収束したか否かを判断する（ステップＳ２８）。
例えば、制御部４０１（学習部２０）は、連続してａ回（例えば５回）、ｎ‐１回目の報酬とｎ回目の報酬の差がｂ以下（例えば１以下）となった場合、報酬がある値（最大値）に収束したと判断（学習が収束したと判断）する。
学習が収束した場合（ステップＳ２８；Ｙｅｓ）、学習装置３の制御部４０１（学習部２０）は、ハイパーパラメータｈを決定し（ステップＳ２９）、処理を終了する。例えば、制御部４０１（学習部２０）は、学習中に報酬が最大となったときのハイパーパラメータｈ（bestモデル）を、数理モデル５のハイパーパラメータｈとして決定する。ステップＳ２９で決定されたハイパーパラメータｈは、制御装置４の記憶部４０２に格納される。

一方、学習が収束していない場合であって（ステップＳ２８；Ｎｏ）、ｎ＜Ｎｍａｘの場合には（ステップＳ３０；Ｙｅｓ）、学習ステップを更新し（ｎ←ｎ＋１；ステップＳ３１）、ステップＳ２１に戻って学習処理を続ける。
また学習が収束していない場合であって（ステップＳ２８；Ｎｏ）、ｎ≧Ｎｍａｘの場合（設定した学習回数Ｎｍａｘ内で学習が収束したかった場合）には（ステップＳ３０；Ｎｏ）、制御部４０１（学習部２０）は、学習回数Ｎｍａｘの再設定をユーザから受け付けられるようにする。この際、制御部４０１（学習部２０）は、ユーザが学習回数Ｎｍａｘの再設定が必要か否かを容易に判断できるよう、学習ステップｎ毎（ｎ＝１、２、・・・、Ｎｍａｘ）に報酬の合計値をプロットしたグラフ等を表示部４０５に表示することが望ましい。

ユーザはグラフ等を確認し、学習回数Ｎｍａｘの再設定を行う場合には（ステップＳ３２；Ｙｅｓ）、入力部４０４を介して学習回数Ｎｍａｘとして新たな学習回数Ｎ’（例えば１０万回）を設定する（Ｎｍａｘ＝Ｎ’；ステップＳ３３）。そして学習ステップを更新し（ｎ←ｎ＋１；ステップＳ３１）、ステップＳ２１に戻って学習処理を続ける。

一方、学習回数Ｎｍａｘを再設定しない場合には（ステップＳ３２；Ｎｏ）、制御部４０１（学習部２０）は、数理モデル５のハイパーパラメータｈを決定し（ステップＳ３４）、学習処理を終了する。例えば、制御部４０１（学習部２０）は、学習中に報酬が最大となったときのハイパーパラメータｈ（bestモデル）や学習の最後（ｎ＝Ｎｍａｘ）のときのハイパーパラメータｈ（lastモデル）を、数理モデル５のハイパーパラメータｈとして決定する。ステップＳ３４で決定されたハイパーパラメータｈは、制御装置４の記憶部４０２に格納される。
なお、学習回数Ｎｍａｘの再設定は何度実施してもよい。

（８．制御処理）
最後に、図１４のフローチャートを参照して、制御装置４が実行するロボット２の制御処理の流れを説明する。
まず、制御装置４の制御部４０１（位置設定部４１）は、ロボット２の先端部Ｅの初期座標Ｐｓと目標座標Ｐｇをユーザ操作により設定する（ステップＳ４１）。

次に、制御装置４の制御部４０１（軌道生成部４２）は、数理モデル５を用いて、先端部Ｅが初期座標Ｐｓから目標座標Ｐｇまで移動するためのロボット２の最適な軌道を生成する（ステップＳ４２）。この際、図１３の学習処理により決定されたハイパーパラメータｈを数理モデル５に設定したうえで、軌道を生成する。

そして、制御装置４の制御部４０１（動作部４３）は、ロボット２の各関節のアクチュエータ等に制御命令を送り、生成された軌道に従って実空間のロボット２を動作させる（ステップＳ４３）。

以上、本実施形態について説明した。本実施形態によれば、学習装置３が、ロボット２の先端部Ｅの初期座標Ｐｓと目標座標Ｐｇをランダムに設定し、数理モデル５を用いて、先端部Ｅが初期座標Ｐｓから目標座標Ｐｇまで移動するためのロボット２の最適な軌道を生成し、生成された軌道に従って、仮想空間内または実空間内においてロボット２を動作させる。そして、学習装置３は、ロボット２の動作結果（移動距離や移動時間など）に対する報酬を算出し、算出した報酬に基づいて数理モデル５のハイパーパラメータｈを更新する。これにより、ロボット２の軌道を生成する数理モデル５のハイパーパラメータｈを最適化することができる。また学習時に、初期座標Ｐｓと目標座標Ｐｇをランダムに設定することにより、どのような移動に対しても適切な軌道が生成できるようにハイパーパラメータｈが学習されるので、数理モデル５の汎化性能を向上させることができる。また、ロボット２の移動時間や移動距離に対する報酬に基づいてハイパーパラメータｈが学習されるので、移動距離や移動時間が短い最適な軌道を数理モデル５によって生成可能となる。

以上、添付図面を参照しながら、本発明の好適な実施形態について説明したが、本発明はかかる例に限定されない。当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。

１：ロボットシステム
２：ロボット
３：学習装置
４：制御装置
５：数理モデル
１０：設定部
１１：シミュレータ設定部
１２：数理モデル設定部
１３：報酬ルール設定部
２０：学習部
２１：状態観測部
２２：報酬算出部
２３：更新部
２４：行動実行部
４１：位置設定部
４２：軌道生成部
４３：動作部
５０：報酬ルール
５１：評価項目
５２：条件
５３：報酬
６０：状態データ
７０：学習モデル
２３１：価値関数更新部
２３２：パラメータ更新部
２４１：位置設定部
２４２：軌道生成部
２４３：動作部
４０１：制御部
４０２：記憶部
４０３：通信部
４０４：入力部
４０５：表示部
４０６：周辺機器Ｉ／Ｆ部
４０９：バス
Ｄ：移動距離
Ｅ：先端部
J１～Jｎ：関節
Ｌ１～Ｌｎ：リンク
Ｏｂｓ：障害物
Ｏｂｔ：軌道
Ｐｇ：目標座標
Ｐｓ：初期座標
Ｑ：行動価値関数
Ｔ：移動時間
Ｗ：可動範囲
ａ：行動
ｄ：直線距離
ｈ：ハイパーパラメータ
ｓ：状態
ｔ：移動時間
ｖ：平均速度
θ ：関節の角度

Claims

アームおよび先端部を備えたロボットの軌道を生成する数理モデルであって、１以上のハイパーパラメータが定義された数理モデルを記憶する記憶部と、
前記ロボットの可動範囲内において前記ロボットの先端部の目標座標をランダムに設定する位置設定部と、
前記数理モデルを用いて、前記先端部が前記目標座標まで移動するための前記ロボットの軌道を生成する軌道生成部と、
仮想空間内または実空間内において前記軌道に従って前記ロボットを動作させる動作部と、
前記ロボットの動作結果に対する報酬を所定の基準により算出する報酬算出部と、
前記報酬に基づいて前記数理モデルの前記ハイパーパラメータを更新する更新部と、
を備えることを特徴とする学習装置。
前記報酬算出部は、前記ロボットの先端部の移動距離に基づいて報酬を算出することを特徴とする請求項１に記載の学習装置。
前記報酬算出部は、前記移動距離と、前記先端部の軌道の初期座標から目標座標までの直線距離に所定の係数を乗算した値とを比較し、報酬を算出することを特徴とする請求項２に記載の学習装置。
前記報酬算出部は、前記ロボットの移動時間に基づいて報酬を算出することを特徴とする請求項１に記載の学習装置。
前記報酬算出部は、前記移動時間と、前記ロボットの先端部が前記軌道の初期座標から目標座標までの直線距離を移動した場合の移動時間に所定の係数を乗算した値とを比較し、報酬を算出することを特徴とする請求項４に記載の学習装置。
前記報酬算出部は、前記ロボットの先端部の移動距離に基づいて算出した報酬、および前記ロボットの移動時間に基づいて算出した報酬を合算することを特徴とする請求項１に記載の学習装置。
前記ロボットの状態を示す状態変数を観測する状態観測部、を更に備え、
前記更新部は、
前記状態変数と前記報酬に基づいて、前記ハイパーパラメータの変化量の価値を表す価値関数を更新する価値関数更新部と、
前記価値関数の更新結果に基づいて前記ハイパーパラメータの変化量を決定し、前記ハイパーパラメータを更新するパラメータ更新部と、を備える
ことを特徴とする請求項１に記載の学習装置。
アームおよび先端部を備えたロボットの軌道を生成する数理モデルであって、１以上のハイパーパラメータが定義された数理モデルを記憶する記憶部と、
前記ロボットの可動範囲内においてロボットの先端部の初期座標および目標座標を設定する位置設定部と、
前記ハイパーパラメータを、請求項１に記載の学習装置により更新されたハイパーパラメータとしたうえで、前記数理モデルを用いて、前記先端部が前記初期座標から前記目標座標まで移動するための前記ロボットの軌道を生成する軌道生成部と、
前記軌道に従って前記ロボットを動作させる動作部と、を備えることを特徴とする制御装置。
ロボットと、請求項８に記載の制御装置と、を備えるロボットシステム。
アームおよび先端部を備えたロボットの軌道を生成する数理モデルであって、１以上のハイパーパラメータが定義された数理モデルを記憶するコンピュータが、
前記ロボットの可動範囲内において前記ロボットの先端部の目標座標をランダムに設定する位置設定ステップと、
前記数理モデルを用いて、前記先端部が前記目標座標まで移動するための前記ロボットの軌道を生成する軌道生成ステップと、
仮想空間内または実空間内において前記軌道に従って前記ロボットを動作させる動作ステップと、
前記ロボットの動作結果に対する報酬を所定の基準により算出する報酬算出ステップと、
前記報酬に基づいて前記数理モデルの前記ハイパーパラメータを更新する更新ステップと、
を実行することを特徴とする学習方法。
アームおよび先端部を備えたロボットの軌道を生成する数理モデルであって、１以上のハイパーパラメータが定義された数理モデルを記憶するコンピュータを、
前記ロボットの可動範囲内において前記ロボットの先端部の目標座標をランダムに設定する位置設定部、
前記数理モデルを用いて、前記先端部が前記目標座標まで移動するための前記ロボットの軌道を生成する軌道生成部、
仮想空間内または実空間内において前記軌道に従って前記ロボットを動作させる動作部、
前記ロボットの動作結果に対する報酬を所定の基準により算出する報酬算出部、
前記報酬に基づいて前記数理モデルの前記ハイパーパラメータを更新する更新部、
として機能させることを特徴とするプログラム。