JP6744208B2 - 制御装置及び制御方法 - Google Patents

制御装置及び制御方法 Download PDF

Info

Publication number
JP6744208B2
JP6744208B2 JP2016252822A JP2016252822A JP6744208B2 JP 6744208 B2 JP6744208 B2 JP 6744208B2 JP 2016252822 A JP2016252822 A JP 2016252822A JP 2016252822 A JP2016252822 A JP 2016252822A JP 6744208 B2 JP6744208 B2 JP 6744208B2
Authority
JP
Japan
Prior art keywords
control
action
value
unit
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016252822A
Other languages
English (en)
Other versions
JP2018106466A (ja
Inventor
大樹 藤
大樹 藤
潔人 伊藤
潔人 伊藤
佳奈子 江崎
佳奈子 江崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2016252822A priority Critical patent/JP6744208B2/ja
Priority to US15/854,395 priority patent/US20180181089A1/en
Publication of JP2018106466A publication Critical patent/JP2018106466A/ja
Application granted granted Critical
Publication of JP6744208B2 publication Critical patent/JP6744208B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Description

本発明は、所定の環境で与えられたタスクを達成するための機械において、センサからの入力値を基にアクチュエータの出力値を決定する制御装置及び制御方法に関する。
近年、機械装置の構造が複雑化し、作業範囲も拡大しているため、入出力数が増大し、現場での試行錯誤による機械制御の調整が行われている。ここで言う機械とは、センサ、アクチュエータ、及び制御装置を要素に持つものと定義し、機械制御とは、センサからの入力値を制御装置で処理し、アクチュエータの出力を決定することで、与えられたタスクを実行することと定義する。機械制御の実現には、制御装置の動作を決める制御モデル(入力に応じて出力を決定する関数)のパラメータを決定する必要がある。
従来のパラメータ調整自動化手法として、強化学習を用いた手法が提案されている(非特許文献1)。強化学習では、試行錯誤を通じて環境(制御対象)に適応するための制御モデルを学習で獲得する。いわゆる教師付き学習とは異なり、環境の状態入力に対する正しい出力(行動)が明示的に得られないかわりに、報酬というスカラー値を手がかりに学習する。
機械制御の強化学習において、学習の主体となるのは、制御装置であり、制御部と学習部を備える。制御部は、センサから得られた環境(制御対象)の状態観測に応じて、アクチュエータの制御値を決定する。また、環境内でアクチュエータが動作することによって、環境に変化が生じ、与えられたタスクの達成度に応じた報酬を学習部が受け取る。学習部は、一定の割引率をかけた報酬合計の期待値を評価して、利得を最大化するような(行動価値の高い)行動を取るように制御モデルのパラメータを更新していき、与えられたタスクを達成するための制御モデルを獲得していく。
機械装置に不確実性や計測困難な未知のパラメータが存在すると、タスクの達成方法やゴールへの到達方法は設計者にとって自明ではなく、制御装置へタスクを遂行するための制御規則をプログラムすることは設計者にとって重労働である。ところが、強化学習を用いた場合には、設計者が「何をすべきか」を制御装置に報酬という形で指示することにより、「どのように実現するか」を制御装置自身が学習によって自動的に獲得してくれるというメリットがある。
しかし、この試行錯誤的な学習に要する時間が多大であるため、効率的な学習を行うことを目的とした並列学習手法が発明されている(特許文献1)。この発明では、複数の学習手段(アルゴリズム)を並列に動作させ、選択された方策の結果を他の学習手段で共有し学習するため、一つの学習手段で一から学習する場合と比べ、学習を効率化している。
特開2005−078516号公報
H. Kimura, K. Miyazaki, and S. Kobayashi, "Reinforcement learning in POMDPs with function approximation." In Proc. of ICML '97, pp. 152-160, 1997.
従来手法は、一から学習することを想定した仕組みとなっており、特許文献1に開示される発明は、学習手段を一つ使うことに対して効率化が行われたに過ぎず、新たな機械の導入毎に過去と同様の調整コストがかかる問題が残されている。さらなる効率化を目指すためには、既存の制御モデルを再利用することで新たな制御モデルを効率的に学習する方法が挙げられる。
本発明の目的は、学習対象の制御部の制御モデルのみ学習部と接続した並列制御学習装置により、既存の制御モデルを更新することなく、既存の制御モデルを基に新たな制御モデルを効率的に学習し、対象を制御する制御装置及び制御方法を提供することである。
上記課題を解決するために本発明の制御装置を、制御対象の状態値をセンサ値より取得する状態取得部と、第一の制御モデルを含み、前記状態値、及び前記第一の制御モデルに基づき、前記制御対象の行動、及び行動価値を出力する第一の制御部と、前記第一の制御部と並列に接続され、第二の制御モデルを含み、前記状態値、及び前記第二の制御モデルに基づき、前記制御対象の行動、及び行動価値を出力する第二の制御部と、前記第一の制御部及び前記第二の制御部より出力された行動価値を選択する行動価値選択部と、前記行動価値選択部が選択した行動価値、及び行動を入力し、前記状態値と共に記憶して、記憶されたデータに基づき前記第一の制御部に含まれる前記第一の制御モデルのパラメータを更新する学習部とを備えるように構成する。
また、本発明の他の特徴として、前記制御装置において、その内部に含む制御モデルがそれぞれ異なる前記第一の制御部が複数個、並列に備えられている。
また、本発明の更に他の特徴として、前記制御装置において、複数の前記第一の制御部と接続し、前記第一の制御部に含まれる制御モデルのパラメータを更新することを選択する更新モデル選択部を更に備える。
また、上記課題を解決するために本発明の制御方法を、制御対象の状態値をセンサ値より取得する工程と、第一の制御部が、前記状態値、及び内部に含む第一の制御モデルに基づき、前記制御対象の行動、及び行動価値を出力する工程と、第二の制御部が、前記第一の制御部と並列に動作して、前記状態値、及び内部に含む第二の制御モデルに基づき、前記制御対象の行動、及び行動価値を出力する工程と、行動価値選択部が、前記第一の制御部及び前記第二の制御部より出力された行動価値を選択して、選択した行動価値、及び行動を学習部へ出力すると共に、選択した行動を前記制御対象のアクチュエータへ出力して、前記制御対象の動作を制御する工程と、学習部が、前記行動価値選択部が選択した行動価値、及び行動を入力し、前記状態値と共に記憶して、記憶されたデータに基づき前記第一の制御部に含まれる前記第一の制御モデルのパラメータを更新する工程とを有して構成する。
本発明によれば、既存の制御モデルをもとにした効率的な探索による学習の高速化を行うことができる。また、既存の制御モデルと学習先の入出力が異なる場合の制御対象の学習を行うことができる。
本発明の実施例1の制御装置の構成を示すブロック図である。 実施例1の制御装置の基本動作を説明するためのフローチャートである。 実施例2で用いた最短経路探索問題の迷路である。 実施例2の台車走行ロボットの最適経路探索における効率的な学習方法を説明する図である。 実施例2の制御装置の構成を示すブロック図である。 実施例2における本発明の制御方法の性能を表す探索回数の比較グラフである。 実施例3で用いたロボットと既存の制御モデルの合成学習を示す図である。 実施例3で用いた各制御モデルに入力する状態値に用いるデータを説明する図である。 実施例3の制御装置の構成を示すブロック図である。 実施例4で用いたロボットと既存の制御モデルの分解学習を示す図である。 実施例4の制御装置の構成を示すブロック図である。 実施例5で用いた複数の制御モデルの効率的学習方法の構成を示すブロック図である。
以下、本発明の実施形態を、図面を用いて詳細に説明する。
図1は、本発明の第一の実施形態の制御装置の構成を示すブロック図である。
本実施例に係る制御装置4は、図1に示すような機械1(機械装置の本体は図示を省略する)などにおいて、機械内部に搭載された少なくとも1つ以上のセンサ2などからの入力値を処理して、制御部11〜1n、21〜2n、及び学習部71に出力する状態値を決定する状態取得部51と、パラメータを更新する制御モデル31〜3nを含む一つ以上の制御部11〜1nと、パラメータを更新する制御部11〜1nとは別に並列に動作するパラメータを更新しない制御モデル41〜4nを含む一つ以上の制御部21〜2nと、各制御部11〜1n、21〜2nが出力する行動価値に基づいて行動を選択する行動価値選択部61と、制御部11〜1nの制御モデル31〜3nのパラメータを更新する学習部71と、学習部71とデータの送受信を行うデータ記憶部81と、行動価値選択部61と接続して行動価値選択部61が選択した行動価値、行動、及び選択された各制御部11〜1n、21〜2nの選択回数を監視して記録する選択監視部91とを備える。
本実施例に係る制御装置4は、図1に示すような、学習により制御モデル31〜3nを同定する制御部11〜1nと、一つ以上の既存の制御モデル41〜4nを持つ制御部21〜2nとを並列に動作させて各制御部11〜1n及び21〜2nの行動価値及び行動を行動価値選択部61に出力し、行動価値選択部61によって選択された制御出力値(行動)を機械内部に搭載された少なくとも一つ以上のアクチュエータ3などに出力し、センサ2から出力された観測データ及び選択された行動価値を基に学習先制御部11〜1nの制御モデル31〜3nのパラメータを更新してゆく。
状態取得部51は、1つ以上のセンサ値から、それぞれの制御モデルに入力する形式に合わせた状態値を出力する。
行動価値選択部61は、選択した行動をアクチュエータ3に、また選択した行動及び行動価値を学習部71に出力する。
行動価値選択部61による複数の制御部11〜1n、21〜2nから出力された行動価値の選択手段として、例えば、Max関数を用いて行動価値の最大となる行動を選択しても良いし、ε−greedy選択、あるいはボルツマン選択などの確率的な選択手段をとっても良い。
学習部71は、状態取得部51から出力された状態値、行動価値選択部61から出力された行動価値及び行動をデータ記憶部81に一旦保管した後、学習に用いるデータをデータ記憶部81から読み込む。
学習部71は、制御モデルのパラメータを更新する制御部11〜1nとのみ接続し、読込データを基に、各制御モデル31〜3nのパラメータを更新する。読込データに、データ記憶部81に保管した過去数回分のデータを利用しても良い。
学習における状態値として、例えば、状態数を離散的に設計するQ学習のQテーブルのような表データを利用してもよいし、連続値を扱うことが可能なニューラルネットワークを利用してもよい。
並列に動作する制御部11〜1n、21〜2nと学習部71とを構造的に切り離すことで、更新する制御モデル31〜3nを持つ制御部11〜1nのみパラメータを更新することができる。
制御装置4は、例えば汎用の計算機上に構成することができて、そのハードウェア構成(図示せず)は、CPU(Central Processing Unit)、RAM(Random Access Memory)などにより構成される演算部、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリなどを用いたSSD(Solid State Drive)などにより構成される記憶部、パラレルインタフェース形式、またはシリアルインタフェース形式の接続装置、などを備える。
状態取得部51、制御部11〜1n、21〜2n、行動価値選択部61、学習部71、及び選択監視部91は、記憶部に記憶されている制御プログラムをRAMへロードしてCPUで実行することによりマルチタスクとして実現する。または、マルチCPU構成によって、または、それぞれ専用の回路により構成してもよい。
次に、図2を用いて基本動作フローについて説明する。まず、学習先(パラメータを更新する)の制御モデル31〜3nの初期出力をゼロに設定して開始することが望ましい。
ステップS1において、センサ2からの観測データを状態取得部51で処理した状態値を各制御部11〜1n、21〜2n、及び学習部71に出力する。
ステップS2において、各制御部11〜1n、21〜2n内の制御モデル31〜3n、41〜4nは、状態値を基に行動価値、行動を算出して、行動価値選択部61に出力する。
ステップS3において、行動価値選択部61は、各制御モデルから出力された行動価値に基づき、行動(アクチュエータに出力する制御値)を選択し、選択された行動及び行動価値を学習部71に出力し、制御値(選択された行動)をアクチュエータ3に出力する。
ステップS4において、アクチュエータ3は、制御値(動作命令)に従って動作を実行する。
ステップS5において、学習部71は、行動価値選択部61から出力された行動価値、行動、及び状態取得部51から出力された状態値をデータ記憶部81に保管する。
ステップS6において、学習部71は、データ記憶部81から必要とする保管データを読み込む。
ステップS7において、学習部71は、読込データを基に接続している各制御部内11〜1nの制御モデル31〜3nのパラメータを更新する。
ステップS8において、一定の収束条件(例えば、制御モデル31〜3nのパラメータの更新の程度が所定の許容誤差内に収まっている。)を満たせば、目的のタスクを達成するための制御モデルの学習が終了したと判定して、学習を終了する。収束条件を満たさなければS1へ移行して、学習を繰り返す。
選択監視部91は、行動価値選択部61が選択した行動価値、行動、及び選択された各制御部11〜1n、21〜2nの回数を、例えば制御装置4の外部に接続したディスプレイ等の可視化ツールに表示したり、ログをとってテキスト等に書き出したりすることで、学習の状況を監視する。この監視結果を基に、例えば、学習先の制御モデル31〜3n及び既存の制御モデル41〜4nの学習部71との接続関係を変更するための情報として利用することができる。
本実施例では、実施例1の具体的事例として、図3に示すような複雑な迷路200を用いて、図4に示す台車走行ロボット300の最適経路探索における効率的な学習例を示す。ここで、ロボットには、センサ2の役割を果たす自己位置測定器301が搭載され、アクチュエータ3の役割を果たすモータ駆動型車輪302、台車走行ロボット用制御装置303が備わっているものと定義する。従って、本実施例では、自己位置測定器301からロボットの座標値(状態値)が入力され、その座標値を基に台車走行ロボット用制御装置303がモータ駆動型車輪に縦横斜めの8方向に1マス分移動する制御値を出力する制御モデルを獲得する学習を説明する。
本実施例の制御モデル更新方法により、初期値をゼロに設定した状態から8方向移動の制御モデル330を学習する場合と比べ、4方向移動で学習させた既存の制御モデル310を基にして、斜め4方向移動の制御モデル320を追加で学習する方が、学習時間を短縮して最短経路を獲得できることを示す。
図3の迷路200の各マスは、白のマスが通路、黒のマスが壁であり、白のマス上のみ進むことができる。本実施例では、図3の1−Cのマスをスタート地点201とし、1−Pのマスをゴール地点202とした。
本実施例では制御モデルを獲得する学習方法として、強化学習におけるQ学習を用いた例を示す。Q学習は、センサ2からの観測データを状態取得部51で処理した或る状態値sの下で、行動aを選択する価値(行動価値)Q(s,a)を学習する方法である。或る状態値sのとき、Q(s,a)の最も高いaを最適な行動として選択する。しかし、最初は其々のsとaの組合せについて、正しいQ(s,a)の値は全く分かっていない。そこで、試行錯誤により、或るsの下で様々な行動aを取り、その時の報酬を使って、正しいQ(s,a)を学習していく。
本実施例のQテーブルは各迷路のマス分保持しており、縦横の1〜10及びA〜Pの記号で示した座標値を状態値sとする。また、マスごとに得点が割り当てられており(設計者が予め定義しておく)、これを報酬値rとして探索を行う。行動aとして、縦横斜めの1マスずつの8方向移動330を扱う。Q学習では下記の更新式を用いて状態遷移の計算が行われる。
Figure 0006744208
ここで、αは学習率と呼ばれる、学習度合を調整するパラメータであり、γは割引率と呼ばれる、時間の経過を考慮した報酬計算のための重み係数である(時間を掛けて行動すると同じ行動でも得られる報酬が速く行動するより減るようにしている)。本実施例の場合、ゴール地点202に到達した場合に報酬値100を得るような条件とする。また、st+1はsにおいて行動aを選択したときの次の時刻で受け取った状態値を表す。a’は状態値st+1において、st+1の行動価値を最大化する行動を示す。数1の更新式は、状態値sにおける行動aの行動価値Q(s,a)よりも、行動aによる次の状態値st+1における最良の行動価値Q(st+1,a’)の方が大きければ、Q(s,a)を大きくする学習をするし、逆に小さければ、Q(s,a)も小さくする学習をすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける学習を行う。或る状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく学習方法である。
本実施例において、既存の制御モデルとは、具体的には、縦横4方向に移動可能な最短経路探索問題において、最短経路で連続的に10回ゴールへ到達したときを収束条件としたQテーブル(Q)とする。また、合成先(パラメータを更新する制御モデル)の制御モデルとは、具体的には、さらに斜め4方向を加えた8方向に移動可能な条件において最短経路で連続的に10回ゴールへ到達したときを収束条件としたQテーブルQとする。この既存の制御モデルQを合成先の制御モデルQへ以下の方法で合成(学習)していく。例えば、以下の様な更新式を立てることで、QをQに合成できる。
Figure 0006744208
ここで、Q’z(st+1,a’)は、(3)式にて表わされる。
Figure 0006744208
一般のQ学習では、或る状態において最も行動価値の高い行動を選択することで、Q学習の更新が行われるが、(2)、(3)式では合成先制御モデルQと既存制御モデルQとの最大行動価値を比較することで行動が選択される。各制御モデルは、少なくとも一つ以上必要である。
さらに、学習が十分に進んだ状態でも既存のモデルが選択されてしまう確率を低減するために、例えば(4)式のような、忘却係数fを定義して、学習の進捗に応じて行動価値に掛ける係数fを設けても良い。
Figure 0006744208
この係数fは、試行毎に一定値を忘却係数から引いていき、既存制御モデルの選択確率を徐々に0に近づけていく方法をとっても良い。
本実施例の制御装置の構成図は図5のようになる。制御モデル31aのパラメータを更新する一つの制御部11aと一つの既存の制御モデル41aを持つ制御部21aとを並列に動作させる。
以上の合成学習によって学習が効率化されたことを検証するため、収束条件に到達するまでの試行回数で比較する実験を行った。まず、本発明を適用しない場合の一から8方向移動の制御モデル330を学習させたときの収束までの学習回数の計測を10回ゴールへ到達するまで試行する。次に予め4方向移動の制御モデル310の学習を行わせておき、4方向の制御モデル310を基に8方向の制御モデル330を獲得するまでの学習回数の計測を10回ゴールへ到達するまで試行する。これらの計測を比較した結果400を図6に示す。
図6に示した結果400から明らかなように、平均して約10倍程度の高速化につながることが確認できる。また、本検証における10回試行分の結果でt検定を行うと、P値:3.35E−07となり、優位な差を確認できる。以上の結果から、本発明の効果が示された。
なお本実施例では、一般的なQ学習を用いたが、状態空間が広く、Qテーブルのような方法で状態を表現しようとすると、膨大なテーブルが必要となる場合には、例えば、ニューラルネットワークのような連続値を扱える機械学習手法でQ学習を近似表現した方法を用いて学習しても良い。
次に、本発明の第3の実施例を説明する。図9に示す第3の実施例の制御装置4は、センサ2からの入力が異なる既存の制御モデル41a、42aを含む制御部21a、22aを2つ有する。また、上記の異なる入力双方を入力情報とする合成先の制御モデル31aを持つ制御部11aを1つ有する。
本実施例では、図7に示す倒立振子ロボット600の倒立移動制御モデル41a及びライントレーサロボット500の操舵制御モデル42aを既存の制御モデルとして、倒立しながらラインをトレースする倒立振子ライントレーサロボット700の制御モデル31aを獲得する例を示す。ここでは、強化学習を用いた合成先の制御モデル31aの獲得方法に加え、既存の制御モデルとなる倒立移動制御モデル41a及び操舵制御モデル42aの獲得方法についても述べる。
倒立振子ロボット600は、図7に示すような2つの車輪上に直方体型のブロックをボディと見立てて組み立てた剛体形状をしている。倒立振子ロボット600の制御では、倒立しながら移動するという目的タスクを達成するため、入力情報として、例えばロボットに内蔵したIMUセンサ900a(運動を司る3軸の角度(または角速度)と加速度を検出する装置)のPitch角とその角速度(図8(a)、(b)参照)を基に、ロボットの足元の車輪に接続したモータ601、602の出力値を決定する。
倒立移動制御モデルを獲得するために、例えば、揺れの少ない安定的な倒立移動ができている場合に良い報酬が与えられるような報酬設計を行うと良い。具体的には、角速度の変動値が一定閾値内にある場合に報酬1を与える方法をとると良い。また、ある一定角度になると、罰として−1を与えるような報酬設計としても良いが、これらの方法に限らない。
一方、ライントレーサロボット500は、図7に示すような3輪を備える構造をしている。ライントレーサロボット500の制御では、ライン1000に沿って走行するという目的のタスクを達成するため、入力情報として、例えば台車の前方に取り付けたビジョンセンサ(カメラ)800aの図8(c)のようなカメラ画像801を基に、目的の操舵角となるように車輪に接続したモータ501、502の出力値を決定する。
操舵制御モデルを獲得するために、例えば、カメラ800aから得られた画像801を基に報酬値を計算する場合、画面内に映るライン1000aが画像の中心にあるほど、1に近い高い報酬値を与え、画像801からライン1000aが消えるほど逸れて走行した場合には、−1を与えるような報酬設計とすることにより報酬値に段階的な差を設けると良いが、これらの方法に限らない。
合成先の倒立振子ライントレーサロボット700の制御では、倒立しながらライン1000に沿って移動する目的のタスクを達成するため、入力情報として、内蔵したIMUセンサ900bのPitch角とその角速度、及びカメラ800bの画像801を基にモータ701、702の出力値を決定する。
上記の学習では、倒立移動制御モデル41aの入力情報にIMUセンサ900bの値を、操舵制御モデル42aではカメラ800bの画像801を入力情報に、さらには、合成先の制御モデルではIMUセンサ900bの値及びカメラ800bの画像801の両方を入力情報としているが、このように既存の制御モデルと合成先の制御モデルの入力情報が必ずしも一致しない場合でも合成することができる。
カメラ画像801のような高次元の対象を扱う場合、実施例2と同様に、全ての状態と行動を網羅したQテーブルQ(s,a)を用意することは困難であり、現実的な実装でもメモリ量が足らず、不可能と言える。そこで、価値関数であるQテーブルを関数近似する方法をとると良い。ここでは、(5)式のように、Q(s,a)は、何らかのパラメータθを用いて表され、近似した関数Q(s,a;θ)で表すものとする。
Figure 0006744208
従来からある方法としては、勾配法によるアルゴリズムを用いることが多く、以下の様な損失関数を定義して、その微分値をパラメータの更新に用いる。ここでは、よく用いる方法として(6)式のように2乗和を損失関数として定義しているが、例えば、絶対値差分やガウス関数などを用いてもよく、これらの方法に限らない。
Figure 0006744208
ここで、target は機械学習における教師信号と呼ばれるものであり、問題に対する正解の値である。この損失関数の微分値を、近似したQ関数のパラメータθの更新に用いる((7)式)。
Figure 0006744208
本実施例のような強化学習の枠組みでは、真の行動価値Q*(s,a)はわからないため、target の値を明示的に与えることはできない。そこで、実施例2のQテーブルを用いたQ学習と同様に、(8)式のようにtarget を定義することで、教師信号として使用する。
Figure 0006744208
ここで、r及びγは実施例2で定義した物と同様である。a’は状態値st+1において、Q値が最大となる行動を示している。ここで、maxQは教師信号として扱うため微分しないようにすることに注意する。よって、損失関数の微分は、(9)式で表される。
Figure 0006744208
上記の関数近似における表現能力の高い機械学習手法として、例えば、ニューラルネットワーク等を用いて関数近似する方法がある。ニューラルネットワークにおいて、θはユニット間の結合における重みやバイアスなどのパラメータを示す。
ニューラルネットワークは、複数の入力xに対する出力yを出力するニューロンを複数用いて構成される。各入力x及び重みwはベクトルであり、入力xを一つのニューロンに入力すると出力値は以下のような式で表される。
Figure 0006744208
ここで、bはバイアス、fは活性化関数である。これらのニューロンが複数合わさり層を形成する。
学習では、この重みwの更新やニューロン間の接続を決定していく。このニューラルネットワークを制御部11a、21a、22aごとに有し、合成先のニューラルネットワークのパラメータのみ更新していく。
倒立振子ロボット600の制御モデル41aは、例えば、IMUセンサ900bのPitch角及びその角速度情報を入力とする4層のニューラルネットワークを形成し、ライントレーサロボット500は、例えば、640×480のカメラ画像801を入力とする5層のニューラルネットワークを形成するような構造を持たせると良い。この場合、倒立振子ライントレーサロボット700のニューラルネットワークへの入力は、ライントレーサロボット500のニューラルネットワークと同サイズのカメラ800bの画像801及びIMUセンサ900bのPitch角及びその角速度とする。
多次元データであるカメラ画像と2次元のIMUセンサデータの情報を初めから一つの入力情報として結合し学習を行うと、両者のデータ次元数に開きがある。このため、カメラ画像データに対して、IMUセンサ900bのデータの影響が小さく、倒立移動制御モデルの学習がうまく行われない。よって、ニューラルネットワークの構造として、例えば次のような構造を持たせることで学習を行うことができる。
IMUセンサデータを入力とする倒立移動制御モデル41aのニューラルネットワーク及びカメラ画像入力とする操舵制御モデル42aのニューラルネットワークにおいて、出力層の一つあるいは二つ手前の層までの構造は、既存制御モデルのニューラルネットワークと同様のネットワーク構造を持たせ、その次の層でそれらを二つのベクトルを一つのベクトルとして結合することで、次元数が大きく異なる入力においても次元数の小さいほうの入力情報の影響が無くなることなく扱うことが可能となる。
倒立振子ロボット600の倒立移動制御モデル41a、ライントレーサロボット500の操舵制御モデル42a、倒立振子ライントレーサロボット700の制御モデル31aの3つの出力層の情報である行動価値を基に、取るべき行動を行動価値選択部61が決定する。行動価値選択部61の行動価値選択方法は、実施例2と同様に、Max関数を用いて行動価値の最大となる行動を選択しても良いし、ε−greedy選択、あるいはボルツマン選択などの確率的な選択手段を取っても良いが、これらの選択方法に限らない。
図9は、ライントレーサロボット500及び倒立振子ロボット600の制御モデルから倒立振子ライントレーサロボット700の制御モデルへと合成する例を示している。倒立振子ロボット600に対し、倒立振子ライントレーサロボット700はライン1000に沿って移動しながら動作するタスクとなり、学習の探索範囲も大きくなる。このため、倒立振子ライントレーサロボット700の場合、倒立振子ロボット600の場合よりも制御モデル31aを同定することが難しくなり、探索にかかる時間が増大する、あるいは、最適な解にたどり着けず探索が終了しないという問題が生じる。
上記の問題を解決するため、倒立振子ロボット600で獲得した倒立移動制御モデル41a及びライントレーサロボット500で獲得した操舵制御モデル42aを保管しておき、合成先の倒立振子ライントレーサロボット700の制御モデル31aとその二つの既存の制御モデルを並列に接続し、合成先の制御モデルパラメータのみ更新する学習を行うことで合成先の制御モデル31aに合成する。ここで、それぞれの制御部が出力する行動価値をQ値とおくと、それぞれのQ値のパラメータを更新することが学習となる。
学習の初期段階(0≦t<t1)では、まず倒立移動制御モデルを獲得し、目的の速度で立つことが必要であるため、倒立振子ロボット600の倒立移動制御モデル41aが行動価値の高い動作として選択される。また安定した倒立に応じた報酬値を受け取ることができる。その結果が、合成先の制御モデル31aにフィードバックされて学習が行われることにより、倒立移動制御モデルが獲得される。
次に、後半段階(t1≦t<t2)では、ライン1000上に沿って倒立した際に、ライントレーサの操舵制御モデルの行動価値が上がる。ここでは、ライン1000がカメラ画像801の中央にあるほど高い報酬値を受け取ることができる。そのフィードバックを基に合成先の制御モデル31aのパラメータを更新する。
最終的に、ライン1000に沿った移動を行うほど最も高い行動価値及び報酬が受け取れるようになるため、合成先のQ値が最も高い行動価値を算出するようになり、学習の安定したところで合成が完了する。
学習の進捗状況やどの行動価値が選択されているかどうかの確認は、実施例1、2と同様に、選択監視部91で行うことができる。例えば、倒立振子ライントレーサロボット700は、倒立しなければ、ラインに沿って移動することはできない。このため、選択監視部91の活用方法として、倒立ができていない段階で操舵制御モデル42aの出力値ばかり選択されるような場合は、一時的に倒立移動制御モデル41aの出力値が優先して選択されるような設定を行うこともできる。
次に、本発明の第4の実施例を説明する。第4の実施例では、パラメータを更新する制御モデルを含む制御部が2つ接続されている例を示す。
本実施例では、第2、第3の実施例で説明した合成とは逆の分解の例について説明する。具体的には、倒立振子ライントレーサロボット700の制御モデル41aから、ライントレーサロボット500の操舵制御モデル31a及び倒立振子ロボット600の倒立移動制御モデル32aに分解する例について説明する。
制御モデルの獲得方法は、実施例3の合成学習と同様であるが、分解元の制御モデル41aが1つであるのに対し、パラメータを更新する分解先の制御モデル31a、32aが2つ以上となるところが異なる。ロボットは、実施例3の合成学習と同様に図10のような倒立振子ロボット600、ライントレーサロボット500、及び倒立振子ライントレーサロボット700を用意する。
パラメータが更新される制御モデルが複数ある場合は、図11に示すような更新モデル選択部62を設け、学習部71との接続を逐次切り替えることが可能な機能を持たせることにより、他の制御モデルのパラメータが更新中であっても、学習が完了した制御モデルのパラメータ更新を停止させることが可能となる。なお、構成図より明らかだが、更新モデル選択部62において、学習部71とパラメータを更新する制御モデル31a、32aとが全て接続している場合は、これまでの構成図と何ら変わらない。
倒立振子ライントレーサロボット700の行動に応じて更新モデル選択部62との接続を逐次切り替えることにより、ライントレーサロボット500用の操舵制御モデル31a及び倒立振子ロボット600の倒立移動制御モデル32aの効率的な学習を行うことができる。以上の処理を行うことにより、分解の学習では、複合的な制御モデルから、要素の制御モデルを獲得することができる。
合成学習時と同様に上記の3つの制御モデルは、並列的に接続した状態で学習を行う。学習部71と接続するのは、分解先の制御モデルを持つ制御部11a、12aとなる。分解先の操舵制御モデル31a、倒立移動制御モデル32aを持つ制御部11a、12aと学習部71は図11のように接続される。
分解元の制御モデル41aの出力値と合わせ、行動価値選択部61に出力する。それぞれの制御モデルである操舵制御モデル31a、倒立移動制御モデル32aは、カメラ800やIMUセンサ900からの入力値に応じて、各々のロボットの適切な車輪に接続したモータ501、502、601、602の動作量を出力し、目的のタスクを達成する制御モデルを獲得する。
分解の学習では、分解先の制御モデルごとに目的の制御に合った報酬関数を設定してもよいし、学習する制御モデルが複数ある場合に有効な方法として、図11に示すような更新モデル選択部62を設け、学習する制御モデルをスイッチ式に切り替えるような仕組みを設ける方法をとっても良い。
ライントレーサロボット500の学習では、カメラ画像801に映るライン1000の画像と速度の関係から操舵角を求め、その操舵角に合うモータ501、502の出力値を決定する。倒立移動制御モデル32aは不要であるが、パラメータが更新される制御モデルとして学習部71と接続している。この学習では、既存の制御モデルとして倒立振子ライントレーサロボット700の制御モデルと同義のニューラルネットワークを利用するため、センサからの入力情報を合わせる方法を取ると良い。具体的には、図10のライントレーサロボット500のように、カメラ800a及びIMUセンサ900cを装着し、倒立振子ライントレーサロボット700と入力条件を合わせることで、既存の制御モデル41aをそのまま利用して入出力に用いることができる。従って、実施例3の合成学習と同様の学習を行うことによりライントレーサロボット500の操舵制御モデル31aが獲得される。既存の制御モデルに必要な入力情報を外的に合わせ、図11の構成図に基づいた制御装置を用いて学習を行えば良い。IMUセンサ900cを装着させることが難しい場合は、IMUセンサ900cの入力値を0として学習を開始しても良い。
倒立振子ロボット600の学習もライントレーサロボット500の学習と同様の学習方法である。倒立振子ロボット600では、IMUセンサ情報のみを利用して倒立姿勢の変動を学習する形態を取れば良い。従って、ライントレーサロボット500の学習と同様にカメラ800c及びIMUセンサ900aを装着し、センサの入力情報を合わせることで、既存の制御モデルをそのまま利用して入出力に用いることができる。ライントレーサロボット500とは逆にラインに沿った走行を行うための操舵制御モデル31aは不要であるが、パラメータが更新される制御モデルとして学習部71と接続している。図11の構成図に基づいた制御装置により、倒立移動制御モデル32aが獲得される。カメラ800cを装着させることが難しい場合は、カメラ800cの入力値を0として学習を開始しても良い。
次に、本発明の第5の実施例を説明する。第5の実施例では、報酬及び行動価値の転移による入力情報の代替を考え、パラメータを更新する制御モデルを含む制御部が2つ接続されている例を示す。
実施例3、4では、ライントレーサロボット500の操舵制御モデル31aの学習において、環境に引かれたライン1000自体に凹凸などの細工が施されて振動等が生じない限り、IMUセンサ900cの情報だけではライン1000を認識することは出来ない。このため、センサとしてIMUセンサ900cとカメラ800aのみが選択できる条件では、カメラ800aの選択が必須である。一方、倒立振子ロボット600は、IMUセンサ900a、カメラ800c、またはその両方の利用による制御モデルの獲得が可能である。従って、扱うセンサの種類を限定したい場合では、同一のセンサで目的の制御モデルを獲得できることが望ましい。
これまでの実施例3、4では、倒立移動制御モデルの獲得には、IMUセンサ900aのデータを前提に考えてきたが、カメラ800cを使用した場合の倒立移動制御モデルの獲得方法について説明する。以下では、倒立振子ロボット600のIMUセンサ900aを入力とする倒立移動制御モデル31b及びカメラ800cを入力とする倒立移動制御モデル32bを学習する場合を例に考える。
IMUセンサ900aのPitch角及びその角速度を用いて倒立移動制御モデル31bを学習する場合とカメラ800cを用いた倒立移動制御モデル32bの学習とでは、次元数が大きく異なるため、学習に掛かる時間が大きく異なる。IMUセンサ900aのデータを用いた学習では、2次元の情報から学習するのに対し、例えばカメラ800cの画像サイズを640×480画素として用いた場合、307200次元の情報を基に学習することになる。従って、IMUセンサ900aのデータで学習する方が学習が完了するまでの時間が大幅に短いため、このIMUセンサ900aのデータを用いた場合とカメラ800cを用いた場合を同時に学習させ、学習が進んできた状況でカメラ画像801を用いた学習に切り替える方法を取る。
図10の倒立振子ロボット600について、図12の構成図に基づいた制御装置を用いて学習を行えば良い。具体的には、今回用いる制御モデルは、どちらもパラメータを更新する制御モデル31bと32bを持つ制御部11a、12aを並列に動作させ、実施例3、4で述べた方法で学習を行う。次元数が遥かに小さいIMUセンサ900aのデータを入力とする制御モデル31bの学習が先に完了し、倒立振子ロボット600は倒立し始める。IMUセンサ900aのデータを入力とする制御モデル31bの学習が完了したら、更新モデル選択部62と制御モデル31bとの接続は切り、制御モデル32bのみの接続とする。この段階までは、行動価値選択部61においてIMUセンサ900aを入力とする制御モデル31bの出力値の選択が大半を占めている。この制御モデル31bから出力された行動価値と実際に行動を行って得られた報酬がカメラ画像801を入力とする制御モデル32bのパラメータ更新に用いられる。これにより、(6)、(8)式の教師データの役割をなす、r+γmaxQ(s’,a’;θ)の値がカメラ画像801を入力とする制御モデルのみを用いた学習時よりも成功データが多く得られるようになり、学習を効率良く行うことが可能となる。
1 機械
2 センサ
3 アクチュエータ
4 制御装置
11〜1n、11a、12a パラメータを更新する制御モデルを持つ制御部
21〜2n、21a、22a 既存の制御モデルを持つ制御部
31〜3n、31a、31b、32b パラメータを更新する制御モデル
41〜4n、41a、42a 既存の制御モデル
51 状態取得部
61 行動価値選択部
62 更新モデル選択部
71 学習部
81 データ記憶部
91 選択監視部
200 最短経路問題(迷路)
201 スタート地点
202 ゴール地点
300 台車走行ロボット
301 自己位置測定器
302 モータ駆動型車輪
303 台車走行ロボット用制御装置
310 縦横4方向移動制御モデル
320 斜め4方向移動制御モデル
330 8方向移動制御モデル
400 実施例1の比較結果のグラフ
500 ライントレーサロボット
501 ライントレーサロボットのモータ(右)
502 ライントレーサロボットのモータ(左)
600、600a 倒立振子ロボット
601 倒立振子ロボットのモータ(右)
602 倒立振子ロボットのモータ(左)
700 倒立振子ライントレーサロボット
701 倒立振子ライントレーサロボットのモータ(右)
702 倒立振子ライントレーサロボットのモータ(左)
800、800a、800b、800c ビジョンセンサ、カメラ
801 カメラ画像
900、900a、900b、900c IMUセンサ
1000、1000a ライントレース用のライン

Claims (11)

  1. 機械装置に、所定の環境下で与えられたタスクを達成させるため、機械に搭載されたセンサから得られた環境における機械の状態値に基づき、アクチュエータの制御値を決定して、機械の制御モデルを自ら学習していく制御装置であって、
    センサからの観測データにより機械の状態値を取得する状態取得部と、
    パラメータを更新する第一の制御モデルを含み、前記状態値、及び前記第一の制御モデルに基づき、前記機械の行動、及び行動価値を算出して出力する第一の制御部と、
    前記第一の制御部と並列に接続され、パラメータを更新しない既存の第二の制御モデルを含み、前記状態値、及び前記第二の制御モデルに基づき、前記機械の行動、及び行動価値を算出して出力する第二の制御部と、
    前記第一の制御部及び前記第二の制御部より出力された行動価値を比較して、行動価値が最大となる行動を、または確率的に行動を選択し、選択した行動をアクチュエータに、また選択した行動、及び行動価値を学習部に出力する行動価値選択部と、
    前記行動価値選択部が選択した行動価値、及び行動を入力し、前記状態値と共に記憶部に保管して、保管されたデータに基づき前記第一の制御部に含まれる前記第一の制御モデルのパラメータを更新する学習部と、
    を備えることを特徴とする制御装置。
  2. 請求項1に記載の制御装置において、
    その内部に含む制御モデルがそれぞれ異なる前記第二の制御部が複数個、並列に備えられていることを特徴とする制御装置。
  3. 請求項1に記載の制御装置において、
    その内部に含む制御モデルがそれぞれ異なる前記第一の制御部が複数個、並列に備えられていることを特徴とする制御装置。
  4. 請求項1に記載の制御装置において、
    その内部に含む制御モデルがそれぞれ異なる前記第一の制御部が複数個、及びその内部に含む制御モデルがそれぞれ異なる前記第二の制御部が複数個、共に並列に備えられていることを特徴とする制御装置。
  5. 請求項3、または請求項4に記載の制御装置において、
    複数の前記第一の制御部と接続し、前記第一の制御部に含まれる第一の制御モデルのパラメータを学習部が更新することを選択する更新モデル選択部を更に備えることを特徴とする制御装置。
  6. 請求項1乃至4のいずれかの請求項に記載の制御装置において、
    前記行動価値選択部が選択した行動、行動価値、及び各制御モデルの選択回数外部に接続した表示装置に出力したり、ログを記録して学習の状況を監視する選択監視部を更に備えることを特徴とする制御装置。
  7. 機械装置に、所定の環境下で与えられたタスクを達成させるため、機械に搭載されたセンサから得られた環境における機械の状態値に基づき、アクチュエータの制御値を決定して、機械の制御モデルを自ら学習していく制御装置の制御方法であって、
    状態取得部が、センサからの観測データにより機械の状態値を取得する工程と、
    第一の制御部が、前記状態値、及び内部に含むパラメータを更新する第一の制御モデルに基づき、前記機械の行動、及び行動価値を算出して出力する工程と、
    第二の制御部が、前記第一の制御部と並列に動作して、前記状態値、及び内部に含むパラメータを更新しない既存の第二の制御モデルに基づき、前記機械の行動、及び行動価値を算出して出力する工程と、
    行動価値選択部が、前記第一の制御部及び前記第二の制御部より出力された行動価値を比較して、行動価値が最大となる行動を、または確率的に行動を選択して、選択した行動価値、及び行動を学習部へ出力すると共に、選択した行動を前記機械のアクチュエータへ出力して、前記機械の動作を制御する工程と、
    学習部が、前記行動価値選択部が選択した行動価値、及び行動を入力し、前記状態値と共に記憶部に保管して、保管されたデータに基づき前記第一の制御部に含まれる前記第一の制御モデルのパラメータを更新する工程と、
    を有し、
    前記制御装置が、所定の収束条件を満たすまで、上記した一連の工程を繰り返す
    ことを特徴とする制御方法。
  8. 前記第一の制御モデルを内部に含む前記第一の制御部が、それぞれ異なる制御モデルを内部に含む複数の制御部であり、該複数の制御部は前記第二の制御部と並列に動作して、
    更新モデル選択部が、前記複数の制御部に含まれる制御モデルのパラメータを学習部が更新することを選択する工程を更に有することを特徴とする請求項7に記載の制御方法。
  9. 請求項7、または請求項8に記載の制御方法において、
    選択監視部が、前記行動価値選択部が選択した行動、行動価値、及び各制御モデルの選択回数外部に接続した表示装置に出力したり、ログを記録して学習の状況を監視する工程を更に有することを特徴とする制御方法。
  10. 前記学習部内に第二の制御モデルごとに忘却係数を設け、
    前記学習部が、学習の進捗に応じて前記第二の制御部が出力する行動価値ごとに設けた前記忘却係数を掛けあわせる工程を更に有することを特徴とする請求項7に記載の制御方法。
  11. 前記学習部内に第二の制御モデルごとに忘却係数を設け、
    前記学習部が、学習の進捗に応じて前記第二の制御部が出力する行動価値ごとに設けた前記忘却係数を掛けあわせると共に、試行毎に一定値を前記忘却係数から引いていく工程を更に有することを特徴とする請求項7に記載の制御方法。
JP2016252822A 2016-12-27 2016-12-27 制御装置及び制御方法 Active JP6744208B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016252822A JP6744208B2 (ja) 2016-12-27 2016-12-27 制御装置及び制御方法
US15/854,395 US20180181089A1 (en) 2016-12-27 2017-12-26 Control device and control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016252822A JP6744208B2 (ja) 2016-12-27 2016-12-27 制御装置及び制御方法

Publications (2)

Publication Number Publication Date
JP2018106466A JP2018106466A (ja) 2018-07-05
JP6744208B2 true JP6744208B2 (ja) 2020-08-19

Family

ID=62629701

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016252822A Active JP6744208B2 (ja) 2016-12-27 2016-12-27 制御装置及び制御方法

Country Status (2)

Country Link
US (1) US20180181089A1 (ja)
JP (1) JP6744208B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6474449B2 (ja) * 2017-04-07 2019-02-27 ファナック株式会社 調整装置及び調整方法
JP6519896B1 (ja) * 2018-03-15 2019-05-29 オムロン株式会社 学習装置、学習方法、及びそのプログラム
US20220036122A1 (en) * 2018-09-27 2022-02-03 Nec Corporation Information processing apparatus and system, and model adaptation method and non-transitory computer readable medium storing program
JP7141320B2 (ja) * 2018-12-05 2022-09-22 株式会社日立製作所 強化学習支援装置、保守計画立案装置、及び強化学習支援方法
JP7097006B2 (ja) * 2018-12-05 2022-07-07 オムロン株式会社 センサシステム
WO2020121551A1 (ja) * 2018-12-12 2020-06-18 日本電信電話株式会社 マルチデバイス連携制御装置、マルチデバイス連携制御方法およびマルチデバイス連携制御プログラム、並びに、学習装置、学習方法および学習プログラム
JP2021018644A (ja) * 2019-07-22 2021-02-15 コニカミノルタ株式会社 機械学習装置、機械学習方法及び機械学習プログラム
WO2021064767A1 (ja) * 2019-09-30 2021-04-08 日本電気株式会社 制御装置、方法及びシステム
JP7342600B2 (ja) * 2019-10-16 2023-09-12 株式会社アイシン 移動制御モデル生成装置、移動制御モデル生成方法、移動制御モデル生成プログラム、移動体制御装置、移動体制御方法、および移動体制御プログラム
JP7484382B2 (ja) * 2020-04-24 2024-05-16 横河電機株式会社 制御装置、制御方法および制御プログラム
US20230211498A1 (en) * 2020-06-01 2023-07-06 Nec Corporation Planner device, planning method, planning program recording medium, learning device, learning method, and learning program recording medium
JP7342833B2 (ja) * 2020-10-16 2023-09-12 横河電機株式会社 制御装置、コントローラ、制御システム、制御方法、および制御プログラム
JP2022071832A (ja) * 2020-10-28 2022-05-16 キヤノン株式会社 振動型アクチュエータの制御装置及びそれを有する振動型駆動装置、交換用レンズ、撮像装置、自動ステージ
JP7536708B2 (ja) 2021-05-18 2024-08-20 株式会社東芝 学習装置、学習方法、および学習プログラム
JP7444186B2 (ja) 2022-03-22 2024-03-06 横河電機株式会社 モデル検証装置、モデル検証方法、および、モデル検証プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3703821B2 (ja) * 2003-09-02 2005-10-05 株式会社国際電気通信基礎技術研究所 並列学習装置、並列学習方法及び並列学習プログラム
US9507367B2 (en) * 2012-04-09 2016-11-29 Clemson University Method and system for dynamic stochastic optimal electric power flow control
US20170061283A1 (en) * 2015-08-26 2017-03-02 Applied Brain Research Inc. Methods and systems for performing reinforcement learning in hierarchical and temporally extended environments

Also Published As

Publication number Publication date
US20180181089A1 (en) 2018-06-28
JP2018106466A (ja) 2018-07-05

Similar Documents

Publication Publication Date Title
JP6744208B2 (ja) 制御装置及び制御方法
Pinto et al. Asymmetric actor critic for image-based robot learning
Everett et al. Collision avoidance in pedestrian-rich environments with deep reinforcement learning
Rajeswaran et al. Towards generalization and simplicity in continuous control
US11253999B2 (en) Machine learning device, robot control device and robot vision system using machine learning device, and machine learning method
CN111587408B (zh) 机器人导航和对象跟踪
JP2017030137A (ja) 人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法
TWI802820B (zh) 機器人控制裝置、方法和儲存媒體
Zhang et al. Sim2real learning of obstacle avoidance for robotic manipulators in uncertain environments
Jain et al. From pixels to legs: Hierarchical learning of quadruped locomotion
JP7295421B2 (ja) 制御装置及び制御方法
Ji et al. Synthesizing the optimal gait of a quadruped robot with soft actuators using deep reinforcement learning
JP7517225B2 (ja) 軌道生成システム、軌道生成方法及びプログラム
Passalis et al. Deep reinforcement learning for controlling frontal person close-up shooting
JP2019049904A (ja) 操作方法生成システム
JP2009134352A (ja) ロボットの動作経路作成装置及びロボットの動作経路作成方法
CN108687766B (zh) 机器人的控制装置、机器学习装置以及机器学习方法
CN113614743A (zh) 用于操控机器人的方法和设备
Toma et al. Waypoint planning networks
Xu et al. Learning strategy for continuous robot visual control: A multi-objective perspective
Qi et al. Model predictive manipulation of compliant objects with multi-objective optimizer and adversarial network for occlusion compensation
JP3703821B2 (ja) 並列学習装置、並列学習方法及び並列学習プログラム
Wang et al. Integrated reinforcement and imitation learning for tower crane lift path planning
Leitner et al. Artificial neural networks for spatial perception: Towards visual object localisation in humanoid robots
Salvi et al. Virtual Evaluation of Deep Learning Techniques for Vision-Based Trajectory Tracking

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200714

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200730

R150 Certificate of patent or registration of utility model

Ref document number: 6744208

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150