JP2008305064A

JP2008305064A - 学習型制御装置および該方法

Info

Publication number: JP2008305064A
Application number: JP2007150329A
Authority: JP
Inventors: Yasuharu Koike; 康晴小池; Hiroyuki Kanbara; 裕行神原; Takaue Kin; 敬植金; Takehiro Tsukamoto; 雄大塚本
Original assignee: Japan Science and Technology Agency
Current assignee: Japan Science and Technology Agency
Priority date: 2007-06-06
Filing date: 2007-06-06
Publication date: 2008-12-18

Abstract

【課題】本発明は、目標軌道を必要とすることなく、目標姿勢を与えるだけで制御対象を制御可能な学習型制御装置および該方法を提供する。
【解決手段】本発明では、制御対象Ｃの制御方法を学習することによって制御対象Ｃを制御する学習型制御装置Ｄであって、制御対象Ｃをフィードフォワード制御するフィードフォワード制御部として機能する逆スタティックモデル部１と、制御対象Ｃをフィードバック制御するフィードバック制御部３とを備え、逆スタティックモデル部１は、フィードバック制御部３の制御指令ｕ^{ａｃｔｏｒ}（ｔ）を教師信号として入出力関係を学習すると共に、制御対象Ｃの目標姿勢が入力されこの目標姿勢を実現するための制御指令ｕ^ｉｓｍ（ｔ）を出力する。
【選択図】図１

Description

本発明は、制御対象の制御方法を学習することによってこの制御対象を制御する学習型制御装置および学習型制御方法に関する。

ロボット技術（ロボティクス）は、研究、開発が進展し、近年では、外観上、人に近い動作を行うことができるヒューマノイド型ロボットも開発されている。このヒューマノイド型ロボットでは、高精度な位置制御を行って人に近い動作を実現するために、例えばサーボモータのような動作特性の既知なアクチュエータを１関節に１個用いた機構が採用されており、そして、軌道、運動速度および加速度などの動作データが予め与えられている。

このようなヒューマノイド型ロボットでは、機構の点で、１関節に伸筋および屈筋という２個のアクチュエータが用いられている人の筋骨格系とは、異なっており、そして、運動制御の点でも、動作データが予め与えられている訳ではなく、試行錯誤を繰り返して学習することによって制御方法を獲得する人の脳とは、大きく異なっている。

そこでは、本願の一部の発明者は、人の筋骨格系を模した機構を学習によって制御する手法を例えば非特許文献１に提案している。

図８は、非特許文献１に開示の学習型制御装置の構成を示すブロック図である。図８において、この学習型制御装置１０００は、目標軌道θ^ｄが入力され制御対象（ＣｏｎｔｒｏｌｌｅｄＯｂｊｅｃｔ）Ｃにおいて前記目標軌道θ^ｄを実現するためのフィードフォワード制御指令ｕ^ｆｆを出力する逆ダイナミックスモデル部１００１と、目標軌道θ^ｄと制御対象Ｃによって実現された軌道θとの軌道誤差θ^ｅを求める減算部１００２と、減算部１００２で求められた前記軌道誤差θ^ｅが入力され前記軌道誤差θ^ｅを小さくするためのフィードバック制御指令ｕ^ｆｂを出力するフィードバック制御部１００３と、前記制御対象Ｃの制御指令ｕとして前記逆ダイナミックスモデル部１００１のフィードフォワード制御指令ｕ^ｆｆと前記フィードバック制御部１００３のフィードバック制御指令ｕ^ｆｂとを加算する加算部１００４とを備える。前記フィードバック制御部１００３は、強化学習の１つであるアクタ−クリティック（Ａｃｔｏｒ−Ｃｒｉｔｉｃ）法が用いられ、行動を決定するアクタ（Ａｃｔｏｒ）部１０３１と、状態価値を計算するクリティック（Ｃｒｉｔｉｃ）部１０３２とを備える。このクリティック部１０３２は、制御対象Ｃの軌道θによって与えられる報酬ｒに基づきＴＤ誤差を計算してアクタ部１０３１の強化学習を行う。そして、逆ダイナミックスモデル部１００１は、前記ＴＤ誤差に応じて逆ダイナミックスモデルの学習係数を変化させるゲート（Ｇａｔｅ）部１００５を介して、アクタ部１０３１のフィードバック制御指令ｕ^ｆｂを教師信号として学習を行う。このような構成の学習型制御装置１０００では、学習の初期段階では、主に、フィードバック制御部１００３のフィードバック制御指令ｕ^ｆｂによって制御対象Ｃがフィードバック制御され、学習が進むにつれフィードバック制御指令ｕ^ｆｂが小さくなり、最終的には、逆ダイナミックスモデル部１００１のフィードフォワード制御指令ｕ^ｆｆによって制御対象Ｃがフィードフォワード制御される。
神原裕行、ＪａｅｈｙｏＫＩＭ、佐藤誠、小池康晴、「強化学習とフィードバック誤差学習を用いた腕の姿勢制御」、電子情報通信学会論文誌２００６／５、Ｖｏｌ．Ｊ８９−Ｄ、Ｎｏ．５、ｐｐ１０３６−１０４８

ところで、前記学習型制御装置１０００では、逆ダイナミックスモデル部１００１を備えているため、目標軌道θ^ｄ、すなわち、目標位置、目標速度および目標加速度などの各情報を逐次与える必要があり、制御対象Ｃを目標位置まで移動する場合に、常に軌道を計算しながら制御しなければならないという不都合があった。

本発明は、上述の事情に鑑みて為された発明であり、その目的は、目標軌道を必要とすることなく、目標姿勢を与えるだけで制御対象を制御可能な学習型制御装置および学習型制御方法を提供することである。

本発明者は、種々検討した結果、上記目的は、以下の本発明により達成されることを見出した。すなわち、本発明に係る一態様では、制御対象の制御方法を学習することによって前記制御対象を制御する学習型制御装置であって、前記制御対象をフィードフォワード制御するフィードフォワード制御部と、前記制御対象をフィードバック制御するフィードバック制御部とを備え、前記フィードフォワード制御部は、前記フィードバック制御部の制御指令を教師信号として入出力関係を学習すると共に、前記制御対象の目標姿勢が入力され前記目標姿勢を実現するための制御指令を出力することを特徴とする。そして、本発明に係る他に一態様では、制御対象の制御方法を学習することによって前記制御対象を制御する学習型制御方法であって、フィードフォワード制御部によって前記制御対象をフィードフォワード制御するフィードフォワード工程と、フィードバック制御部によって前記制御対象をフィードバック制御するフィードバック工程とを備え、前記フィードフォワード工程は、前記フィードバック制御部の制御指令を教師信号として前記フィードフォワード制御部の入出力関係を学習する第１工程と、前記制御対象の目標姿勢が入力され前記目標姿勢を実現するための制御指令を出力する第２工程とを備えることを特徴とする。

このような構成では、フィードフォワード制御部がフィードバック制御部の制御指令を教師信号としてその入出力関係を学習するので、学習の初期段階では、主に、制御対象がフィードバック制御される一方で、学習後では、主に、制御対象がフィードフォワード制御される。そして、フィードフォワード制御部は、制御対象の目標姿勢が入力され、前記学習によって獲得した入出力関係を用いて、この入力された目標姿勢からこの目標姿勢を実現するための制御指令を出力する。このため、制御対象の制御方法を学習して制御するに当たって、背景技術のように、初期姿勢から目標姿勢に至るまでの制御対象の各姿勢における姿勢情報、速度情報および加速度情報の各情報が必要とされることなく、最終的な姿勢である目標姿勢のみでよい。よって、本発明は、制御対象を制御するに当たって、制御対象の最適化問題を解くことなく、近似解を得ることができ、その制御が可能となる。このため、本発明では、制御対象がモデル化の難しい機構であっても制御対象とすることができる。また、初期姿勢から目標姿勢に至るまでの制御対象の各姿勢における前記各情報を与えることなく、目標姿勢のみを与えても、このような構成では、初期姿勢から目標姿勢まで滑らかな軌道で動作するように制御対象の制御が可能となる。

そして、上述の学習型制御装置において、前記制御対象における現在の運動状態に基づいて前記制御対象における所定時間経過後の将来の運動状態を予測状態として予測する順ダイナミックスモデル部と、前記順ダイナミックスモデル部で予測した予測状態と前記目標姿勢との差を制御偏差として前記フィードバック制御部へ出力する減算部とをさらに備えることを特徴とする。

この構成によれば、順ダイナミックスモデル部によって将来の運動状態が予測状態として予測され、減算部によってこの予測状態と目標姿勢との差が制御偏差としてフィードバック制御部へ出力される。このため、制御対象が比較的高速に運動する場合でも、あるいは、伝達関数に遅れ要素を備える制御対象でも、制御対象の制御が可能となり、また、高精度にその制御が可能となる。

そして、これら上述の学習型制御装置において、前記フィードバック制御部は、強化学習が用いられていることを特徴とする。

この構成によれば、フィードバック制御部に、例えばアクタークリティック法などの強化学習が用いられるので、教師信号なしでその入出力関係が最適化される。このため、制御対象の制御がより高精度に可能となる。

そして、これら上述の学習型制御装置において、前記順ダイナミックスモデル部は、前記制御対象の運動状態と当該順ダイナミックスモデル部で予測した予測状態との差を教師信号として入出力関係を学習することを特徴とする。

この構成によれば、順ダイナミックスモデル部がその入出力関係を学習するので、学習型制御装置の運用中に順ダイナミックスモデル部の入出力関係がさらに最適化される。このため、制御対象の制御がより高精度に可能となる。

そして、これら上述の学習型制御装置において、前記制御対象は、出力変数に対し冗長な入力変数を含み、入力変数と出力変数との間の入出力関係に非線形な関係が含まれる機構であることを特徴とする。前記制御対象は、好ましくは、人の筋骨格系を模した機構である。

出力変数に対し冗長な入力変数を含み、入力変数と出力変数との間の入出力関係に非線形な関係が含まれる機構は、ロボット技術を用いてもモデル化が難しい。このため、従来では、このような機構を制御対象とすることが困難であった。本発明は、上述のように、目標姿勢のみで制御対象の制御方法を学習によって獲得し、そして、目標姿勢のみで制御対象を制御可能である。このため、このような機構であっても制御が可能となるので、本発明の学習型制御装置および該方法は、このような機構に好適に適用される。そして、人の筋骨格系を模した機構は、入力変数に冗長性を有すると共に入出力関係に非線形な関係を含むので、このような機構の一例として挙げることができ、本発明の学習型制御装置は、人の筋骨格系を模した機構に好適に適用される。

本発明の学習型制御装置および学習型制御方法では、目標軌道を必要とすることなく、目標姿勢を与えるだけで制御対象の制御方法が獲得され、この獲得した制御方法によって制御対象の制御が可能となる。

以下、本発明に係る実施の一形態を図面に基づいて説明する。なお、各図において同一の符号を付した構成は、同一の構成であることを示し、その説明を省略する。

図１は、実施形態における学習型制御装置の構成を示すブロック図である。図１において、この学習型制御装置Ｄは、制御対象をフィードフォワード制御するフィードフォワード制御部と、制御対象をフィードバック制御するフィードバック制御部とを備え、フィードフォワード制御部は、フィードバック制御部の制御指令を教師信号として入出力関係を学習すると共に、制御対象の目標姿勢が入力され目標姿勢を実現するための制御指令を出力するものである。

本実施形態では、学習型制御装置Ｄは、フィードフォワード制御部として機能する逆スタティックモデル（ＩｎｖｅｒｓｅＳｔａｔｉｃｓＭｏｄｅｌ）部（以下、「ＩＳＭ部」と略記する。）１と、第１減算部２と、フィードバック制御部（以下、「ＦＢＣ部」と略記する。）３と、加算部４と、リワード（Ｒｅｗａｒｄ）部５と、順ダイナミックスモデル（ＦｏｒｗａｒｄＤｙｎａｍｉｃｓＭＯｄｅｌ）部（以下、「ＦＤＭ部」と略記する。）６と、第２減算部７とを備え、制御対象Ｃの制御方法を学習することによって制御対象Ｃの運動を制御する。

第１減算部２は、目標状態θ^ｄとＦＤＭ部６から出力される予測状態θ^ｆｄｍ（ｔ＋△ｔ）との差（予測状態誤差）θ^ｅ（ｔ＋△ｔ）を制御偏差として求めるものである。

状態θは、制御量であり、制御対象Ｃの動作状態を表現するものである。例えば、制御対象Ｃが人の筋骨格系を模した機構である場合、より具体的には、例えば、第１および第２アームと、これら第１アームと第２アームとを運動可能に連結する連結部（関節部）と、運動方向における一方向に第１アームと第２アームとを運動させるための第１人工筋肉と、この運動方向における前記一方向に対して逆方向に第１アームと第２アームとを運動させるための第２人工筋肉とを備える機構である場合では、状態θは、連結部（関節部）の角度および角速度である。そして、本実施形態では、目標値である目標状態θ^ｄでは、この角速度が常に０であり、角度のみが与えられる。すなわち、本実施形態の学習型制御装置Ｄでは、最終的な姿勢である、実現すべき制御対象Ｃの目標姿勢のみが与えられる。

ＦＢＣ部３は、第１減算部２から出力される予測状態誤差θ^ｅ（ｔ＋△ｔ）が入力され、この予測状態誤差θ^ｅ（ｔ＋△ｔ）を小さくするように、制御対象Ｃの運動状態を制御する制御指令ｕ^{ａｃｔｏｒ}（ｔ）をフィードバック制御指令として出力するものである。

本実施形態では、ＦＢＣ部３には、ＴＤ誤差を用いた学習方法の一つであるいわゆるアクタ−クリティック（Ａｃｔｏｒ−Ｃｒｉｔｉｃ）法が用いられている。アクタ−クリティック法とは、強化学習の枠組みの一つであり、例えば、Ｒ．Ｓ．ＳｕｔｔｏｎａｎｄＡ．Ｇ．Ｂａｒｔｏ，Ｒｅｉｎｆｏｒｃｍｅｎｔｌｅａｒｎｉｎｇ，ＭＩＴＰｒｅｓｓ，Ｃａｍｂｒｉｄｇｅ，ＭＡ，１９９８．に開示されているように、状態価値を計算するクリティック（Ｃｒｉｔｉｃ）と、行動を決定するアクタ（Ａｃｔｏｒ）とを備え、与えられる報酬ｒから計算されるＴＤ誤差と呼ばれる強化信号によってそれぞれの学習を行う手法である。

すなわち、本実施形態では、ＦＢＣ部３は、このアクタ−クリティック法におけるアクタを実装したアクタ（Ａｃｔｏｒ）部３１と、このアクタ−クリティック法におけるクリティックを実装したおよびクリティック（Ｃｒｉｔｉｃ）部３２とを備えて構成される。

クリティック部３２は、制御対象Ｃの運動状態を評価するものであり、第１減算部２から出力される予測状態誤差θ^ｅ（ｔ＋△ｔ）とリワード部５から出力される報酬ｒ（ｔ）とが入力され、これら予測状態誤差θ^ｅ（ｔ＋△ｔ）と報酬ｒ（ｔ）とに基づいてＴＤ誤差δ（ｔ）を計算し、ＴＤ誤差δ（ｔ）を強化信号として、制御対象Ｃの運動状態における評価値Ｖ^ｕ（θ^ｅ（ｔ））を将来得られる報酬ｒ（ｔ）の期待値と略等しくなるように学習するものである。

アクタ部３１は、制御対象Ｃの運動状態を決定するものであり、第１減算部２から出力される予測状態誤差θ^ｅ（ｔ＋△ｔ）が入力され、この予測状態誤差θ^ｅ（ｔ＋△ｔ）を小さくするように、制御対象Ｃの運動状態を制御する制御指令ｕ^{ａｃｔｏｒ}（ｔ）を出力し、クリティック部３２で計算されたＴＤ誤差δ（ｔ）を強化信号として、制御対象Ｃの運動状態における評価値Ｖ^ｕ（θ^ｅ（ｔ））が最大になるような制御対象Ｃの運動状態を学習するものである。

本実施形態では、制御対象Ｃの運動状態と時間とは連続値であるため、連続時間・状態ＴＤ学習法が用いられ、そのため、アクタ−クリティック法の関数近似には、後述するように、正規化ガウス関数ネットワーク（ＮｏｒｍａｌｉｚｅｄＧａｕｓｓｉａｎｎｅｔｗｏｒｋ、以下、「ＮＧｎｅｔ」と略記する。）が用いられる。

より具体的には、リワード部５によって求められる報酬ｒ（ｔ）は、或る時刻ｔにおける制御対象Ｃの運動状態ｘ（ｔ）と制御指令ｕ（ｔ）との関数として式１のように与えられるとする。

なお、報酬ｒ（ｔ）の具体的な式は、制御対象Ｃに応じて適宜に設定され、その一例として、後述の人腕型ロボットＲの場合について後述する。

制御対象Ｃにおける運動状態ｘ（ｔ）の評価関数Ｖ^μ（θ^ｅ（ｔ））は、ｕ（ｔ）＝μ（ｔ）のもとで、この報酬ｒ（ｔ）を用いて式２のように定義される。ｕ（ｔ）は、運動指令であり、μ（ｔ）は、制御則である。

ここで、θ^ｅ（ｔ）は、ベクトル量であり、また、γは、報酬ｒ（ｔ）の時定数である。また、運動状態ｘ（ｔ）は、制御対象Ｃの状態を示し、θ（ｔ）、θ（ｔ）の時間ｔにおける１階微分などである。

クリティック部３２から出力されるＴＤ誤差δ（ｔ）は、式３によって計算される。

ここで、Ｖ（θ^ｅ（ｔ））は、評価関数Ｖ^μ（θ^ｅ（ｔ））の予測値であり、本実施形態では、ＮＧｎｅｔを用いて、式４のように近似される。

そして、クリティック部３２の学習は、式５によって行われる。すなわち、式５は、クリティック部３２の重み＜ｖ_ｉ＞の更新式である。

ここで、β_ｃは、クリティック部３２の学習係数であり、ｅ_ｉ（ｔ）は、ｉ番目のエリジビリティトレース（ｅｌｉｇｉｂｉｌｉｔｙｔｒａｃｅ）である。エリジビリティトレースの更新式＜ｅ_ｉ（ｔ）＞は、式６によって与えられる。

ここで、κは、エリジビリティトレースｅ_ｉ（ｔ）の時定数である。

一方、アクタ部３１の出力ｕ^{ａｃｔｏｒ}（ｔ）は、ＮＧｎｅｔを用いて式７によって計算される。

ここで、制御対象Ｃが人の筋骨格系を模した機構である場合において、ｕ^{ａｃｔｏｒ} _ｊ（ｔ）は、ｊ番目の筋へのアクタ部３１の制御指令であり、ｕ^ｍａｘ _ｊは、ｊ番目の筋の最大値であり、ｕ^ｂｉａｓ _ｊは、ｊ番目の筋のバイアス出力である。バイアス出力とは、アクタの出力ｕ^{ａｃｔｏｒ} _ｊを正負両方に出力するための値である。Ｎは、ＮＧｎｅｔを構成する基底関数ｂ^ａ _ｉ（θ^ｅ（ｔ））の数であり、ｗ_ｊｉは、重みであり、ｇ（）は、シグモイド関数である。シグモイド関数は、アクタ部３１の出力を飽和とするために用いられている。σｎ_ｊ（ｔ）は、アクタ部３１の制御指令を探索するためのノイズを表しており、σは、ノイズの大きさを調整するための定数であり、例えば、式８によって与えられ、ｎ_ｊ（ｔ）は、標準偏差が１で平均が０の標準正規乱数によって与えられる。

ここで、σ_０、ｓ_ｎは、所定の定数である。

そして、アクタ部３１の学習は、式９によって行われる。すなわち、式９は、アクタ部３１の重み＜ｗ_ｊｉ＞の更新式である。

ここで、β_ａは、アクタ部３１の学習係数である。

リワード部５は、ＦＤＭ部６から出力される予測状態θ^ｆｄｍ（ｔ＋△ｔ）に基づいて報酬ｒ（ｔ）を求めるものである。より具体的には、上述したように、リワード部５は、上記式１によって報酬ｒ（ｔ）を計算する。

逆スタティックモデルとは、制御対象Ｃに対して逆の入出力関係を持つシステムであり、入力として目標姿勢を受け取り、出力としてその目標姿勢を実現するための制御指令を計算するシステムである。一方、逆ダイナミックスモデルとは、制御対象Ｃに対して逆の入出力関係を持つシステムであり、入力として軌道を受け取り、出力としてその軌道を実現するための制御指令を計算するシステムである。本実施形態では、フィードフォワード制御部として、背景技術のように逆ダイナミックスモデルが用いられるのではなく、逆スタティックモデルが用いられている点に一特徴があり、ＩＳＭ部１として逆スタティックモデルが学習型制御装置Ｄに実装されている。

また、フィードバック誤差学習は、例えば、「Ｍ．Ｋａｗａｔｏ，Ｋ．Ｆｕｒｕｋａｗａ，ａｎｄＲ．Ｓｕｚｕｋｉ，“Ａｈｉｅｒａｒｃｈｉｃａｌｎｅｕｒａｌ−ｎｅｔｗｏｒｋｍｏｄｅｌｆｏｒｃｏｎｔｒｏｌａｎｄｌｅａｒｎｉｎｇｏｆｖｏｌｕｎｔａｒｙｍｏｖｅｍｅｎｔ，”，ＢｉｏｌｏｇｉｃａｌＣｙｂｅｒｎ．，ｖｏｌ．５７，ｐｐ．１６９−１８５，１９８７．」に開示されているように、フィードバック制御器の出力とフィードフォワード制御器の出力とを用いて制御が行われ、同時にフィードバック制御器の出力を教師信号としてフィードフォワード制御器の学習が行われる手法である。本実施形態では、フィードフォワード制御器として上述のように逆スタティックモデルが用いられているので、フィードバック制御器の出力を教師信号として逆スタティックモデルの学習が行われる点にも一特徴がある。

すなわち、ＩＳＭ部１は、制御対象Ｃのダイナミックスにおける静力学的な部分を表現するものであり、目標姿勢である目標状態θ^ｄが入力され制御対象Ｃにおいてこの目標状態θ^ｄを実現するための制御指令ｕ^ｉｓｍ（ｔ）をフィードフォワード制御指令として出力すると共に、ＦＢＣ部３の制御指令、本実施形態では、アクタ部３１の制御指令ｕ^{ａｃｔｏｒ}（ｔ）を誤差信号として学習するものである。

より具体的には、ＩＳＭ部１の制御指令ｕ^ｉｓｍ（ｔ）は、式１０によって計算される。

ここで、制御対象Ｃが人の筋骨格系を模した機構である場合において、ｕ^ｉｓｍ _ｊ（ｔ）は、ｊ番目の筋へのＩＳＭ部１の制御指令であり、ｕ^{ｉｓｍ−ｍａｘ} _ｊは、ｊ番目の制御指令の最大値である。Ｎは、ＮＧｎｅｔを構成する基底関数ｂ_ｉ（θ^ｅ（ｔ））の数であり、ｑ_ｊｉは、重みであり、ｇ（）は、シグモイド関数である。

ＩＳＭ部１の学習は、式１１によって行われる。すなわち、式１１は、ＩＳＭ部１の重み＜ｑ_ｊｉ＞の更新式である。

ここで、αは、アクタ−クリティック法のＴＤ誤差δ（ｔ）によって定まる学習係数であり、式１２によって与えられる。

ここで、｜δ｜は、一回前の試行中の各時刻ｔにおけるＴＤ誤差δ（ｔ）の絶対値の平均であり、α_０、ｓ_ｌｒは、所定の定数である。

加算部４は、ＩＳＭ部１の制御指令ｕ^ｕｓｍ（ｔ）とＦＢＣ部３の制御指令ｕ^{ａｃｔｏｒ}（ｔ）との和（制御指令）ｕ（ｔ）を操作量として求めるものである。

第２減算部７は、制御対象Ｃの現在の運動状態θ（ｔ＋△ｔ）とＦＤＭ部６から出力される制御対象Ｃの予測状態θ^ｆｄｍ（ｔ＋△ｔ）との差を求めるものである。

ＦＤＭ部６は、加算部４から出力される制御指令ｕ（ｔ）および制御対象Ｃの現在の運動状態に基づいて制御対象Ｃにおける所定時間経過後の将来の運動状態を予測し、この予測した予測状態θ^ｆｄｍ（ｔ＋△ｔ）を出力するものである。このようにＦＤＭ部６がフィードバックの過程に用いられることで、制御対象Ｃに動作遅延が存在する場合に、その遅延が補償可能となる。

そして、ＦＤＭ部６は、制御対象Ｃの運動状態と当該ＦＤＭ部６で予測した予測状態θ^ｆｄｍ（ｔ＋△ｔ）との差を教師信号として入出力関係を学習するものである。本実施形態では、例えば、ＦＤＭ部６には、３層ニューラルネットワークが用いられる。制御対象Ｃが後述の人腕型ロボットＲの場合では、入力層は、角度Θ（ｔ）、角速度＜Θ（ｔ）＞、人工筋肉に加わる空気圧Ｐ（ｔ）_ｆｌ、Ｐ（ｔ）_ｅｘおよび空電レギュレータへの入力電圧ｕ_ｆｌ（ｔ）、ｕ_ｅｘ（ｔ）の６個であり、中間層数は、１０個とされ、出力層は、△ｔ後における将来の角度Θ（ｔ＋△ｔ）および角速度＜Θ（ｔ＋△ｔ）＞の２個である。なお、Ｐ（ｔ）_ｆｌは、伸筋の空気圧Ｐ（ｔ）であり、Ｐ（ｔ）_ｅｘは、屈筋の空気圧Ｐ（ｔ）であり、ｕ_ｆｌ（ｔ）は、伸筋の入力電圧ｕ（ｔ）であり、ｕ_ｅｘ（ｔ）は、屈筋の入力電圧ｕ（ｔ）である。このニューラルネットワークの重みの更新には、第２減算部７で求められ制御対象Ｃの現在の運動状態θ（ｔ＋△ｔ）とＦＤＭ部６から出力される制御対象Ｃの予測状態θ^ｆｄｍ（ｔ＋△ｔ）との差に基づいていわゆるバックプロパゲーション（ｂａｃｋ−ｐｒｏｐａｇａｔｉｏｎ）法を用いて行われる。△ｔは、制御対象Ｃに入力信号を与えてから運動状態が収束するまでの時間である。△ｔは、実験的に設定され、例えば、制御対象Ｃが後述の人腕型ロボットＲの場合では、入力信号ｕ（ｔ）の最大値ｕ^ｍａｘを用いたステップ応答から１秒に設定された。そして、制御対象Ｃに対して予め学習が行われ、ＦＤＭ部６は、学習型制御装置Ｄに組み込まれる。学習は、制御対象Ｃに適当な制御指令を与え、これによって得られた制御対象Ｃの運動状態のデータを用いて行われる。将来の運動状態の予測手法としては、現在の時点から予測すべき将来の時点まで予測を複数回繰り返すことによって予測すべき将来の時点における運動状態を予測する手法と、予測すべき将来の時点における運動状態を１回でダイレクトに予測する手法とがある。例えば、１秒後の運動状態を予測する場合、前者では、現在の運動状態から例えば１００ｍｓｅｃ間隔で１０回の予測を繰り返すことで１秒後の運動状態が予測され、後者では、現在の運動状態から１回の予測で１秒後の運動状態が予測される。前者の手法では、予測のたびに誤差が蓄積する場合があるので、後者の手法が望ましい。なお、ＦＤＭ部６は、その入出力関係をさらに最適化してその制御の精度を向上するために、学習型制御装置Ｄの運用中も学習することが望ましい。

これらＩＳＭ部１、第１および第２減算部２、７、ＦＢＣ部３、加算部４、リワード部５およびＦＤＭ部６は、個別部品によって構成されても良く、あるいは、その一部または全部が各部の機能を実現するためのソフトウェアを備えたコンピュータによって構成されても良い。

このような構成の学習型制御装置Ｄでは、制御対象Ｃに応じてＦＤＭ部６の学習が行われた後に、最終的な姿勢である目標姿勢θ^ｄのみが入力され、その運用が開始される。運用が開始されると、ＦＤＭ部６によって制御対象Ｃの現在の運動状態Θ（ｔ）から将来の運動状態（予測状態θ^ｆｄｍ（ｔ＋△ｔ））が求められる。リワード部５によって予測状態θ^ｆｄｍ（ｔ＋△ｔ）に基づいて報酬ｒ（ｔ）が求められる。そして、ＦＢＣ部３のクリティック部３２によって報酬ｒ（ｔ）に基づいていわゆるＴＤ誤差δ（ｔ）が求められ、このＴＤ誤差δ（ｔ）に基づいてアクタ部３１およびクリティック部３２の強化学習が行われる。また、ＦＢＣ部３のアクタ部３１には、制御偏差として第１減算部２から目標姿勢θ^ｄと予測状態θ^ｆｄｍ（ｔ＋△ｔ）との差が入力され、フィードバック制御指令ｕ^{ａｃｔｏｒ}（ｔ）が求められる。このようにＦＢＣ部３にアクタークリティック法が用いられるので、教師信号なしで強化学習によってその入出力関係が最適化される。このため、制御対象Ｃの制御がより高精度に可能となる。一方、ＩＳＭ部１には、このフィードバック制御指令ｕ^{ａｃｔｏｒ}（ｔ）が教師信号として入力され、フィードバック誤差学習が行われる。そして、ＩＳＭ部１によって目標姿勢θ^ｄに基づいてフィードフォワード制御指令ｕ^ｉｓｍ（ｔ）が求められる。そして、加算部４によってこれらフィードバック制御指令ｕ^{ａｃｔｏｒ}（ｔ）とフィードフォワード制御指令ｕ^ｉｓｍ（ｔ）との和（制御指令）ｕ（ｔ）が操作量として求められ、制御対象Ｃへ出力される。制御対象Ｃは、この制御指令ｕ（ｔ）に基づいてその運動が行われる。

このような構成の学習型制御装置Ｄは、上述のＩＳＭ部１とＦＢＣ部３とを備えるので、制御対象Ｃの制御方法を学習することによって制御対象Ｃを制御することができる。その学習の初期段階では、主に、制御対象Ｃがフィードバック制御される一方で、学習後では、主に、制御対象Ｃがフィードフォワード制御される。そして、ＩＳＭ部１には、逆スタティックモデルが実装され、軌道が必要ではなく、最終的な姿勢である目標姿勢θ^ｄが入力されることで、前記学習によって獲得した入出力関係を用いて、制御対象Ｃを制御するための制御指令ｕ（ｔ）が得られる。このため、制御対象Ｃの制御方法を学習して制御するに当たって、背景技術のように、初期姿勢から目標姿勢に至るまでの制御対象Ｃの各姿勢における姿勢情報、速度情報および加速度情報の各情報が必要とされることなく、最終的な姿勢である目標姿勢θ^ｄのみでよい。よって、学習型制御装置Ｄは、制御対象を制御するに当たって、制御対象の最適化問題を解くことなく、近似解を得ることができ、その制御が可能となる。このため、本実施の形態では、制御対象がモデル化の難しい機構であっても制御対象とすることができる。また、初期姿勢から目標姿勢に至るまでの制御対象の各姿勢における前記各情報を与えることなく、目標姿勢θ^ｄのみを与えても、初期姿勢から目標姿勢まで滑らかな軌道で動作するように制御対象の制御が可能となる。

また、このような各姿勢における姿勢情報、速度情報および加速度情報の各演算が不要となることから、制御対象Ｃが高速に運動する場合でも、制御対象Ｃの制御が可能となることが期待される。

また、ＦＤＭ部６を備えるので、将来の運動状態（予測状態θ^ｆｄｍ（ｔ＋△ｔ））が予測され、ＦＢＣ部３には、目標状態θ^ｄと予測状態θ^ｆｄｍ（ｔ＋△ｔ）との差θ^ｅ（ｔ＋△ｔ）が制御偏差として入力されるから、制御対象が、より高速に動作する場合でも、あるいは、伝達関数に遅れ要素を備える場合でも、制御対象Ｃの制御が可能となり、また、高精度に制御対象Ｃの制御が可能となる。

本発明は、様々な制御対象Ｃに対して適用可能であるが、出力変数に対し冗長な入力変数を含み、入力変数と出力変数との間の入出力関係に非線形な関係が含まれる機構に好適である。このような機構の一例として、人の筋骨格系を模した機構がある。特に、運動に関与する人の筋骨格系は、筋肉が収縮して張力のみを発生するので、関節の角度を変えるために関節の両側に、一般に伸筋および屈筋と呼ばれる、互いに拮抗的に働く１対の筋肉が備わっている。このような人の筋骨格系を模した機構は、入力変数に冗長性を有すると共に入出力関係に非線形な関係を含むが、本実施形態の学習型制御装置Ｄは、目標姿勢θ^ｄのみで制御対象Ｃの制御方法を獲得し、そして、制御対象Ｃを制御可能であるので、学習型制御装置Ｄは、人の筋骨格系を模した機構に好適に適用される。

本実施形態では、人の筋骨格系を模した機構の一例として、以下に説明する人腕型ロボットＲを制御対象Ｃとした場合について説明する。

人腕型ロボットＲは、上腕に相当する所定長の第１アームと、下腕に相当する所定長の第２アームと、第１アームの一方端に接続され、肩関節に相当する第１連結部材と、第１アームの他方端に接続されると共に第２アームの一方端に接続され、肘関節に相当する第２連結部材と、第２アームの他方端に接続され、手首関節に相当する第３連結部材と、第１連結部材と第２連結部材とに接続され、第１連結部材を支点として第１アームを運動させるための人工筋肉Ａと、第２連結部材と第３連結部材とに接続され、第２連結部材を支点として第２アームを運動させるための人工筋肉Ｂとを備えて構成されている。

人工筋肉Ａ、Ｂは、制御指令ｕ（ｔ）に応じて張力を発生するアクチュエータであり、例えば、本実施形態では、電空レギュレータによって制御される空気圧式ゴム人工筋肉が利用される。空気圧Ｐの供給源は、コンプレッサが利用される。

図２は、空気圧式ゴム人工筋肉における空気圧と収縮率との関係を示す図である。図２の横軸は、ＭＰａ単位で表す空気圧であり、その縦軸は、収縮率である。ここで、この収縮率は、自然長からの収縮した割合である。●は、空気圧Ｐが増加する場合（ｐｒｅｓｓｕｒｉｚｅｄ）を示し、○は、空気圧Ｐが減衰する場合（ｄｅｐｒｅｓｓｕｒｉｚｅｄ）を示す。また、実線、破線および一点鎖線は、それぞれ、０．５ｋｇｆ、５ｋｇｆおよび１０ｋｇｆの重りを一方端に付けた場合である。この空気圧式ゴム人工筋肉は、図２に示すように、制御指令と筋張力との関係が非線形となっており、そして、ヒステリシス特性を有している。

本実施形態では、人工筋肉Ａ、Ｂとしてそれぞれ４本の空気圧式ゴム人工筋肉が利用されている。第１ないし第３連結部材は、それぞれ、２自由度を有している。そして、人工筋肉Ａにおける４本の空気圧式ゴム人工筋肉は、このうちの１組が肩関節および肘関節との間における屈筋および伸筋として機能して第１アームを２自由度のうちの一方の自由度方向へ運動するように第１連結部材と第２連結部材とに接続され、他の１組が肩関節および肘関節との間における屈筋および伸筋として機能して第１アームを２自由度のうちの他方の自由度方向へ運動するように第１連結部材と第２連結部材とに接続されている。また、人工筋肉Ｂにおける４本の空気圧式ゴム人工筋肉は、このうちの１組が肘関節および手首関節との間における屈筋および伸筋として機能して第２アームを２自由度のうちの一方の自由度方向へ運動するように第２連結部材と第３連結部材とに接続され、他の１組が肘関節および手首関節との間における屈筋および伸筋として機能して第２アームを２自由度のうちの他方の自由度方向へ運動するように第２連結部材と第３連結部材とに接続されている。

また、本実施形態では、これら４本の空気圧式ゴム人工筋肉を独立して制御することができるため、人腕型ロボットＲは、同一姿勢においても各空気圧式ゴム人工筋肉における各筋張力の解が複数存在するという冗長性を有している。

このような構成の人腕型ロボットＲを制御対象Ｃとした場合における図１に示す学習型制御装置Ｄの性能について以下に説明する。

人腕型ロボットＲの制御に先立って、まず、ＦＤＭ部６の学習が予めオフラインで行われる。学習は、教師データの個数が多いほど、予測精度は、向上する。例えば、教師データの個数が約３００個である場合では、角度の相関係数が約３０％で角速度の相関係数が約１０％であるが、教師データの個数が約１０００個である場合では、角度の相関係数が約６０％で角速度の相関係数が約３０％となる。本実施形態では、さらに予測精度を向上させるべく、学習型制御装置Ｄによって人腕型ロボットＲを制御しながら、ＦＤＭ部６の学習もリアルタイムで行われた。

次に、リワード部５で求められる報酬ｒ_ｐ（ｔ）は、人腕型ロボットＲに対応すべく、肘を或る目標角度に保持するように肘の角度に関して設定され、例えば、式１３によって与えられる。この式１３では、制御結果の角度が目標姿勢に相当する目標角度に近いほどより大きな報酬ｒ_ｐ（ｔ）が与えられる。

ここで、ｄ（ｔ）は、目標角度と時刻ｔにおける角度との差であり、ｋ_ｐ、ｓ_ｐは、所定の定数である。

そして、目標角度で静止するようにすべく、肘の速度に関する報酬ｒ_ｖ（ｔ）も設定される。この報酬ｒ_ｖ（ｔ）は、例えば、式１４によって与えられる。この式１４では、角速度が小さくなるほど大きな報酬ｒ_ｖ（ｔ）が与えられる。

ここで、ｖ（ｔ）は、角角度であり、ｋ_ｐ、ｓ_ｐは、所定の定数である。

図３は、速度に関する報酬がない場合における人腕型ロボットの制御結果を示す図である。図３の横軸は、秒（ｓｅｃ）単位で表す時間軸（ｔｉｍｅ）であり、その縦軸は、度（ｄｅｇ）単位で表す角度（ａｎｇｌｅ）である。図３（Ａ）は、目標角度が５度の場合を示し、図３（Ｂ）は、目標角度が１５度の場合を示し、そして、図３（Ｃ）は、目標角度が２５度の場合を示す。一点鎖線は、目標角度を示し、破線は、制御結果を示す。この肘の速度に関する報酬の項が無い場合には、例えば、図３（Ａ）〜（Ｃ）に示すように、目標角度付近で振動を繰り返し、目標角度に制御することが難しい。

さらに、学習の進行に従って学習型制御装置Ｄの制御をフィードバック制御からフィードフォワード制御へ移行させるために、目標角度においてＦＢＣ部３の制御指令、すなわち、本実施形態では、アクタ部３１の制御指令ｕ^{ａｃｔｏｒ}（ｔ）が０となる必要がある。したがって、制御方法の移行に関する報酬ｒ_{ｕ＿ａｃｔｏｒ}（ｔ）も設定される。この報酬ｒ_{ｕ＿ａｃｔｏｒ}（ｔ）は、負の値に設定され、例えば、式１５によって与えられる。この式１５では、アクタ部３１の制御指令ｕ^{ａｃｔｏｒ}（ｔ）の二乗に比例した負の値が報酬ｒ_{ｕ＿ａｃｔｏｒ}（ｔ）として設定される。

ここで、ｋ_{ｕ＿ａｃｔｏｒ}は、所定値の係数である。

以上より、リワード部５で求められる報酬ｒ（ｔ）は、式１６となる。

このような設定が行われた後に、学習型制御装置Ｄは、人腕型ロボットＲの制御方法を学習しながら制御を行った。この学習条件は、本実施形態では、例えば、人腕型ロボットＲにおける可動角度θ（ｔ）の範囲が０度以上３０度以下に設定され、角速度＜θ（ｔ）＞の範囲が−１５０度／秒以上１５０度／秒以下に設定された。目標角度θ^ｄは、５度、１５度、２５度の３点がランダム（無作為）に与えられ、試行回数は、２００回である。１試行は、６０秒とされ、試行中は、目標角度θ^ｄが一定にされ、初期角度θ（０）は、１試行前において到達した角度θ（ｔ）とされた。運動状態の観測は、１０ミリ秒ごとに、制御指令ｕ（ｔ）の更新と学習は、１００ミリ秒ごとに行われた。

そして、アクタ部３１の制御指令ｕ^{ａｃｔｏｒ}（ｔ）の範囲は、−０．３以上０．３以下に設定され、ＩＳＭ部１の制御指令ｕ^ｉｓｍ（ｔ）の範囲は、０．３以上０．７以下に設定された。上記各式のパラメータは、時定数γが０．１に、学習係数β_ｃが０．０３に、学習係数β_ａが０．３に、エリジビリティトレースの時定数ｋが０．０１にそれぞれ設定された。アクタ部３１の探索に関する定数は、σ_０が１．０に、ｓ_ｎが０．０２５に設定され、報酬に関する定数は、ｋ_ｐが０．７に、ｋ_ｖが０．３に、ｋ_{ｕ＿ａｃｔｏｒ}が０．１にそれぞれ設定された。これら各設定は、上述の人腕型ロボットＲの構造に基づいた設定であり、制御対象Ｃに応じて適宜に設定される。

図４は、実施形態の学習型制御装置における角度の制御結果を示す図である。図４の横軸は、秒（ｓｅｃ）単位で表す時間軸（ｔｉｍｅ）であり、その縦軸は、度（ｄｅｇ）単位で表す角度（ａｎｇｌｅ）である。図４（Ａ）は、目標角度が５度の場合を示し、図４（Ｂ）は、目標角度が１５度の場合を示し、そして、図４（Ｃ）は、目標角度が２５度の場合を示す。一点鎖線は、目標角度（ＧｏａｌＡｎｇｌｅ）を示し、実線は、学習後の軌道（ＬｅａｒｎｅｄＴｒａｊｅｃｔｏｒｙ）を示し、破線は、学習初期の軌道（ＢｅｇｉｎｉｎｇＴｒａｊｅｃｔｏｒｙ）を示す。

図４から分かるように、いずれの目標角度においても学習初期では、肘の角度は、目標角度に収束することなく、大きく振動している。そして、この大きく振動することによって探索が行われ、学習が進行する。学習後では、肘の角度は、２度以内の誤差でほぼ目標角度で静止している。目標角度に対応する手先位置で見ると、第２アームの長さが３７ｃｍであるから、目標位置から約１ｃｍ程度の差であり、学習型制御装置Ｄは、人腕型ロボットＲの手先位置をほぼ目標位置に制御している。なお、制御対象Ｃが例えば運動する運動機構を備える場合では、目標姿勢θ^ｄは、この運動機構の姿勢であり、運動機構の或る箇所に注目すればこの或る箇所の目標位置ともなる。

図４に示す例では、目標角度付近まで到達した後では、肘の角度は、それ以上ほとんど変化していない。このことは、学習型制御装置Ｄがこの状態の角度を適切と判断し、これ以上の探索をほぼ行わない状態になっていることを示している。したがって、この誤差は、到達後の肘の角度と目標角度との誤差がより小さい値となるまで探索ノイズを発生するように、強化学習における探索ノイズを設定することでより小さくすることが可能である。

図５は、実施形態の学習型制御装置における角速度の制御結果を示す図である。図５（Ａ）は、目標角度が５度の場合を示し、図５（Ｂ）は、目標角度が１５度の場合を示し、そして、図５（Ｃ）は、目標角度が２５度の場合を示す。図６は、躍度最小モデルによる角速度を示す図である。図７は、重力が作用する方向における肘の角速度の実測値を示す図である。図５ないし図７の横軸は、秒（ｓｅｃ）単位で表す時間軸（ｔｉｍｅ）であり、それら縦軸は、度／秒（ｄｅｇ／ｓｅｃ）単位で表す角速度（ａｎｇｕｌａｒｖｅｌｏｃｉｔｙ）である。

人の腕の運動は、躍度最小モデルによって良く再現することが知られている。この躍度最小モデルによる肘の角速度波形は、図６に示すようにベル型のプロファイルとなる。

この躍度最小モデルは、腕の水平方向における運動を扱っており、一方、上述の人腕型ロボットＲの場合では、重力が作用する方向の運動である。そのため、初期角度から重力加速度方向とは逆方向へ６０度（目標角度）まで腕を運動させた場合について実測された。実測による肘の角速度波形は、目標角度への到達時点（０．７秒付近）において、腕の慣性力を抑制するために、角速度のアンダーシュートが見られる。

学習型制御装置Ｄによって制御された人腕型ロボットＲの角速度は、図５と図６および図７とを比較すると分かるように、目標角度が５度の場合では、図５（Ａ）に示すように、ベル型になっており、また、目標角度が１５度や２５度の場合でも、図５（Ｂ）、（Ｃ）に示すように、アンダーシュートするまでは、ベル型になっている。そして、目標角度が１５度や２５度の場合では、図５（Ｂ）、（Ｃ）に示すように、アンダーシュートも見られる。

このように学習型制御装置Ｄでは、人に近い動作、学習が実現されていることも分かる。

本発明を表現するために、上述において図面を参照しながら実施形態を通して本発明を適切且つ十分に説明したが、当業者であれば上述の実施形態を変更及び/又は改良することは容易に為し得ることであると認識すべきである。従って、当業者が実施する変更形態又は改良形態が、請求の範囲に記載された請求項の権利範囲を離脱するレベルのものでない限り、当該変更形態又は当該改良形態は、当該請求項の権利範囲に包括されると解釈される。

実施形態における学習型制御装置の構成を示すブロック図である。空気圧式ゴム人工筋肉における空気圧と収縮率との関係を示す図である。速度に関する報酬がない場合における人腕型ロボットの制御結果を示す図である。実施形態の学習型制御装置における角度の制御結果を示す図である。実施形態の学習型制御装置における角速度の制御結果を示す図である。躍度最小モデルによる角速度を示す図である。重力が作用する方向における肘の角速度の実測値を示す図である。非特許文献１に開示の学習型制御装置の構成を示すブロック図である。

符号の説明

Ｃ制御対象
Ｄ、１０００学習型制御装置
１逆スタティックモデル部（フィードフォワード制御部）
２、７、１００２減算部
３、１００３フィードバック制御部
４、１００４加算部
５リワード部
６順ダイナミックスモデル部

Claims

制御対象の制御方法を学習することによって前記制御対象を制御する学習型制御装置であって、
前記制御対象をフィードフォワード制御するフィードフォワード制御部と、
前記制御対象をフィードバック制御するフィードバック制御部とを備え、
前記フィードフォワード制御部は、前記フィードバック制御部の制御指令を教師信号として入出力関係を学習すると共に、前記制御対象の目標姿勢が入力され前記目標姿勢を実現するための制御指令を出力すること
を特徴とする学習型制御装置。
前記制御対象における現在の運動状態に基づいて前記制御対象における所定時間経過後の将来の運動状態を予測状態として予測する順ダイナミックスモデル部と、
前記順ダイナミックスモデル部で予測した予測状態と前記目標姿勢との差を制御偏差として前記フィードバック制御部へ出力する減算部とをさらに備えること
を特徴とする請求項１に記載の学習型制御装置。
前記フィードバック制御部は、強化学習が用いられていること
を特徴とする請求項１または請求項２に記載の学習型制御装置。
前記順ダイナミックスモデル部は、前記制御対象の運動状態と当該順ダイナミックスモデル部で予測した予測状態との差を教師信号として入出力関係を学習すること
を特徴とする請求項２または請求項３に記載の学習型制御装置。
前記制御対象は、出力変数に対し冗長な入力変数を含み、入力変数と出力変数との間の入出力関係に非線形な関係が含まれる機構であること
を特徴とする請求項１ないし請求項４の何れか１項に記載の学習型制御装置。
前記制御対象は、人の筋骨格系を模した機構であること
を特徴とする請求項５に記載の学習型制御装置。
制御対象の制御方法を学習することによって前記制御対象を制御する学習型制御方法であって、
フィードフォワード制御部によって前記制御対象をフィードフォワード制御するフィードフォワード工程と、
フィードバック制御部によって前記制御対象をフィードバック制御するフィードバック工程とを備え、
前記フィードフォワード工程は、前記フィードバック制御部の制御指令を教師信号として前記フィードフォワード制御部の入出力関係を学習する第１工程と、
前記制御対象の目標姿勢が入力され前記目標姿勢を実現するための制御指令を出力する第２工程とを備えること
を特徴とする学習型制御方法。