JP2008305064A - 学習型制御装置および該方法 - Google Patents

学習型制御装置および該方法 Download PDF

Info

Publication number
JP2008305064A
JP2008305064A JP2007150329A JP2007150329A JP2008305064A JP 2008305064 A JP2008305064 A JP 2008305064A JP 2007150329 A JP2007150329 A JP 2007150329A JP 2007150329 A JP2007150329 A JP 2007150329A JP 2008305064 A JP2008305064 A JP 2008305064A
Authority
JP
Japan
Prior art keywords
control
target
unit
learning
feedback
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007150329A
Other languages
English (en)
Inventor
Yasuharu Koike
康晴 小池
Hiroyuki Kanbara
裕行 神原
Takaue Kin
敬植 金
Takehiro Tsukamoto
雄大 塚本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Agency
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Agency filed Critical Japan Science and Technology Agency
Priority to JP2007150329A priority Critical patent/JP2008305064A/ja
Publication of JP2008305064A publication Critical patent/JP2008305064A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

【課題】本発明は、目標軌道を必要とすることなく、目標姿勢を与えるだけで制御対象を制御可能な学習型制御装置および該方法を提供する。
【解決手段】本発明では、制御対象Cの制御方法を学習することによって制御対象Cを制御する学習型制御装置Dであって、制御対象Cをフィードフォワード制御するフィードフォワード制御部として機能する逆スタティックモデル部1と、制御対象Cをフィードバック制御するフィードバック制御部3とを備え、逆スタティックモデル部1は、フィードバック制御部3の制御指令uactor(t)を教師信号として入出力関係を学習すると共に、制御対象Cの目標姿勢が入力されこの目標姿勢を実現するための制御指令uism(t)を出力する。
【選択図】図1

Description

本発明は、制御対象の制御方法を学習することによってこの制御対象を制御する学習型制御装置および学習型制御方法に関する。
ロボット技術(ロボティクス)は、研究、開発が進展し、近年では、外観上、人に近い動作を行うことができるヒューマノイド型ロボットも開発されている。このヒューマノイド型ロボットでは、高精度な位置制御を行って人に近い動作を実現するために、例えばサーボモータのような動作特性の既知なアクチュエータを1関節に1個用いた機構が採用されており、そして、軌道、運動速度および加速度などの動作データが予め与えられている。
このようなヒューマノイド型ロボットでは、機構の点で、1関節に伸筋および屈筋という2個のアクチュエータが用いられている人の筋骨格系とは、異なっており、そして、運動制御の点でも、動作データが予め与えられている訳ではなく、試行錯誤を繰り返して学習することによって制御方法を獲得する人の脳とは、大きく異なっている。
そこでは、本願の一部の発明者は、人の筋骨格系を模した機構を学習によって制御する手法を例えば非特許文献1に提案している。
図8は、非特許文献1に開示の学習型制御装置の構成を示すブロック図である。図8において、この学習型制御装置1000は、目標軌道θが入力され制御対象(Controlled Object)Cにおいて前記目標軌道θを実現するためのフィードフォワード制御指令uffを出力する逆ダイナミックスモデル部1001と、目標軌道θと制御対象Cによって実現された軌道θとの軌道誤差θを求める減算部1002と、減算部1002で求められた前記軌道誤差θが入力され前記軌道誤差θを小さくするためのフィードバック制御指令ufbを出力するフィードバック制御部1003と、前記制御対象Cの制御指令uとして前記逆ダイナミックスモデル部1001のフィードフォワード制御指令uffと前記フィードバック制御部1003のフィードバック制御指令ufbとを加算する加算部1004とを備える。前記フィードバック制御部1003は、強化学習の1つであるアクタ−クリティック(Actor−Critic)法が用いられ、行動を決定するアクタ(Actor)部1031と、状態価値を計算するクリティック(Critic)部1032とを備える。このクリティック部1032は、制御対象Cの軌道θによって与えられる報酬rに基づきTD誤差を計算してアクタ部1031の強化学習を行う。そして、逆ダイナミックスモデル部1001は、前記TD誤差に応じて逆ダイナミックスモデルの学習係数を変化させるゲート(Gate)部1005を介して、アクタ部1031のフィードバック制御指令ufbを教師信号として学習を行う。このような構成の学習型制御装置1000では、学習の初期段階では、主に、フィードバック制御部1003のフィードバック制御指令ufbによって制御対象Cがフィードバック制御され、学習が進むにつれフィードバック制御指令ufbが小さくなり、最終的には、逆ダイナミックスモデル部1001のフィードフォワード制御指令uffによって制御対象Cがフィードフォワード制御される。
神原裕行、Jaehyo KIM、佐藤誠、小池康晴、「強化学習とフィードバック誤差学習を用いた腕の姿勢制御」、電子情報通信学会論文誌 2006/5、Vol.J89−D、No.5、pp1036−1048
ところで、前記学習型制御装置1000では、逆ダイナミックスモデル部1001を備えているため、目標軌道θ、すなわち、目標位置、目標速度および目標加速度などの各情報を逐次与える必要があり、制御対象Cを目標位置まで移動する場合に、常に軌道を計算しながら制御しなければならないという不都合があった。
本発明は、上述の事情に鑑みて為された発明であり、その目的は、目標軌道を必要とすることなく、目標姿勢を与えるだけで制御対象を制御可能な学習型制御装置および学習型制御方法を提供することである。
本発明者は、種々検討した結果、上記目的は、以下の本発明により達成されることを見出した。すなわち、本発明に係る一態様では、制御対象の制御方法を学習することによって前記制御対象を制御する学習型制御装置であって、前記制御対象をフィードフォワード制御するフィードフォワード制御部と、前記制御対象をフィードバック制御するフィードバック制御部とを備え、前記フィードフォワード制御部は、前記フィードバック制御部の制御指令を教師信号として入出力関係を学習すると共に、前記制御対象の目標姿勢が入力され前記目標姿勢を実現するための制御指令を出力することを特徴とする。そして、本発明に係る他に一態様では、制御対象の制御方法を学習することによって前記制御対象を制御する学習型制御方法であって、フィードフォワード制御部によって前記制御対象をフィードフォワード制御するフィードフォワード工程と、フィードバック制御部によって前記制御対象をフィードバック制御するフィードバック工程とを備え、前記フィードフォワード工程は、前記フィードバック制御部の制御指令を教師信号として前記フィードフォワード制御部の入出力関係を学習する第1工程と、前記制御対象の目標姿勢が入力され前記目標姿勢を実現するための制御指令を出力する第2工程とを備えることを特徴とする。
このような構成では、フィードフォワード制御部がフィードバック制御部の制御指令を教師信号としてその入出力関係を学習するので、学習の初期段階では、主に、制御対象がフィードバック制御される一方で、学習後では、主に、制御対象がフィードフォワード制御される。そして、フィードフォワード制御部は、制御対象の目標姿勢が入力され、前記学習によって獲得した入出力関係を用いて、この入力された目標姿勢からこの目標姿勢を実現するための制御指令を出力する。このため、制御対象の制御方法を学習して制御するに当たって、背景技術のように、初期姿勢から目標姿勢に至るまでの制御対象の各姿勢における姿勢情報、速度情報および加速度情報の各情報が必要とされることなく、最終的な姿勢である目標姿勢のみでよい。よって、本発明は、制御対象を制御するに当たって、制御対象の最適化問題を解くことなく、近似解を得ることができ、その制御が可能となる。このため、本発明では、制御対象がモデル化の難しい機構であっても制御対象とすることができる。また、初期姿勢から目標姿勢に至るまでの制御対象の各姿勢における前記各情報を与えることなく、目標姿勢のみを与えても、このような構成では、初期姿勢から目標姿勢まで滑らかな軌道で動作するように制御対象の制御が可能となる。
そして、上述の学習型制御装置において、前記制御対象における現在の運動状態に基づいて前記制御対象における所定時間経過後の将来の運動状態を予測状態として予測する順ダイナミックスモデル部と、前記順ダイナミックスモデル部で予測した予測状態と前記目標姿勢との差を制御偏差として前記フィードバック制御部へ出力する減算部とをさらに備えることを特徴とする。
この構成によれば、順ダイナミックスモデル部によって将来の運動状態が予測状態として予測され、減算部によってこの予測状態と目標姿勢との差が制御偏差としてフィードバック制御部へ出力される。このため、制御対象が比較的高速に運動する場合でも、あるいは、伝達関数に遅れ要素を備える制御対象でも、制御対象の制御が可能となり、また、高精度にその制御が可能となる。
そして、これら上述の学習型制御装置において、前記フィードバック制御部は、強化学習が用いられていることを特徴とする。
この構成によれば、フィードバック制御部に、例えばアクタークリティック法などの強化学習が用いられるので、教師信号なしでその入出力関係が最適化される。このため、制御対象の制御がより高精度に可能となる。
そして、これら上述の学習型制御装置において、前記順ダイナミックスモデル部は、前記制御対象の運動状態と当該順ダイナミックスモデル部で予測した予測状態との差を教師信号として入出力関係を学習することを特徴とする。
この構成によれば、順ダイナミックスモデル部がその入出力関係を学習するので、学習型制御装置の運用中に順ダイナミックスモデル部の入出力関係がさらに最適化される。このため、制御対象の制御がより高精度に可能となる。
そして、これら上述の学習型制御装置において、前記制御対象は、出力変数に対し冗長な入力変数を含み、入力変数と出力変数との間の入出力関係に非線形な関係が含まれる機構であることを特徴とする。前記制御対象は、好ましくは、人の筋骨格系を模した機構である。
出力変数に対し冗長な入力変数を含み、入力変数と出力変数との間の入出力関係に非線形な関係が含まれる機構は、ロボット技術を用いてもモデル化が難しい。このため、従来では、このような機構を制御対象とすることが困難であった。本発明は、上述のように、目標姿勢のみで制御対象の制御方法を学習によって獲得し、そして、目標姿勢のみで制御対象を制御可能である。このため、このような機構であっても制御が可能となるので、本発明の学習型制御装置および該方法は、このような機構に好適に適用される。そして、人の筋骨格系を模した機構は、入力変数に冗長性を有すると共に入出力関係に非線形な関係を含むので、このような機構の一例として挙げることができ、本発明の学習型制御装置は、人の筋骨格系を模した機構に好適に適用される。
本発明の学習型制御装置および学習型制御方法では、目標軌道を必要とすることなく、目標姿勢を与えるだけで制御対象の制御方法が獲得され、この獲得した制御方法によって制御対象の制御が可能となる。
以下、本発明に係る実施の一形態を図面に基づいて説明する。なお、各図において同一の符号を付した構成は、同一の構成であることを示し、その説明を省略する。
図1は、実施形態における学習型制御装置の構成を示すブロック図である。図1において、この学習型制御装置Dは、制御対象をフィードフォワード制御するフィードフォワード制御部と、制御対象をフィードバック制御するフィードバック制御部とを備え、フィードフォワード制御部は、フィードバック制御部の制御指令を教師信号として入出力関係を学習すると共に、制御対象の目標姿勢が入力され目標姿勢を実現するための制御指令を出力するものである。
本実施形態では、学習型制御装置Dは、フィードフォワード制御部として機能する逆スタティックモデル(Inverse Statics Model)部(以下、「ISM部」と略記する。)1と、第1減算部2と、フィードバック制御部(以下、「FBC部」と略記する。)3と、加算部4と、リワード(Reward)部5と、順ダイナミックスモデル(Forward Dynamics MOdel)部(以下、「FDM部」と略記する。)6と、第2減算部7とを備え、制御対象Cの制御方法を学習することによって制御対象Cの運動を制御する。
第1減算部2は、目標状態θとFDM部6から出力される予測状態θfdm(t+△t)との差(予測状態誤差)θ(t+△t)を制御偏差として求めるものである。
状態θは、制御量であり、制御対象Cの動作状態を表現するものである。例えば、制御対象Cが人の筋骨格系を模した機構である場合、より具体的には、例えば、第1および第2アームと、これら第1アームと第2アームとを運動可能に連結する連結部(関節部)と、運動方向における一方向に第1アームと第2アームとを運動させるための第1人工筋肉と、この運動方向における前記一方向に対して逆方向に第1アームと第2アームとを運動させるための第2人工筋肉とを備える機構である場合では、状態θは、連結部(関節部)の角度および角速度である。そして、本実施形態では、目標値である目標状態θでは、この角速度が常に0であり、角度のみが与えられる。すなわち、本実施形態の学習型制御装置Dでは、最終的な姿勢である、実現すべき制御対象Cの目標姿勢のみが与えられる。
FBC部3は、第1減算部2から出力される予測状態誤差θ(t+△t)が入力され、この予測状態誤差θ(t+△t)を小さくするように、制御対象Cの運動状態を制御する制御指令uactor(t)をフィードバック制御指令として出力するものである。
本実施形態では、FBC部3には、TD誤差を用いた学習方法の一つであるいわゆるアクタ−クリティック(Actor−Critic)法が用いられている。アクタ−クリティック法とは、強化学習の枠組みの一つであり、例えば、R.S.Sutton and A.G.Barto,Reinforcment learning,MIT Press,Cambridge,MA,1998.に開示されているように、状態価値を計算するクリティック(Critic)と、行動を決定するアクタ(Actor)とを備え、与えられる報酬rから計算されるTD誤差と呼ばれる強化信号によってそれぞれの学習を行う手法である。
すなわち、本実施形態では、FBC部3は、このアクタ−クリティック法におけるアクタを実装したアクタ(Actor)部31と、このアクタ−クリティック法におけるクリティックを実装したおよびクリティック(Critic)部32とを備えて構成される。
クリティック部32は、制御対象Cの運動状態を評価するものであり、第1減算部2から出力される予測状態誤差θ(t+△t)とリワード部5から出力される報酬r(t)とが入力され、これら予測状態誤差θ(t+△t)と報酬r(t)とに基づいてTD誤差δ(t)を計算し、TD誤差δ(t)を強化信号として、制御対象Cの運動状態における評価値V(θ(t))を将来得られる報酬r(t)の期待値と略等しくなるように学習するものである。
アクタ部31は、制御対象Cの運動状態を決定するものであり、第1減算部2から出力される予測状態誤差θ(t+△t)が入力され、この予測状態誤差θ(t+△t)を小さくするように、制御対象Cの運動状態を制御する制御指令uactor(t)を出力し、クリティック部32で計算されたTD誤差δ(t)を強化信号として、制御対象Cの運動状態における評価値V(θ(t))が最大になるような制御対象Cの運動状態を学習するものである。
本実施形態では、制御対象Cの運動状態と時間とは連続値であるため、連続時間・状態TD学習法が用いられ、そのため、アクタ−クリティック法の関数近似には、後述するように、正規化ガウス関数ネットワーク(Normalized Gaussian network、以下、「NGnet」と略記する。)が用いられる。
より具体的には、リワード部5によって求められる報酬r(t)は、或る時刻tにおける制御対象Cの運動状態x(t)と制御指令u(t)との関数として式1のように与えられるとする。
Figure 2008305064
なお、報酬r(t)の具体的な式は、制御対象Cに応じて適宜に設定され、その一例として、後述の人腕型ロボットRの場合について後述する。
制御対象Cにおける運動状態x(t)の評価関数Vμ(θ(t))は、u(t)=μ(t)のもとで、この報酬r(t)を用いて式2のように定義される。u(t)は、運動指令であり、μ(t)は、制御則である。
Figure 2008305064
ここで、θ(t)は、ベクトル量であり、また、γは、報酬r(t)の時定数である。また、運動状態x(t)は、制御対象Cの状態を示し、θ(t)、θ(t)の時間tにおける1階微分などである。
クリティック部32から出力されるTD誤差δ(t)は、式3によって計算される。
Figure 2008305064
ここで、V(θ(t))は、評価関数Vμ(θ(t))の予測値であり、本実施形態では、NGnetを用いて、式4のように近似される。
Figure 2008305064
そして、クリティック部32の学習は、式5によって行われる。すなわち、式5は、クリティック部32の重み<v>の更新式である。
Figure 2008305064
ここで、βは、クリティック部32の学習係数であり、e(t)は、i番目のエリジビリティトレース(eligibility trace)である。エリジビリティトレースの更新式<e(t)>は、式6によって与えられる。
Figure 2008305064
ここで、κは、エリジビリティトレースe(t)の時定数である。
一方、アクタ部31の出力uactor(t)は、NGnetを用いて式7によって計算される。
Figure 2008305064
ここで、制御対象Cが人の筋骨格系を模した機構である場合において、uactor (t)は、j番目の筋へのアクタ部31の制御指令であり、umax は、j番目の筋の最大値であり、ubias は、j番目の筋のバイアス出力である。バイアス出力とは、アクタの出力uactor を正負両方に出力するための値である。Nは、NGnetを構成する基底関数b (θ(t))の数であり、wjiは、重みであり、g()は、シグモイド関数である。シグモイド関数は、アクタ部31の出力を飽和とするために用いられている。σn(t)は、アクタ部31の制御指令を探索するためのノイズを表しており、σは、ノイズの大きさを調整するための定数であり、例えば、式8によって与えられ、n(t)は、標準偏差が1で平均が0の標準正規乱数によって与えられる。
Figure 2008305064
ここで、σ、sは、所定の定数である。
そして、アクタ部31の学習は、式9によって行われる。すなわち、式9は、アクタ部31の重み<wji>の更新式である。
Figure 2008305064
ここで、βは、アクタ部31の学習係数である。
リワード部5は、FDM部6から出力される予測状態θfdm(t+△t)に基づいて報酬r(t)を求めるものである。より具体的には、上述したように、リワード部5は、上記式1によって報酬r(t)を計算する。
逆スタティックモデルとは、制御対象Cに対して逆の入出力関係を持つシステムであり、入力として目標姿勢を受け取り、出力としてその目標姿勢を実現するための制御指令を計算するシステムである。一方、逆ダイナミックスモデルとは、制御対象Cに対して逆の入出力関係を持つシステムであり、入力として軌道を受け取り、出力としてその軌道を実現するための制御指令を計算するシステムである。本実施形態では、フィードフォワード制御部として、背景技術のように逆ダイナミックスモデルが用いられるのではなく、逆スタティックモデルが用いられている点に一特徴があり、ISM部1として逆スタティックモデルが学習型制御装置Dに実装されている。
また、フィードバック誤差学習は、例えば、「M.Kawato,K.Furukawa,and R.Suzuki,“A hierarchical neural−network model for control and learning of voluntary movement,”,Biological Cybern.,vol.57,pp.169−185,1987.」に開示されているように、フィードバック制御器の出力とフィードフォワード制御器の出力とを用いて制御が行われ、同時にフィードバック制御器の出力を教師信号としてフィードフォワード制御器の学習が行われる手法である。本実施形態では、フィードフォワード制御器として上述のように逆スタティックモデルが用いられているので、フィードバック制御器の出力を教師信号として逆スタティックモデルの学習が行われる点にも一特徴がある。
すなわち、ISM部1は、制御対象Cのダイナミックスにおける静力学的な部分を表現するものであり、目標姿勢である目標状態θが入力され制御対象Cにおいてこの目標状態θを実現するための制御指令uism(t)をフィードフォワード制御指令として出力すると共に、FBC部3の制御指令、本実施形態では、アクタ部31の制御指令uactor(t)を誤差信号として学習するものである。
より具体的には、ISM部1の制御指令uism(t)は、式10によって計算される。
Figure 2008305064
ここで、制御対象Cが人の筋骨格系を模した機構である場合において、uism (t)は、j番目の筋へのISM部1の制御指令であり、uism−max は、j番目の制御指令の最大値である。Nは、NGnetを構成する基底関数b(θ(t))の数であり、qjiは、重みであり、g()は、シグモイド関数である。
ISM部1の学習は、式11によって行われる。すなわち、式11は、ISM部1の重み<qji>の更新式である。
Figure 2008305064
ここで、αは、アクタ−クリティック法のTD誤差δ(t)によって定まる学習係数であり、式12によって与えられる。
Figure 2008305064
ここで、|δ|は、一回前の試行中の各時刻tにおけるTD誤差δ(t)の絶対値の平均であり、α、slrは、所定の定数である。
加算部4は、ISM部1の制御指令uusm(t)とFBC部3の制御指令uactor(t)との和(制御指令)u(t)を操作量として求めるものである。
第2減算部7は、制御対象Cの現在の運動状態θ(t+△t)とFDM部6から出力される制御対象Cの予測状態θfdm(t+△t)との差を求めるものである。
FDM部6は、加算部4から出力される制御指令u(t)および制御対象Cの現在の運動状態に基づいて制御対象Cにおける所定時間経過後の将来の運動状態を予測し、この予測した予測状態θfdm(t+△t)を出力するものである。このようにFDM部6がフィードバックの過程に用いられることで、制御対象Cに動作遅延が存在する場合に、その遅延が補償可能となる。
そして、FDM部6は、制御対象Cの運動状態と当該FDM部6で予測した予測状態θfdm(t+△t)との差を教師信号として入出力関係を学習するものである。本実施形態では、例えば、FDM部6には、3層ニューラルネットワークが用いられる。制御対象Cが後述の人腕型ロボットRの場合では、入力層は、角度Θ(t)、角速度<Θ(t)>、人工筋肉に加わる空気圧P(t)fl、P(t)exおよび空電レギュレータへの入力電圧ufl(t)、uex(t)の6個であり、中間層数は、10個とされ、出力層は、△t後における将来の角度Θ(t+△t)および角速度<Θ(t+△t)>の2個である。なお、P(t)flは、伸筋の空気圧P(t)であり、P(t)exは、屈筋の空気圧P(t)であり、ufl(t)は、伸筋の入力電圧u(t)であり、uex(t)は、屈筋の入力電圧u(t)である。このニューラルネットワークの重みの更新には、第2減算部7で求められ制御対象Cの現在の運動状態θ(t+△t)とFDM部6から出力される制御対象Cの予測状態θfdm(t+△t)との差に基づいていわゆるバックプロパゲーション(back−propagation)法を用いて行われる。△tは、制御対象Cに入力信号を与えてから運動状態が収束するまでの時間である。△tは、実験的に設定され、例えば、制御対象Cが後述の人腕型ロボットRの場合では、入力信号u(t)の最大値umaxを用いたステップ応答から1秒に設定された。そして、制御対象Cに対して予め学習が行われ、FDM部6は、学習型制御装置Dに組み込まれる。学習は、制御対象Cに適当な制御指令を与え、これによって得られた制御対象Cの運動状態のデータを用いて行われる。将来の運動状態の予測手法としては、現在の時点から予測すべき将来の時点まで予測を複数回繰り返すことによって予測すべき将来の時点における運動状態を予測する手法と、予測すべき将来の時点における運動状態を1回でダイレクトに予測する手法とがある。例えば、1秒後の運動状態を予測する場合、前者では、現在の運動状態から例えば100msec間隔で10回の予測を繰り返すことで1秒後の運動状態が予測され、後者では、現在の運動状態から1回の予測で1秒後の運動状態が予測される。前者の手法では、予測のたびに誤差が蓄積する場合があるので、後者の手法が望ましい。なお、FDM部6は、その入出力関係をさらに最適化してその制御の精度を向上するために、学習型制御装置Dの運用中も学習することが望ましい。
これらISM部1、第1および第2減算部2、7、FBC部3、加算部4、リワード部5およびFDM部6は、個別部品によって構成されても良く、あるいは、その一部または全部が各部の機能を実現するためのソフトウェアを備えたコンピュータによって構成されても良い。
このような構成の学習型制御装置Dでは、制御対象Cに応じてFDM部6の学習が行われた後に、最終的な姿勢である目標姿勢θのみが入力され、その運用が開始される。運用が開始されると、FDM部6によって制御対象Cの現在の運動状態Θ(t)から将来の運動状態(予測状態θfdm(t+△t))が求められる。リワード部5によって予測状態θfdm(t+△t)に基づいて報酬r(t)が求められる。そして、FBC部3のクリティック部32によって報酬r(t)に基づいていわゆるTD誤差δ(t)が求められ、このTD誤差δ(t)に基づいてアクタ部31およびクリティック部32の強化学習が行われる。また、FBC部3のアクタ部31には、制御偏差として第1減算部2から目標姿勢θと予測状態θfdm(t+△t)との差が入力され、フィードバック制御指令uactor(t)が求められる。このようにFBC部3にアクタークリティック法が用いられるので、教師信号なしで強化学習によってその入出力関係が最適化される。このため、制御対象Cの制御がより高精度に可能となる。一方、ISM部1には、このフィードバック制御指令uactor(t)が教師信号として入力され、フィードバック誤差学習が行われる。そして、ISM部1によって目標姿勢θに基づいてフィードフォワード制御指令uism(t)が求められる。そして、加算部4によってこれらフィードバック制御指令uactor(t)とフィードフォワード制御指令uism(t)との和(制御指令)u(t)が操作量として求められ、制御対象Cへ出力される。制御対象Cは、この制御指令u(t)に基づいてその運動が行われる。
このような構成の学習型制御装置Dは、上述のISM部1とFBC部3とを備えるので、制御対象Cの制御方法を学習することによって制御対象Cを制御することができる。その学習の初期段階では、主に、制御対象Cがフィードバック制御される一方で、学習後では、主に、制御対象Cがフィードフォワード制御される。そして、ISM部1には、逆スタティックモデルが実装され、軌道が必要ではなく、最終的な姿勢である目標姿勢θが入力されることで、前記学習によって獲得した入出力関係を用いて、制御対象Cを制御するための制御指令u(t)が得られる。このため、制御対象Cの制御方法を学習して制御するに当たって、背景技術のように、初期姿勢から目標姿勢に至るまでの制御対象Cの各姿勢における姿勢情報、速度情報および加速度情報の各情報が必要とされることなく、最終的な姿勢である目標姿勢θのみでよい。よって、学習型制御装置Dは、制御対象を制御するに当たって、制御対象の最適化問題を解くことなく、近似解を得ることができ、その制御が可能となる。このため、本実施の形態では、制御対象がモデル化の難しい機構であっても制御対象とすることができる。また、初期姿勢から目標姿勢に至るまでの制御対象の各姿勢における前記各情報を与えることなく、目標姿勢θのみを与えても、初期姿勢から目標姿勢まで滑らかな軌道で動作するように制御対象の制御が可能となる。
また、このような各姿勢における姿勢情報、速度情報および加速度情報の各演算が不要となることから、制御対象Cが高速に運動する場合でも、制御対象Cの制御が可能となることが期待される。
また、FDM部6を備えるので、将来の運動状態(予測状態θfdm(t+△t))が予測され、FBC部3には、目標状態θと予測状態θfdm(t+△t)との差θ(t+△t)が制御偏差として入力されるから、制御対象が、より高速に動作する場合でも、あるいは、伝達関数に遅れ要素を備える場合でも、制御対象Cの制御が可能となり、また、高精度に制御対象Cの制御が可能となる。
本発明は、様々な制御対象Cに対して適用可能であるが、出力変数に対し冗長な入力変数を含み、入力変数と出力変数との間の入出力関係に非線形な関係が含まれる機構に好適である。このような機構の一例として、人の筋骨格系を模した機構がある。特に、運動に関与する人の筋骨格系は、筋肉が収縮して張力のみを発生するので、関節の角度を変えるために関節の両側に、一般に伸筋および屈筋と呼ばれる、互いに拮抗的に働く1対の筋肉が備わっている。このような人の筋骨格系を模した機構は、入力変数に冗長性を有すると共に入出力関係に非線形な関係を含むが、本実施形態の学習型制御装置Dは、目標姿勢θのみで制御対象Cの制御方法を獲得し、そして、制御対象Cを制御可能であるので、学習型制御装置Dは、人の筋骨格系を模した機構に好適に適用される。
本実施形態では、人の筋骨格系を模した機構の一例として、以下に説明する人腕型ロボットRを制御対象Cとした場合について説明する。
人腕型ロボットRは、上腕に相当する所定長の第1アームと、下腕に相当する所定長の第2アームと、第1アームの一方端に接続され、肩関節に相当する第1連結部材と、第1アームの他方端に接続されると共に第2アームの一方端に接続され、肘関節に相当する第2連結部材と、第2アームの他方端に接続され、手首関節に相当する第3連結部材と、第1連結部材と第2連結部材とに接続され、第1連結部材を支点として第1アームを運動させるための人工筋肉Aと、第2連結部材と第3連結部材とに接続され、第2連結部材を支点として第2アームを運動させるための人工筋肉Bとを備えて構成されている。
人工筋肉A、Bは、制御指令u(t)に応じて張力を発生するアクチュエータであり、例えば、本実施形態では、電空レギュレータによって制御される空気圧式ゴム人工筋肉が利用される。空気圧Pの供給源は、コンプレッサが利用される。
図2は、空気圧式ゴム人工筋肉における空気圧と収縮率との関係を示す図である。図2の横軸は、MPa単位で表す空気圧であり、その縦軸は、収縮率である。ここで、この収縮率は、自然長からの収縮した割合である。●は、空気圧Pが増加する場合(pressurized)を示し、○は、空気圧Pが減衰する場合(depressurized)を示す。また、実線、破線および一点鎖線は、それぞれ、0.5kgf、5kgfおよび10kgfの重りを一方端に付けた場合である。この空気圧式ゴム人工筋肉は、図2に示すように、制御指令と筋張力との関係が非線形となっており、そして、ヒステリシス特性を有している。
本実施形態では、人工筋肉A、Bとしてそれぞれ4本の空気圧式ゴム人工筋肉が利用されている。第1ないし第3連結部材は、それぞれ、2自由度を有している。そして、人工筋肉Aにおける4本の空気圧式ゴム人工筋肉は、このうちの1組が肩関節および肘関節との間における屈筋および伸筋として機能して第1アームを2自由度のうちの一方の自由度方向へ運動するように第1連結部材と第2連結部材とに接続され、他の1組が肩関節および肘関節との間における屈筋および伸筋として機能して第1アームを2自由度のうちの他方の自由度方向へ運動するように第1連結部材と第2連結部材とに接続されている。また、人工筋肉Bにおける4本の空気圧式ゴム人工筋肉は、このうちの1組が肘関節および手首関節との間における屈筋および伸筋として機能して第2アームを2自由度のうちの一方の自由度方向へ運動するように第2連結部材と第3連結部材とに接続され、他の1組が肘関節および手首関節との間における屈筋および伸筋として機能して第2アームを2自由度のうちの他方の自由度方向へ運動するように第2連結部材と第3連結部材とに接続されている。
また、本実施形態では、これら4本の空気圧式ゴム人工筋肉を独立して制御することができるため、人腕型ロボットRは、同一姿勢においても各空気圧式ゴム人工筋肉における各筋張力の解が複数存在するという冗長性を有している。
このような構成の人腕型ロボットRを制御対象Cとした場合における図1に示す学習型制御装置Dの性能について以下に説明する。
人腕型ロボットRの制御に先立って、まず、FDM部6の学習が予めオフラインで行われる。学習は、教師データの個数が多いほど、予測精度は、向上する。例えば、教師データの個数が約300個である場合では、角度の相関係数が約30%で角速度の相関係数が約10%であるが、教師データの個数が約1000個である場合では、角度の相関係数が約60%で角速度の相関係数が約30%となる。本実施形態では、さらに予測精度を向上させるべく、学習型制御装置Dによって人腕型ロボットRを制御しながら、FDM部6の学習もリアルタイムで行われた。
次に、リワード部5で求められる報酬r(t)は、人腕型ロボットRに対応すべく、肘を或る目標角度に保持するように肘の角度に関して設定され、例えば、式13によって与えられる。この式13では、制御結果の角度が目標姿勢に相当する目標角度に近いほどより大きな報酬r(t)が与えられる。
Figure 2008305064
ここで、d(t)は、目標角度と時刻tにおける角度との差であり、k、sは、所定の定数である。
そして、目標角度で静止するようにすべく、肘の速度に関する報酬r(t)も設定される。この報酬r(t)は、例えば、式14によって与えられる。この式14では、角速度が小さくなるほど大きな報酬r(t)が与えられる。
Figure 2008305064
ここで、v(t)は、角角度であり、k、sは、所定の定数である。
図3は、速度に関する報酬がない場合における人腕型ロボットの制御結果を示す図である。図3の横軸は、秒(sec)単位で表す時間軸(time)であり、その縦軸は、度(deg)単位で表す角度(angle)である。図3(A)は、目標角度が5度の場合を示し、図3(B)は、目標角度が15度の場合を示し、そして、図3(C)は、目標角度が25度の場合を示す。一点鎖線は、目標角度を示し、破線は、制御結果を示す。この肘の速度に関する報酬の項が無い場合には、例えば、図3(A)〜(C)に示すように、目標角度付近で振動を繰り返し、目標角度に制御することが難しい。
さらに、学習の進行に従って学習型制御装置Dの制御をフィードバック制御からフィードフォワード制御へ移行させるために、目標角度においてFBC部3の制御指令、すなわち、本実施形態では、アクタ部31の制御指令uactor(t)が0となる必要がある。したがって、制御方法の移行に関する報酬ru_actor(t)も設定される。この報酬ru_actor(t)は、負の値に設定され、例えば、式15によって与えられる。この式15では、アクタ部31の制御指令uactor(t)の二乗に比例した負の値が報酬ru_actor(t)として設定される。
Figure 2008305064
ここで、ku_actorは、所定値の係数である。
以上より、リワード部5で求められる報酬r(t)は、式16となる。
Figure 2008305064
このような設定が行われた後に、学習型制御装置Dは、人腕型ロボットRの制御方法を学習しながら制御を行った。この学習条件は、本実施形態では、例えば、人腕型ロボットRにおける可動角度θ(t)の範囲が0度以上30度以下に設定され、角速度<θ(t)>の範囲が−150度/秒以上150度/秒以下に設定された。目標角度θは、5度、15度、25度の3点がランダム(無作為)に与えられ、試行回数は、200回である。1試行は、60秒とされ、試行中は、目標角度θが一定にされ、初期角度θ(0)は、1試行前において到達した角度θ(t)とされた。運動状態の観測は、10ミリ秒ごとに、制御指令u(t)の更新と学習は、100ミリ秒ごとに行われた。
そして、アクタ部31の制御指令uactor(t)の範囲は、−0.3以上0.3以下に設定され、ISM部1の制御指令uism(t)の範囲は、0.3以上0.7以下に設定された。上記各式のパラメータは、時定数γが0.1に、学習係数βが0.03に、学習係数βが0.3に、エリジビリティトレースの時定数kが0.01にそれぞれ設定された。アクタ部31の探索に関する定数は、σが1.0に、sが0.025に設定され、報酬に関する定数は、kが0.7に、kが0.3に、ku_actorが0.1にそれぞれ設定された。これら各設定は、上述の人腕型ロボットRの構造に基づいた設定であり、制御対象Cに応じて適宜に設定される。
図4は、実施形態の学習型制御装置における角度の制御結果を示す図である。図4の横軸は、秒(sec)単位で表す時間軸(time)であり、その縦軸は、度(deg)単位で表す角度(angle)である。図4(A)は、目標角度が5度の場合を示し、図4(B)は、目標角度が15度の場合を示し、そして、図4(C)は、目標角度が25度の場合を示す。一点鎖線は、目標角度(Goal Angle)を示し、実線は、学習後の軌道(Learned Trajectory)を示し、破線は、学習初期の軌道(Begining Trajectory)を示す。
図4から分かるように、いずれの目標角度においても学習初期では、肘の角度は、目標角度に収束することなく、大きく振動している。そして、この大きく振動することによって探索が行われ、学習が進行する。学習後では、肘の角度は、2度以内の誤差でほぼ目標角度で静止している。目標角度に対応する手先位置で見ると、第2アームの長さが37cmであるから、目標位置から約1cm程度の差であり、学習型制御装置Dは、人腕型ロボットRの手先位置をほぼ目標位置に制御している。なお、制御対象Cが例えば運動する運動機構を備える場合では、目標姿勢θは、この運動機構の姿勢であり、運動機構の或る箇所に注目すればこの或る箇所の目標位置ともなる。
図4に示す例では、目標角度付近まで到達した後では、肘の角度は、それ以上ほとんど変化していない。このことは、学習型制御装置Dがこの状態の角度を適切と判断し、これ以上の探索をほぼ行わない状態になっていることを示している。したがって、この誤差は、到達後の肘の角度と目標角度との誤差がより小さい値となるまで探索ノイズを発生するように、強化学習における探索ノイズを設定することでより小さくすることが可能である。
図5は、実施形態の学習型制御装置における角速度の制御結果を示す図である。図5(A)は、目標角度が5度の場合を示し、図5(B)は、目標角度が15度の場合を示し、そして、図5(C)は、目標角度が25度の場合を示す。図6は、躍度最小モデルによる角速度を示す図である。図7は、重力が作用する方向における肘の角速度の実測値を示す図である。図5ないし図7の横軸は、秒(sec)単位で表す時間軸(time)であり、それら縦軸は、度/秒(deg/sec)単位で表す角速度(angular velocity)である。
人の腕の運動は、躍度最小モデルによって良く再現することが知られている。この躍度最小モデルによる肘の角速度波形は、図6に示すようにベル型のプロファイルとなる。
この躍度最小モデルは、腕の水平方向における運動を扱っており、一方、上述の人腕型ロボットRの場合では、重力が作用する方向の運動である。そのため、初期角度から重力加速度方向とは逆方向へ60度(目標角度)まで腕を運動させた場合について実測された。実測による肘の角速度波形は、目標角度への到達時点(0.7秒付近)において、腕の慣性力を抑制するために、角速度のアンダーシュートが見られる。
学習型制御装置Dによって制御された人腕型ロボットRの角速度は、図5と図6および図7とを比較すると分かるように、目標角度が5度の場合では、図5(A)に示すように、ベル型になっており、また、目標角度が15度や25度の場合でも、図5(B)、(C)に示すように、アンダーシュートするまでは、ベル型になっている。そして、目標角度が15度や25度の場合では、図5(B)、(C)に示すように、アンダーシュートも見られる。
このように学習型制御装置Dでは、人に近い動作、学習が実現されていることも分かる。
本発明を表現するために、上述において図面を参照しながら実施形態を通して本発明を適切且つ十分に説明したが、当業者であれば上述の実施形態を変更及び/又は改良することは容易に為し得ることであると認識すべきである。従って、当業者が実施する変更形態又は改良形態が、請求の範囲に記載された請求項の権利範囲を離脱するレベルのものでない限り、当該変更形態又は当該改良形態は、当該請求項の権利範囲に包括されると解釈される。
実施形態における学習型制御装置の構成を示すブロック図である。 空気圧式ゴム人工筋肉における空気圧と収縮率との関係を示す図である。 速度に関する報酬がない場合における人腕型ロボットの制御結果を示す図である。 実施形態の学習型制御装置における角度の制御結果を示す図である。 実施形態の学習型制御装置における角速度の制御結果を示す図である。 躍度最小モデルによる角速度を示す図である。 重力が作用する方向における肘の角速度の実測値を示す図である。 非特許文献1に開示の学習型制御装置の構成を示すブロック図である。
符号の説明
C 制御対象
D、1000 学習型制御装置
1 逆スタティックモデル部(フィードフォワード制御部)
2、7、1002 減算部
3、1003 フィードバック制御部
4、1004 加算部
5 リワード部
6 順ダイナミックスモデル部

Claims (7)

  1. 制御対象の制御方法を学習することによって前記制御対象を制御する学習型制御装置であって、
    前記制御対象をフィードフォワード制御するフィードフォワード制御部と、
    前記制御対象をフィードバック制御するフィードバック制御部とを備え、
    前記フィードフォワード制御部は、前記フィードバック制御部の制御指令を教師信号として入出力関係を学習すると共に、前記制御対象の目標姿勢が入力され前記目標姿勢を実現するための制御指令を出力すること
    を特徴とする学習型制御装置。
  2. 前記制御対象における現在の運動状態に基づいて前記制御対象における所定時間経過後の将来の運動状態を予測状態として予測する順ダイナミックスモデル部と、
    前記順ダイナミックスモデル部で予測した予測状態と前記目標姿勢との差を制御偏差として前記フィードバック制御部へ出力する減算部とをさらに備えること
    を特徴とする請求項1に記載の学習型制御装置。
  3. 前記フィードバック制御部は、強化学習が用いられていること
    を特徴とする請求項1または請求項2に記載の学習型制御装置。
  4. 前記順ダイナミックスモデル部は、前記制御対象の運動状態と当該順ダイナミックスモデル部で予測した予測状態との差を教師信号として入出力関係を学習すること
    を特徴とする請求項2または請求項3に記載の学習型制御装置。
  5. 前記制御対象は、出力変数に対し冗長な入力変数を含み、入力変数と出力変数との間の入出力関係に非線形な関係が含まれる機構であること
    を特徴とする請求項1ないし請求項4の何れか1項に記載の学習型制御装置。
  6. 前記制御対象は、人の筋骨格系を模した機構であること
    を特徴とする請求項5に記載の学習型制御装置。
  7. 制御対象の制御方法を学習することによって前記制御対象を制御する学習型制御方法であって、
    フィードフォワード制御部によって前記制御対象をフィードフォワード制御するフィードフォワード工程と、
    フィードバック制御部によって前記制御対象をフィードバック制御するフィードバック工程とを備え、
    前記フィードフォワード工程は、前記フィードバック制御部の制御指令を教師信号として前記フィードフォワード制御部の入出力関係を学習する第1工程と、
    前記制御対象の目標姿勢が入力され前記目標姿勢を実現するための制御指令を出力する第2工程とを備えること
    を特徴とする学習型制御方法。
JP2007150329A 2007-06-06 2007-06-06 学習型制御装置および該方法 Pending JP2008305064A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007150329A JP2008305064A (ja) 2007-06-06 2007-06-06 学習型制御装置および該方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007150329A JP2008305064A (ja) 2007-06-06 2007-06-06 学習型制御装置および該方法

Publications (1)

Publication Number Publication Date
JP2008305064A true JP2008305064A (ja) 2008-12-18

Family

ID=40233760

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007150329A Pending JP2008305064A (ja) 2007-06-06 2007-06-06 学習型制御装置および該方法

Country Status (1)

Country Link
JP (1) JP2008305064A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018146770A1 (ja) * 2017-02-09 2018-08-16 三菱電機株式会社 位置制御装置及び位置制御方法
CN111079936A (zh) * 2019-11-06 2020-04-28 中国科学院自动化研究所 基于强化学习的波动鳍推进水下作业机器人追踪控制方法
WO2021132507A1 (ja) * 2019-12-27 2021-07-01 株式会社タダノ 作業機の制御システムおよびクレーン

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018146770A1 (ja) * 2017-02-09 2018-08-16 三菱電機株式会社 位置制御装置及び位置制御方法
JP6376296B1 (ja) * 2017-02-09 2018-08-22 三菱電機株式会社 位置制御装置及び位置制御方法
KR20190104564A (ko) * 2017-02-09 2019-09-10 미쓰비시덴키 가부시키가이샤 위치 제어 장치 및 위치 제어 방법
CN110248774A (zh) * 2017-02-09 2019-09-17 三菱电机株式会社 位置控制装置及位置控制方法
KR102113465B1 (ko) 2017-02-09 2020-05-21 미쓰비시덴키 가부시키가이샤 위치 제어 장치 및 위치 제어 방법
US11173613B2 (en) 2017-02-09 2021-11-16 Mitsubishi Electric Corporation Position control device and position control method
CN111079936A (zh) * 2019-11-06 2020-04-28 中国科学院自动化研究所 基于强化学习的波动鳍推进水下作业机器人追踪控制方法
CN111079936B (zh) * 2019-11-06 2023-03-14 中国科学院自动化研究所 基于强化学习的波动鳍推进水下作业机器人追踪控制方法
WO2021132507A1 (ja) * 2019-12-27 2021-07-01 株式会社タダノ 作業機の制御システムおよびクレーン
JPWO2021132507A1 (ja) * 2019-12-27 2021-07-01
JP7201105B2 (ja) 2019-12-27 2023-01-10 株式会社タダノ 作業機の制御システムおよびクレーン

Similar Documents

Publication Publication Date Title
Li et al. Adaptive human–robot interaction control for robots driven by series elastic actuators
Jin et al. Robot manipulator control using neural networks: A survey
Braganza et al. A neural network controller for continuum robots
Melingui et al. Adaptive neural network control of a compact bionic handling arm
Satheeshbabu et al. Continuous control of a soft continuum arm using deep reinforcement learning
Lakhal et al. Hybrid approach for modeling and solving of kinematics of a compact bionic handling assistant manipulator
CN112904728B (zh) 一种基于改进型趋近律的机械臂滑模控制轨迹跟踪方法
CN110809505A (zh) 用于执行机器人手臂的移动控制的方法和装置
Piqué et al. Controlling soft robotic arms using continual learning
Tsuji et al. Neural network learning of robot arm impedance in operational space
Stoelen et al. Co-exploring actuator antagonism and bio-inspired control in a printable robot arm
Katayama et al. Whole-body model predictive control with rigid contacts via online switching time optimization
Kawaharazuka et al. Imitation learning with additional constraints on motion style using parametric bias
Khan et al. Realisation of model reference compliance control of a humanoid robot arm via integral sliding mode control
Horn et al. Nonholonomic virtual constraint design for variable-incline bipedal robotic walking
Vo et al. An adaptive finite-time force-sensorless tracking control scheme for pneumatic muscle actuators by an optimal force estimation
Izadbakhsh et al. Superiority of q-Chlodowsky operators versus fuzzy systems and neural networks: Application to adaptive impedance control of electrical manipulators
JP2008305064A (ja) 学習型制御装置および該方法
Ji et al. Deep reinforcement learning on variable stiffness compliant control for programming-free robotic assembly in smart manufacturing
Zhong et al. A New Approach to Modeling and Controlling a Pneumatic Muscle Actuator‐Driven Setup Using Back Propagation Neural Networks
Kawaharazuka et al. Dynamic task control method of a flexible manipulator using a deep recurrent neural network
JP3105694B2 (ja) マニピュレータ制御方法
Marquez et al. Hardware-in-the-Loop Soft Robotic Testing Framework using an Actor-Critic Deep Reinforcement Learning Algorithm
Salini et al. LQP-based controller design for humanoid Whole-body motion
Ma et al. Control of a cable-driven parallel robot via deep reinforcement learning