JP5921979B2 - 制御システム - Google Patents
制御システム Download PDFInfo
- Publication number
- JP5921979B2 JP5921979B2 JP2012156025A JP2012156025A JP5921979B2 JP 5921979 B2 JP5921979 B2 JP 5921979B2 JP 2012156025 A JP2012156025 A JP 2012156025A JP 2012156025 A JP2012156025 A JP 2012156025A JP 5921979 B2 JP5921979 B2 JP 5921979B2
- Authority
- JP
- Japan
- Prior art keywords
- value
- variable
- action command
- learning
- hyperparameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Manipulator (AREA)
- Feedback Control In General (AREA)
Description
前記行動変数の最適値Uと、前記基底関数Φと、確率変数として定義されている前記結合係数の事前確率分布を制御するための第1ハイパーパラメータαの成分α i (i=1〜N)と、確率変数として定義されている前記結合係数の事後確率分布を前記第1ハイパーパラメータαと協働して制御するための第2ハイパーパラメータβの成分β i (i=1〜N)と、前記第1ハイパーパラメータαの成分を対角要素とする対角行列A=diag(α 1 ,‥α i ,‥α n )、前記第2ハイパーパラメータβおよび前記基底関数Φを用いて表わされる行列Σ=(A+βΦ T Φ) -1 の対角要素Σ ii と、前記第2ハイパーパラメータβ、前記カーネル関数の幅σ、前記基底関数Φおよび前記行動変数の最適値Uを用いて表わされるベクトルm=βσΦ T Uの成分m i と、を用いた関係式(10)により表わされる演算処理を所定の収束条件が満足されるまで繰り返し、
α i (new) =(1−α i Σ ii )/m i 2 ,
β i (new) =||U−Φm|| 2 /{N−Σ i=1〜N (1−α i Σ ii )/m i 2 } ..(10)
これにより、前記第1ハイパーパラメータαの収束値α*および前記第2ハイパーパラメータβの収束値β*を前記学習結果として取得するように構成されていることが好ましい。
図1に示されている本発明の一実施形態としての制御システム1は、制御対象2に搭載されているコンピュータにより構成されている。制御システム1は、学習要素10と、第1行動指令要素11と、第2行動指令要素12と、評価要素14とを備えている。制御対象2には、後述するように脚式移動ロボットのほか、歩行補助装置又は車両等、アクチュエータの動作によりその行動が制御されうるあらゆる機器が含まれる。
(回帰学習)
前記構成の制御システム1によれば、学習要素10が、関連ベクトルマシンとして構成される。具体的には、状態変数xの測定値X=(x1,‥xi,‥xn)Tと、制御対象2が当該測定結果に応じて出力した行動変数uの最適値U=(u1,‥ui,‥un)Tとを「訓練データ」として取得する(図2(a)/STEP11)。例えば、制御システム1とは別個の外部コンピュータ(クラウドコンピュータ)に対して状態変数xの測定値Xが入力され、制御対象2の厳密な運動モデル等にしたがって、行動変数uの最適値Uが計算される。当該入力X及び計算結果Uが外部コンピュータから制御システム1に対して送信又は移転される。状態変数xは、例えば制御対象2に搭載されている適当なセンサの出力信号に基づいて測定される。
m=βσΦTU, Σ=(A+βΦTΦ)-1, A=diag(α1, .. αi, .. αn) ..(06)。
βi (new)=||U-Φm||2/{N-Σi=1~N(1-αiΣii)/mi 2} ..(10)。
第1行動指令要素11及び第2行動指令要素12のそれぞれが、状態変数xの新たな測定値を取得する(図2(b)/STEP20)。
制御対象として、図3に示されているロボット2の歩行中に外乱があった場合における着床位置が学習された。ロボット2は脚式移動ロボット2であり、人間と同様に、基体20と、基体20の上方に配置された頭部21と、基体20の上部に上部両側から延設された左右の腕体22と、左右の腕体22のそれぞれの先端に設けられているハンド225と、基体20の下部から下方に延設された左右の脚体24とを備えている。
平坦な床面を前進する旨の歩行指令が与えられたロボット2が、2歩目で当該床面上の物体(例えば厚さ10[mm]の板)を踏むという外乱に接した際の学習結果が計算された。ロボット2の足底における物体との当接箇所である内側部分、中央部分及び外側部分の別に応じて、外乱が内側踏み(図4(a)参照)、中央踏み(図4(b)参照)及び外側踏み(図4(c)参照)に区別される。カーネル関数k(xi,x)として、カーネルパラメータσ=0.05のガウスカーネル関数が採用された(関係式(08)参照)。
図8には、学習結果が用いられて生成された第1行動指令値u1_cmd(図2(b)/STEP21参照)としての、正規化された行動変数u*の値が示されている。正規化された行動変数u*の値のうち、測定値に対する第1行動指令値の平均二乗誤差MSEtrain(u*)は(1.40e-4,1.22e-4,3.82e-4,1.01e-3)であった。行動変数uの測定結果のうち、測定値に対する第1行動指令値の平均二乗誤差MSEtrain(u)は(0.0625,0.0227,0.154,0.125[mm])であった。
ロボット2の所定の行動目的に鑑みた、行動指令値uの適合度e(u)の評価方法について説明する(図2(b)/STEP24参照)。所定の行動目的として、ロボット2の姿勢が安定に維持されながら移動する、という目的が採用された。適合度e(u)は、図9(a)に示されている予測ZMPの目標ZMPからのずれzmpbias(u)と、目標ZMPから予測ZMPに向かう方位について、目標ZMP及び足部25の縁の間隔Lfootとに基づいて算出された。
exp(-((zmpbias(u)-αLfoot)/Lfoot)2), if αLfoot<zmpbias(u) ..(141)。
図10〜図11のそれぞれには、前記のように姿勢が不安定な状況における測定結果を基礎として得られた学習結果が適用されたロボット2が、歩行開始から2歩目で「中央踏み」、「内側踏み」及び「外側踏み」のそれぞれに接した場合の着床予定位置P1*及びP2*が示されている。最下段において曲線が立ち上がっている期間において、学習結果が適用されて着床予定位置P1*及びP2*が計算されたことを表わしている。
Claims (3)
- 予め収集されている制御対象の状態を表わす状態変数の測定値と、前記制御対象の行動態様を表わす行動変数の最適値とに基づき、前記状態変数の測定値から前記行動変数の最適値を予測する因子を学習結果として取得するように構成されている学習要素と、
前記因子をもとに、前記状態変数の新たな測定値に対しての最適値と予測される前記行動変数の値を第1行動指令値として生成するように構成されている第1行動指令要素と、を備えている制御システムであって、
前記制御システムが、前記第1行動指令値にしたがって、前記制御対象の動作を制御するように構成され、
前記学習要素が、前記予め収集されている状態変数の測定値と、行動変数の最適値とに基づき、前記状態変数を主変数とする基底関数の線形結合により前記行動変数が表現され、かつ、前記基底関数としてカーネル関数が用いられている回帰学習モデルにしたがって、前記線形結合の結合係数を前記学習結果である前記因子として取得するように構成されていることを特徴とする制御システム。 - 請求項1記載の制御システムにおいて、
前記状態変数の新たな測定値に基づき、前記第1行動指令値とは別の前記行動変数の指令値を第2行動指令値として生成するように構成されている第2行動指令要素と、
前記第1行動指令値及び前記第2行動指令値のそれぞれについて、前記制御対象の所定の行動目的に鑑みた適合度を評価する評価要素と、を備え、
前記第1行動指令値及び前記第2行動指令値のうち、前記適合度が高い一方の行動指令値にしたがって、前記制御対象の動作を制御するように構成されていることを特徴とする制御システム。 - 請求項1または2記載の制御システムにおいて、
前記学習要素が、ベイズモデル選択にしたがって、前記行動変数の証拠の最大化の結果から、
前記行動変数の最適値Uと、前記基底関数Φと、確率変数として定義されている前記結合係数の事前確率分布を制御するための第1ハイパーパラメータαの成分α i (i=1〜N)と、確率変数として定義されている前記結合係数の事後確率分布を前記第1ハイパーパラメータαと協働して制御するための第2ハイパーパラメータβの成分β i (i=1〜N)と、前記第1ハイパーパラメータαの成分を対角要素とする対角行列A=diag(α 1 ,‥α i ,‥α n )、前記第2ハイパーパラメータβおよび前記基底関数Φを用いて表わされる行列Σ=(A+βΦ T Φ) -1 の対角要素Σ ii と、前記第2ハイパーパラメータβ、前記カーネル関数の幅σ、前記基底関数Φおよび前記行動変数の最適値Uを用いて表わされるベクトルm=βσΦ T Uの成分m i と、を用いた関係式(10)により表わされる演算処理を所定の収束条件が満足されるまで繰り返し、
α i (new) =(1−α i Σ ii )/m i 2 ,
β i (new) =||U−Φm|| 2 /{N−Σ i=1〜N (1−α i Σ ii )/m i 2 } ..(10)
これにより、前記第1ハイパーパラメータαの収束値α*および前記第2ハイパーパラメータβの収束値β*を前記学習結果として取得するように構成されていることを特徴とする制御システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012156025A JP5921979B2 (ja) | 2012-07-11 | 2012-07-11 | 制御システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012156025A JP5921979B2 (ja) | 2012-07-11 | 2012-07-11 | 制御システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014016972A JP2014016972A (ja) | 2014-01-30 |
JP5921979B2 true JP5921979B2 (ja) | 2016-05-24 |
Family
ID=50111556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012156025A Active JP5921979B2 (ja) | 2012-07-11 | 2012-07-11 | 制御システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5921979B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112596531B (zh) * | 2021-03-04 | 2021-06-22 | 德鲁动力科技(成都)有限公司 | 一种四足机器人自适应负载参数调整方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11179412A (ja) * | 1997-12-24 | 1999-07-06 | Kawasaki Steel Corp | 板材圧延におけるエッジドロップ制御方法 |
US7577252B2 (en) * | 2004-12-06 | 2009-08-18 | Mitsubishi Electric Research Laboratories, Inc. | Method for secure object detection in images |
JP2010086397A (ja) * | 2008-10-01 | 2010-04-15 | Toshiba Storage Device Corp | 制御装置、制御プログラム及び方法 |
-
2012
- 2012-07-11 JP JP2012156025A patent/JP5921979B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014016972A (ja) | 2014-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8392346B2 (en) | Reinforcement learning system | |
US20190299407A1 (en) | Apparatus and methods for training path navigation by robots | |
US20180079076A1 (en) | Machine learning device, robot system, and machine learning method for learning operation program of robot | |
US9152915B1 (en) | Apparatus and methods for encoding vector into pulse-code output | |
JP7339029B2 (ja) | モーション認識モデルを用いた自体運動推定装置及び方法並びにモーション認識モデルトレーニング装置及び方法 | |
US8805580B2 (en) | Robot and control system | |
WO2011016280A1 (ja) | ロボットおよび制御システム | |
JP2003269937A (ja) | 障害物認識装置、障害物認識方法、及び障害物認識プログラム並びに移動型ロボット装置 | |
JP2017211913A (ja) | 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム | |
JP2008149436A (ja) | 移動装置、ならびにその制御システム、制御プログラムおよび監督システム | |
JP2003271975A (ja) | 平面抽出方法、その装置、そのプログラム、その記録媒体及び平面抽出装置搭載型ロボット装置 | |
JP2008009999A (ja) | 平面抽出方法、その装置、そのプログラム、その記録媒体及び撮像装置 | |
Saeedvand et al. | Hierarchical deep reinforcement learning to drag heavy objects by adult-sized humanoid robot | |
JP5930892B2 (ja) | 接触状態推定装置及び軌道生成装置 | |
JP5921979B2 (ja) | 制御システム | |
JP6026393B2 (ja) | 移動装置 | |
Ferreira et al. | Adaptive PD controller modeled via support vector regression for a biped robot | |
JP5306934B2 (ja) | ロボットおよび制御システム | |
JP3946562B2 (ja) | 行動制御装置及び方法 | |
US11372475B2 (en) | Information processing apparatus, information processing method, and floor modeling system | |
JP7358108B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP4193098B2 (ja) | トラッキング装置、トラッキング装置のトラッキング方法及びロボット装置 | |
JP6647143B2 (ja) | 機能装置ならびにその制御装置および制御方法 | |
JP5306933B2 (ja) | ロボットおよび制御システム | |
Ferreira et al. | Sagittal stability PD controllers for a biped robot using a neurofuzzy network and an SVR |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150929 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160413 |
|
R150 | Certificate of patent (=grant) or registration of utility model |
Ref document number: 5921979 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |