JPH02136904A

JPH02136904A - 動作系列自己生成機能を持つ運動制御装置

Info

Publication number: JPH02136904A
Application number: JP63289989A
Authority: JP
Inventors: Haruo Yoda; 晴夫依田; Takafumi Miyatake; 孝文宮武; Hitoshi Matsushima; 整松島
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1988-11-18
Filing date: 1988-11-18
Publication date: 1990-05-25
Also published as: US5063492A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、物体の運動を制御する制御システムに関連す
るものであり、移動するロボットの制御に最適である。

〔従来の技術〕

ある物体を状態Ａから状態Ｂへ移動するように制御する
場合、通常は状態Ａから状態Ｂにいたる経路を時間的に
変化する目標値として外部から与え、その目標値との差
を小さくするように、ＰＩＤ制御手法により制御してい
た。しかしながら、現実には、動作が複雑になると、外
部から与える理想的な状態遷移を見出すことが難しかっ
た。例えば、移動ロボットの歩行を制御することを考え
ると、床面の状況９手足の状態、姿勢９重心位置。

多数の接触センサの出力値など、様々な情報を考慮しな
ければ、最適な次の動作を決めることが出来ず、最新の
コンピュータを用いたとしても、そのプログラムを作成
することは困難である。

このような状況を解決するために、ロボットの動作を学
習によって自動的に作り出す研究が行ねれるようになっ
た。そして１文献（１）（中野。

調香、″″、Ｍ１動パターンを自己形成するシステム″
′第２３回５ＩＣＥ学術講演予稿、５Ｌ−３，昭和５９
年７月）は、歩行するロボットの制御を学習によって最
適化する試みについて報告している。

そこでは、２つの関節を持つ歩行ロボットに周期運動を
行わせ、１周期の平均進行距離を最大にするという目標
を与え、試行錯誤的に周期運動のパラメータを最適化し
ていく。このようにすると、最初のうちはうまく動けな
かったロボットが次第に早くスムースに動くようになる
。

また、学習機能を持つ別の応用として１文献（２）（瀬
戸山、用人、＃木、″多層神経回路網内に学習される逆
ダイナミックモデルによるマニピュレータの制御″、電
子情報通信学会用、生体工学研究会技術報告、ＭＢＥ８
７−１３５．昭和６３年３月）に示すマニピュレータの
制御がある。

ここでは、制御系の中に多層構造のニューラルネットを
組み入れ、目標値からのずれを最小にするような、フィ
ードフォワード型の制御回路になるように学習を行う。

これにより、マニピュレータは動作するにつれて次第に
遅れの少ない最適な動作をするように、最適化される。

〔発明が解決しようとする課題〕

前述のように１文献で紹介した従来技術は、学習機能を
取り入れることによって、複雑な制御系のプログラムを
大幅に簡略化させる可能性を持っている。しかしながら
、これらの従来技術においても、学習されるものは基本
動作のパラメータであって、その基本的な動作はあらか
じめ設定されていなければならない。したがって、これ
でもまだ全ての場合について、複雑なロボットの動きを
制御することは困難であった。

本発明の目的は、このような従来技術をさらに発展させ
、複雑な動作手順をも学習によって自動的に発生する装
置方式を提案し、複雑な構造の制御対象の複雑な運動制
御を可能にすることである。

〔課題を解決するための手段〕

本発明における制御回路は、第１図のように、制御対象
の状態を現在状態として入力し、動作Ｉを出力するよう
に構成されているものとする。この系において、本発明
では前述の目的を達成するために、（１）動作量にランダムな変動量を加算して動作量の値
を変更する第１の手段と、（２）動作量を与えることによって生じる制御対象の現
在状態の変化の良さを、評価関数によって定量化する第
２の手段と、（３）第２の手段の評価関数値が“″正′″の場合には
、動作量を基にして最適動作量を計算し、“負”の場合
には、動作量に−１を掛けたものを基にして最適動作量
を計算する第３の手段と。

（４）制御回路の出力が、現在出力されている動作量よ
りも、第３の手段によって計算された最適動作量に近く
なるように、制御回路の変換パラメータの値を修正する
第４の手段を、それぞれ持たせる。

〔作用〕

わかりやすさのために、いま、第１図の制御対象として
ロボットを想定する。まず、ロボットの形状、姿勢を現
在状態として、制御回路に入力する。制御回路からは、
この現在状態に対応してロボットを動かすための動作量
が出力される。この動作量を第１の手段によってランダ
ムに変更し、変更後の動作量によってロボットを間動す
る。この結果、ロボットの形状、姿勢が変化する。この
形状、姿勢が、再び現在状態として制御回路に人力され
る。従って、このループによって、ロボットの動きが連
続的に制御される。

学習は、まず、この形状、姿勢の変化を評価関数によっ
て定量的に評価する。この評価値が良ければ、制御対象
の入力動作量が良かったわけであるから、その入力動作
量を制御回路の出力値の最適動作量と考えて、制御回路
の出力がその最適動作量に近くなるように、制御回路の
パラメータを修正（学習）する。また、評価関数値が悪
ければ、制御対象の入力動作量が悪かったわけであるか
ら、今度は入力動作量に−１を掛けて最適動作量を作り
、同様な学習を行う。このような学習サイクルを、実時
間でロボットの動作を行いながら繰返し実行すると、制
御回路は次第に最適動作量を出力するように学習され、
制御回路のパラメータの中に、評価関数に導かれたある
動作系列が自動的に組織化される。

この結果、適切な評価関数が与えられるだけで、ロボッ
トは、所望の動作を自分で発生し、スムースに実行する
ことが出来るようになる。評価関数を変えれば、さらに
別の運動を学習して熟達することも出来る。したがって
１本発明を用いれば、外部から詳細な動作系列をプログ
ラムで与える必要が無くなり、複雑な動作系列を制御す
る制御系が容易に構成できることになる。

〔実施例〕

本発明の内容を実施例によって詳細に説明する。

説明の例として、ヒトデの起き上がり問題を取り上げる
。ヒトデの起き上がり問題と言うのは、第２図に示すよ
うに、ひっくり返された初期状態のヒトデが足をばたば
たさせながら起き上がり、ゴール状態に至る動作である
。過去に１度もひっくり返ったことのないヒトデは、腹
が上を向いていることに本能的な不安を感じ、下に向こ
うと努力するが、どうして良いかわからず、５本の足を
ランダムに動かして、ばたばたするだけである。最初は
このように足をばたばたさせているだけであるが、その
うち偶然、腹の向きが下に向くと、本能的にその動作が
良いことを感じ、その動作を何度も行なうようになる。

その動作を繰り返すうちに、たまたまさらに腹が下を向
くと、またその動作を記憶し、さらにうまく腹を下に向
けるようになる。このような動作を続けると、そのうち
腹を完全に下に向け、本当に起き上掛ることができるよ
うになる。このようにして起き上がる動作を自分で学習
したヒトデは、さらに起き上がりを経験することによっ
て無駄の無い起き上がり動作を学習し、起き上がり動作
に習熟するようになる。

本発明の目的は、以上のような現実のヒトデの学習の過
程を機械に実行させることによって、プログラムを必要
としない柔軟な制御システムを実現することである。

第３図に、本発明のＬつの実施例を示す。図の上部にヒ
トデロボットの運動機構、すなわち制御対象があり、下
部に３層構造のニューラルネット（神経回路網）で構成
された制御回路がある。まず、ヒトデロボットの形状、
姿勢が＠測され、現在状態として３層ニューラルネット
に入力される。

ニューラルネットからは、ヒトデロボットを動かすだめ
の動作量が出力される。この動作量に一様乱数を加えて
新しい動作量を構成し、それによってヒトデロボットの
運動機構を動かす。その結果、ヒトデロボットの形状、
姿勢が少し変化する。この形状、姿勢が、また現在状態
として二二一うルネットに入力される。このフィードバ
ックループによって、ヒトデロボットが完全に自動的に
邦動される。学習は、まず、この形状、姿勢の変化を゛
本能”に従って判断する。ヒトデロボットの″本能″は
、この場合、腹を下に向けたいということであるはずで
ある。したがって、ここでは第４図に示したように、腹
の向きを示すベクトルの角度θが下を向けば良いこと、
すなわち動作にょる０の変化量δθを１つの評価関数と
する。さらに、起き上がったあとの終了状態を作り出す
ために、腹のベクトルがある程度以上下を向いたならば
、今後は、足の曲率パラメータが小となるように、すな
わち足を伸ばしてリラックスするようにすれば良い、と
いうことを、２っめの評価関数とする。評価関数によっ
て動作の良否を判断し、良の場合には、制御対象を叩動
した動作量をそのままニューラルネットの教示パターン
としてニューラルネットを学習させる。ここで言う学習
とは、ニューラルネットの出力が教示パターンに近くな
るようにニューラルネットの重み係数を変えてぃくこと
を意味しており、例えば、公知の逆伝ぱん（パックプロ
パゲーション）法を用いれば容易に実行できる。もしも
、否ならば、動作が悪かったわけであるから、−１を掛
けて逆のパターンを教示パターンとして同様な方法で学
習させる。このような学習サイクルを、実時間で常時学
習するようにすれば、３層ニューラルネットの重み係数
の中に、起き上がりのための動作列が自動的に組織化さ
れてくることになる。

次に、ニューラルネットの入出力について、さらに具体
的に説明する。いま、ヒトデロボットの足の各点の３次
元座標が、ヒトデロボットの腹の中心を原点とし、腹の
向きをＺ軸方向とするヒトデロボット座標系で表わした
とき、Ｆ　　（ｋ、　　ｄ　　；　　α）と表現されたとする。ここで、Ｆは座標を示す３吹元ベ
クトル、ｋは５本ある足の番号（ｋ＝１゜２、・・・・
・・、５）、ｄは腹の中心からの距離パラメータ、αは
形状を指定するパラメータからなるベクトルである。い
ま、各足の曲がり方を決める自由度が２個ずつであると
すれば、αは全部で１０個の要素からなるベクトルであ
り、これがヒトデロボットの形状を表わすことになる。

一方、ヒトデロボットの姿勢は、ヒトデロボット座標系
をヒトデロボットが存在する実空間での座標系に変換す
る変換パラメータとして定義することが出来る。姿勢パ
ラメータは、並行移動ベクトルＴと３次元の回転マトリ
クスＲの２つなので、ある時点しにおけるヒトデロボッ
トの姿勢、形状を表わす現在状態は、α、およびＴ、Ｒ
で表現できることになる。この各要素が、ニューラルネ
ットの各人力ノードの入力信号となる。

動作量は、ヒトデロボットの形状を表わすパラメータα
を変化させるための変化量である。従って、前述のよう
にαが１０個の要素からなる場合には、ニューラルネッ
トとして１０個の独立な出力が必要であり、その出力ノ
ード数は１０個になる。

動作量に加える乱数は一様乱数であり、ニューラルネッ
トの出力である動作量のそれぞれに対して、例えば平均
的に１／１ｏ位の割合で加えるようにする。

また、本能に相当する評価関数は１次のように容易に構
成できる。まず、下を向くための評価関数の値δθは、
ヒトデロボットの回転マトリクスＲから計算できる。同
様に、起き上がった後にリラックスするための、２つめ
の評価関数の値も、形状パラメータαから容易に計算で
きる。

以上により、本発明は完全に実施可能である。

ただし、応用によっては、学習の速度の遅くなる場合が
ありえるので、学習の速度を速くするために、様々の付
加的な工夫の必要になることが、考えられる。以下、そ
の付加的な手段について説明する。

まず、操作量に加える乱数の大きさであるが。

その動作量に対する平均的な大きさが小さすぎると、全
く新しい動作量が現れにくくなるので、学習の進み方が
遅くなってしまう。逆に、大き過ぎると学習を一定状態
へ収束させることが難しくなる。したがって、学習の初
期時点においては乱数の割合は大きく、学習の進行にあ
わせて少しずつ小さくしていくことが望ましい。この具
体的な手段としては、ゴール状態の経験回数に従って乱
数の割合を小さくしていく手段が考えられる。さらに、
この場合、初期状態からゴール状態への動作回数を計数
し、一定回数以上経過してもゴールに達しなければ、再
び少しずつ乱数の割合を増やすようにしても良い。

また、応用によっては、単純な評価関数だけでは評価値
がゴールへ達する前に極大値に達してしまい、動作が継
続しなくなってしまうことも考えられる。そのような場
合には、本発明では第５図のようにニューラルネットの
出力として新たに評価閾値が出力できるようにしておき
、動作量の評価は、評価関数値がその閾値を越えたとき
のみ、良とするようにする。さらに、その閾値は初期値
を１１０”として、評価関数値とその閾値との差（評価
関数値−評価閾値）が“負″の場合、（評価関数値−評
価閾値）の値によって定められる量だけ評価閾値が減少
するように、教示パターンを与え、ニューラルネットの
パラメータを修正（学習）する手段を付加する。このよ
うにすれば、評価関数値が、どのような動きに対しても
小になるという場合があったとしても、その状態にロボ
ットが停滞しているうちに評価閾値が減少し、（評価関
数値−評価閾値）の値が正の場合が現れるようになる。

正になれば、そちらの方向にロボットが動くようになる
ので、いつまでも同じ状態で停滞することは避けられる
ようになり、いずれゴールへと達することができるよう
になる。このことは、いくら複雑な動作系列であっても
、本発明により自動的にその系列を生成し、それを制御
回路のパラメータの中に作り出していくことができるこ
とを意味している。

以上により、本発明が種々の場合について実現可能であ
ることを示した。本発明の趣旨は、自ら学習によって自
分の最適動作系列を作り出すことにある。したがって、
ニューラルネットの学習後の重み係数を読みＰして、学
習機能だけを取り除いたシステムのニューラルネットへ
複写して用いたとしても、それは本発明の範囲に含まれ
ることは明らかである。たとえば、システムの１部ある
いは全部をソフトウェアのシミュレータで実現し、計算
機の内部に作り出された重み係数を実システムに複写し
て用いることもできる。

〔発明の効果〕

本発明を用いれば、簡単な評価関数を与えるだけで、複
雑な動作の系列を自分で発見し、それを実行していく制
御システムを容易に構成することができる。従来のよう
に、制御のための動作系列をプログラムとしてあらかじ
め指定する必要がないので、従来技術では実現が困難で
あった複雑な動作をするロボットの制御が、工学的に容
易に実現できるようになる。

また、学習を常時行なっているために、制御対象の部分
的な破壊などの故障や動作環境の変化などがあったとし
ても、容易にそれに適応する柔軟で信頼性の高い制御シ
ステムを実現する事ができる。

【図面の簡単な説明】

第１図は本発明の原理図、第２図は具体例として取り上
げたヒトデロボットの起き上がり動作を示す図、第３図
はヒトデロボットの具体的実施例を示す図、第４図はヒ
トデロボットに与えられる本能を示す図、第５図は評価
閾値を付加したシステムの構成図である。第図第図

Claims

【特許請求の範囲】１、制御対象とそれを制御する制御回路とからなり、上
記制御回路が上記制御対象の現在状態を入力して上記制
御対象を駆動する動作量を出力するようにした運動制御
装置において、（１）該動作量にランダムな変動量を加算して動作量の
値を変更する第１の手段と、（２）該動作量を与えることによって生じる制御対象の
現在状態の変化の良さを、評価関数によって定量化する
第２の手段と、（３）第２の手段の評価関数値が“正”の場合には、該
動作量を基にして最適動作量を計算し、“負”の場合に
は、該動作量に−１を掛けたものを基にして最適動作量
を計算する第３の手段と、（４）制御回路の出力が、現在出力されている該動作量
よりも、第３の手段によって計算された該最適動作量に
近くなるように、制御回路の変換パラメータの値を修正
する第４の手段とを有し、運動制御系を実際に駆動しながらパラメータの修正を行
うようにして、最終的に初期状態から目的状態にいたる
動作系列を制御回路中に自動形成していくことを特徴と
する運動制御装置。２、上記第１の手段は、加算すべきランダムな変動量の
平均的な値を、時間的に変化させる第５の手段を有する
ことを特徴とする第１請求項記載の運動制御装置。３、上記第５の手段は、加算すべきランダムな変動量の
平均的な値を、初期状態から目的状態にいたる一連の動
作の経験回数に応じて少しずつ減らしていき、又は、初
期状態から目的状態にいたる経過時間が一定時間を超え
たら、少しずつ増加させる手段を有していることを特徴
とする第２請求項記載の運動制御装置。４、上記制御回路の出力として現在状態に対する評価閾
値が出力され、前記第２の手段の評価関数値と該評価閾
値との差（評価関数値−評価閾値）が“負”の場合、（
評価関数値−評価閾値）の値によって定められる量だけ
該評価閾値が減少するように、制御回路中の変換パラメ
ータを修正する手段を付加したことを特徴とする第１ま
たは第２請求項記載の運動制御装置。５、上記制御回路として、多層構造の神経回路網（ニュ
ーラルネットワーク）を用い、変換パラメータの修正方
法として逆伝ぱん（バックプロパゲーション）計算手法
を用いることを特徴とする第１または第２請求項記載の
運動制御装置。６、第１請求項記載の運動制御装置の制御回路と制御対
象の一方または両方が、電子計算機のプログラムで作ら
れた模擬装置（シミュレータ）であり、制御回路の変換
パラメータの計算を目的とした運動制御模擬装置。７、第１請求項記載の運動制御装置あるいは第５請求項
記載の運動制御模擬装置によって得られた変換パラメー
タを、通信またはＲＯＭ（読み出し専用メモリ）、フロ
ッピーディスクなどの媒体を通じて移植することによっ
て製造された運動制御装置。８、評価関数および制御回路中の変換パラメータを外部
からの指令によって交換する手段を持ち、同一制御対象
に複数の運動機能を持たせるようにした第１、第２また
は第７請求項記載の運動制御装置。