JP2003303329A

JP2003303329A - 行動制御装置及び方法

Info

Publication number: JP2003303329A
Application number: JP2002105773A
Authority: JP
Inventors: Yugo Ueda; 雄悟上田; Koji Tsujino; 広司辻野
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2002-04-08
Filing date: 2002-04-08
Publication date: 2003-10-24
Anticipated expiration: 2022-04-08
Also published as: JP3946562B2; US20030225464A1; US7133855B2; EP1353293A3; EP1353293A2

Abstract

(57)【要約】【課題】学習時および実際の制御時に要する計算量が少
なく、かつ学習をしていない入力に対しても不適切な出
力を与えることがない信頼性の高い制御装置を提供す
る。【解決手段】入力部１２０から供給される学習用の入力
パターンベクトルと目標出力の組は、分配部１２２によ
り目標出力に基づいて複数のクラスの何れかに分配さ
れ、分配されたクラス内でのみ学習部１２４において学
習用入力パターンベクトルと目標出力との対応関係の学
習が行われる。学習終了後、新たに作成された入力パタ
ーンベクトルは、第２の分配部１２６によって前記クラ
スの何れかに分配され、そのクラス内での前記学習結果
に従って、出力処理部１２８において出力値が計算され
る。従って、分配されたクラスに対応する出力以外は出
力されることが無いので、未学習の入力値に対しても不
適当な出力がされることが無く、制御システムの信頼性
が向上する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ニューラルネット
ワークを使用した行動制御装置及び方法に関し、より具
体的には、制御対象において取得される入力から制御出
力を計算する行動制御装置及び方法に関する。

【０００２】

【従来の技術】制御対象を安定制御するために、入力と
出力の関係を学習により獲得し、この学習結果に基づい
て制御対象に出力を与える方法が広く行われている。こ
のために、入出力関係を適切に表現する関数を作成し、
制御に利用することが一般的であり、この関数の作成に
は、例えば、パーセプトロン等の階層型ニューラルネッ
トワークやＲＢＦネットワーク、及びＣＭＡＣ（小脳モ
デルアルゴリズム）などが用いられる。

【０００３】パーセプトロンでは、一般に入力層、中間
層、出力層の３層を設け、入力をパーセプトロンに入れ
て得られた出力を、教師信号である実際の出力と比較し
て、この誤差を結合荷重としきい値に反映させることに
よって学習を行う。ニューラルネットワークを用いた制
御装置としては、例えば特開平9-245012号公報等があ
る。

【０００４】一方、ＲＢＦネットワークは、中間層の基
底関数の出力を線形結合することによって、入力と出力
の関係である非線形関数をネットワークの出力として計
算する。中間層の基底関数としては、普通、ガウス関数
が用いられる。

【０００５】

【発明が解決しようとする課題】しかし、パーセプトロ
ンでは、入力と出力の関係をそのまま学習するだけであ
るので、信頼性ある制御を獲得するためには、大量のデ
ータセットを準備する必要がある。また、多層パーセプ
トロンでは中間層の入出力関数がシグモイド関数である
ので、中間層の出力は入力空間の無限に大きな領域で大
きな値を持つ。従って、学習を行っていない領域の入力
が与えられると、望ましい出力から大きく外れた出力を
与えてしまうことがある。これは、ヘリコプターのよう
に不適切な制御出力が横転や墜落のように重大な結果に
結び付いてしまうような制御対象では、大きな問題とな
る。

【０００６】これに対し、ＲＢＦネットワークでは中間
層がガウス関数であるので、入力空間の局所的な領域で
のみ大きな値を持ち、上記のような突飛な出力を与える
ことはない。しかし、ＲＢＦネットワークでは複数のガ
ウス関数の線形結合で入出力関係を表現するので、すべ
てのガウス関数（クラス）の割合を学習し、ある入力に
対して全クラスの計算結果を出力しなければならず、計
算の負荷が大きい。

【０００７】従って、本発明は、入出力関係の学習時及
び実際の制御時に要する計算量が少なく、かつ学習をし
ていない入力に対しても不適切な出力を与えることがな
く信頼性の高い制御装置及び方法を提供することを目的
とする。

【０００８】

【課題を解決するための手段】本発明は、学習用入力パ
ターンベクトルと目標出力の組を、目標出力に基づいて
２つ以上のクラスの何れかに分配し、分配したクラス内
でのみ入出力関係の学習を行い、得られた学習結果に基
づいて、新たに取得した入力パターンベクトルを前記何
れかのクラスに分配し、分配したクラス内での学習結果
に従って出力を計算する点に特徴がある。

【０００９】本発明は、学習用入力パターンベクトルと
目標出力の組を作成する入力部と、目標出力に基づい
て、学習用入力パターンベクトルと目標出力の組を２以
上のクラスの何れかに分配する第１の分配部と、第１の
分配部により分配されたクラス内において、学習用入力
パターンベクトルの各要素と目標出力との対応関係を学
習する学習部と、学習部における学習結果に従って、前
記新たな入力パターンベクトルを前記クラスの何れかに
分配する第２の分配部と、第２の分配部により分配され
たクラス内において、学習結果に従って、前記新たな入
力パターンベクトルに対応する出力を計算する出力処理
部と、を備える。

【００１０】上記構成によると、学習用入力パターンベ
クトルと目標出力の組は、目標出力に基づいてクラスが
分配され、そのクラス内でのみ、学習用入力パターンベ
クトルの各要素と目標出力の対応関係の学習が行われる
とともに、学習用入力パターンベクトルを当該クラスに
分配するための分配関数も計算される。この学習の終了
後、センサ等により新たに取得されたパターンベクトル
は、最初に何れのクラスに属するのかが分配関数を用い
て判定され、そのクラス内の学習結果に従って出力が計
算されるので、入力に対する出力の範囲が限定され、制
御の信頼性が向上する。なお、新たなパターンベクトル
は、発明の実施の形態においてはテストパターンベクト
ルとも呼ばれる。また、分配関数とは、具体的には、実
施例で説明する式(２)を指す。

【００１１】クラスは予め設定されていても良いが、目
標出力の分布の度合いに基づいて決められるのが好まし
い。こうすると、出力の分布の密な領域でクラスを増や
す等、柔軟な対応が取れるため、学習や制御の効率が向
上する。この場合、クラスの設定は手動でも自動でも行
うことができる。自動で行う場合は、コホーネンの自己
組織化マップのような自己組織化手法を用いるのが好ま
しい。

【００１２】学習用入力パターンベクトルには、現時点
でセンサが取得する入力と制御対象への出力だけでな
く、現時点より前の時点における同様の入力と出力を要
素として含ませることができる。また、教師信号として
の目標出力は現時点より後の時点の出力を使用できる。
これは、制御対象の持つ慣性や操縦者の応答時間等によ
って、入力と出力とは同時に対応しているわけではな
く、ある程度の遅れ時間を考慮した方が適切な制御を行
えるからである。

【００１３】学習部は、各クラスに分配された学習用入
力パターンベクトルの各要素及び目標出力をそれぞれ格
納し、各データの集合の正規分布の平均値と分散を計算
しておき、第２の分配部は、新たな入力パターンベクト
ルの各要素について、各正規分布の平均値からの距離を
計算し、該距離の平均が最小であるクラスに新たな入力
パターンベクトルを分配する。この距離の計算は、具体
的には後述するステップＳ７０４における式(１)による
計算を指す。

【００１４】距離の平均は単純な相加平均でも良いが、
好適には前記学習用入力パターンベクトルの各要素の目
標出力に対する重みによる加重平均である。重みは、目
標出力を教師信号とした、パーセプトロン等のニューラ
ルネットワークによる学習で計算される。この加重平均
の計算は、具体的には後述するステップＳ７０４におけ
る式(２)による計算を指す。

【００１５】出力処理部は、新たな入力テストパターン
ベクトルが分配されたクラス内の各正規分布の平均値と
前記新たなテストパターンベクトルの各要素の間の距離
の加重平均を求め、前記目標出力の正規分布の平均値か
ら該加重平均に相当する距離にある値を出力する。具体
的には、後述するステップＳ７０８における式(３)によ
る計算を指す。

【００１６】

【発明の実施の形態】初めに、図１を参照して本発明の
原理を説明する。本発明は、人間の脳における情報処理
を工学的に解釈したものである。まず図１(a)を参照す
る。システム１０は、前処理において、複数の入力（ｘ
Inp[t-1]、ｘInp[t]、ｘOut[t-1]、ｘOut[t]）と、シス
テム１０の出力のターゲットである出力xOut[t+1]を取
得する。そして、ターゲットであるｘOut[t+1]に対して
一意に応答する細胞１２を自己組織的に作成する。この
細胞１２を「引金細胞」と呼ぶ。

【００１７】次に図１(b)を参照すると、引金細胞１２
は、自分と同じクラスに属する細胞１４を活性化し、そ
れぞれにシステムに対する入力（ｘInp[t-1]、ｘInp
[t]、ｘOut[t-1]、ｘOut[t]）を収集させる。これらの
細胞１４を「入力処理細胞」と呼ぶ。入力処理細胞１４
の役割は、それぞれが収集する入力の分布を表現するこ
とである。引金細胞１２と、引金細胞が活性化する複数
の入力処理細胞１４の組合わせをクラスと呼ぶ。

【００１８】以上の処理が完了すると、システム１０は
システムに対する入力から出力を計算できるようにな
る。このとき、引金細胞１２は使用されない。図１(c)
を参照して、システムに対する入力が入ってくると、こ
の入力は全てのクラスの入力処理細胞１４により収集さ
れる。各クラスの入力処理細胞１４は、それぞれの持つ
分布と入力の距離を計算する。そして、この距離の最も
近い入力処理細胞１４を持つクラスが出力を担当するこ
とになり、担当するクラスの引金細胞１２は自己の持つ
出力の分布に基づいてシステムからの出力１６を計算す
る。

【００１９】続いて、上記の原理を具体化した本発明の
好ましい実施形態を説明する。

【００２０】図２は、本発明の一実施形態による行動制
御装置が適用される制御システムの構成例を示す図であ
る。制御対象であるラジオコントロールヘリコプター
（以下「ヘリコプター」という）１００は、機体１０
２、メインロータ１０４、及びテールロータ１０６から
構成されている。ヘリコプター１００は、メインロータ
１０４及びテールロータ１０６の回転により空中に浮揚
する。

【００２１】機体１０２には、行動制御装置１０８、サ
ーボモータ等の出力部１１０が搭載される。メインロー
タ１０４及びテールロータ１０６の基部にはそれぞれ伸
縮機構１１１及びリンク機構１１２があり、ロッド１１
４等により出力部１１０と連結されている。

【００２２】機体にはさらにセンサ１１６が搭載され、
機体１０２のピッチ角を検出する。センサ１１６は、ジ
ャイロスコープ等のピッチ角を直接感知するものの他、
取得した画像から角度を計算する機能を持つ視覚センサ
等でも良い。

【００２３】行動制御装置１０８及び出力部１１０は、
図示しない受信器を介して、送信器１１８からの無線信
号を受けられるように構成されている。行動制御装置１
０８、出力部１１０、センサ１１６は相互に有線で接続
されていても、一体化した装置でも良く、あるいは、そ
れぞれ別個の装置であってその一部がヘリコプター１０
０の外部にあり相互に無線で接続される構成であっても
良い。

【００２４】操縦者がヘリコプター１００の挙動を観察
し、ヘリコプターが安定するように送信器１１８を操作
すると、出力信号が出力部１１０に供給される。ここ
で、安定とは、ヘリコプターがピッチ方向に振れないよ
うにすることを指し、他の方向、例えばヨー方向の振れ
は、本実施例では考慮しないこととする。出力部１１０
は、送信器１１８からの出力信号に応じて伸縮機構１１
１にメインロータ１０４の傾きを変えさせることで、ヘ
リコプター１００のピッチ方向の傾きを変化させる。な
お、制御するのはピッチ方向のみに限られず、他の方向
でも良い。

【００２５】センサ１１６の取得したピッチ角の入力
と、送信器１１８により操縦者が与えた出力は、行動制
御装置１０８にも供給される。行動制御装置１０８は、
まず、これらの入力と出力からなる学習用の入力パター
ン（以下「学習パターン」という）とこれに対応する目
標出力の組を、目標出力の値を基準に２つ以上のクラス
の何れかに分配する。そして、分配したクラス内での
み、学習パターンと目標出力の対応関係の学習を行う。
以上の一連の過程を本明細書において「準備段階」とい
う。

【００２６】準備段階が完了すると、操縦者が送信器１
１８を操作しなくても、センサ１１６からの入力に応じ
て、行動制御装置１０８が適切な出力を出力部１１０に
供給することができるようになり、ヘリコプター１００
は安定に制御される。より詳細には、行動制御装置１０
８は、新たに与えられるテスト用の入力パターン（以下
「テストパターン」という）に対して、そのテストパタ
ーンを上述の何れかのクラスに分配し、分配したクラス
内での学習結果に従って、制御対象を安定させる適切な
出力を計算して出力部１１０に供給する。このときの過
程を本明細書において「制御段階」という。

【００２７】本発明の行動制御装置１０８は、駆動機構
を有し単体で運動可能な任意の制御対象について使用す
ることができる。制御対象は、ヘリコプター１００のよ
うな飛行物に限定されず、地上を移動する車両やロボッ
トのアームの制御なども含む。しかし、後述するよう
に、ヘリコプター１００のように安定性の高い制御が要
求される制御対象に対して用いるとき、本発明はより有
用である。

【００２８】また本発明はその用途が安定制御に限定さ
れるものではない。

【００２９】図３は行動制御装置１０８の機能ブロック
図である。準備段階において、入力部１２０は、センサ
１１６の取得する複数時点の入力と操縦者が出力部１１
０に与えた複数時点の模範的な出力を組み合わせて、学
習パターンと対応する目標出力との組を作成し、この組
を分配部１２２に供給する。分配部１２２は、学習パタ
ーンと対応する目標出力の組を２つ以上のクラスの何れ
かに分配する。学習部１２４は、分配したクラス内で学
習パターンと対応する目標出力の対応関係の学習を行
う。この学習の結果は、制御時分配部１２６と出力処理
部１２８に供給される。

【００３０】準備段階終了後の制御段階では、行動制御
装置１０８に学習パターンと同様のテストパターンを与
えて、操縦者による送信機１１８を介した操作なしに行
動制御装置１０８がヘリコプター１００を安定に制御で
きるか否かが確認される。入力部１２０は、センサ１１
６の取得する複数時点の入力と行動制御装置１０８の生
成する出力を組み合わせてテストパターンを作成し、こ
のテストパターンを制御時分配部１２６に供給する。制
御時分配部１２６は、学習部１２４から与えられた学習
結果を使用して、テストパターンを何れかのクラスに分
配する。出力処理部１２８は、分配されたクラスに対応
する学習結果を使用して、テストパターンに対する出力
を計算する。

【００３１】学習パターンを構成する入力と出力の一例
を図４(a)に示す。入力は、本実施例ではセンサ１１６
の取得するヘリコプター１００のピッチ角であり、ヘリ
コプター１００が安定すなわち水平に保たれているとき
は０°になり、前方に傾いているときは負の値になり、
後方に傾いているときは正の値になる。出力は、ピッチ
角を変えてヘリコプター１００を安定させるために、操
縦者が送信器１１８を用いて出力部１１０に与える出力
信号である。本実施例では１から１２７までの整数値を
とり、「１」に近くなるほどヘリコプター１００を前方
に傾かせる力が強く働き、「１２７」に近くなるほどヘ
リコプター１００を後方に傾かせる力が強く働くように
なっている。

【００３２】入力は所定のタイミング、例えば０．０５
秒毎にセンサ１１６によって取得され、その時間に出力
部１１０に与えられていた出力と共に図示しないメモリ
に蓄えられる。そして、これらが適宜組み合わされて学
習パターンが作成される。

【００３３】続いて、図５のフローチャートを用いて、
行動制御装置１０８の準備段階の動作について述べる。

【００３４】まず、ステップＳ４０２で、入力部１２０
は学習パターンと対応する目標出力の組を作成する。こ
の学習パターンと対応する目標出力の組の例を図４
(a)、(b)を用いて説明する。ある時刻ｔにおいてセンサ
１１６の取得する入力をｘInp[t]、その時点で出力部１
１０に与えられた出力をｘOut[t]と表すことにする。こ
の例では、学習パターンは、ある時刻ｔにおける入力ｘ
Inp[t]及び出力ｘOut[t]と、１つ前の時刻ｔ-１におけ
る入力ｘInp[t-1]及び出力ｘOut[t-1]とを含む。つま
り、図４(a)の時系列で並べられた入出力のうち、矩形
で囲まれた４つの値（３０２）を１組の学習パターンと
する。そして、この学習パターンに対する目標出力とし
て、図４(a)において丸３０８で囲まれた１つ後の時刻
ｔ+１における出力ｘOut[t+1]を用いる。以下、矩形３
０４と丸３１０、矩形３０６と丸３１２というように、
学習パターンと対応する目標出力の組を順次作成してい
く（矢印３１４、３１６）。言い換えると、学習パター
ンはｘInp[t-1]、ｘInp[t]、ｘOut[t-1]、ｘOut[t]を要
素とする４次元の特徴ベクトルである。

【００３５】学習パターンと対応する目標出力の組を表
に表すと、図４(b)のようになる。

【００３６】この実施例においては、上述のように学習
パターンには現時点ｔの入力と出力だけでなくそれより
前の時点ｔ-１の入出力を含め、また目標出力は、現時
点ｔの出力でなく現時点より後の時点ｔ+１の出力とす
ることが好ましい。この理由は、入力と出力の間には、
ヘリコプター１００等の制御対象の持つ慣性や操縦者の
反応時間等による遅れ時間が存在するので、この遅れ時
間を考慮して学習パターンと対応する目標出力の組を構
築する方が制御対象の挙動をより適切に反映すると考え
られるからである。従って、どの程度前の時点あるいは
後の時点の入出力を、それぞれいくつずつ学習パターン
に含めるか、または、現時点よりどの程度後の時点の出
力を目標出力とするかは、制御対象等の特性に応じて任
意に設定可能であり、学習パターンを上述のような構成
とするのが全ての問題に対して好ましいわけではない。
しかし、一般に、１組の学習パターンを多くの要素で構
成するほど、準備段階での学習が充実し、制御段階での
高精度な安定制御につながる。

【００３７】なお、学習データが時系列に応じて作成さ
れず、異なるモダリティ別に作成されたものに対しても
本発明を適用できる。

【００３８】以下の説明では、センサ１１６によって、
Ｊ個の要素を含む（すなわち、Ｊ次元の特徴ベクトルで
ある）学習パターンが全部でＫ個取得されるとき、ｋ番
目の学習パターンをベクトルＸ_k＝{ｘ_k1,…,ｘ_kJ}（ｋ
＝１,…,Ｋ）で表す。また、対応する目標出力は、ｙ_k
で表す。

【００３９】ステップＳ４０４で、分配部１２２は、目
標出力ｙ_kの値に基づいて、学習パターンベクトルＸ_kを
２つ以上のクラスの何れかに分配する。このクラスは、
予め設定されたもので良い。しかしながら、ヘリコプタ
ー１００を用いた予備実験において、操縦者が与えた出
力（具体的には１〜１２７の整数）の度数分布の広がり
に応じて、それぞれのクラスがほぼ同数ずつの出力をカ
バーするようにクラスを設定しておくのが好ましい。

【００４０】例えば、本実施例では出力は１から１２７
までの値を取ることができるが、１から１２７の範囲を
３つのクラスに等分しても、１番目のクラスと３番目の
クラスはあまり意味を持たない。実際の制御では、ヘリ
コプター１００の出力部１１０に値１や１２７に近い極
端な出力を与えるような状況はほとんど起こり得ず、操
縦者の与える出力は、ほとんどがその中間値付近の値と
なると予期されるからである。そこで、３つのクラスが
出力の分布の密なところに寄り合うようにクラスを設定
する。このクラスの設定は人手によらず、コホーネンの
自己組織化マップ等を利用して行うようにしても良い。

【００４１】クラスが多いほど後述する学習に時間がか
かるが、少ないと高精度の制御が得られなくなるので、
適当な数のクラスを設定する。以下では、簡単のために
２つのクラスが予め設定されている場合について説明す
る。クラス１は値１〜６３の目標出力に、クラス２は値
６４〜１２７の目標出力にそれぞれ対応するクラスであ
る。当然、クラスの数は２以上の他の数でも良く、例え
ば後述する実施例（図１２）では、クラスの数を８つと
している。

【００４２】なお、ステップＳ４０２〜Ｓ４０４は、１
組の学習パターンと目標出力の組を取得する度に行うこ
とも、または学習パターンと目標出力の組がある程度の
数だけ蓄積された後にまとめて行うこともできる。

【００４３】ステップＳ４０６で、学習部１２４は、各
クラスに分配された学習パターンベクトルＸ_kの各要素
ｘ_kj（ｊ＝１,…,Ｊ）及び目標出力ｙ_kをそれぞれ専用
の記憶領域に格納していく。そして、ある程度のデータ
がたまると、それぞれの度数分布を作成し、その分布を
正規分布と見てその平均値μと分散σを計算する。そし
て計算した平均値μと分散σを、各要素ｘ_kj及び目標出
力ｙ_k毎に、クラス別に格納する。

【００４４】図６はステップＳ４０６における動作を概
念的に示したものである。上段はクラス１、下段はクラ
ス２に対応している。列は、左から順に、Ｊ＝４の場合
の学習パターンベクトルの各要素ｘ_kj、目標出力ｙ_kの
分布に対応する。

【００４５】設定されたクラスの数をｉ（ｉ＝１〜
Ｉ）、各要素ｘ_kjの正規分布の平均値と分散をそれぞれ
μ_ij、σ_ij、及びｉ番目のクラスにおける目標出力ｙ_k
の正規分布の平均値と分散を以下のように表すとする。

【００４６】

【数５】このとき、図６に示す正規分布にそれぞれ対応して
μ_ij、σ_ijまたは以下の値が格納されることになる。

【００４７】

【数６】

【００４８】ステップＳ４０８で、学習部１２４は、学
習パターンベクトルＸ_kの各要素ｘ_k _jと目標出力ｙ_kとの
対応関係の学習を行う。この学習は、既知のパーセプト
ロン学習則に基づいて、以下の手順で行われる。以下の
各処理は、クラス毎にそれぞれ行われる。

【００４９】１．まず、学習パターンベクトルＸ_kの各
要素ｘ_kjと、分配されたクラスｉにおいてその要素につ
いてステップＳ４０６で求められている正規分布の中心
（すなわち、平均値μ_ij）との距離ｚ_ijを、平均値
μ_ij、分散σ_ijを用いて次式により計算する。

【００５０】ｚ_ij＝(ｘ_kj-μ_ij)/σ_ij （ｊ＝１,…,Ｊ）(１) これは、各要素ｘ_kjと正規分布の中心までの距離（図７
参照）を分散σ_ijで正規化したものである。

【００５１】２．得られた距離ｚ_ijと、ｚ_ijに対応した
重みｗ_ijの積の和を次元数Ｊで除した、加重平均ｍ_iを
計算する。

【００５２】ｍ_i＝Σ(ｚ_ijｗ_ij)/Ｊ（ｊ＝１,…,Ｊ）(２) 重みｗ_ijの初期値はランダムに設定される。

【００５３】３．得られた加重平均を用いて、次式によ
り出力ｙ_k’を計算する。

【００５４】

【数７】

【００５５】４．目標出力ｙ_kを教師信号として、得ら
れたｙ_k’との誤差ｙ_k’−ｙ_kを小さくするように、重
みｗ_ijを更新する。

【００５６】以上の計算を各クラスｉ（ｉ＝１,…,Ｉ）
に分配された全ての学習パターンベクトルＸ_kについて
行い、重みｗ_ijが更新されることによって、学習パター
ンベクトルＸ_kと目標出力ｙ_kの対応関係が学習されてい
く。

【００５７】準備段階で計算された学習結果は、制御時
分配部１２６及び出力処理部１２８に送られて、制御段
階における計算に使用される。特に、式(２)のｍ_iは、
テストパターンベクトルをクラスに分配する分配関数と
しても用いられる。

【００５８】ステップＳ４０８における計算は、図６の
各要素ｘ_kjの正規分布における出力から中心までの距離
ｚ_ijと、出力ｙ_kの正規分布における出力から中心まで
の距離の間には相関関係があると考えられることに基づ
いている。この計算は、学習パターンベクトルの要素で
ある現時点及び１つ前の時点の入出力がそれぞれ持つ出
力への寄与度を重みｗ_ijによって表現するものと見るこ
ともできる。

【００５９】なお、ステップＳ４０８の重みｗ_ijの計算
は、精度の高い制御を行うための任意選択のステップで
あるので、パーセプトロンによる学習を実行しなくても
良く、その場合には重みｗ_ijはすべて１とされる。

【００６０】このように、行動制御装置１０８は、準備
段階において、まず初めに目標出力に対して一対一に対
応するクラスを設定する（第１の学習）。次に、学習パ
ターンベクトルと目標出力の組を何れかのクラスに分配
し、各要素について正規分布を計算する（第２の学
習）。最後に、学習パターンベクトルの各要素と目標出
力の間の関係を重みｗ_ijの更新によって学習する（第３
の学習）という、３つの過程をとる。

【００６１】以上で、行動制御装置１０８の準備段階の
動作の説明を終了する。

【００６２】続いて、図８に示すフローチャートを用い
て、行動制御装置１０８の制御段階の動作について述べ
る。

【００６３】ステップＳ７０２で、入力部１２０は、学
習パターンベクトルと同じ入力と出力の構成を取るテス
トパターンベクトルＸ_k＝{ｘ_k1,…,ｘ_kJ}を作成する。

【００６４】ステップＳ７０４で、制御時分配部１２６
は、テストパターンベクトルの各要素ｘ_kj（ｊ＝１,…,
Ｊ）を用いて、各クラスｉ（ｉ＝１,…,Ｉ）毎に距離の
平均値ｍ_iを式(１)及び(２)に従って計算する。

【００６５】ステップＳ７０６で、制御時分配部１２６
は、距離の平均値ｍ_iのうち最小のｍ_iを有するクラス
（このクラスを「クラスｉＷinner」という）に、テス
トパターンベクトルＸ_kを分配する。

【００６６】ステップＳ７０８で、出力処理部１２８
は、クラスｉＷinnerの距離の平均値ｍ_iＷinnerと、ク
ラスｉＷinnerに対応した平均値μ_iＷinner,j、及び分
散σ_iＷ _inner,jを使用して、式(３)に従って出力ｙ_k’
を計算する。出力ｙ_k’は、行動制御装置１０８から出
力部１１０に送られ、ヘリコプター１００を制御する。

【００６７】図９、図１０は、ステップＳ７０２〜Ｓ７
０８の動作を概念的に説明するものである。図９は、ク
ラス１、２に、テストパターンベクトルＸ_kの各要素ｘ
_kj（ｊ＝1,…,Ｊ）（図中黒丸で表す）を与えた様子を
示す。クラス１では、各要素ｘ_kjは正規分布の端の方に
位置にあるのに対し、クラス２では正規分布の平均値に
近くに位置する。従って、距離の平均値ｍ_iはクラス２
の方が小さくなるので、制御時分配部１２６はこのテス
トパターンベクトルＸ_kをクラス２に分配する。

【００６８】そして、選択されたクラス２の距離の平均
値ｍ_iが、目標出力ｙ_kの正規分布の平均値からの距離に
相当するものとして、出力ｙ_k’が算出される（図１
０）。

【００６９】以上で、制御時の行動制御装置１０８の動
作の説明を終了する。

【００７０】なお、以上の説明では、学習パターンと目
標出力の組の集合を使用して準備段階が完了した後に、
テストパターンによる制御を開始するものとして記載し
ているが、準備段階を経ずに制御を直ちに開始すること
もできる。このときは、図５に示すフローと図８に示す
フローとが同時並行的に実行されることになる。この場
合、制御初期は学習が未熟なため、突飛な運動により制
御対象が破損等する可能性があるので、所定の間は行動
制御装置１０８が制御対象に与える出力の範囲を強制的
に制限するような構成にすることが好ましい。

【００７１】図２のシステムにおいて、テストパターン
を用いて行った実験結果を図１１に示す。図中に示す線
は、教師信号である目標出力（Target）、第３の学習を
経たときの行動制御装置１０８による出力（With Learn
ing）、第３の学習を経なかったときの行動制御装置１
０８による出力（Without Learning）を表す。図の横軸
はセンサ１１６によるサンプリング回数であり、縦軸は
ヘリコプター１００のピッチ角である。図１１から、第
３の学習の有無によって、行動制御装置１０８の出力特
性が多少異なることが分かる。第３の学習を経たとき
は、ステップ関数のような応答特性を示すのに対して、
第３の学習を経なかったときは、滑らかな応答特性を示
している。従って、第３の学習を経るかどうかは、望ま
しい応答特性に応じて使い分ければ良い。

【００７２】一般に、パーセプトロン等の階層型ニュー
ラルネットワークでは、入力と出力をそのまま学習させ
る。一方、本発明による行動制御装置１０８では、予め
目標出力によるクラス分配が行われる。そして、分配さ
れたクラス毎に学習パターンを収集する。従って、学習
パターンの分配されたクラスに対応する出力以外は出力
されることが無いので、未学習の入力に対しても不適当
で突飛な出力がされることが無く、制御システムの信頼
性が向上する。また、出力の分布に応じて適切な範囲を
持つ適切な数のクラスを設定することによって、出力が
ある値の近傍に集中してしまうような制御対象や、出力
が広い範囲に散らばってしまうような制御対象のいずれ
に対しても、適切なふるいをかけることができ、制御の
精度が向上する。

【００７３】図１２は、図２と同様の制御システムに公
知のＣＭＡＣ（小脳モデルアルゴリズム）を適用したと
きの実験結果(a)と、本発明の行動制御装置１０８を用
いて制御したときの実験結果(b)を示す。各図中、上の
線はセンサ１１６の入力（ピッチ角）であり、下の線は
行動制御装置１０８による出力である。出力はセンサ入
力に追従することが理想である。しかし、(a)では、セ
ンサ入力の範囲が学習を行った領域にある場合はよい
が、図中矢印で示す学習していない領域（ヘリコプター
１００のピッチ角が２０度より大きい領域）になると、
出力が不適当になっている（つまり、本来は追従して大
きな出力を出さなければならないのに対し、出力が下が
っている）。これに対し、(b)では、図中矢印で示すよ
うに、センサ入力の範囲が学習していない領域になって
も、出力がセンサ入力に追従している。図１３は、図１
２の(a)、(b)における結果を正規化して１つのグラフに
表したものである。ＣＭＡＣの場合は、センサ入力が学
習していない領域（図１３で、入力が−３〜２以外の領
域）に入ると途端に目標出力に追従できなくなるのに対
し、本発明の行動制御装置の場合は、その場合でも精度
良く目標出力に追従できている。

【００７４】既知のＲＢＦネットワークでも本実施形態
と同様に出力の計算に正規分布を用いるが、ＲＢＦネッ
トワークでは、クラスにおける出力関数の位相関係で入
出力関係を表現する。すなわち、ＲＢＦではある入力に
対して全てのクラスの割合を学習して全クラスにかかる
計算結果を出力する。それに対し本発明では、クラス毎
に出力関数を任意に設定でき、かつ、クラスが１つ選択
されると以後そのクラス内でのみ入出力の対応関係の計
算を行うため出力関数同士のトポロジーを考慮する必要
が無く、選択された単一の出力関数の値をそのまま出力
できる。

【００７５】簡単な例を具体的に述べると、例えばクラ
ス１とクラス２が存在し、それぞれのクラスに分配され
た入力に対してクラス１は出力値「ａ」を、クラス２は
出力値「ｂ」を出力するものとする。このときＲＢＦネ
ットワークにおいては、ある入力に対する出力は、(ａ
＋ｂ)または(ａ＋ｂ)/２のように、各クラスの出力値が
線形結合されたものとなる。これに対し本発明において
は、制御段階においてある入力に対してクラス２がＷin
nerになったとすると、クラス２の出力値「ｂ」のみが
出力される。従って本発明は、各クラスについてより専
門的な関数を作っておくことでより高精度な制御を実現
し、またＲＢＦネットワークよりも複雑な関数を近似す
ることが可能になる。

【００７６】また、制御段階における行動制御装置１０
８の行う計算量が非常に少ないことに注目すべきであ
る。すなわち、制御段階ではテストパターンがどのクラ
スに属するかを分配するための平均値ｍ_iの計算（式
(２)）と、分配されたクラス内での出力ｙ_k’の計算
（式(３)）のみである。これは、正規分布を逐一計算す
る方式に比べて、制御が高速化されることを意味する。
従って、ヘリコプターのような不安定な制御対象に対し
ても、高速処理によって安定性の高い制御を行える。

【００７７】

【発明の効果】本発明によれば、準備段階で目標出力に
基づいて学習用入力パターンを２つ以上のクラスの何れ
かに分配し、分配したクラス内でのみ学習用入力パター
ンと目標出力の対応関係を学習するので、制御段階にお
いて、ある入力パターンに対して計算される出力の範囲
が限定されるので、突飛な出力をすることが無くなり、
制御の信頼性が向上する。

【図面の簡単な説明】

【図１】本発明の原理を説明する図である。

【図２】本発明の一実施形態を説明するためのヘリコプ
ター制御システムの構成図である。

【図３】行動制御装置の機能ブロック図である。

【図４】学習パターンベクトルと目標出力を説明する図
である。

【図５】準備段階のフローチャートである。

【図６】学習パターンベクトルの各要素と目標出力の正
規分布の一例を示す図である。

【図７】学習パターンベクトルの要素と図６に示す正規
分布の中心までの距離を説明するための図である。

【図８】制御段階のフローチャートである。

【図９】クラスの分配を説明する図である。

【図１０】分配されたクラスにおける出力の計算を説明
する図である。

【図１１】本発明による行動制御装置を用いた制御結果
を示すグラフである。

【図１２】(a)は公知のＣＭＡＣを用いたヘリコプター
の制御結果を示すグラフであり、(b)は本発明による行
動制御装置を用いた制御結果を示すグラフである。

【図１３】図１２の結果を対比するためのグラフであ
る。

【符号の説明】

１００ヘリコプター１０８行動制御装置１１０出力部１１６センサ１１８送信器１２０入力部１２２分配部１２４学習部１２６制御時分配部１２８出力処理部

Claims

【特許請求の範囲】

【請求項１】センサの取得する入力と制御対象への出力
を要素とする学習用の入力パターンベクトルと目標出力
の組の集合に基づいて学習を行い、学習結果に従って新
たな入力パターンベクトルに対する適切な出力を計算し
て前記制御対象に与える行動制御装置であって、前記学習用入力パターンベクトルと目標出力の組を作成
する入力部と、前記目標出力に基づいて、前記学習用入力パターンベク
トルと目標出力の組を２以上のクラスの何れかに分配す
る第１の分配部と、第１の分配部により分配されたクラス内において、学習
用入力パターンベクトルの各要素と目標出力との対応関
係を学習する学習部と、前記学習部における学習結果に従って、前記新たな入力
パターンベクトルを前記クラスの何れかに分配する第２
の分配部と、第２の分配部により分配されたクラス内において、前記
学習結果に従って、前記新たな入力パターンベクトルに
対応する出力を計算する出力処理部と、を備える行動制御装置。
【請求項２】前記２以上のクラスは予め設定されてい
る、請求項１に記載の行動制御装置。
【請求項３】前記２以上のクラスは、前記目標出力の分
布の度合いに基づいて自己組織化マップにより自動で決
定される、請求項１に記載の行動制御装置。
【請求項４】前記学習用入力パターンベクトルは、現時
点で前記センサが取得する入力と前記制御対象への出
力、現時点より前の時点で前記センサが取得する入力と
前記制御対象への出力を要素として含む、請求項１乃至
３に記載の行動制御装置。
【請求項５】前記学習部は、各クラスに分配された学習
用入力パターンベクトルの各要素及び目標出力をそれぞ
れ格納し、各データの集合の正規分布の平均値と分散を
計算しておき、前記第２の分配部は、前記新たな入力パターンベクトル
の各要素について、前記各正規分布の平均値からの距離
を計算し、該距離の平均が最小であるクラスに前記新た
な入力パターンベクトルを分配する、請求項１乃至４に
記載の行動制御装置。
【請求項６】前記距離の平均は、前記学習用入力パター
ンベクトルの各要素の目標出力に対する重みによる加重
平均である、請求項５に記載の行動制御装置。
【請求項７】前記重みは、前記目標出力を教師信号とし
たニューラルネットワークによる学習で計算される、請
求項６に記載の行動制御装置。
【請求項８】前記出力処理部は、前記新たな入力テスト
パターンベクトルが分配されたクラス内の各正規分布の
平均値と前記新たなテストパターンベクトルの各要素の
間の距離の加重平均を求め、前記目標出力の正規分布の
平均値から該加重平均に相当する距離にある値を出力す
る、請求項１乃至７に記載の行動制御装置。
【請求項９】前記新たな入力テストパターンベクトルの
各要素をｘ_kj（ｋ＝１,…,Ｋ、ｊ＝１,…,Ｊ）、前記目
標出力をｙ_k、新たな入力テストパターンベクトルに対
応する出力をｙ_k’、クラスをｉ（ｉ＝１〜Ｉ）、クラ
スｉにおける前記各データの集合の正規分布の平均値と
分散をそれぞれμ_ij、σ_ij、重みをｗ_ij、及びクラスｉ
における目標出力ｙ_kの正規分布の平均値と分散をそれ
ぞれ以下のように表すとき、【数１】前記第２の分配部は、前記新たな入力パターンベクトル
の各要素ｘ_kjについて前記各正規分布の平均値からの距
離ｚ_ijを次式ｚ_ij＝(ｘ_kj-μ_ij)/σ_ij により計算し、計算した距離ｚ_ijの加重平均ｍ_iを次式ｍ_i＝Σ(ｚ_ijｗ_ij)/Ｊにより計算し、計算した加重平均ｍ_iが最小であるクラ
スに前記新たな入力パターンベクトルを分配し、前記出力処理部は、前記新たな入力パターンベクトルが
分配されたクラスについて次式【数２】により出力ｙ_k’を計算する、請求項５乃至８に記載の
行動制御装置。
【請求項１０】センサの取得する入力と制御対象への出
力を要素とする学習用の入力パターンベクトルと目標出
力の組の集合に基づいて学習を行い、学習結果に従って
新たな入力パターンベクトルに対する適切な出力を計算
して前記制御対象に与える行動制御方法であって、前記学習用入力パターンベクトルと目標出力の組を作成
し、前記目標出力に基づいて、前記学習用入力パターンベク
トルと目標出力の組を２以上のクラスの何れかに分配
し、該分配されたクラス内において、学習用入力パターンベ
クトルの各要素と目標出力との対応関係を学習し、該学習結果に従って、前記新たな入力パターンベクトル
を前記クラスの何れかに分配し、該分配されたクラス内において、前記学習結果に従っ
て、前記新たな入力パターンベクトルに対応する出力を
計算することを含む行動制御方法。
【請求項１１】前記２以上のクラスは予め設定されてい
る、請求項１０に記載の行動制御方法。
【請求項１２】前記２以上のクラスは、前記目標出力の
分布の度合いに基づいて自己組織化マップにより自動で
決定される、請求項１０に記載の行動制御方法。
【請求項１３】前記学習用入力パターンベクトルは、現
時点で前記センサが取得する入力と前記制御対象への出
力、現時点より前の時点で前記センサが取得する入力と
前記制御対象への出力を要素として含む、請求項１０乃
至１２に記載の行動制御方法。
【請求項１４】前記学習ステップは、各クラスに分配さ
れた学習用入力パターンベクトルの各要素及び目標出力
をそれぞれ格納し、各データの集合の正規分布の平均値
と分散を計算することを含み、前記新たな入力パターンベクトルを分配するステップ
は、前記新たな入力パターンベクトルの各要素につい
て、前記各正規分布の平均値からの距離を計算し、該距
離の平均が最小であるクラスに前記新たな入力パターン
ベクトルを分配することを含む、請求項１０乃至１３に
記載の行動制御方法。
【請求項１５】前記距離の平均は、前記学習用入力パタ
ーンベクトルの各要素の目標出力に対する重みによる加
重平均である、請求項１４に記載の行動制御方法。
【請求項１６】前記重みは、前記目標出力を教師信号と
したニューラルネットワークによる学習で計算される、
請求項１５に記載の行動制御方法。
【請求項１７】前記出力ステップは、前記新たな入力テ
ストパターンベクトルが分配されたクラス内の各正規分
布の平均値と前記新たなテストパターンベクトルの各要
素の間の距離の加重平均を求め、前記目標出力の正規分
布の平均値から該加重平均に相当する距離にある値を出
力することを含む、請求項１０乃至１６に記載の行動制
御方法。
【請求項１８】前記新たな入力テストパターンベクトル
の各要素をｘ_kj（ｋ＝１,…,Ｋ、ｊ＝１,…,Ｊ）、前記
目標出力をｙ_k、新たな入力テストパターンベクトルに
対応する出力をｙ_k’、クラスをｉ（ｉ＝１〜Ｉ）、ク
ラスｉにおける前記各データの集合の正規分布の平均値
と分散をそれぞれμ_ij、σ_ij、重みをｗ _ij、及びクラス
ｉにおける目標出力ｙ_kの正規分布の平均値と分散をそ
れぞれ以下のようにするとき、【数３】前記新たな入力パターンベクトルを分配するステップ
は、前記新たな入力パターンベクトルの各要素ｘ_kjにつ
いて前記各正規分布の平均値からの距離ｚ_ijを次式ｚ_ij＝(ｘ_kj-μ_ij)/σ_ij により計算し、計算した距離ｚ_ijの加重平均ｍ_iを次式ｍ_i＝Σ(ｚ_ijｗ_ij)/Ｊにより計算し、計算した加重平均ｍ_iが最小であるクラ
スに前記新たな入力パターンベクトルを分配し、前記出力ステップは、前記新たな入力パターンベクトル
が分配されたクラスについて次式【数４】により出力ｙ_k’を計算する、請求項１４乃至１７に記
載の行動制御方法。