JPH06337713A

JPH06337713A - 自律移動ロボット走行制御装置

Info

Publication number: JPH06337713A
Application number: JP5128825A
Authority: JP
Inventors: Yukio Kuroda; 幸男黒田; Koji Ono; 宏司大野
Original assignee: Toyota Motor Corp; Toyota Central R&D Labs Inc
Current assignee: Toyota Motor Corp; Toyota Central R&D Labs Inc
Priority date: 1993-05-31
Filing date: 1993-05-31
Publication date: 1994-12-06

Abstract

(57)【要約】【目的】制御系の特性を学習するニューラルネットワ
ークを備えた自律移動ロボット走行制御装置において、
学習の収束性を高め、学習時間を低減し、さらに、正確
な制御を可能にする自律移動ロボット走行制御装置を提
供する。【構成】制御系の特性を学習するニューラルネットワ
ークが、移動ロボットの軌道特性を学習するキネマティ
クス部２０と、移動ロボットの動特性を学習するダイナ
ミクス部２１とを、それぞれ独立の処理部として含むこ
とにより、無関係なユニット間結合を排除する。また、
ニューラルネットワークは自律移動ロボットの既知特性
を予め学習させた既知構造部を含むことにより、無駄な
学習を低減する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は自律移動ロボット走行
制御装置に係り、特に工場等で用いられる無人搬送車や
警備ロボット等に適用して円滑な運動を実現するに好適
な自律移動ロボット走行制御装置に関する。

【０００２】

【従来の技術】従来から、工場内搬送車や警備ロボット
等の自律走行には、大きく分けて２つの手法による走行
制御が行われている。

【０００３】１つは、比例制御、積分制御、比例積分微
分制御等の、古典的な制御方法であり、フィードバック
制御やフィードフォワード制御と組み合わせて用いられ
る。しかしながら、このような古典的な制御方法は、摩
擦や粘性等の非線形要素を多く含んだ制御には不適切で
ある。なぜなら、このような古典的な方法では非線形問
題を線形近似で解いているため、誤差が多くなり、また
累積誤差も多くなるからである。またフィードバック制
御の場合は時間遅れも問題となってくる。更に、タイヤ
の摩耗やオイルの粘性変化等の、ロボットの経時変化に
対応するためには、頻繁なゲイン調整が必要になってく
ることも問題である。つまり、ロボットの経時変化に対
応するためには、制御対象の特性が変化する毎に各種の
制御パラメータを設定し直す必要があるのだが、設備稼
働率などを勘案すると、頻繁なパラメータの設定変更
は、非実用的であると言わざるを得ない。

【０００４】これに対して、近年ニューラルネットワー
クによる制御が注目されている。これは、例えば、特開
平３−２３５１０１号に開示されるような多層パーセプ
トロン型ニューラルネットワークによる学習型の制御方
式である。ニューラルネットワークによる制御では、非
線形問題にそのまま対応できるばかりでなく、学習機能
を有するために、パラメータの設定変更が不要になると
いう利点がある。

【０００５】今、図２０に示すような移動ロボットを想
定する。図において、１６は移動ロボットであり、右車
輪１と左車輪２およびキャスター車輪５により走行す
る。３は右車輪１を駆動する右車輪駆動モータ、４は左
車輪２を駆動する左車輪駆動モータである。

【０００６】右車輪駆動モータ３は右車輪１に対してτ
r なる駆動トルクを与える。一方、左車輪駆動モータ４
は左車輪２に対してτl なる駆動トルクを与える。その
結果、移動ロボット１６は速度ｖで走行するが、この場
合、右車輪駆動モータ３と左車輪駆動モータ４の回転速
度が異なれば車体角θが変わる。この場合の角度の変化
速度は、角速度ωで与えられる。以上のようにして、右
車輪駆動モータ３と左車輪駆動モータ４の駆動により、
移動ロボット１６は、その位置ｘ、ｙを変化させる。

【０００７】ここで、速度ｖ、右車輪駆動トルクτr 、
左車輪駆動トルクτl 、角速度ωは移動ロボット１６自
体の動特性に関するデータであり、ダイナミクスと呼
ぶ。一方、位置ｘ、位置ｙ、車体角θは移動ロボット１
６の軌道に関するデータであり、キネマティクスと呼
ぶ。

【０００８】以上のような移動ロボットを走行制御する
に当り、ニューラルネットワークを適用する場合、従来
は、図２１に示すような、多層パーセプトロン型ニュー
ラルネットワークが用いられていた。このニューラルネ
ットワークは入力層１７、中間層１８、出力層１９で構
成される。

【０００９】入力層１７の各ユニットには、ある時間ス
テップｋにおける移動ロボット１６の位置ｘ（ｋ）、位
置ｙ（ｋ）、車体角θ（ｋ）、角速度ω（ｋ）、速度ｖ
（ｋ）、右車輪駆動トルクτr （ｋ）、左車輪駆動トル
クτl （ｋ）が与えられる。入力層１７の全ユニットは
中間層１８の全ユニットに結合されている。

【００１０】以上のような構成において、入力層１７に
ダイナミクスとキネマティクスのそれぞれに対応する教
師データを一度に与えることにより、ニューラルネット
ワークは学習する。この学習により、ユニット間結合の
大きさが変化して行き、非線形な因果関係にも対応した
学習結果が得られる。この学習結果は、中間層１８の全
ユニットに結合される出力層１９のユニットを通じて、
入力の次の時間ステップであるｋ＋１における移動ロボ
ット１６の位置ｘ（ｋ＋１）、位置ｙ（ｋ＋１）、車体
角θ（ｋ＋１）、角速度ω（ｋ＋１）、速度ｖ（ｋ＋
１）として出力される。

【００１１】さて、以上のようなニューラルネットワー
クに、図２２に示すような教師データを用いて学習させ
る実験を行った。教師データとしては、Ａ１ないしＡ５
の５つのパターンを与えた。この実験による学習結果
は、図２３に示すとおりである。図２３からも明らかな
ように、教師データＡ１ないしＡ５に対応する学習結果
Ｅ１ないしＥ５は、収束していない。

【００１２】図２３に示した実験結果は、実用上妥当な
数の教師データを与えてニューラルネットワークの学習
を行った例であるが、図からわかるように収束していな
い。そこで、実用性を無視して更に多くの教師データを
与えてニューラルネットワーク自体の収束性を調べる実
験を行った。その結果を図２４および図２５に示す。図
２４（Ａ）、（Ｂ）および（Ｃ）は、それぞれ図２２に
示したパターンＡ１を学習させた場合の移動ロボットの
位置ｘ、ｙ、および車体角θに関する教師データと学習
結果との関係を示すものである。また、図２５（Ａ）、
（Ｂ）および（Ｃ）は、それぞれ図２２に示したパター
ンＡ５を学習させた場合の移動ロボットの位置ｘ、ｙお
よび車体角θに関する教師データと学習結果との関係を
示すものである。

【００１３】図２４および図２５から明らかなように学
習する際の教師データの数を多くした場合、学習はある
程度収束するものの、依然として無視できない誤差が残
ることがわかる。

【００１４】

【発明が解決しようとする課題】以上述べたように、従
来の多層パーセプトロン型ニューラルネットワークを用
いた自律移動ロボット走行制御装置は学習の収束性が悪
いという問題があった。これは、従来例におけるニュー
ラルネットワークが、各層のユニットそれぞれが他の層
の全てに結合している構造となっているため、必要以上
に結合数が多く、冗長度が大きすぎるためである。

【００１５】また、従来例では、制御対象の特性として
次元の違う特性であるキネマティクスとダイナミクスの
学習を同一のニューラルネットワークで行っているた
め、汎化能力に限界があるという問題があった。

【００１６】この発明は上記のような従来技術の問題点
を解消し、学習時間の大幅な低減と正確な制御を可能に
した自律移動ロボット走行制御装置を提供することを目
的とする。

【００１７】

【課題を解決するための手段】上記目的を達成するため
に、本発明は、制御系の特性を学習するニューラルネッ
トワークを備えた自律移動ロボット走行制御装置におい
て、前記ニューラルネットワークが自律移動ロボットの
軌道特性を学習するキネマティクス部と、自律移動ロボ
ットの動特性を学習するダイナミクス部と、を含み、前
記キネマティクス部および前記ダイナミクス部はそれぞ
れ独立された処理部として構成され、前記ニューラルネ
ットワークは自律移動ロボットの既知特性を予め学習さ
せた既知構造部を含むことを特徴とする。

【００１８】

【作用】本発明にかかる自律移動ロボット走行制御装置
は以上のような構成を有しており、制御対象の特性とし
て次元の違う特性である自律移動ロボットの軌道特性と
自律移動ロボットの動特性が、それぞれキネマティクス
部とダイナミクス部において独立に学習される。このた
めニューラルネットワークの構成においてユニット間の
結合数が少なくなり学習の収束性がよくなり、学習に要
する時間が短縮される。

【００１９】また、ニューラルネットワークは、制御対
象である自律移動ロボットに関する先見的知識を既知特
性として予め学習させた既知構造部を含むため、学習に
要する時間が短縮される。

【００２０】

【実施例】以下、図面を参照しながら、この発明の実施
例を説明する。

【００２１】図１はこの発明の第一実施例に係る自律移
動ロボット運動制御装置のブロック図である。図におい
て、７は与えられた入力データに対しニューラルネット
ワークによるキネマティクスの補償を行い、補正された
移動ロボットの速度ｖ* 、角速度ω* を出力するニュー
ラルネットワークキネマティクス補償部、８はニューラ
ルネットワークキネマティクス補償部７より速度ｖ* 、
角速度ω* を与えられ、これを右車輪の回転角速度ωr
*、左車輪の回転角速度ωl*に変換する変換部、９は変
換部８より各車輪の回転角速度ωr*、ωl*を与えられ、
ニューラルネットワークによるフィードバック誤差の誤
差逆伝搬学習を行い、右車輪駆動トルク値τr と左車輪
駆動トルク値τl を出力するニューラルネットワークフ
ィードバック誤差学習部、１０はニューラルネットワー
クフィードバック誤差学習部９より出力される右車輪駆
動トルク値τr と左車輪駆動トルク値τl に基づき移動
ロボットを走行させたときの移動ロボットの動特性を示
す要素であり、ロボットダイナミクスと呼ぶ。ロボット
ダイナミクス１０により左右両車輪の駆動トルク値τr
、τl から右車輪の回転角速度ωr 、左車輪の回転角
速度ωl が求められる。１１はロボットダイナミクス１
０で求められた左右両輪の回転角速度ωr 、ωlに基づ
き移動ロボットを走行させたときの移動ロボットの軌道
特性を示す要素であり、ロボットキネマティクスと呼
ぶ。ロボットキネマティクス１１により左右両輪の回転
角速度ωr 、ωl から移動ロボットの速度ｖ、角速度ω
が求められる。１２はロボットキネマティクス１１から
の自律移動ロボットの速度ｖ、角速度ωを、位置ｘ、
ｙ、および車体角θに変換する変換部である。

【００２２】なお、図１の構成において、ロボットダイ
ナミクス１０からの出力はニューラルネットワークフィ
ードバック誤差学習部９にフィードバックされる。ニュ
ーラルネットワーク誤差学習部９とロボットダイナミク
ス１０は逆ダイナミクスモデル１３を構成している。ま
た、ロボットキネマティクス１１からの出力はニューラ
ルネットワークキネマティクス補償部７にフィードバッ
クされる。ニューラルネットワークキネマティクス補償
部７から変換部１２までの系は順キネマティクス・ダイ
ナミクスモデル１４を構成している。また、図１のニュ
ーラルネットワークは単純なパーセプトロン型ではな
く、制御対象の特徴を十分に考慮した構造となってい
る。

【００２３】次に本発明の第二実施例について説明す
る。本実施例におけるニューラルネットワークは図２の
ブロック図に示すように、自律移動ロボットの軌道特性
を学習するキネマティクス部２０と、自律移動ロボット
の動特性を学習するダイナミクス部２１の二重構造にな
っており、キネマティクス部２０とダイナミクス部２１
はそれぞれ独立した処理部として構成されている。さら
に、ニューラルネットワークには制御対象に含まれる既
知な非線形関数、つまり

【００２４】

【式１】

【００２５】

【式２】

【００２６】

【式３】を計算するように予め学習させた既知構造部２２が組み
込まれる。従来のニューラルネットワークが制御対象に
関する先見的知識を全く利用しておらず一様な構造の神
経回路モデルでしかなかったのに対して、この実施例の
ニューラルネットワークでは、制御対象に含まれること
が予め判っている非線形関数をニューラルネットモデル
内に既知構造部２２として組み込み、これに誤差逆伝搬
学習（バックプロパゲーションアルゴリズム）を適用す
るように構成される。

【００２７】また、同様に、ユニット間結合の制御対象
への関与が極めて小さいということが判っている場合、
その結合を省略する。つまり、ニューラルネットモデル
ではユニット間結合が存在する限りは、制御対象への関
与の大きな関数と全く等価に学習の対象となり、学習の
結果のいかんにかかわらず、学習には所定の時間を要す
ることになるが、この実施例では、無駄なユニット間結
合を排除することで、学習時間を低減するように構成さ
れる。

【００２８】図２の構成において、ある時間ステップｋ
における移動ロボットのダイナミクスに関するデータ、
速度ｖ（ｋ）、角速度ω（ｋ）、右車輪駆動トルクτr
（ｋ）、左車輪駆動トルクτl （ｋ）がダイナミクス部
２１に与えられる。ここで、入力層の全てのユニットは
続く層の全てのユニットに接続されている。ダイナミク
ス部２１からは、入力の次の時間ステップｋ＋１におけ
る速度ｖ（ｋ＋１）と角速度ω（ｋ＋１）が導出され
る。

【００２９】また、キネマティクス部２０には、ある時
間ステップｋにおける移動ロボットの位置ｘ（ｋ）、ｙ
（ｋ）、車体角θ（ｋ）、速度ｖ（ｋ）および角速度ω
（ｋ）が与えられる。ここで、ニューラルネットワーク
のそれぞれのユニット間結合は、必要最小限度の結合と
され、すでに制御対象に含まれている非線形な関係は既
知構造部２２に組み込まれる。例えば、位置ｘ（ｋ）や
ｙ（ｋ）等は、ニューラルネットワークの中のユニット
に結合されず、式１および式２から求められる時間ステ
ップ間の変位と足し合わされるだけである。

【００３０】以上のような構成によれば、部分的に全く
独立に扱うことのできるキネマティクスに関する学習と
ダイナミクスに関する学習を、それぞれキネマティクス
部２０とダイナミクス部２１で独立して行うことができ
る。さらに、予め影響を及ぼさないことが判明している
ユニット間結合を省略すると共に既知構造部２２を組み
込むことにより、学習回数を大幅に低減することができ
る。また、従来型のニューラルネットワークに比べてユ
ニット間結合が大幅に低減できるので、学習の収束が早
く、より正確な学習が可能になる。

【００３１】図３、図４はこの発明の第三実施例に係る
自律移動ロボット運動制御装置のブロック図である。な
お、図３は学習モードを、図４は軌道生成モードをそれ
ぞれ示すものである。さて、各図に示すように、キネマ
ティクス部２０とダイナミクス部２１とはカスケード接
続されているが、これは時系列データを扱えるようにす
るためである。

【００３２】ちなみに、この実施例は、ニューラルネッ
トの並列性を利用した構造であり、時空間や状態空間上
に多数のニューロンを配置し、ニューロン間の相互作用
により、分散、並列的に問題を解く手法を利用してい
る。これは、繰り返し構造神経回路（カスケードモデ
ル）として知られているものである。

【００３３】図３において、初期状態を示す各データ、
すなわち位置ｘ0 、ｙ0 、車体角θ0 、速度ｖ0 、およ
び角速度ω0 がキネマティクス部２０とダイナミクス部
２１に与えられる。制御対象２３である移動ロボットの
発生する右車輪駆動トルクの値τr 、左車輪駆動トルク
の値τl はそれぞれの時間経過に対応してダイナミクス
部２１に入力される。制御対象２３の実際の軌道および
速度、角速度のデータは、カスケード接続されるそれぞ
れのニューラルネットワーク要素の出力値と、それぞれ
つき合わされ、誤差逆伝搬学習が適用される。

【００３４】一方、図４において示すように、軌道生成
モードでは、学習モードにおいて制御対象２３の特性を
学習したニューラルネットワークを用いる。その動作
は、まず、初期状態のデータが入力されると前述の学習
済みのカスケードニューラルネットワークにより終点状
態の各データの値が計算される。この終点状態の値は、
上位モータセンタ２４から与えられる所望の終点状態の
値（目標値）と比較され、その差が誤差としてカスケー
ドニューラルネットワークに逆伝搬され、所望の終点状
態に至るためのそれぞれの時間ステップにおける左右車
輪の駆動トルク値が求められる。このとき、各ダイナミ
クス部２１の間は相互コンダクタンスｇで結合され、前
後の時間ステップにおけるトルクの値が伝達される。

【００３５】さて、制御対象２３の入出力つまり、位置
ｘ、ｙ、速度ｖ、車体角θ、角速度ω、右車輪駆動トル
クτr 、左車輪駆動トルクτl は時空間パターンなの
で、これを神経回路を用いて空間パターンとして表現す
る必要がある。つまり、軌道や速度などを微小時間Δｔ
（制御周期）で離散化して、時系列パターンに置き換
え、さらに、各時間ステップにおけるこれらの入力に対
応する入力ニューロンを用意している。

【００３６】図３の構成は、左右輪駆動トルク変化最小
基準による軌道制御を行うための繰り返し構造神経回路
モデル、つまり順モデルの学習モード時の構成である。

【００３７】この神経回路は、図２に示したキネマティ
クス部２０とダイナミクス部２１を２つの神経回路で構
成されるモジュール構造を基本的な構成要素、つまり単
位回路として、これを何段にも連結した構造となってい
る。

【００３８】それぞれの単位回路は、運動時間の各時間
ステップに対応して配列されており、神経回路全体でＮ
個ある。つまり、運動時間がＮΔｔである。

【００３９】図３、４に示すように、キネマティクス部
２０、ダイナミクス部２１の各単位回路においては、そ
の時点での位置ｘ、ｙ、車体角θ、速度ｖ、角速度ω、
右車輪駆動トルクτr 、左車輪駆動トルクτl 等が入力
されて、単位時間Δｔ後の位置ｘ、ｙ、車体角θ、速度
ｖ、角速度ωが出力されるように、神経回路が構成され
ている。この神経回路は、学習モードと軌道生成モード
の２つのモードで動作する。

【００４０】学習モードでは、各単位回路の出力と教師
データの誤差の２乗和を最小にするようにバックプロパ
ゲーションアルゴリズムにより学習する。各単位回路を
構成するキネマティクス部２０およびダイナミクス部２
１における各ユニット間の結合荷重をこのアルゴリズム
によって変化させることにより学習を行う。これによ
り、制御対象２３の特性を神経回路に学習させる。な
お、既知構造部２２のユニット間の結合は、予め前述の
式１、式２および式３を計算するように学習させてある
が、実際の自律移動ロボットの特性を学習する際にも、
その式に当てはまらない特性を学習するために結合荷重
が変化させられる。

【００４１】いま、説明を簡単にするために、ｋ番目の
単位回路を構成するダイナミクス部２１の出力する速度
ｖおよび角速度ωをベクトルＺＤ［ｋ］で表し、キネマ
ティクス部２０の出力する位置ｘ、ｙと車体角θをベク
トルＺＫ［ｋ］で表すものとする。この場合、それぞれ
のベクトルは

【００４２】

【式４】

【００４３】

【式５】で表される。そして、ダイナミクス部２１、キネマティ
クス部２０のそれぞれの教師信号を

【００４４】

【式６】

【００４５】

【式７】で表すものとする。それぞれの誤差関数ＥＤ、ＥＫは、
出力誤差の２乗和であり、それぞれ

【００４６】

【式８】

【００４７】

【式９】として定義することができる。ここで、それぞれのダイ
ナミクス部２１、キネマティクス部２０のウエイトＷ
Ｄ、ＷＫを誤差関数ＥＤ、ＥＫの最急降下方向に変化さ
せようとすると、その修正量ΔＷＤ、ΔＷＫはそれぞれ

【００４８】

【式１０】

【００４９】

【式１１】となる。ただし、学習パラメータεｄ、εｋは十分に小
さな正の値とする。

【００５０】次に、軌道生成モードであるが、教師デー
タによる学習を十分に行って、制御対象２３のダイナミ
クス内部モデルを獲得した後、この学習済み回路を用い
て最適軌道制御を行うことができる。

【００５１】今、図４に示すように、学習時に入力とし
て各単位回路に制御対象から与えられていた右車輪駆動
トルクτr と左車輪駆動トルクτl および各時間ステッ
プにおける教師データは軌道生成モードでは完全に抑制
される。

【００５２】代わって、運動終了時刻に対応しているＮ
番目の単位回路だけに、運動の最終目標状態、つまり、
目標点の位置ｘ、ｙ、制御対象２３の車体角θ、速度
ｖ、角速度ωに関する教師データＴ［Ｎ］だけが与えら
れる。教師データＴ［Ｎ］は、

【００５３】

【式１２】で表される。第１単位回路に初期値が与えられると、学
習時と同様に、第１単位回路から第Ｎ単位回路の順に前
向き計算で各層の各ユニットの入力と出力が計算され
る。このように計算された第Ｎ単位回路から第１単位回
路の順に逆伝搬され、つまりバックプロパゲーションが
行われ、後ろ向き計算で誤差信号が伝達される。誤差
信号は各単位回路のダイナミクス部２１の第１層の３、
４番目のニューロン（以下、トルクニューロンと称す
る）だけに伝搬される。

【００５４】したがって、軌道生成時には学習時に形成
されたシナプスの結合荷重の更新は行われず、誤差信号
は各単位回路のトルクニューロンの状態値変化のみに使
われる。

【００５５】以上の具体的な方法が、トルク変化最小基
準を用いたものである。

【００５６】トルク変化最小基準は、滑らかな運動を予
測、再現するための数学的モデルのひとつである。これ
は、制御対象２３の右車輪駆動トルクτr 、左車輪駆動
トルクτl の時間変化率の２乗和の運動時間にわたって
の積分が最小になるように走行コースが決定されるとい
うものである。

【００５７】いま、神経回路が推定した走行コースの最
終状態Ｚ［Ｎ］と運動の最終目標状態Ｔ［Ｎ］との２乗
誤差を

【００５８】

【式１３】とすると、右車輪駆動トルクτr と左車輪駆動トルクτ
l の誤差信号δτr ［ｋ］、δτl ［ｋ］は

【００５９】

【式１４】

【００６０】

【式１５】で計算される。

【００６１】ｋ番目の右車輪駆動トルクτr と左車輪駆
動トルクτl のトルクニューロンに与えられる入力は、
誤差信号δτr ［ｋ］、δτl ［ｋ］だけである。ま
た、図４に示すように、隣り合う単位回路の左右車輪駆
動トルクニューロン同士は相互コンダクタンスｇのギャ
ップ結合で電気的に結合されている。すなわち、これら
のニューロンは両隣の単位回路の左右車輪駆動トルクニ
ューロンの状態値の影響を相互コンダクタンスｇを介し
て受けるようになっている。

【００６２】この時の、ｋ番目の単位回路の左右車輪駆
動トルクニューロンの状態値τr ［ｋ］、τl ［ｋ］の
変化は、次の微分方程式で記述できる。

【００６３】

【式１６】

【００６４】

【式１７】ここで、ｓはニューロンの状態変化の時間を表し、ｃは
正の定数である。

【００６５】いま、神経回路のエネルギー関数Ｌをトル
ク変化最小基準に基づき、目標点と運動の最終到達点の
誤差および左右車輪駆動トルク変化分の和の形で、

【００６６】

【式１８】と定めると、Ｌは式１６、式１７により、時間ｓと共に
常に減少することが簡単に証明できる。つまり、神経回
路はそれ自身の非線形ダイナミクス、つまり式１６、式
１７で表される微分方程式にしたがって動作した後で、
Ｌの極小点で安定する。

【００６７】さらに、ここでギャップ結合の相互コンダ
クタンスｇの模擬的な焼き鈍しを行うと、大域的なＬの
エネルギーの最小状態が達成される。

【００６８】次に、軌道生成時の障害物の回避問題を考
える。

【００６９】軌道生成モードにおいて、経由点や障害物
に関する情報を学習済の神経回路に送れば、障害物を回
避しながら、あるいは経由点を通過して、目標点に達す
る滑らかな軌道が生成される。

【００７０】この場合には、障害物に関する情報がポテ
ンシャルの形でエネルギー関数Ｌに加わり、それに応じ
て左右車輪駆動トルクニューロンの状態変化を表す微分
方程式も修正される。

【００７１】いま、障害物は中心が（Ｃ１、Ｃ２）、半
径がＨの円であるとし、神経回路が推定した時刻ｋの制
御対象２３の位置（ｘ［ｋ］、ｙ［ｋ］）と障害物の中
心との距離をｒｋとする。つまり、

【００７２】

【式１９】で、この時、障害物に対して、次のエネルギーＥ０を定
義する。

【００７３】

【式２０】ただし、

【００７４】

【式２１】このエネルギー関数Ｅ０をμで重み付けして、式１８の
エネルギー関数Ｌに加え、次の関数Ｌ０を定義する。

【００７５】

【式２２】ｋ番目の単位回路の位置を出力するニューロンｘ
［ｋ］、ｙ［ｋ］に対して、式２３の誤差ηｘ［ｋ］、
ηｙ［ｋ］を通常のコース生成時の誤差に加えて、その
合計誤差を逆伝搬して神経回路を動作させると、Ｌ０が
リアプノフ関数になることが証明できる。

【００７６】

【式２３】

【００７７】

【式２４】

【００７８】

【式２５】図５は前述の第三実施例のカスケードニューラルネット
ワークを用いた自律移動ロボットの制御系の一例であ
る。この構成は、自律移動ロボットの特性の学習が済ん
だカスケードニューラルネットワーク２５を用いた自律
移動ロボットの制御段階を示すものである。この構成で
は、移動ロボットの初期状態を表わす初期値, すなわち
位置ｘ0 、ｙ0 、車体角θ0 、速度ｖ0 および角速度ω
0 が与えられると、カスケードニューラルネットワーク
２５がそれらに基づき右車輪の駆動トルク値τr と左車
輪の駆動トルク値τl を計算する。これら計算されたト
ルク値にしたがって自律移動ロボットを運行する。

【００７９】さて、次に、上記第三実施例による繰り返
し構造神経回路モデルと左右車輪駆動トルク変化最小モ
デルを用いたシミュレーション実験について説明する。

【００８０】いま、学習時の教師データとしては、図６
の説明図に示すように、Ａ１ないしＡ５の５種類の走行
コースで移動ロボットが移動した場合のデータを用い
る。なお、Ｃ６ないしＣ９は汎化検証用、つまり未学習
コーステスト用の走行コースデータである。

【００８１】この９種類の走行データは、移動ロボット
が、ｘ、ｙ、θに関する躍度最小基準で走行した場合の
シミュレーション用データである。それぞれ、走行時間
は１１．５秒で、データ数は２３０組（５０ｍ秒毎にサ
ンプリング）である。

【００８２】キネマティクス部２０、ダイナミクス部２
１のそれぞれの繰り返し構造神経回路に、Ａ１ないしＡ
５の５種類の教師データの中からランダムに選んだ１種
類のデータを与えることで、移動ロボットのキネマティ
クスとダイナミクスを学習させた。

【００８３】学習回数および学習係数εはそれぞれ、ＮＤ：学習回数１００万回／５パターン、学習係数ε＝
０．０００５ＮＫ：学習回数３万回／５パターン、学習係数ε＝
０．００１とした。

【００８４】図７は走行パターンＡ４の場合の実験結果
を示すものであり、（Ａ）は位置ｘ、（Ｂ）は位置ｙ、
（Ｃ）は車体角θ、（Ｄ）は速度ｖ、（Ｅ）は角速度ω
に関して、それぞれ教師データと学習結果を示してい
る。

【００８５】図８は走行パターンＣ６の場合の実験結果
を示すものであり、（Ａ）は位置ｘ、（Ｂ）は位置ｙ、
（Ｃ）は車体角θ、（Ｄ）は速度ｖ、（Ｅ）は角速度ω
に関して、それぞれ教師データと学習結果を示してい
る。

【００８６】各図からも明らかなように、移動ロボット
の順モデル学習の結果は、教師データと学習結果がほと
んど重なる程度に良好に行われており、また、学習に用
いなかったテストデータとも良く一致し、学習が良好に
行われていることがわかる。なお、角速度ωに若干の学
習不足が見られるが、これは学習回数の増加により、十
分に解消可能な誤差である。

【００８７】次に、先の教師データで学習済の神経回路
を用いて、走行コース生成のシミュレーション実験を行
った。焼き鈍しのパラメータとして、先の式１６、式１
７のｃおよび

【００８８】

【式２６】のａ、ｂを推定した。ただし、ｑは焼き鈍し回数であ
る。

【００８９】実験条件ａ＝５．０、ｂ＝５，０００、ｃ
＝１０．０でのシミュレーション実験結果、つまり神経
回路が生成したコースは、図９の説明図に示すようにな
った。ちなみに、図９の（Ａ）は走行パターンＡ２に対
応する実際の生成軌道、（Ｂ）は走行パターンＡ４に対
応する生成軌道、（Ｃ）は走行パターンＣ６に対応する
生成軌道、（Ｄ）は走行パターンＣ８に対応する生成軌
道である。また、走行パターンＡ４、Ｃ６に対応する
ｘ、ｙ、θ、ｖ、ｗの時間変化をそれぞれ図１０、図１
１に示す。ちなみに、この走行コースは障害物がないと
した場合の生成軌道である。

【００９０】図からも明らかなように、トルク変化が最
小で滑らかな軌道で目標点に到達する軌道が実現されて
いる。

【００９１】なお、今回のシミュレーション実験では、
焼き鈍し回数を全て１００００回とした。

【００９２】次に、教師データで学習済の神経回路を用
いて、障害物がある場合の、走行コース生成のシミュレ
ーション実験を行った。これについては、以下の（ａ）
ないし（ｄ）の４つの場合について、正規化平面上でシ
ュミレーションした。

【００９３】（ａ）走行コースＡ２で、中心（Ｘ、Ｙ）
＝（０．３７５、０．５）に、半径０．１２５の円形の
障害物があった場合（ｂ）走行コースＡ４で、中心（Ｘ、Ｙ）＝（０．６２
５、０．５）に、半径０．１２５の円形の障害物があっ
た場合（ｃ）走行コースＣ８で、中心（Ｘ、Ｙ）＝（０．３７
５、０．５）に、半径０．１２５の円形の障害物があっ
た場合（ｄ）走行コースＣ６で、中心（Ｘ、Ｙ）＝（０．２
５、０．６７）と、中心（Ｘ、Ｙ）＝（０．３５、０．
６７）と、中心（Ｘ、Ｙ）＝（０．４５、０．６７）
と、中心（Ｘ、Ｙ）＝（０．５５、０．３３）と、中心
（Ｘ、Ｙ）＝（０．６５、０．３３）と、中心（Ｘ、
Ｙ）＝（０．７５、０．３３）に、半径０．１の円形の
障害物があった場合のそれぞれを想定する。

【００９４】なお、ｃ、ｇのパラメータは障害物のない
場合と同じである。それぞれの実験結果は、図１２に示
す通りである。また、図１３、図１４に走行パターンＡ
４およびＣ６に対応するｘ、ｙ、θ、ｖ、ｗの時間変化
を示す。図からも明らかなように、障害物をうまく回避
して、目標点に到達する滑らかな軌道が実現される。な
お、この実験では、移動ロボットは質点とみなしてお
り、車幅は考慮されていない。

【００９５】図１５は従来型の３層ニューラルネットワ
ークとこの発明のニューラルネットワークによる学習の
収束曲線を比較して示したものである。図からも明らか
なように、この発明によれば、従来に比較して学習回数
を大幅に低減できる。

【００９６】以上の結果より明らかなように、この発明
によれば、自律移動ロボット運動制御装置における学習
時間や汎化性を大幅に向上することができる。また、既
知構造を移動ロボットのものと自動車のものとを差し替
えることにより、自動車の無人運転制御にも適用するこ
とができる。

【００９７】図１６はこの発明の自律移動ロボット運動
制御装置を自動車の無人運転に適用した場合のブロック
図を示すものである。ここでは、自動車のステアリング
角としてδ（ｔ）、自動車のアクセル開度としてａ
（ｔ）、自動車のブレーキ踏み込み度としてｂ（ｔ）、
自動車のヨー角としてψ（ｔ）、車速としてｖ（ｔ）、
横変位量としてｌ（ｔ）がパラメータとして用いられ
る。ちなみに、自動車のヨー角ψとは、図１７に示すよ
うに、車の向きを示すパラメータであり、自動車の横変
位量ｌとは、図１８に示すように、車の車線変更量を示
すパラメータである。さて、図１６は自動車の車線変更
に伴う構成を例示しており、ダイナミクス部２１には、
ステアリング角δ（ｋ−１）、アクセル開度ａ（ｋ−
１）、ブレーキ踏み込み度ｂ（ｋ−１）が入力される。
その結果、ダイナミクス部２１からは、ヨー角ψ
（ｋ）、車速ｖ（ｋ）が出力され、キネマティクス部２
０に与えられる。キネマティクス部２０は、ヨー角ψ
（ｋ）、車速ｖ（ｋ）に基づき、自動車の横変位量ｌ
（ｋ＋１）を出力する。

【００９８】つまり、自動車の無人運転における、操作
条件であるステアリング、アクセル、ブレーキから、車
線変更結果である横変位量を導出する系を構成できる。

【００９９】図１９はこの発明の第四実施例に係る自律
移動ロボット運動制御装置の部分ブロック図である。図
において、２７は既知構造部２２を含む既知構造ニュー
ラルネットワークであり、２６は既知構造ニューラルネ
ットワーク２７に付加される３層ニューラルネットワー
ク２６である。

【０１００】先に述べた各実施例の自律移動ロボット運
動制御装置を実際に運用する場合、既知構造部２２を作
る上で考慮した式１、式２、式３だけでは表されない誤
差要因が含まれる。このような誤差要因を既知構造ニュ
ーラルネットワーク２７に外付けされる３層ニューラル
ネットワーク２６により吸収するようにすることで、実
際の運用時に生じた非線形性、例えば車輪のスリップや
粘性変化等を吸収することができる。

【０１０１】なお、上記各実施例では、キネマティクス
部２０やダイナミクス部２１に与えるそれぞれの条件と
して、位置ｘ、ｙ、車体角θ、速度ｖ、角速度ω、右車
輪駆動トルクτr 、左車輪駆動トルクτl などを入力す
る場合を例示したが、他のパラメータを追加したり、置
き換えたりしてもよいことはもちろんである。また、既
知構造部２２についても、自由に追加変更が可能であ
り、ニューラルネットワークの適用目的によって自由に
構築可能である。

【０１０２】以上説明してきたように、この発明の自律
移動ロボット運動制御装置によれば、ニューラルネット
ワークの単位回路をダイナミクス部とキネマティクス部
のモジュール構造にすることにより、それぞれを別々に
学習することを可能とし、少ない訓練パターン数と訓練
回数により、効率の良い、かつ正確な学習を行うことを
可能にすることができる。

【０１０３】また、制御対象の既知特性を神経回路に取
り込むことにより、学習の効率化と走行コースの生成時
の汎化能力の改善を達成できる。また、学習済の神経回
路とトルク変化最小基準を評価関数として用いることに
より、初期値と目標点のみを与えた場合の走行コースお
よび障害物回避も滑らかな軌道で実現できる。

【０１０４】

【発明の効果】以上述べたように、この発明の自律移動
ロボット走行制御装置では、移動ロボットの動特性の学
習はダイナミクス部で、移動ロボットの軌道特性の学習
はキネマティクス部で、それぞれ独立に行うようにした
ので、ダイナミクスの学習もキネマティクスの学習も同
一の処理部で処理していた従来のパーセプトロン型ニュ
ーラルネットワークに比べて、学習回数を大幅に低減で
きると共に、学習の早期収束を可能にすることができ
た。また、既知構造部をニューラルネットワークに組み
込むことで、ニューラルネットワークのユニット間結合
を低減し、汎化性を高めた構造を実現でき、学習に続く
走行コース生成を少ない学習データで円滑に実現できる
効果がある。

【図面の簡単な説明】

【図１】本発明の第一実施例に係る自律移動ロボット走
行制御装置のブロック図である。

【図２】本発明の第二実施例に係るニューラルネットワ
ークの構造を示すブロック図である。

【図３】本発明の第三実施例に係る自律移動ロボット走
行制御装置の学習モードを示すブロック図である。

【図４】本発明の第三実施例に係る自律移動ロボット走
行制御装置の軌道生成モードを示すブロック図である。

【図５】カスケードニューラルネットワークを用いた自
律移動ロボット走行制御装置のブロック図である。

【図６】学習用およびテスト用走行データの説明図であ
る。

【図７】走行パターンＡ４の場合の学習結果の説明図で
ある。

【図８】走行パターンＣ６の場合の学習結果の説明図で
ある。

【図９】走行コースの生成結果を示した図である。

【図１０】走行パターンＡ４についての走行コース生成
結果を各要素ごとに示した図である。

【図１１】走行パターンＣ６についての走行コース生成
結果を各要素ごとに示した図である。

【図１２】障害物がある場合の走行コースの生成結果を
示した図である。

【図１３】走行パターンＡ４について障害物がある場合
の走行コース生成結果を各要素ごとに示した図である。

【図１４】走行パターンＣ６について障害物がある場合
の走行コース生成結果を各要素ごとに示した図である。

【図１５】本発明の効果を示す学習収束曲線である。

【図１６】本発明の自動車の無人運転への適用例を示す
ブロック図である。

【図１７】自動車のヨー角の説明図である。

【図１８】自動車の横変位量の説明図である。

【図１９】本発明の第四実施例に係る自律移動ロボット
運動制御装置の部分ブロック図である。

【図２０】移動ロボットの構成を示す概略構成図であ
る。

【図２１】従来の自律移動ロボット走行制御装置のニュ
ーラルネットワークの概略構成図である。

【図２２】従来構成における教師データの例を示す説明
図である。

【図２３】従来構成における学習結果の例を示す説明図
である。

【図２４】従来構成による、パターンＡ１についての各
要素毎の学習結果を示す説明図である。

【図２５】従来構成による、パターンＡ５についての各
要素毎の学習結果を示す説明図である。

【符号の説明】

１右車輪２左車輪３右車輪駆動モータ４左車輪駆動モータ５キャスター車輪７ニューラルネットワークキネマティクス補償部８変換部９ニューラルネットワークフィードバック誤差学習部１０ロボットダイナミクス１１ロボットキネマティクス１２変換部１３逆ダイナミクスモデル部１４順キネマティクス・ダイナミクスモデル部１６移動ロボット１７入力層１８中間層１９出力層２０キネマティクス部２１ダイナミクス部２２既知構造部２３制御対象２４上位モータセンタ２５カスケードニューラルネットワーク２６３層ニューラルネットワーク２７既知構造ニューラルネットワーク

Claims

【特許請求の範囲】

【請求項１】制御系の特性を学習するニューラルネッ
トワークを備えた自律移動ロボット走行制御装置におい
て、前記ニューラルネットワークは自律移動ロボットの
軌道特性を学習するキネマティクス部と、自律移動ロボ
ットの動特性を学習するダイナミクス部と、を含み、前
記キネマティクス部および前記ダイナミクス部はそれぞ
れ独立した処理部として構成されることを特徴とする自
律移動ロボット走行制御装置。
【請求項２】制御系の特性を学習するニューラルネッ
トワークを備えた自律移動ロボット走行制御装置におい
て、前記ニューラルネットワークは自律移動ロボットの
既知特性を予め学習させた既知構造部を含むことを特徴
とする自律移動ロボット走行制御装置。
【請求項３】制御系の特性を学習するニューラルネッ
トワークを備えた自律移動ロボット走行制御装置におい
て、前記ニューラルネットワークは自律移動ロボットの
軌道特性を学習するキネマティクス部と、自律移動ロボ
ットの動特性を学習するダイナミクス部と、を含み、前
記キネマティクス部および前記ダイナミクス部はそれぞ
れ独立した処理部として構成され、前記キネマティクス
部および前記ダイナミクス部の少なくとも一方が自律移
動ロボットの既知特性を予め学習させた既知構造部を含
むことを特徴とする自律移動ロボット走行制御装置。