JP3363846B2

JP3363846B2 - 実世界情報データベース構築方法及び装置と自律移動走行体学習方法

Info

Publication number: JP3363846B2
Application number: JP24068699A
Authority: JP
Inventors: 浩之岡田; 信雄渡部; 宏山川; 友治毛利
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1999-08-27
Filing date: 1999-08-27
Publication date: 2003-01-08
Anticipated expiration: 2019-08-27
Also published as: JP2001067125A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、自律移動走行体の
自律移動制御機能の学習に用いられる実世界情報データ
ベースを構築する実世界情報データベース構築方法及び
装置と、その構築方法や装置で構築された実世界情報デ
ータベースにアクセスすることで、自律移動走行体の自
律移動制御機能の学習を実行する自律移動走行体学習方
法とに関し、特に、動的な環境変化に対応できる自律移
動走行体学習方法の実現に用いられる実世界情報データ
ベースを構築する実世界情報データベース構築方法及び
装置と、動的な環境変化に対応できる自律移動走行体学
習方法とに関する。

【０００２】自律型の移動ロボットは、超音波や赤外線
や接触センサや視覚といった多くの感覚器を備え、更
に、タスクが単にナビゲーションなどの比較的短時間、
近傍の情報のみによる情報処理だけでなく、計画や実行
といった、より高次、より広い時空間における情報処理
機能を必要とするものまで展開できる点から、理論及び
アルゴリズムのレベルでの情報統合や自律学習システム
の研究に最適な対象である。

【０００３】しかし、実機移動ロボットの保守や動作環
境の整備は多大の労力と技能とを必要とする作業であ
り、研究工数を大きく圧迫している。更に、移動ロボッ
トの実世界での動作速度を考えると、試行錯誤的な学習
の研究を実機のみで行うことは困難である。

【０００４】このような問題に対し、移動ロボットのシ
ミュレータを作成して仮想的な世界で理論の検証を行う
ことが多かった。しかし、シミュレータを利用しようと
思った研究者なら誰でもが直面するように、移動ロボッ
トが存在する実世界の環境を忠実に実現し、更には複雑
な実世界における移動ロボットの動作を計算機で再現す
ることは不可能に近い。シミュレータは、極端に単純化
した世界モデルの中での限定された移動ロボットの動作
を再現しているに過ぎない。

【０００５】新情報処理開発機構で進めているＲＷＣ(R
eal World Computing)プロジェクトでは、実世界知能技
術の研究を推進するために、ソフトウェア及びデータの
面からの基盤を提供することを目指し、研究開発用知的
資源の整備を次に挙げる３つの面から行っている。

【０００６】１．研究の素材となる、実環境における音
声／音響情報、視覚情報、各種センサ情報、言語情報な
どを収集し、構造化した実世界情報データベースを構築
する。

【０００７】２．対象となる問題を、共通的な課題とし
て定義し、その題材と評価法を提供するベンチマーク課
題を設定する。

【０００８】３．研究が対象とするアルゴリズムや手法
などを共通的ソフトウェアとして広く使用可能な形にし
たソフトウェアライブラリを整備する。

【０００９】実世界知能技術の研究において、実世界の
現象を研究の素材及び対象とするには、複雑で大規模な
実世界の現象を含んだ研究開発用知的資源が必要であ
る。特に、本発明者らが目指す知的移動ロボットの研究
においては、利用するデータベースやベンチマーク課題
の規模によって、対象とする現象は質的に変化し、小規
模のものでの知見が大規模のものにおいても成立すると
は限らない。また、実世界の環境は非常に多様であり、
変化に満ちている。従って、実環境における情報を対象
とする研究開発用知的資源は、大規模のものでなければ
実世界の多様性を十分に扱うことができない。

【００１０】研究開発用知的資源は研究成果の評価の面
からも重要である。研究の成果として得られる新しい理
論や手法やプロトタイプシステムを評価するためには、
その有効性を評価するための共通の基盤が不可欠であ
る。

【００１１】ところが、実世界知能技術の研究領域はま
だ新しい領域であるために、十分な量の研究開発用知的
資源が存在しておらず、研究開発を進める過程で個々の
研究者が新たに整備する必要がある。

【００１２】研究者間で、研究開発用知的資源を共通化
あるいは共有化を進めることは、研究の過程で、技術の
客観的な評価を行うために重要である。他の理論や手法
との優劣の比較のためには、比較の対象となる資源を研
究者が自ら実現することも考えられるが、技術の複雑さ
が増すことで、自ら用意することが次第に難しくなって
いる。これに対し、共通化あるいは共有化された研究開
発用知的資源による評価は、客観的な比較をより簡単に
実現でき、適切な評価を行うことが可能になる。

【００１３】

【従来の技術】このようなことを背景にして、本発明者
らは、第３回ロボティクスシンポジア（1998年５月７
日，８日）で発表したように、実機移動ロボットによる
実験とシミュレーションとの乖離を埋めるために、実環
境において移動ロボットが収集したセンサデータをデー
タベース化した実世界情報データベースを構築し、これ
を利用したネットワーク分散型移動ロボット実験システ
ムを構築した。

【００１４】この本発明者らが開示した実世界情報デー
タベースは、予め移動ロボットの想定動作環境におい
て、実機移動ロボットをマス目状に小刻みに移動させ、
その位置におけるセンサデータを収集することで構築す
るものである。

【００１５】すなわち、従来の移動ロボット実験用デー
タベースでは、移動ロボットの感知するセンサデータに
ついてもシミュレーションモデルから作成するという構
成を採るのに対して、この本発明者らが開示した実世界
情報データベースでは、移動ロボットの感知するセンサ
データについては、実際に移動ロボットにより感知され
たセンサデータを用いるという構成を採っている。

【００１６】この本発明者らが開示した移動ロボット実
験用システムは、実機移動ロボットが実際に測定したセ
ンサデータのアーカイブである実世界情報データベース
の情報をユーザの要求に応じて提供する。これから、研
究者は、シミュレーションでは再現不可能な、大規模で
多様な実世界と類似する環境での実験を行えるようにな
る。

【００１７】例えば、従来の移動ロボット実験用データ
ベースでは、障害物の材質を考慮した実験を行えないの
に対して、本発明者らが開示した移動ロボット実験用シ
ステムでは、障害物の材質を考慮した、より現実に近い
状況で実験を行うことができるようになる。

【００１８】そして、データベース化されたセンサデー
タを利用することにより、実機移動ロボットでは難しか
った、試行錯誤的に繰り返し学習を行うような課題への
対応が可能になる。

【００１９】

【発明が解決しようとする課題】確かに、本発明者らが
開示した実世界情報データベースは、実機移動ロボット
による実験とシミュレーションとの乖離を埋める極めて
有効な手段となるものである。

【００２０】しかしながら、この実世界情報データベー
スでは環境の変化への対応に困難な点が存在し、改善の
余地が残されている。

【００２１】すなわち、この実世界情報データベースで
は、予め測定したセンサデータを利用することから、測
定時の環境に関する実験は可能となるものの、明るさや
レイアウトが変化するオフィスでの経路探索などといっ
たような、環境の変化に依存するような課題を実験でき
ないという問題点が残されている。

【００２２】本発明はかかる事情に鑑みてなされたもの
であって、動的な環境変化に対応できる自律移動走行体
学習方法の実現に用いられる実世界情報データベースを
構築する新たな実世界情報データベース構築方法及び装
置の提供と、動的な環境変化に対応できる新たな自律移
動走行体学習方法の提供とを目的とする。

【００２３】

【課題を解決するための手段】この目的を達成するため
に、本発明の実世界情報データベース構築方法では、自
律移動走行体の学習に用いられる実世界情報データベー
スを構築する構成を採るときにあって、自律移動走行体
の動作環境となる実世界の環境を変化させつつ、その実
世界の環境下で、自律移動走行体の環境センシング情報
を収集する第１の処理過程と、第１の処理過程で変化さ
せた実世界の環境を単位として構築されて、その実世界
環境を模擬するとともに、それとの対応をとりつつ、第
１の処理過程で収集した環境センシング情報を管理する
実世界情報データベースを構築する第２の処理過程とを
備えるように構成する。

【００２４】このように構成される本発明の実世界情報
データベース構築方法では、第１の処理過程で、自律移
動走行体の動作環境となる実世界の環境を変化させつ
つ、その実世界の環境下で、自律移動走行体の環境セン
シング情報を収集する。

【００２５】例えば、実世界の環境を変化させ、その変
化させた実世界の環境下で、自律移動走行体を実世界の
規定位置に順次移動させつつ、それらの各規定位置で自
律移動走行体の環境センシング情報を収集することを繰
り返していくことで、自律移動走行体の環境センシング
情報を収集する。

【００２６】あるいは、自律移動走行体を実世界の規定
位置に移動させ、その移動させた位置で、実世界の環境
を順次変化させつつ自律移動走行体の環境センシング情
報を収集することを繰り返していくことで、自律移動走
行体の環境センシング情報を収集する。

【００２７】このようにして、第１の処理過程で、環境
変化させる実世界での自律移動走行体の環境センシング
情報を収集すると、第２の処理過程で、それらの実世界
環境を模擬するとともに、それとの対応をとりつつ、収
集した環境センシング情報を管理する、それらの実世界
環境を単位とする複数の実世界情報データベースを構築
する。

【００２８】このようにして、本発明の実世界情報デー
タベース構築方法では、自律移動走行体の動作環境とな
る実世界を模擬するとともに、その模擬する実世界との
対応をとりつつ、実際に収集した自律移動走行体の環境
センシング情報を管理する実世界情報データベースを構
築することで、自律移動ロボットの研究開発用知的資源
を提供する構成を採るときにあって、環境変化に応じた
複数の実世界情報データベースを構築する方法を採るこ
とで、環境の変化に依存するような課題を実験できるよ
うになる。

【００２９】一方、本発明の自律移動走行体学習方法で
は、自律移動走行体の動作環境となる実世界を模擬する
とともに、それとの対応をとりつつ、その実世界におけ
る自律移動走行体の環境センシング情報を管理する実世
界情報データベースにアクセスすることで、自律移動走
行体の自律移動制御機能の学習を実行する構成を採ると
きにあって、実世界の環境変化に応じて複数用意される
実世界情報データベースの中から、学習に用いる実世界
情報データベースを選択する第１の処理過程と、第１の
処理過程で選択した実世界情報データベースを使って、
自律移動走行体の自律移動制御機能の学習を実行して、
その学習が終了するときに、第１の処理過程を起動して
いくことで、自律移動走行体の自律移動制御機能の学習
を実行する第２の処理過程とを備えるように構成する。

【００３０】このように構成される本発明の自律移動走
行体学習方法では、第１の処理過程で、本発明の実世界
情報データベース構築方法で構築された複数の実世界情
報データベースの中から、学習に用いる実世界情報デー
タベースを選択すると、第２の処理過程で、その選択さ
れた実世界情報データベースを使って、自律移動走行体
の自律移動制御機能の学習を実行して、その学習が終了
するときに、第１の処理過程を起動していくことで、自
律移動走行体の自律移動制御機能の学習を実行する。

【００３１】このようにして、本発明の自律移動走行体
学習方法では、自律移動走行体の動作環境となる実世界
を模擬するとともに、それとの対応をとりつつ、その実
世界における自律移動走行体の環境センシング情報を管
理する実世界情報データベースにアクセスすることで、
自律移動走行体の自律移動制御機能の学習を実行する構
成を採るときにあって、本発明の実世界情報データベー
ス構築方法で構築された環境変化に応じて用意される複
数の実世界情報データベースを使うことで、環境の変化
に依存するような課題を実験できるようになる。

【００３２】

【発明の実施の形態】以下、実施の形態に従って本発明
を詳細に説明する。

【００３３】図１に、本発明の一実施例を図示する。

【００３４】図中、１は実機の移動ロボット、２は移動
ロボット１の動作環境となる実世界、３-i（ｉ＝１〜
ｎ）は実世界２を模擬する実世界情報データベース、４
は実世界情報データベース３-iを作成するデータベース
作成プログラム、５はデータベース作成プログラム４を
展開するデータベース作成装置、６はデータベース作成
装置５の備える端末、７は移動ロボット１の駆動制御信
号を生成するニューラルネットワーク、８はニューラル
ネットワーク７の重みを学習する重み学習プログラム、
９は重み学習プログラム８を展開するロボット学習装置
である。

【００３５】この移動ロボット１としては、どのような
ものであってもよいが、この実施例では、Ｎomadic Ｔ
echnologies,Ｉnc社製のＮomad200 を使用した。

【００３６】Ｎomad200 は、円筒形をしたロボットで、
その周囲３６０度に、１６個の近距離検出用の赤外線セ
ンサと、１６個の遠距離検出用の超音波センサと、２０
個の接触センサとを備え、更に、全方位画像カメラを備
えている。

【００３７】このＮomad200 は、データベース作成装置
５からの無線信号で移動するものであり、１回の移動ス
テップで、２2.５度単位の１６方向のいずれかに向かっ
て、１０ｃｍの枡目単位に移動するように動作する。

【００３８】図２に、ロボット学習装置９に備えられる
ニューラルネットワーク７の一実施例を図示する。

【００３９】ニューラルネットワーク７は、移動ロボッ
ト１の駆動機構に与える駆動制御信号を生成するために
用意されるものであって、この図に示すように、行動決
定ネットワーク７０と、行動評価ネットワーク７１と、
ゲインコントローラ７２と、加算器７３と、メモリ７４
とを備える。

【００４０】この行動決定ネットワーク７０は、図３
（ａ）に示すように、移動ロボット１の赤外線センサ／
超音波センサにより検出される現時点及び２ステップ前
までの距離データを入力して分配出力する９６ユニット
の入力層と、入力層の出力値とそれに対して乗算される
重み値との積和を算出して、その積和値を関数変換する
ことで最終出力を得る基本ユニットが１６ユニット用意
されることで構成される中間層と、中間層の出力値とそ
れに対して乗算される重み値との積和を算出して、その
積和値を関数変換することで最終出力を得る基本ユニッ
トが１６ユニット用意されることで構成される出力層と
で構成されて、移動ロボット１の駆動機構に与える駆動
制御信号（１６方向のどの方向に移動するのかを指示す
る信号）を生成する。

【００４１】行動評価ネットワーク７１は、図３（ｂ）
に示すように、移動ロボット１の赤外線センサ／超音波
センサにより検出される現時点及び１ステップ前の距離
データと、１ステップ前の行動決定ネットワーク７０の
ノイズ加算された出力データとを入力して分配出力する
８０ユニットの入力層と、入力層の出力値とそれに対し
て乗算される重み値との積和を算出して、その積和値を
関数変換することで最終出力を得る基本ユニットが１６
ユニット用意されることで構成される中間層と、中間層
の出力値とそれに対して乗算される重み値との積和を算
出して、その積和値を関数変換することで最終出力を得
る基本ユニットが１ユニット用意されることで構成され
る出力層とで構成されて、行動決定ネットワーク７０の
出力する駆動制御信号に対しての評価データを出力す
る。

【００４２】ゲインコントローラ７２は、行動決定ネッ
トワーク７０の出力する駆動制御信号に合わせて１６個
用意され、ランダムに発生するノイズを入力として、行
動評価ネットワーク７１の出力する評価データに応じ
て、その評価データが高い評価を示すときには、入力ノ
イズを小さくしていくという形態に従って、入力ノイズ
のゲインをコントロールして出力する。

【００４３】加算器７３は、行動決定ネットワーク７０
の出力する駆動制御信号に合わせて１６個用意され、対
となる駆動制御信号と、対となるゲインコントローラ７
２の出力信号とを加算することで、移動ロボット１に与
える駆動制御信号を生成する。

【００４４】メモリ７４は、移動ロボット１の赤外線セ
ンサ／超音波センサにより検出される２ステップ前まで
の距離データを保持して、その内の該当するものを行動
決定ネットワーク７０／行動評価ネットワーク７１の入
力層に入力するとともに、ノイズ加算された行動決定ネ
ットワーク７０の出力する１ステップ前の駆動制御信号
を保持して、行動評価ネットワーク７１の入力層に入力
する。

【００４５】図４に、データベース作成プログラム４の
実行する処理フローの一実施例を図示する。次に、この
処理フローに従って、データベース作成プログラム４が
実行する実世界情報データベース３-iの作成処理につい
て説明する。

【００４６】データベース作成プログラム４は、ユーザ
から実世界情報データベース３-iの作成要求が発行され
ると、図４の処理フローに示すように、先ず最初に、ス
テップ１で、ユーザから基本となる実世界２の情報を入
力することで、基本となる実世界２のシミュレーション
モデルを作成する。

【００４７】例えば、移動ロボット１の動作環境となる
実世界２の基本が図５に示すようなものである場合に
は、その基本となる実世界２のシミュレーションモデル
を作成するのである。ここで、図５（ａ）は実世界２に
配置される物体の種類、図５（ｂ）はそれらの物体の配
置位置を示している。

【００４８】続いて、ステップ２で、ユーザと対話する
ことで、基本となる実世界２に対する環境変化のシナリ
オを作成する。

【００４９】例えば、図６（ａ）に示すような基本とな
る実世界２に、図６（ｂ）に示すように障害物を置くこ
とで環境を変化させるとか、照明を変化させることで環
境を変化させるとかいった環境変化のシナリオを作成す
るのである。

【００５０】続いて、ステップ３で、作成したシナリオ
の指定する全ての環境変化を選択したのか否かを判断し
て、全ての環境変化を選択したことを判断するときに
は、実世界情報データベース３-iの作成終了を判断し
て、処理を終了する。

【００５１】一方、ステップ３で、シナリオの指定する
全ての環境変化を選択していないことを判断するときに
は、ステップ４に進んで、シナリオの指定する環境変化
の中から未選択のものを１つ選択し、それに従って実世
界２の環境を変化させる。例えば、選択した環境変化に
従って障害物を置くことで実世界２の環境を変化させる
のである。

【００５２】続いて、ステップ５で、１０ｃｍを単位と
して実世界２に定義される全てのマトリックス位置に移
動ロボット１を移動させたのか否かを判断して、全ての
マトリックス位置に移動ロボット１を移動させていない
ことを判断するときには、ステップ６に進んで、未処理
のマトリックス位置を１つ選択して、その位置に移動ロ
ボット１を移動させ、続くステップ７で、その移動させ
た移動ロボット１の検出するセンサデータを収集して、
ステップ５に戻る。

【００５３】ここで、このとき収集するセンサデータ
は、行動決定ネットワーク７０／行動評価ネットワーク
７１に入力される赤外線センサ及び超音波センサの検出
する距離データである。

【００５４】このようにして、ステップ５ないしステッ
プ７の処理を繰り返していくことで、１０ｃｍを単位と
して実世界２に定義されるマトリックス位置での移動ロ
ボット１のセンサデータを収集していくときに、ステッ
プ５で、全てのマトリックス位置に移動ロボット１を移
動させたことを判断するときには、ステップ８に進ん
で、選択した環境変化に従って、ステップ１で作成した
基本となる実世界２のシミュレーションモデルを変化さ
せることで、その選択した環境変化の規定する実世界２
のシミュレーションモデルを作成するとともに、それに
対応付けて、ステップ７で収集したセンサデータを記録
することで実世界情報を作成して実世界情報データベー
ス３-iとして登録する。

【００５５】このようにして、データベース作成プログ
ラム４は、環境変化の規定する実世界２のシミュレーシ
ョンモデルを作成し、それに対応付けて、図７に示すよ
うなセンサデータを記録することで、環境変化毎に定義
される複数の実世界情報データベース３-iを作成するの
ある。

【００５６】このデータベース作成プログラム４の処理
により、例えば、図６（ａ）に示すような実世界２をシ
ミュレーションするとともに、その実世界２で実際に移
動ロボット１により検出されたセンサデータを保持する
実世界情報データベース３-iが作成されるとともに、図
６（ｂ）に示すような実世界２をシミュレーションする
とともに、その実世界で実際に移動ロボット１により検
出されたセンサデータを保持する実世界情報データベー
ス３-iが作成されることになる。

【００５７】図４の処理フローに従う場合には、データ
ベース作成プログラム４は、実世界２に対してシナリオ
の規定する環境変化を施し、その状態で、移動ロボット
１を順次マトリックス位置に移動させながらセンサデー
タを収集していくことを繰り返していくことで、各環境
変化の各マトリックス位置でのセンサデータを収集して
いくという方法を用いたが、図８の処理フローに示すよ
うに、移動ロボット１を１つのマトリックス位置に移動
させ、その状態で、実世界２に対してシナリオの規定す
る環境変化を施していきながらセンサデータを収集して
いくことを繰り返していくことで、各環境変化の各マト
リックス位置でのセンサデータを収集していくという方
法を用いることも可能である。

【００５８】すなわち、データベース作成プログラム４
は、図８の処理フローに従う場合には、先ず最初に、ス
テップ１で、ユーザから基本となる実世界２の情報を入
力することで、基本となる実世界２のシミュレーション
モデルを作成し、続くステップ２で、ユーザと対話する
ことで、基本となる実世界２に対する環境変化のシナリ
オを作成する。

【００５９】続いて、ステップ３で、全てのマトリック
ス位置に移動ロボット１を移動させたのか否かを判断
し、全てのマトリックス位置に移動ロボット１を移動さ
せていないことを判断するときには、ステップ４に進ん
で、未処理のマトリックス位置を１つ選択する。

【００６０】続いて、ステップ５で、シナリオの指定す
る全ての環境変化を選択したのか否かを判断して、全て
の環境変化を選択していないことを判断するときには、
ステップ６に進んで、シナリオの指定する環境変化の中
から未選択のものを１つ選択し、それに従って実世界２
の環境を変化させ、続くステップ７で、移動ロボット１
の検出するセンサデータを収集して、ステップ５に戻
る。

【００６１】一方、ステップ５で、シナリオの指定する
全ての環境変化を選択したことを判断するときには、次
のマトリックス位置でのセンサデータの収集に進むべ
く、ステップ３に戻っていく。

【００６２】そして、ステップ３で、全てのマトリック
ス位置に移動ロボット１を移動させたことを判断すると
きには、ステップ８に進んで、シナリオの指定する環境
変化毎に、それらの環境変化に従って、ステップ１で作
成した基本となる実世界２のシミュレーションモデルを
変化させることで、それらの環境変化の規定する実世界
２のシミュレーションモデルを作成するとともに、それ
に対応付けて、ステップ７で収集したセンサデータを記
録することで実世界情報を作成して実世界情報データベ
ース３-iとして登録する。

【００６３】このようにして、データベース作成プログ
ラム４は、図８の処理フローに従う場合には、移動ロボ
ット１を１つのマトリックス位置に移動させ、その状態
で、実世界２に対してシナリオの規定する環境変化を施
していきながらセンサデータを収集していくことを繰り
返していくことで、各環境変化の各マトリックス位置で
のセンサデータを収集していくことで、実世界情報デー
タベース３-iを作成していくように処理することにな
る。

【００６４】このようにして作成される環境変化毎に定
義される複数の実世界情報データベース３-iを受けて、
重み学習プログラム８は、例えば、移動制御機能として
構築すべき、実世界２に設定される複数の移動開始位置
から実世界２に設定される目標位置への移動ロボット１
の移動を可能とするニューラルネットワーク７の重みを
学習する。

【００６５】例えば、図６のスタートライン上に設定さ
れる複数の移動開始位置から、図６のターゲット点とし
て設定される目標位置への移動ロボット１の移動を可能
とする行動決定ネットワーク７０／行動評価ネットワー
ク７１の重みを学習するのである。

【００６６】次に、図９ないし図１１の処理フローに従
って、この移動開始位置から目標位置への移動ロボット
１の移動を可能とするために、重み学習プログラム８が
実行する重み学習処理について説明する。

【００６７】重み学習プログラム８は、移動開始位置か
ら目標位置への移動ロボット１の移動を可能とするニュ
ーラルネットワーク７の重みの学習要求が発行される
と、図９の処理フローに示すように、先ず最初に、ステ
ップ１で、行動決定ネットワーク７０／行動評価ネット
ワーク７１に対して、乱数などにより決定する重み初期
値を設定する。

【００６８】続いて、ステップ２で、学習対象として指
定された全ての実世界情報データベース３-iを選択した
のか否かを判断して、全ての実世界情報データベース３
-iを選択していないことを判断するときには、ステップ
３に進んで、その実世界情報データベース３-iを先頭か
らの順番に従って１つ選択する。

【００６９】続いて、ステップ４で、その選択した実世
界情報データベース３-iを使って、行動決定ネットワー
ク７０／行動評価ネットワーク７１の重みを学習して、
ステップ２に戻る。

【００７０】一方、ステップ２で、学習対象として指定
された実世界情報データベース３-iの全てを選択したこ
とを判断するときには、ステップ５に進んで、規定のト
ライアル回数学習を実行したのか否かを判断して、規定
のトライアル回数学習を実行したことを判断するときに
は、行動決定ネットワーク７０／行動評価ネットワーク
７１の重みの学習終了を判断して、処理を終了する。

【００７１】一方、ステップ５で、規定のトライアル回
数学習を実行していないことを判断するときには、ステ
ップ６に進んで、選択用ポインタ（次に選択する実世界
情報データベース３-iを指すポインタ）が先頭の実世界
情報データベース３-iを指すようにと更新してから、ス
テップ２に戻る。

【００７２】このようにして、重み学習プログラム８
は、例えば、実世界情報データベースＡ〜Ｃという３つ
が学習対象として指定されると、先ず最初に、実世界情
報データベースＡを使って重みを学習し、続いて、実世
界情報データベースＢを使って重みを学習し、続いて、
実世界情報データベースＣを使って重みを学習すること
で、１回目の学習トライアルを実行する。そして、この
学習トライアルを例えば２００回繰り返していくこと
で、行動決定ネットワーク７０／行動評価ネットワーク
７１の重みを学習していくのである。

【００７３】図１０及び図１１の処理フローは、図９の
処理フローのステップ４で実行する重みの学習処理の詳
細である。

【００７４】すなわち、重み学習プログラム８は、図９
の処理フローのステップ４で、選択した実世界情報デー
タベース３-iを使って、行動決定ネットワーク７０／行
動評価ネットワーク７１の重みの学習に入ると、図１０
及び図１１の処理フローの処理フローに示すように、先
ず最初に、ステップ４０で、設定されている全ての移動
開始位置を選択したのか否かを判断して、全ての移動開
始位置を選択したことを判断するときには、処理を終了
する。すなわち、図９の処理フローのステップ４として
の処理を終了するのである。

【００７５】一方、ステップ４０で、全ての移動開始位
置を選択していないことを判断するときには、ステップ
４１に進んで、移動開始位置の中から未選択のものを１
つ選択する。

【００７６】続いて、ステップ４２で、その選択した移
動開始位置から、規定のステップ数分移動ロボット１の
移動をシミュレーションしたのか否かを否かを判断し
て、シミュレーションしたことを判断するときには、次
の移動開始位置からのシミュレーションに進むべく、ス
テップ４０に戻る。

【００７７】一方、ステップ４２で、規定のステップ数
分移動ロボット１の移動をシミュレーションしていない
ことを判断するときには、ステップ４３に進んで、選択
した実世界情報データベース３-iにアクセスすること
で、移動ロボット１の現在位置の指すセンサデータを取
得する。

【００７８】続いて、ステップ４４で、その取得したセ
ンサデータを行動決定ネットワーク７０／行動評価ネッ
トワーク７１に入力することで、移動ロボット１に与え
る駆動制御信号のシミュレーションデータを得て、それ
により移動ロボット１の移動位置をシミュレーションす
る。

【００７９】続いて、ステップ４５で、ステップ４４で
の移動シミュレーションにより、移動ロボット１が壁な
どに衝突することで目標位置への到達に失敗したのか否
かを判断して、目標位置への到達に失敗したことを判断
するときには、次の移動開始位置からのシミュレーショ
ンに進むべく、ステップ４０に戻る。

【００８０】一方、ステップ４５で、目標位置への到達
に失敗していないことを判断するときには、ステップ４
６に進んで、ステップ４４での移動シミュレーションに
より、移動ロボット１が目標位置への到達に成功したの
か否かを判断して、目標位置への到達に成功したことを
判断するときには、次の移動開始位置からのシミュレー
ションに進むべく、ステップ４０に戻る。

【００８１】一方、ステップ４６で、移動ロボット１が
目標位置へ到達していないことを判断するときには、ス
テップ４７に進んで、ステップ４４での移動シミュレー
ションにより、移動ロボット１の位置が目標位置に近づ
いているのか否かを評価することで、その移動シミュレ
ーションの良否を決定する。

【００８２】続いて、ステップ４８で、ステップ４７で
良好な移動評価が得られたのか否かを判断して、良好な
移動評価が得られたことを判断するときには、ステップ
４９（図１１の処理フロー）に進んで、そのときに行動
決定ネットワーク７０に入力される信号と、そのときに
行動決定ネットワーク７０から出力されるノイズ加算さ
れた出力信号との対データを学習信号として用いて、パ
ックプロパゲーション法を例えば５回繰り返し実行する
ことで、行動決定ネットワーク７０の重みを学習する。

【００８３】そして、続くステップ５０で、そのときに
行動評価ネットワーク７１に入力される信号と、良好な
移動評価であることを示す信号値（例えば１）との対デ
ータを学習信号として用いて、パックプロパゲーション
法を例えば５回繰り返し実行することで、行動評価ネッ
トワーク７１の重みを学習してから、次の移動シミュレ
ーションに進むべく、ステップ４２に戻る。

【００８４】一方、ステップ４８で、良好な移動評価が
得られなかったことを判断するときには、ステップ５１
（図１１の処理フロー）に進んで、そのときに行動評価
ネットワーク７１に入力される信号と、良好な移動評価
でないことを示す信号値（例えば０）との対データを学
習信号として用いて、パックプロパゲーション法を例え
ば５回繰り返し実行することで、行動評価ネットワーク
７１の重みを学習してから、次の移動シミュレーション
に進むべく、ステップ４２に戻る。

【００８５】すなわち、ステップ４４で実行する移動シ
ミュレーションの評価結果が良好なものでないときに
は、行動決定ネットワーク７０の重みを学習することな
く、行動評価ネットワーク７１の重みを学習してから、
次の移動シミュレーションに進むべく、ステップ４２に
戻るのである。

【００８６】このように、重み学習プログラム８は、図
９の処理フローのステップ４に従って行動決定ネットワ
ーク７０／行動評価ネットワーク７１の重みの学習に入
ると、設定される移動開始位置を順番に選択しながら、
実世界情報データベース３-iに格納される実際に検出さ
れたセンサデータを使いつつ、規定ステップ数（途中で
移動が失敗したり成功する場合には、そこまで）分だけ
移動ロボット１の動きをシミュレーションして、目標位
置に向かう良好な動きを示すときには、それを学習信号
として、行動決定ネットワーク７０／行動評価ネットワ
ーク７１の重みを学習するとともに、目標位置に向かわ
ない良好でない動きを示すときには、それを学習信号と
して、行動評価ネットワーク７１の重みを学習していく
ように処理するのである。

【００８７】このようにして、行動決定ネットワーク７
０／行動評価ネットワーク７１の重みが学習されると、
図１２に示すように、この重みの設定された行動決定ネ
ットワーク７０／行動評価ネットワーク７１を持つニュ
ーラルネットワーク７と、それを使って移動ロボット１
の移動を制御する移動制御プログラム１０とを展開する
ロボット制御装置１１が構築され、これにより、移動ロ
ボット１の移動が制御されることになる。

【００８８】すなわち、ロボット制御装置１１に展開さ
れる移動制御プログラム１０は、図１３の処理フローに
示すように、先ず最初に、ステップ１で、移動ロボット
１からセンサデータを収集する。このとき収集するセン
サデータは、行動決定ネットワーク７０／行動評価ネッ
トワーク７１の重みの学習に用いた赤外線センサ及び超
音波センサの検出する距離データである。

【００８９】続いて、ステップ２で、その収集したセン
サデータを行動決定ネットワーク７０／行動評価ネット
ワーク７１に入力することで、移動ロボット１に与える
駆動制御信号を求める。続いて、ステップ３で、その求
めた駆動制御信号を移動ロボット１に送信することで、
移動ロボット１を１ステップ移動させる。

【００９０】続いて、ステップ４で、その移動により移
動ロボット１が壁などに衝突することで、その移動が失
敗したのか否かを判断して、失敗したことを判断すると
きには、処理を終了する。

【００９１】一方、ステップ４で、移動ロボット１の移
動が失敗していないことを判断するときには、ステップ
５に進んで、その移動により移動ロボット１が目標位置
に到達することで、その移動が成功したのか否かを判断
して、成功したことを判断するときには、処理を終了
し、成功しないことを判断するときには、目標位置への
到達を試みるべく、ステップ１に戻っていく。

【００９２】このようにして、移動ロボット１は、移動
制御プログラム１０の制御処理に従って、移動開始位置
から目標位置へと自律的に移動していくように動作する
ことになる。

【００９３】次に、本発明の有効性を検証するために行
った実験結果について説明する。

【００９４】この実験は、（Ａ）移動ロボット１の動作
環境として、図６（ａ）に示すもののみを想定して実世
界情報データベース３-iを作成して、それを使って、行
動決定ネットワーク７０／行動評価ネットワーク７１の
重みの学習を行い、それに従って実際に移動ロボット１
の移動を制御することで行うとともに、それと比較する
ために、（Ｂ）移動ロボット１の動作環境として、図６
（ａ）に示すものと図６（ｂ）に示すものとを想定して
実世界情報データベース３-iを作成して、その２つを使
って、行動決定ネットワーク７０／行動評価ネットワー
ク７１の重みの学習を行い、それに従って実際に移動ロ
ボット１の移動を制御することで行った。

【００９５】図１４（ａ）に、上述の（Ａ）のシミュレ
ーションにより得た重みを使い、図６（ｂ）に示す実世
界２で移動ロボット１を実際に移動させたときの移動軌
跡の実験結果を図示し、図１４（ｂ）に、上述の（Ｂ）
のシミュレーションにより得た重みを使い、図６（ｂ）
に示す実世界２で移動ロボット１を実際に移動させたと
きの移動軌跡の実験結果を図示する。

【００９６】ここで、図１４中に示す〜は移動開始
位置を示している。また、比較処理であることから、
（Ａ）のシミュレーションで実行するバックプロパゲー
ション法の学習回数と、（Ｂ）のシミュレーションで実
行するバックプロパゲーション法の学習回数とは同一に
なるようにしている。

【００９７】この実験結果から分かるように、移動ロボ
ット１が実際に検出したセンサデータを使って実世界情
報データベース３-iを構築しても、環境変化を考慮しな
いで実世界情報データベース３-iを作成する場合には、
環境変化に依存するような課題を持つ移動ロボット１の
実験はできないのに対して、本発明のように、環境変化
を考慮した実世界情報データベース３-iを作成すること
で、そのような実験ができるようになることが分かる。

【００９８】

【発明の効果】以上説明したように、本発明では、自律
移動走行体の動作環境となる実世界を模擬するととも
に、その模擬する実世界との対応をとりつつ、実際に収
集した自律移動走行体の環境センシング情報を管理する
実世界情報データベースを構築することで、自律移動ロ
ボットの研究開発用知的資源を提供する構成を採るとき
にあって、環境変化に応じた複数の実世界情報データベ
ースを構築する方法を採ることで、環境の変化に依存す
るような課題を実験できるようになる。

【００９９】また、本発明では、自律移動走行体の動作
環境となる実世界を模擬するとともに、それとの対応を
とりつつ、その実世界における自律移動走行体の環境セ
ンシング情報を管理する実世界情報データベースにアク
セスすることで、自律移動走行体の自律移動制御機能の
学習を実行する構成を採るときにあって、本発明の実世
界情報データベース構築方法で構築された環境変化に応
じて用意される複数の実世界情報データベースを使うこ
とで、環境の変化に依存するような課題を実験できるよ
うになる。

【図面の簡単な説明】

【図１】本発明の一実施例である。

【図２】ニューラルネットワークの一実施例である。

【図３】ニューラルネットワークの一実施例である。

【図４】データベース作成プログラムの処理フローであ
る。

【図５】移動ロボットの動作環境の説明図である。

【図６】移動ロボットの動作環境の説明図である。

【図７】実世界情報データベースの説明図である。

【図８】データベース作成プログラムの処理フローであ
る。

【図９】重み学習プログラムの処理フローである。

【図１０】重み学習プログラムの処理フローである。

【図１１】重み学習プログラムの処理フローである。

【図１２】移動ロボットの移動制御の説明図である。

【図１３】移動制御プログラムの処理フローである。

【図１４】実験結果の説明図である。

【符号の説明】

１移動ロボット２実世界３実世界情報データベース４データベース作成プログラム５データベース作成装置６端末７ニューラルネットワーク８重み学習プログラム９ロボット学習装置１０移動制御プログラム１１ロボット制御装置

───────────────────────────────────────────────────── フロントページの続き (72)発明者毛利友治神奈川県川崎市中原区上小田中４丁目１番１号富士通株式会社内 (56)参考文献特開平７−287695（ＪＰ，Ａ) 特開平11−104984（ＪＰ，Ａ) 特開平11−149315（ＪＰ，Ａ) 萩原由香里、岡田浩之、森敦史、仁木和久、大森隆司，移動ロボットの学習のための実情報データベースシステムの構築，日本ロボット学会学術講演会予稿集，日本，社団法人日本ロボット学会，1997年９月12日，ＶＯｌ．15ｔｈ、第１分冊，ＰＡＧＥ．169−170 岡田浩之、伊藤修、萩原由香里、仁木和久、山川宏、大森隆司，移動ロボット実験用システム，人工知能学会全国大会論文集，日本，社団法人人工知能学会，1998年６月16日，ＶＯＬ．12ｔｈ，ＰＡＧＥ，453−454 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G05D 1/02

Claims

(57)【特許請求の範囲】

【請求項１】自律移動走行体の学習に用いられる実世
界情報データベースを構築する実世界情報データベース
構築方法であって、自律移動走行体の動作環境となる実世界の環境を変化さ
せつつ、該実世界の環境下で、自律移動走行体の環境セ
ンシング情報を収集する第１の処理過程と、第１の処理過程で変化させた実世界の環境を単位として
構築されて、該実世界環境を模擬するとともに、それと
の対応をとりつつ、第１の処理過程で収集した環境セン
シング情報を管理する実世界情報データベースを構築す
る第２の処理過程とを備えることを、特徴とする実世界情報データベース構築方法。
【請求項２】請求項１に記載される実世界情報データ
ベース構築方法において、第１の処理過程で、実世界の環境を変化させ、その変化
させた実世界の環境下で、自律移動走行体を実世界の規
定位置に順次移動させつつ、それらの各規定位置で自律
移動走行体の環境センシング情報を収集することを繰り
返していくことで、自律移動走行体の環境センシング情
報を収集することを、特徴とする実世界情報データベース構築方法。
【請求項３】請求項１に記載される実世界情報データ
ベース構築方法において、第１の処理過程で、自律移動走行体を実世界の規定位置
に移動させ、その移動させた位置で、実世界の環境を順
次変化させつつ自律移動走行体の環境センシング情報を
収集することを繰り返していくことで、自律移動走行体
の環境センシング情報を収集することを、特徴とする実世界情報データベース構築方法。
【請求項４】自律移動走行体の学習に用いられる実世
界情報データベースを構築する実世界情報データベース
構築装置であって、自律移動走行体の動作環境となる実世界の環境を変化さ
せつつ、該実世界の環境下で、自律移動走行体の環境セ
ンシング情報を収集する収集手段と、上記収集手段で変化させた実世界の環境を単位として構
築されて、該実世界環境を模擬するとともに、それとの
対応をとりつつ、上記収集手段で収集した環境センシン
グ情報を管理する実世界情報データベースを構築する構
築手段とを備えることを、特徴とする実世界情報データベース構築装置。
【請求項５】自律移動走行体の動作環境となる実世界
を模擬するとともに、それとの対応をとりつつ、該実世
界における自律移動走行体の環境センシング情報を管理
する実世界情報データベースにアクセスすることで、自
律移動走行体の自律移動制御機能の学習を実行する自律
移動走行体学習方法であって、実世界の環境変化に応じて複数用意される上記実世界情
報データベースの中から、学習に用いる上記実世界情報
データベースを選択する第１の処理過程と、第１の処理過程で選択した実世界情報データベースを使
って、自律移動走行体の自律移動制御機能の学習を実行
して、その学習が終了するときに、第１の処理過程を起
動していくことで、自律移動走行体の自律移動制御機能
の学習を実行する第２の処理過程とを備えることを、特徴とする自律移動走行体学習方法。
【請求項６】請求項５に記載される記載の自律移動走
行体学習方法において、第１の処理過程で、実世界情報データベースをサイクリ
ックに選択していくことで、学習に用いる実世界情報デ
ータベースを選択することを、特徴とする自律移動走行体学習方法。