JP3363846B2 - 実世界情報データベース構築方法及び装置と自律移動走行体学習方法 - Google Patents

実世界情報データベース構築方法及び装置と自律移動走行体学習方法

Info

Publication number
JP3363846B2
JP3363846B2 JP24068699A JP24068699A JP3363846B2 JP 3363846 B2 JP3363846 B2 JP 3363846B2 JP 24068699 A JP24068699 A JP 24068699A JP 24068699 A JP24068699 A JP 24068699A JP 3363846 B2 JP3363846 B2 JP 3363846B2
Authority
JP
Japan
Prior art keywords
real
world
information database
autonomous mobile
real world
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP24068699A
Other languages
English (en)
Other versions
JP2001067125A (ja
Inventor
浩之 岡田
信雄 渡部
宏 山川
友治 毛利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP24068699A priority Critical patent/JP3363846B2/ja
Publication of JP2001067125A publication Critical patent/JP2001067125A/ja
Application granted granted Critical
Publication of JP3363846B2 publication Critical patent/JP3363846B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Feedback Control In General (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自律移動走行体の
自律移動制御機能の学習に用いられる実世界情報データ
ベースを構築する実世界情報データベース構築方法及び
装置と、その構築方法や装置で構築された実世界情報デ
ータベースにアクセスすることで、自律移動走行体の自
律移動制御機能の学習を実行する自律移動走行体学習方
法とに関し、特に、動的な環境変化に対応できる自律移
動走行体学習方法の実現に用いられる実世界情報データ
ベースを構築する実世界情報データベース構築方法及び
装置と、動的な環境変化に対応できる自律移動走行体学
習方法とに関する。
【0002】自律型の移動ロボットは、超音波や赤外線
や接触センサや視覚といった多くの感覚器を備え、更
に、タスクが単にナビゲーションなどの比較的短時間、
近傍の情報のみによる情報処理だけでなく、計画や実行
といった、より高次、より広い時空間における情報処理
機能を必要とするものまで展開できる点から、理論及び
アルゴリズムのレベルでの情報統合や自律学習システム
の研究に最適な対象である。
【0003】しかし、実機移動ロボットの保守や動作環
境の整備は多大の労力と技能とを必要とする作業であ
り、研究工数を大きく圧迫している。更に、移動ロボッ
トの実世界での動作速度を考えると、試行錯誤的な学習
の研究を実機のみで行うことは困難である。
【0004】このような問題に対し、移動ロボットのシ
ミュレータを作成して仮想的な世界で理論の検証を行う
ことが多かった。しかし、シミュレータを利用しようと
思った研究者なら誰でもが直面するように、移動ロボッ
トが存在する実世界の環境を忠実に実現し、更には複雑
な実世界における移動ロボットの動作を計算機で再現す
ることは不可能に近い。シミュレータは、極端に単純化
した世界モデルの中での限定された移動ロボットの動作
を再現しているに過ぎない。
【0005】新情報処理開発機構で進めているRWC(R
eal World Computing)プロジェクトでは、実世界知能技
術の研究を推進するために、ソフトウェア及びデータの
面からの基盤を提供することを目指し、研究開発用知的
資源の整備を次に挙げる3つの面から行っている。
【0006】1.研究の素材となる、実環境における音
声/音響情報、視覚情報、各種センサ情報、言語情報な
どを収集し、構造化した実世界情報データベースを構築
する。
【0007】2.対象となる問題を、共通的な課題とし
て定義し、その題材と評価法を提供するベンチマーク課
題を設定する。
【0008】3.研究が対象とするアルゴリズムや手法
などを共通的ソフトウェアとして広く使用可能な形にし
たソフトウェアライブラリを整備する。
【0009】実世界知能技術の研究において、実世界の
現象を研究の素材及び対象とするには、複雑で大規模な
実世界の現象を含んだ研究開発用知的資源が必要であ
る。特に、本発明者らが目指す知的移動ロボットの研究
においては、利用するデータベースやベンチマーク課題
の規模によって、対象とする現象は質的に変化し、小規
模のものでの知見が大規模のものにおいても成立すると
は限らない。また、実世界の環境は非常に多様であり、
変化に満ちている。従って、実環境における情報を対象
とする研究開発用知的資源は、大規模のものでなければ
実世界の多様性を十分に扱うことができない。
【0010】研究開発用知的資源は研究成果の評価の面
からも重要である。研究の成果として得られる新しい理
論や手法やプロトタイプシステムを評価するためには、
その有効性を評価するための共通の基盤が不可欠であ
る。
【0011】ところが、実世界知能技術の研究領域はま
だ新しい領域であるために、十分な量の研究開発用知的
資源が存在しておらず、研究開発を進める過程で個々の
研究者が新たに整備する必要がある。
【0012】研究者間で、研究開発用知的資源を共通化
あるいは共有化を進めることは、研究の過程で、技術の
客観的な評価を行うために重要である。他の理論や手法
との優劣の比較のためには、比較の対象となる資源を研
究者が自ら実現することも考えられるが、技術の複雑さ
が増すことで、自ら用意することが次第に難しくなって
いる。これに対し、共通化あるいは共有化された研究開
発用知的資源による評価は、客観的な比較をより簡単に
実現でき、適切な評価を行うことが可能になる。
【0013】
【従来の技術】このようなことを背景にして、本発明者
らは、第3回ロボティクスシンポジア(1998年5月7
日,8日)で発表したように、実機移動ロボットによる
実験とシミュレーションとの乖離を埋めるために、実環
境において移動ロボットが収集したセンサデータをデー
タベース化した実世界情報データベースを構築し、これ
を利用したネットワーク分散型移動ロボット実験システ
ムを構築した。
【0014】この本発明者らが開示した実世界情報デー
タベースは、予め移動ロボットの想定動作環境におい
て、実機移動ロボットをマス目状に小刻みに移動させ、
その位置におけるセンサデータを収集することで構築す
るものである。
【0015】すなわち、従来の移動ロボット実験用デー
タベースでは、移動ロボットの感知するセンサデータに
ついてもシミュレーションモデルから作成するという構
成を採るのに対して、この本発明者らが開示した実世界
情報データベースでは、移動ロボットの感知するセンサ
データについては、実際に移動ロボットにより感知され
たセンサデータを用いるという構成を採っている。
【0016】この本発明者らが開示した移動ロボット実
験用システムは、実機移動ロボットが実際に測定したセ
ンサデータのアーカイブである実世界情報データベース
の情報をユーザの要求に応じて提供する。これから、研
究者は、シミュレーションでは再現不可能な、大規模で
多様な実世界と類似する環境での実験を行えるようにな
る。
【0017】例えば、従来の移動ロボット実験用データ
ベースでは、障害物の材質を考慮した実験を行えないの
に対して、本発明者らが開示した移動ロボット実験用シ
ステムでは、障害物の材質を考慮した、より現実に近い
状況で実験を行うことができるようになる。
【0018】そして、データベース化されたセンサデー
タを利用することにより、実機移動ロボットでは難しか
った、試行錯誤的に繰り返し学習を行うような課題への
対応が可能になる。
【0019】
【発明が解決しようとする課題】確かに、本発明者らが
開示した実世界情報データベースは、実機移動ロボット
による実験とシミュレーションとの乖離を埋める極めて
有効な手段となるものである。
【0020】しかしながら、この実世界情報データベー
スでは環境の変化への対応に困難な点が存在し、改善の
余地が残されている。
【0021】すなわち、この実世界情報データベースで
は、予め測定したセンサデータを利用することから、測
定時の環境に関する実験は可能となるものの、明るさや
レイアウトが変化するオフィスでの経路探索などといっ
たような、環境の変化に依存するような課題を実験でき
ないという問題点が残されている。
【0022】本発明はかかる事情に鑑みてなされたもの
であって、動的な環境変化に対応できる自律移動走行体
学習方法の実現に用いられる実世界情報データベースを
構築する新たな実世界情報データベース構築方法及び装
置の提供と、動的な環境変化に対応できる新たな自律移
動走行体学習方法の提供とを目的とする。
【0023】
【課題を解決するための手段】この目的を達成するため
に、本発明の実世界情報データベース構築方法では、自
律移動走行体の学習に用いられる実世界情報データベー
スを構築する構成を採るときにあって、自律移動走行体
の動作環境となる実世界の環境を変化させつつ、その実
世界の環境下で、自律移動走行体の環境センシング情報
を収集する第1の処理過程と、第1の処理過程で変化さ
せた実世界の環境を単位として構築されて、その実世界
環境を模擬するとともに、それとの対応をとりつつ、第
1の処理過程で収集した環境センシング情報を管理する
実世界情報データベースを構築する第2の処理過程とを
備えるように構成する。
【0024】このように構成される本発明の実世界情報
データベース構築方法では、第1の処理過程で、自律移
動走行体の動作環境となる実世界の環境を変化させつ
つ、その実世界の環境下で、自律移動走行体の環境セン
シング情報を収集する。
【0025】例えば、実世界の環境を変化させ、その変
化させた実世界の環境下で、自律移動走行体を実世界の
規定位置に順次移動させつつ、それらの各規定位置で自
律移動走行体の環境センシング情報を収集することを繰
り返していくことで、自律移動走行体の環境センシング
情報を収集する。
【0026】あるいは、自律移動走行体を実世界の規定
位置に移動させ、その移動させた位置で、実世界の環境
を順次変化させつつ自律移動走行体の環境センシング情
報を収集することを繰り返していくことで、自律移動走
行体の環境センシング情報を収集する。
【0027】このようにして、第1の処理過程で、環境
変化させる実世界での自律移動走行体の環境センシング
情報を収集すると、第2の処理過程で、それらの実世界
環境を模擬するとともに、それとの対応をとりつつ、収
集した環境センシング情報を管理する、それらの実世界
環境を単位とする複数の実世界情報データベースを構築
する。
【0028】このようにして、本発明の実世界情報デー
タベース構築方法では、自律移動走行体の動作環境とな
る実世界を模擬するとともに、その模擬する実世界との
対応をとりつつ、実際に収集した自律移動走行体の環境
センシング情報を管理する実世界情報データベースを構
築することで、自律移動ロボットの研究開発用知的資源
を提供する構成を採るときにあって、環境変化に応じた
複数の実世界情報データベースを構築する方法を採るこ
とで、環境の変化に依存するような課題を実験できるよ
うになる。
【0029】一方、本発明の自律移動走行体学習方法で
は、自律移動走行体の動作環境となる実世界を模擬する
とともに、それとの対応をとりつつ、その実世界におけ
る自律移動走行体の環境センシング情報を管理する実世
界情報データベースにアクセスすることで、自律移動走
行体の自律移動制御機能の学習を実行する構成を採ると
きにあって、実世界の環境変化に応じて複数用意される
実世界情報データベースの中から、学習に用いる実世界
情報データベースを選択する第1の処理過程と、第1の
処理過程で選択した実世界情報データベースを使って、
自律移動走行体の自律移動制御機能の学習を実行して、
その学習が終了するときに、第1の処理過程を起動して
いくことで、自律移動走行体の自律移動制御機能の学習
を実行する第2の処理過程とを備えるように構成する。
【0030】このように構成される本発明の自律移動走
行体学習方法では、第1の処理過程で、本発明の実世界
情報データベース構築方法で構築された複数の実世界情
報データベースの中から、学習に用いる実世界情報デー
タベースを選択すると、第2の処理過程で、その選択さ
れた実世界情報データベースを使って、自律移動走行体
の自律移動制御機能の学習を実行して、その学習が終了
するときに、第1の処理過程を起動していくことで、自
律移動走行体の自律移動制御機能の学習を実行する。
【0031】このようにして、本発明の自律移動走行体
学習方法では、自律移動走行体の動作環境となる実世界
を模擬するとともに、それとの対応をとりつつ、その実
世界における自律移動走行体の環境センシング情報を管
理する実世界情報データベースにアクセスすることで、
自律移動走行体の自律移動制御機能の学習を実行する構
成を採るときにあって、本発明の実世界情報データベー
ス構築方法で構築された環境変化に応じて用意される複
数の実世界情報データベースを使うことで、環境の変化
に依存するような課題を実験できるようになる。
【0032】
【発明の実施の形態】以下、実施の形態に従って本発明
を詳細に説明する。
【0033】図1に、本発明の一実施例を図示する。
【0034】図中、1は実機の移動ロボット、2は移動
ロボット1の動作環境となる実世界、3-i(i=1〜
n)は実世界2を模擬する実世界情報データベース、4
は実世界情報データベース3-iを作成するデータベース
作成プログラム、5はデータベース作成プログラム4を
展開するデータベース作成装置、6はデータベース作成
装置5の備える端末、7は移動ロボット1の駆動制御信
号を生成するニューラルネットワーク、8はニューラル
ネットワーク7の重みを学習する重み学習プログラム、
9は重み学習プログラム8を展開するロボット学習装置
である。
【0035】この移動ロボット1としては、どのような
ものであってもよいが、この実施例では、Nomadic T
echnologies,Inc社製のNomad200 を使用した。
【0036】Nomad200 は、円筒形をしたロボットで、
その周囲360度に、16個の近距離検出用の赤外線セ
ンサと、16個の遠距離検出用の超音波センサと、20
個の接触センサとを備え、更に、全方位画像カメラを備
えている。
【0037】このNomad200 は、データベース作成装置
5からの無線信号で移動するものであり、1回の移動ス
テップで、22.5度単位の16方向のいずれかに向かっ
て、10cmの枡目単位に移動するように動作する。
【0038】図2に、ロボット学習装置9に備えられる
ニューラルネットワーク7の一実施例を図示する。
【0039】ニューラルネットワーク7は、移動ロボッ
ト1の駆動機構に与える駆動制御信号を生成するために
用意されるものであって、この図に示すように、行動決
定ネットワーク70と、行動評価ネットワーク71と、
ゲインコントローラ72と、加算器73と、メモリ74
とを備える。
【0040】この行動決定ネットワーク70は、図3
(a)に示すように、移動ロボット1の赤外線センサ/
超音波センサにより検出される現時点及び2ステップ前
までの距離データを入力して分配出力する96ユニット
の入力層と、入力層の出力値とそれに対して乗算される
重み値との積和を算出して、その積和値を関数変換する
ことで最終出力を得る基本ユニットが16ユニット用意
されることで構成される中間層と、中間層の出力値とそ
れに対して乗算される重み値との積和を算出して、その
積和値を関数変換することで最終出力を得る基本ユニッ
トが16ユニット用意されることで構成される出力層と
で構成されて、移動ロボット1の駆動機構に与える駆動
制御信号(16方向のどの方向に移動するのかを指示す
る信号)を生成する。
【0041】行動評価ネットワーク71は、図3(b)
に示すように、移動ロボット1の赤外線センサ/超音波
センサにより検出される現時点及び1ステップ前の距離
データと、1ステップ前の行動決定ネットワーク70の
ノイズ加算された出力データとを入力して分配出力する
80ユニットの入力層と、入力層の出力値とそれに対し
て乗算される重み値との積和を算出して、その積和値を
関数変換することで最終出力を得る基本ユニットが16
ユニット用意されることで構成される中間層と、中間層
の出力値とそれに対して乗算される重み値との積和を算
出して、その積和値を関数変換することで最終出力を得
る基本ユニットが1ユニット用意されることで構成され
る出力層とで構成されて、行動決定ネットワーク70の
出力する駆動制御信号に対しての評価データを出力す
る。
【0042】ゲインコントローラ72は、行動決定ネッ
トワーク70の出力する駆動制御信号に合わせて16個
用意され、ランダムに発生するノイズを入力として、行
動評価ネットワーク71の出力する評価データに応じ
て、その評価データが高い評価を示すときには、入力ノ
イズを小さくしていくという形態に従って、入力ノイズ
のゲインをコントロールして出力する。
【0043】加算器73は、行動決定ネットワーク70
の出力する駆動制御信号に合わせて16個用意され、対
となる駆動制御信号と、対となるゲインコントローラ7
2の出力信号とを加算することで、移動ロボット1に与
える駆動制御信号を生成する。
【0044】メモリ74は、移動ロボット1の赤外線セ
ンサ/超音波センサにより検出される2ステップ前まで
の距離データを保持して、その内の該当するものを行動
決定ネットワーク70/行動評価ネットワーク71の入
力層に入力するとともに、ノイズ加算された行動決定ネ
ットワーク70の出力する1ステップ前の駆動制御信号
を保持して、行動評価ネットワーク71の入力層に入力
する。
【0045】図4に、データベース作成プログラム4の
実行する処理フローの一実施例を図示する。次に、この
処理フローに従って、データベース作成プログラム4が
実行する実世界情報データベース3-iの作成処理につい
て説明する。
【0046】データベース作成プログラム4は、ユーザ
から実世界情報データベース3-iの作成要求が発行され
ると、図4の処理フローに示すように、先ず最初に、ス
テップ1で、ユーザから基本となる実世界2の情報を入
力することで、基本となる実世界2のシミュレーション
モデルを作成する。
【0047】例えば、移動ロボット1の動作環境となる
実世界2の基本が図5に示すようなものである場合に
は、その基本となる実世界2のシミュレーションモデル
を作成するのである。ここで、図5(a)は実世界2に
配置される物体の種類、図5(b)はそれらの物体の配
置位置を示している。
【0048】続いて、ステップ2で、ユーザと対話する
ことで、基本となる実世界2に対する環境変化のシナリ
オを作成する。
【0049】例えば、図6(a)に示すような基本とな
る実世界2に、図6(b)に示すように障害物を置くこ
とで環境を変化させるとか、照明を変化させることで環
境を変化させるとかいった環境変化のシナリオを作成す
るのである。
【0050】続いて、ステップ3で、作成したシナリオ
の指定する全ての環境変化を選択したのか否かを判断し
て、全ての環境変化を選択したことを判断するときに
は、実世界情報データベース3-iの作成終了を判断し
て、処理を終了する。
【0051】一方、ステップ3で、シナリオの指定する
全ての環境変化を選択していないことを判断するときに
は、ステップ4に進んで、シナリオの指定する環境変化
の中から未選択のものを1つ選択し、それに従って実世
界2の環境を変化させる。例えば、選択した環境変化に
従って障害物を置くことで実世界2の環境を変化させる
のである。
【0052】続いて、ステップ5で、10cmを単位と
して実世界2に定義される全てのマトリックス位置に移
動ロボット1を移動させたのか否かを判断して、全ての
マトリックス位置に移動ロボット1を移動させていない
ことを判断するときには、ステップ6に進んで、未処理
のマトリックス位置を1つ選択して、その位置に移動ロ
ボット1を移動させ、続くステップ7で、その移動させ
た移動ロボット1の検出するセンサデータを収集して、
ステップ5に戻る。
【0053】ここで、このとき収集するセンサデータ
は、行動決定ネットワーク70/行動評価ネットワーク
71に入力される赤外線センサ及び超音波センサの検出
する距離データである。
【0054】このようにして、ステップ5ないしステッ
プ7の処理を繰り返していくことで、10cmを単位と
して実世界2に定義されるマトリックス位置での移動ロ
ボット1のセンサデータを収集していくときに、ステッ
プ5で、全てのマトリックス位置に移動ロボット1を移
動させたことを判断するときには、ステップ8に進ん
で、選択した環境変化に従って、ステップ1で作成した
基本となる実世界2のシミュレーションモデルを変化さ
せることで、その選択した環境変化の規定する実世界2
のシミュレーションモデルを作成するとともに、それに
対応付けて、ステップ7で収集したセンサデータを記録
することで実世界情報を作成して実世界情報データベー
ス3-iとして登録する。
【0055】このようにして、データベース作成プログ
ラム4は、環境変化の規定する実世界2のシミュレーシ
ョンモデルを作成し、それに対応付けて、図7に示すよ
うなセンサデータを記録することで、環境変化毎に定義
される複数の実世界情報データベース3-iを作成するの
ある。
【0056】このデータベース作成プログラム4の処理
により、例えば、図6(a)に示すような実世界2をシ
ミュレーションするとともに、その実世界2で実際に移
動ロボット1により検出されたセンサデータを保持する
実世界情報データベース3-iが作成されるとともに、図
6(b)に示すような実世界2をシミュレーションする
とともに、その実世界で実際に移動ロボット1により検
出されたセンサデータを保持する実世界情報データベー
ス3-iが作成されることになる。
【0057】図4の処理フローに従う場合には、データ
ベース作成プログラム4は、実世界2に対してシナリオ
の規定する環境変化を施し、その状態で、移動ロボット
1を順次マトリックス位置に移動させながらセンサデー
タを収集していくことを繰り返していくことで、各環境
変化の各マトリックス位置でのセンサデータを収集して
いくという方法を用いたが、図8の処理フローに示すよ
うに、移動ロボット1を1つのマトリックス位置に移動
させ、その状態で、実世界2に対してシナリオの規定す
る環境変化を施していきながらセンサデータを収集して
いくことを繰り返していくことで、各環境変化の各マト
リックス位置でのセンサデータを収集していくという方
法を用いることも可能である。
【0058】すなわち、データベース作成プログラム4
は、図8の処理フローに従う場合には、先ず最初に、ス
テップ1で、ユーザから基本となる実世界2の情報を入
力することで、基本となる実世界2のシミュレーション
モデルを作成し、続くステップ2で、ユーザと対話する
ことで、基本となる実世界2に対する環境変化のシナリ
オを作成する。
【0059】続いて、ステップ3で、全てのマトリック
ス位置に移動ロボット1を移動させたのか否かを判断
し、全てのマトリックス位置に移動ロボット1を移動さ
せていないことを判断するときには、ステップ4に進ん
で、未処理のマトリックス位置を1つ選択する。
【0060】続いて、ステップ5で、シナリオの指定す
る全ての環境変化を選択したのか否かを判断して、全て
の環境変化を選択していないことを判断するときには、
ステップ6に進んで、シナリオの指定する環境変化の中
から未選択のものを1つ選択し、それに従って実世界2
の環境を変化させ、続くステップ7で、移動ロボット1
の検出するセンサデータを収集して、ステップ5に戻
る。
【0061】一方、ステップ5で、シナリオの指定する
全ての環境変化を選択したことを判断するときには、次
のマトリックス位置でのセンサデータの収集に進むべ
く、ステップ3に戻っていく。
【0062】そして、ステップ3で、全てのマトリック
ス位置に移動ロボット1を移動させたことを判断すると
きには、ステップ8に進んで、シナリオの指定する環境
変化毎に、それらの環境変化に従って、ステップ1で作
成した基本となる実世界2のシミュレーションモデルを
変化させることで、それらの環境変化の規定する実世界
2のシミュレーションモデルを作成するとともに、それ
に対応付けて、ステップ7で収集したセンサデータを記
録することで実世界情報を作成して実世界情報データベ
ース3-iとして登録する。
【0063】このようにして、データベース作成プログ
ラム4は、図8の処理フローに従う場合には、移動ロボ
ット1を1つのマトリックス位置に移動させ、その状態
で、実世界2に対してシナリオの規定する環境変化を施
していきながらセンサデータを収集していくことを繰り
返していくことで、各環境変化の各マトリックス位置で
のセンサデータを収集していくことで、実世界情報デー
タベース3-iを作成していくように処理することにな
る。
【0064】このようにして作成される環境変化毎に定
義される複数の実世界情報データベース3-iを受けて、
重み学習プログラム8は、例えば、移動制御機能として
構築すべき、実世界2に設定される複数の移動開始位置
から実世界2に設定される目標位置への移動ロボット1
の移動を可能とするニューラルネットワーク7の重みを
学習する。
【0065】例えば、図6のスタートライン上に設定さ
れる複数の移動開始位置から、図6のターゲット点とし
て設定される目標位置への移動ロボット1の移動を可能
とする行動決定ネットワーク70/行動評価ネットワー
ク71の重みを学習するのである。
【0066】次に、図9ないし図11の処理フローに従
って、この移動開始位置から目標位置への移動ロボット
1の移動を可能とするために、重み学習プログラム8が
実行する重み学習処理について説明する。
【0067】重み学習プログラム8は、移動開始位置か
ら目標位置への移動ロボット1の移動を可能とするニュ
ーラルネットワーク7の重みの学習要求が発行される
と、図9の処理フローに示すように、先ず最初に、ステ
ップ1で、行動決定ネットワーク70/行動評価ネット
ワーク71に対して、乱数などにより決定する重み初期
値を設定する。
【0068】続いて、ステップ2で、学習対象として指
定された全ての実世界情報データベース3-iを選択した
のか否かを判断して、全ての実世界情報データベース3
-iを選択していないことを判断するときには、ステップ
3に進んで、その実世界情報データベース3-iを先頭か
らの順番に従って1つ選択する。
【0069】続いて、ステップ4で、その選択した実世
界情報データベース3-iを使って、行動決定ネットワー
ク70/行動評価ネットワーク71の重みを学習して、
ステップ2に戻る。
【0070】一方、ステップ2で、学習対象として指定
された実世界情報データベース3-iの全てを選択したこ
とを判断するときには、ステップ5に進んで、規定のト
ライアル回数学習を実行したのか否かを判断して、規定
のトライアル回数学習を実行したことを判断するときに
は、行動決定ネットワーク70/行動評価ネットワーク
71の重みの学習終了を判断して、処理を終了する。
【0071】一方、ステップ5で、規定のトライアル回
数学習を実行していないことを判断するときには、ステ
ップ6に進んで、選択用ポインタ(次に選択する実世界
情報データベース3-iを指すポインタ)が先頭の実世界
情報データベース3-iを指すようにと更新してから、ス
テップ2に戻る。
【0072】このようにして、重み学習プログラム8
は、例えば、実世界情報データベースA〜Cという3つ
が学習対象として指定されると、先ず最初に、実世界情
報データベースAを使って重みを学習し、続いて、実世
界情報データベースBを使って重みを学習し、続いて、
実世界情報データベースCを使って重みを学習すること
で、1回目の学習トライアルを実行する。そして、この
学習トライアルを例えば200回繰り返していくこと
で、行動決定ネットワーク70/行動評価ネットワーク
71の重みを学習していくのである。
【0073】図10及び図11の処理フローは、図9の
処理フローのステップ4で実行する重みの学習処理の詳
細である。
【0074】すなわち、重み学習プログラム8は、図9
の処理フローのステップ4で、選択した実世界情報デー
タベース3-iを使って、行動決定ネットワーク70/行
動評価ネットワーク71の重みの学習に入ると、図10
及び図11の処理フローの処理フローに示すように、先
ず最初に、ステップ40で、設定されている全ての移動
開始位置を選択したのか否かを判断して、全ての移動開
始位置を選択したことを判断するときには、処理を終了
する。すなわち、図9の処理フローのステップ4として
の処理を終了するのである。
【0075】一方、ステップ40で、全ての移動開始位
置を選択していないことを判断するときには、ステップ
41に進んで、移動開始位置の中から未選択のものを1
つ選択する。
【0076】続いて、ステップ42で、その選択した移
動開始位置から、規定のステップ数分移動ロボット1の
移動をシミュレーションしたのか否かを否かを判断し
て、シミュレーションしたことを判断するときには、次
の移動開始位置からのシミュレーションに進むべく、ス
テップ40に戻る。
【0077】一方、ステップ42で、規定のステップ数
分移動ロボット1の移動をシミュレーションしていない
ことを判断するときには、ステップ43に進んで、選択
した実世界情報データベース3-iにアクセスすること
で、移動ロボット1の現在位置の指すセンサデータを取
得する。
【0078】続いて、ステップ44で、その取得したセ
ンサデータを行動決定ネットワーク70/行動評価ネッ
トワーク71に入力することで、移動ロボット1に与え
る駆動制御信号のシミュレーションデータを得て、それ
により移動ロボット1の移動位置をシミュレーションす
る。
【0079】続いて、ステップ45で、ステップ44で
の移動シミュレーションにより、移動ロボット1が壁な
どに衝突することで目標位置への到達に失敗したのか否
かを判断して、目標位置への到達に失敗したことを判断
するときには、次の移動開始位置からのシミュレーショ
ンに進むべく、ステップ40に戻る。
【0080】一方、ステップ45で、目標位置への到達
に失敗していないことを判断するときには、ステップ4
6に進んで、ステップ44での移動シミュレーションに
より、移動ロボット1が目標位置への到達に成功したの
か否かを判断して、目標位置への到達に成功したことを
判断するときには、次の移動開始位置からのシミュレー
ションに進むべく、ステップ40に戻る。
【0081】一方、ステップ46で、移動ロボット1が
目標位置へ到達していないことを判断するときには、ス
テップ47に進んで、ステップ44での移動シミュレー
ションにより、移動ロボット1の位置が目標位置に近づ
いているのか否かを評価することで、その移動シミュレ
ーションの良否を決定する。
【0082】続いて、ステップ48で、ステップ47で
良好な移動評価が得られたのか否かを判断して、良好な
移動評価が得られたことを判断するときには、ステップ
49(図11の処理フロー)に進んで、そのときに行動
決定ネットワーク70に入力される信号と、そのときに
行動決定ネットワーク70から出力されるノイズ加算さ
れた出力信号との対データを学習信号として用いて、パ
ックプロパゲーション法を例えば5回繰り返し実行する
ことで、行動決定ネットワーク70の重みを学習する。
【0083】そして、続くステップ50で、そのときに
行動評価ネットワーク71に入力される信号と、良好な
移動評価であることを示す信号値(例えば1)との対デ
ータを学習信号として用いて、パックプロパゲーション
法を例えば5回繰り返し実行することで、行動評価ネッ
トワーク71の重みを学習してから、次の移動シミュレ
ーションに進むべく、ステップ42に戻る。
【0084】一方、ステップ48で、良好な移動評価が
得られなかったことを判断するときには、ステップ51
(図11の処理フロー)に進んで、そのときに行動評価
ネットワーク71に入力される信号と、良好な移動評価
でないことを示す信号値(例えば0)との対データを学
習信号として用いて、パックプロパゲーション法を例え
ば5回繰り返し実行することで、行動評価ネットワーク
71の重みを学習してから、次の移動シミュレーション
に進むべく、ステップ42に戻る。
【0085】すなわち、ステップ44で実行する移動シ
ミュレーションの評価結果が良好なものでないときに
は、行動決定ネットワーク70の重みを学習することな
く、行動評価ネットワーク71の重みを学習してから、
次の移動シミュレーションに進むべく、ステップ42に
戻るのである。
【0086】このように、重み学習プログラム8は、図
9の処理フローのステップ4に従って行動決定ネットワ
ーク70/行動評価ネットワーク71の重みの学習に入
ると、設定される移動開始位置を順番に選択しながら、
実世界情報データベース3-iに格納される実際に検出さ
れたセンサデータを使いつつ、規定ステップ数(途中で
移動が失敗したり成功する場合には、そこまで)分だけ
移動ロボット1の動きをシミュレーションして、目標位
置に向かう良好な動きを示すときには、それを学習信号
として、行動決定ネットワーク70/行動評価ネットワ
ーク71の重みを学習するとともに、目標位置に向かわ
ない良好でない動きを示すときには、それを学習信号と
して、行動評価ネットワーク71の重みを学習していく
ように処理するのである。
【0087】このようにして、行動決定ネットワーク7
0/行動評価ネットワーク71の重みが学習されると、
図12に示すように、この重みの設定された行動決定ネ
ットワーク70/行動評価ネットワーク71を持つニュ
ーラルネットワーク7と、それを使って移動ロボット1
の移動を制御する移動制御プログラム10とを展開する
ロボット制御装置11が構築され、これにより、移動ロ
ボット1の移動が制御されることになる。
【0088】すなわち、ロボット制御装置11に展開さ
れる移動制御プログラム10は、図13の処理フローに
示すように、先ず最初に、ステップ1で、移動ロボット
1からセンサデータを収集する。このとき収集するセン
サデータは、行動決定ネットワーク70/行動評価ネッ
トワーク71の重みの学習に用いた赤外線センサ及び超
音波センサの検出する距離データである。
【0089】続いて、ステップ2で、その収集したセン
サデータを行動決定ネットワーク70/行動評価ネット
ワーク71に入力することで、移動ロボット1に与える
駆動制御信号を求める。続いて、ステップ3で、その求
めた駆動制御信号を移動ロボット1に送信することで、
移動ロボット1を1ステップ移動させる。
【0090】続いて、ステップ4で、その移動により移
動ロボット1が壁などに衝突することで、その移動が失
敗したのか否かを判断して、失敗したことを判断すると
きには、処理を終了する。
【0091】一方、ステップ4で、移動ロボット1の移
動が失敗していないことを判断するときには、ステップ
5に進んで、その移動により移動ロボット1が目標位置
に到達することで、その移動が成功したのか否かを判断
して、成功したことを判断するときには、処理を終了
し、成功しないことを判断するときには、目標位置への
到達を試みるべく、ステップ1に戻っていく。
【0092】このようにして、移動ロボット1は、移動
制御プログラム10の制御処理に従って、移動開始位置
から目標位置へと自律的に移動していくように動作する
ことになる。
【0093】次に、本発明の有効性を検証するために行
った実験結果について説明する。
【0094】この実験は、(A)移動ロボット1の動作
環境として、図6(a)に示すもののみを想定して実世
界情報データベース3-iを作成して、それを使って、行
動決定ネットワーク70/行動評価ネットワーク71の
重みの学習を行い、それに従って実際に移動ロボット1
の移動を制御することで行うとともに、それと比較する
ために、(B)移動ロボット1の動作環境として、図6
(a)に示すものと図6(b)に示すものとを想定して
実世界情報データベース3-iを作成して、その2つを使
って、行動決定ネットワーク70/行動評価ネットワー
ク71の重みの学習を行い、それに従って実際に移動ロ
ボット1の移動を制御することで行った。
【0095】図14(a)に、上述の(A)のシミュレ
ーションにより得た重みを使い、図6(b)に示す実世
界2で移動ロボット1を実際に移動させたときの移動軌
跡の実験結果を図示し、図14(b)に、上述の(B)
のシミュレーションにより得た重みを使い、図6(b)
に示す実世界2で移動ロボット1を実際に移動させたと
きの移動軌跡の実験結果を図示する。
【0096】ここで、図14中に示す〜は移動開始
位置を示している。また、比較処理であることから、
(A)のシミュレーションで実行するバックプロパゲー
ション法の学習回数と、(B)のシミュレーションで実
行するバックプロパゲーション法の学習回数とは同一に
なるようにしている。
【0097】この実験結果から分かるように、移動ロボ
ット1が実際に検出したセンサデータを使って実世界情
報データベース3-iを構築しても、環境変化を考慮しな
いで実世界情報データベース3-iを作成する場合には、
環境変化に依存するような課題を持つ移動ロボット1の
実験はできないのに対して、本発明のように、環境変化
を考慮した実世界情報データベース3-iを作成すること
で、そのような実験ができるようになることが分かる。
【0098】
【発明の効果】以上説明したように、本発明では、自律
移動走行体の動作環境となる実世界を模擬するととも
に、その模擬する実世界との対応をとりつつ、実際に収
集した自律移動走行体の環境センシング情報を管理する
実世界情報データベースを構築することで、自律移動ロ
ボットの研究開発用知的資源を提供する構成を採るとき
にあって、環境変化に応じた複数の実世界情報データベ
ースを構築する方法を採ることで、環境の変化に依存す
るような課題を実験できるようになる。
【0099】また、本発明では、自律移動走行体の動作
環境となる実世界を模擬するとともに、それとの対応を
とりつつ、その実世界における自律移動走行体の環境セ
ンシング情報を管理する実世界情報データベースにアク
セスすることで、自律移動走行体の自律移動制御機能の
学習を実行する構成を採るときにあって、本発明の実世
界情報データベース構築方法で構築された環境変化に応
じて用意される複数の実世界情報データベースを使うこ
とで、環境の変化に依存するような課題を実験できるよ
うになる。
【図面の簡単な説明】
【図1】本発明の一実施例である。
【図2】ニューラルネットワークの一実施例である。
【図3】ニューラルネットワークの一実施例である。
【図4】データベース作成プログラムの処理フローであ
る。
【図5】移動ロボットの動作環境の説明図である。
【図6】移動ロボットの動作環境の説明図である。
【図7】実世界情報データベースの説明図である。
【図8】データベース作成プログラムの処理フローであ
る。
【図9】重み学習プログラムの処理フローである。
【図10】重み学習プログラムの処理フローである。
【図11】重み学習プログラムの処理フローである。
【図12】移動ロボットの移動制御の説明図である。
【図13】移動制御プログラムの処理フローである。
【図14】実験結果の説明図である。
【符号の説明】
1 移動ロボット 2 実世界 3 実世界情報データベース 4 データベース作成プログラム 5 データベース作成装置 6 端末 7 ニューラルネットワーク 8 重み学習プログラム 9 ロボット学習装置 10 移動制御プログラム 11 ロボット制御装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 毛利 友治 神奈川県川崎市中原区上小田中4丁目1 番1号 富士通株式会社内 (56)参考文献 特開 平7−287695(JP,A) 特開 平11−104984(JP,A) 特開 平11−149315(JP,A) 萩原由香里、岡田浩之、森敦史、仁木 和久、大森隆司,移動ロボットの学習の ための実情報データベースシステムの構 築,日本ロボット学会学術講演会予稿 集,日本,社団法人 日本ロボット学 会,1997年 9月12日,VOl.15t h、第1分冊,PAGE.169−170 岡田浩之、伊藤修、萩原由香里、仁木 和久、山川宏、大森隆司,移動ロボット 実験用システム,人工知能学会全国大会 論文集,日本,社団法人 人工知能学 会,1998年 6月16日,VOL.12t h,PAGE,453−454 (58)調査した分野(Int.Cl.7,DB名) G05D 1/02

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 自律移動走行体の学習に用いられる実世
    界情報データベースを構築する実世界情報データベース
    構築方法であって、 自律移動走行体の動作環境となる実世界の環境を変化さ
    せつつ、該実世界の環境下で、自律移動走行体の環境セ
    ンシング情報を収集する第1の処理過程と、 第1の処理過程で変化させた実世界の環境を単位として
    構築されて、該実世界環境を模擬するとともに、それと
    の対応をとりつつ、第1の処理過程で収集した環境セン
    シング情報を管理する実世界情報データベースを構築す
    る第2の処理過程とを備えることを、 特徴とする実世界情報データベース構築方法。
  2. 【請求項2】 請求項1に記載される実世界情報データ
    ベース構築方法において、 第1の処理過程で、実世界の環境を変化させ、その変化
    させた実世界の環境下で、自律移動走行体を実世界の規
    定位置に順次移動させつつ、それらの各規定位置で自律
    移動走行体の環境センシング情報を収集することを繰り
    返していくことで、自律移動走行体の環境センシング情
    報を収集することを、 特徴とする実世界情報データベース構築方法。
  3. 【請求項3】 請求項1に記載される実世界情報データ
    ベース構築方法において、 第1の処理過程で、自律移動走行体を実世界の規定位置
    に移動させ、その移動させた位置で、実世界の環境を順
    次変化させつつ自律移動走行体の環境センシング情報を
    収集することを繰り返していくことで、自律移動走行体
    の環境センシング情報を収集することを、 特徴とする実世界情報データベース構築方法。
  4. 【請求項4】 自律移動走行体の学習に用いられる実世
    界情報データベースを構築する実世界情報データベース
    構築装置であって、 自律移動走行体の動作環境となる実世界の環境を変化さ
    せつつ、該実世界の環境下で、自律移動走行体の環境セ
    ンシング情報を収集する収集手段と、 上記収集手段で変化させた実世界の環境を単位として構
    築されて、該実世界環境を模擬するとともに、それとの
    対応をとりつつ、上記収集手段で収集した環境センシン
    グ情報を管理する実世界情報データベースを構築する構
    築手段とを備えることを、 特徴とする実世界情報データベース構築装置。
  5. 【請求項5】 自律移動走行体の動作環境となる実世界
    を模擬するとともに、それとの対応をとりつつ、該実世
    界における自律移動走行体の環境センシング情報を管理
    する実世界情報データベースにアクセスすることで、自
    律移動走行体の自律移動制御機能の学習を実行する自律
    移動走行体学習方法であって、 実世界の環境変化に応じて複数用意される上記実世界情
    報データベースの中から、学習に用いる上記実世界情報
    データベースを選択する第1の処理過程と、 第1の処理過程で選択した実世界情報データベースを使
    って、自律移動走行体の自律移動制御機能の学習を実行
    して、その学習が終了するときに、第1の処理過程を起
    動していくことで、自律移動走行体の自律移動制御機能
    の学習を実行する第2の処理過程とを備えることを、 特徴とする自律移動走行体学習方法。
  6. 【請求項6】 請求項5に記載される記載の自律移動走
    行体学習方法において、 第1の処理過程で、実世界情報データベースをサイクリ
    ックに選択していくことで、学習に用いる実世界情報デ
    ータベースを選択することを、 特徴とする自律移動走行体学習方法。
JP24068699A 1999-08-27 1999-08-27 実世界情報データベース構築方法及び装置と自律移動走行体学習方法 Expired - Fee Related JP3363846B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24068699A JP3363846B2 (ja) 1999-08-27 1999-08-27 実世界情報データベース構築方法及び装置と自律移動走行体学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24068699A JP3363846B2 (ja) 1999-08-27 1999-08-27 実世界情報データベース構築方法及び装置と自律移動走行体学習方法

Publications (2)

Publication Number Publication Date
JP2001067125A JP2001067125A (ja) 2001-03-16
JP3363846B2 true JP3363846B2 (ja) 2003-01-08

Family

ID=17063210

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24068699A Expired - Fee Related JP3363846B2 (ja) 1999-08-27 1999-08-27 実世界情報データベース構築方法及び装置と自律移動走行体学習方法

Country Status (1)

Country Link
JP (1) JP3363846B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6457421B2 (ja) * 2016-04-04 2019-01-23 ファナック株式会社 シミュレーション結果を利用して学習を行う機械学習装置,機械システム,製造システムおよび機械学習方法
CN109857018B (zh) * 2019-01-28 2020-09-25 中国地质大学(武汉) 一种数字传感器软模型系统
GB2581523A (en) * 2019-02-22 2020-08-26 Bae Systems Plc Bespoke detection model
JPWO2022264493A1 (ja) * 2021-06-15 2022-12-22
CN117310772B (zh) * 2023-11-28 2024-02-02 电子科技大学 一种基于地图信息视距或非视距检测的电磁目标定位方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07287695A (ja) * 1994-04-18 1995-10-31 Fujitsu Ltd 自律的に学習、成長するコンピュータシステム、及びロボットシステム
JPH11104984A (ja) * 1997-10-06 1999-04-20 Fujitsu Ltd 実環境情報表示装置及び実環境情報表示処理を実行するプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11149315A (ja) * 1997-11-19 1999-06-02 Mitsubishi Heavy Ind Ltd ロボット制御システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
岡田浩之、伊藤修、萩原由香里、仁木和久、山川宏、大森隆司,移動ロボット実験用システム,人工知能学会全国大会論文集,日本,社団法人 人工知能学会,1998年 6月16日,VOL.12th,PAGE,453−454
萩原由香里、岡田浩之、森敦史、仁木和久、大森隆司,移動ロボットの学習のための実情報データベースシステムの構築,日本ロボット学会学術講演会予稿集,日本,社団法人 日本ロボット学会,1997年 9月12日,VOl.15th、第1分冊,PAGE.169−170

Also Published As

Publication number Publication date
JP2001067125A (ja) 2001-03-16

Similar Documents

Publication Publication Date Title
CN108115681B (zh) 机器人的模仿学习方法、装置、机器人及存储介质
Cao et al. Target search control of AUV in underwater environment with deep reinforcement learning
CN108621159A (zh) 一种基于深度学习的机器人动力学建模方法
CN110111359A (zh) 多目标对象跟踪方法、执行该方法的设备和计算机程序
CN112857370A (zh) 一种基于时序信息建模的机器人无地图导航方法
Pretorius et al. Evolutionary robotics applied to hexapod locomotion: A comparative study of simulation techniques
JP3363846B2 (ja) 実世界情報データベース構築方法及び装置と自律移動走行体学習方法
Xu et al. Automated labeling for robotic autonomous navigation through multi-sensory semi-supervised learning on big data
Filaretov et al. Autonomous mobile university robots AMUR: Technology and applications to extreme robotics
Furuta et al. Motion planning with success judgement model based on learning from demonstration
CN113741461B (zh) 一种面向受限通信的复杂场景下多机器人避障方法
WO2019095108A1 (zh) 机器人的模仿学习方法、装置、机器人及存储介质
CN111708283B (zh) 一种机器人仿真方法、设备以及计算机可读存储介质
Antonelo et al. Modeling multiple autonomous robot behaviors and behavior switching with a single reservoir computing network
Buck et al. M-ROSE: A multi robot simulation environment for learning cooperative behavior
Moringen et al. Attention-based robot learning of haptic interaction
Pretorius et al. Towards an artificial neural network-based simulator for behavioural evolution in evolutionary robotics
Perteet et al. A multi-vehicle framework for the development of robotic games: The Marco Polo case
Jiang et al. Research on dynamic path planning method of electric inspection robot based on fuzzy neural network
Metwaly et al. Integrating cyber-physical systems as a bio-mimicking construction system: Developing and examining of a knowledge-based system
Talbi et al. Parallel Cooperating Genetic Algorithms: An application to robot motion planning
Silva et al. Navigating mobile robots with a modular neural architecture
Schultz et al. Evolving robot behaviors
Li Study, design, and evaluation of exploration strategies for autonomous mobile robots
Chow et al. Learning human navigational skill for smart wheelchair

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20021008

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081025

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081025

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091025

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091025

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101025

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101025

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111025

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees