JP2001067125A - 実世界情報データベース構築方法及び装置と自律移動走行体学習方法 - Google Patents
実世界情報データベース構築方法及び装置と自律移動走行体学習方法Info
- Publication number
- JP2001067125A JP2001067125A JP24068699A JP24068699A JP2001067125A JP 2001067125 A JP2001067125 A JP 2001067125A JP 24068699 A JP24068699 A JP 24068699A JP 24068699 A JP24068699 A JP 24068699A JP 2001067125 A JP2001067125 A JP 2001067125A
- Authority
- JP
- Japan
- Prior art keywords
- real world
- information database
- autonomous mobile
- environment
- real
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 75
- 230000007613 environmental effect Effects 0.000 claims abstract description 49
- 238000004088 simulation Methods 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims description 51
- 230000008569 process Effects 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 17
- 238000010276 construction Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 abstract description 26
- 238000002474 experimental method Methods 0.000 abstract description 22
- 230000009471 action Effects 0.000 description 48
- 238000011156 evaluation Methods 0.000 description 40
- 239000011159 matrix material Substances 0.000 description 17
- 238000011160 research Methods 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 10
- 230000006399 behavior Effects 0.000 description 8
- 238000012827 research and development Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 238000001514 detection method Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Feedback Control In General (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
の学習に用いられる実世界情報データベースを構築する
実世界情報データベース構築方法に関し、動的な環境変
化に対応できる自律移動走行体学習方法の実現に用いら
れる実世界情報データベースを構築できるようにするこ
とを目的とする。 【解決手段】自律移動走行体の動作環境となる実世界の
環境を変化させつつ、その実世界の環境下で、自律移動
走行体の環境センシング情報を収集する第1の処理過程
と、第1の処理過程で変化させた実世界の環境を単位と
して構築されて、その実世界環境を模擬するとともに、
それとの対応をとりつつ、第1の処理過程で収集した環
境センシング情報を管理する実世界情報データベースを
構築する第2の処理過程とを備えるように構成する。
Description
自律移動制御機能の学習に用いられる実世界情報データ
ベースを構築する実世界情報データベース構築方法及び
装置と、その構築方法や装置で構築された実世界情報デ
ータベースにアクセスすることで、自律移動走行体の自
律移動制御機能の学習を実行する自律移動走行体学習方
法とに関し、特に、動的な環境変化に対応できる自律移
動走行体学習方法の実現に用いられる実世界情報データ
ベースを構築する実世界情報データベース構築方法及び
装置と、動的な環境変化に対応できる自律移動走行体学
習方法とに関する。
や接触センサや視覚といった多くの感覚器を備え、更
に、タスクが単にナビゲーションなどの比較的短時間、
近傍の情報のみによる情報処理だけでなく、計画や実行
といった、より高次、より広い時空間における情報処理
機能を必要とするものまで展開できる点から、理論及び
アルゴリズムのレベルでの情報統合や自律学習システム
の研究に最適な対象である。
境の整備は多大の労力と技能とを必要とする作業であ
り、研究工数を大きく圧迫している。更に、移動ロボッ
トの実世界での動作速度を考えると、試行錯誤的な学習
の研究を実機のみで行うことは困難である。
ミュレータを作成して仮想的な世界で理論の検証を行う
ことが多かった。しかし、シミュレータを利用しようと
思った研究者なら誰でもが直面するように、移動ロボッ
トが存在する実世界の環境を忠実に実現し、更には複雑
な実世界における移動ロボットの動作を計算機で再現す
ることは不可能に近い。シミュレータは、極端に単純化
した世界モデルの中での限定された移動ロボットの動作
を再現しているに過ぎない。
eal World Computing)プロジェクトでは、実世界知能技
術の研究を推進するために、ソフトウェア及びデータの
面からの基盤を提供することを目指し、研究開発用知的
資源の整備を次に挙げる3つの面から行っている。
声/音響情報、視覚情報、各種センサ情報、言語情報な
どを収集し、構造化した実世界情報データベースを構築
する。
て定義し、その題材と評価法を提供するベンチマーク課
題を設定する。
などを共通的ソフトウェアとして広く使用可能な形にし
たソフトウェアライブラリを整備する。
現象を研究の素材及び対象とするには、複雑で大規模な
実世界の現象を含んだ研究開発用知的資源が必要であ
る。特に、本発明者らが目指す知的移動ロボットの研究
においては、利用するデータベースやベンチマーク課題
の規模によって、対象とする現象は質的に変化し、小規
模のものでの知見が大規模のものにおいても成立すると
は限らない。また、実世界の環境は非常に多様であり、
変化に満ちている。従って、実環境における情報を対象
とする研究開発用知的資源は、大規模のものでなければ
実世界の多様性を十分に扱うことができない。
からも重要である。研究の成果として得られる新しい理
論や手法やプロトタイプシステムを評価するためには、
その有効性を評価するための共通の基盤が不可欠であ
る。
だ新しい領域であるために、十分な量の研究開発用知的
資源が存在しておらず、研究開発を進める過程で個々の
研究者が新たに整備する必要がある。
あるいは共有化を進めることは、研究の過程で、技術の
客観的な評価を行うために重要である。他の理論や手法
との優劣の比較のためには、比較の対象となる資源を研
究者が自ら実現することも考えられるが、技術の複雑さ
が増すことで、自ら用意することが次第に難しくなって
いる。これに対し、共通化あるいは共有化された研究開
発用知的資源による評価は、客観的な比較をより簡単に
実現でき、適切な評価を行うことが可能になる。
らは、第3回ロボティクスシンポジア(1998年5月7
日,8日)で発表したように、実機移動ロボットによる
実験とシミュレーションとの乖離を埋めるために、実環
境において移動ロボットが収集したセンサデータをデー
タベース化した実世界情報データベースを構築し、これ
を利用したネットワーク分散型移動ロボット実験システ
ムを構築した。
タベースは、予め移動ロボットの想定動作環境におい
て、実機移動ロボットをマス目状に小刻みに移動させ、
その位置におけるセンサデータを収集することで構築す
るものである。
タベースでは、移動ロボットの感知するセンサデータに
ついてもシミュレーションモデルから作成するという構
成を採るのに対して、この本発明者らが開示した実世界
情報データベースでは、移動ロボットの感知するセンサ
データについては、実際に移動ロボットにより感知され
たセンサデータを用いるという構成を採っている。
験用システムは、実機移動ロボットが実際に測定したセ
ンサデータのアーカイブである実世界情報データベース
の情報をユーザの要求に応じて提供する。これから、研
究者は、シミュレーションでは再現不可能な、大規模で
多様な実世界と類似する環境での実験を行えるようにな
る。
ベースでは、障害物の材質を考慮した実験を行えないの
に対して、本発明者らが開示した移動ロボット実験用シ
ステムでは、障害物の材質を考慮した、より現実に近い
状況で実験を行うことができるようになる。
タを利用することにより、実機移動ロボットでは難しか
った、試行錯誤的に繰り返し学習を行うような課題への
対応が可能になる。
開示した実世界情報データベースは、実機移動ロボット
による実験とシミュレーションとの乖離を埋める極めて
有効な手段となるものである。
スでは環境の変化への対応に困難な点が存在し、改善の
余地が残されている。
は、予め測定したセンサデータを利用することから、測
定時の環境に関する実験は可能となるものの、明るさや
レイアウトが変化するオフィスでの経路探索などといっ
たような、環境の変化に依存するような課題を実験でき
ないという問題点が残されている。
であって、動的な環境変化に対応できる自律移動走行体
学習方法の実現に用いられる実世界情報データベースを
構築する新たな実世界情報データベース構築方法及び装
置の提供と、動的な環境変化に対応できる新たな自律移
動走行体学習方法の提供とを目的とする。
に、本発明の実世界情報データベース構築方法では、自
律移動走行体の学習に用いられる実世界情報データベー
スを構築する構成を採るときにあって、自律移動走行体
の動作環境となる実世界の環境を変化させつつ、その実
世界の環境下で、自律移動走行体の環境センシング情報
を収集する第1の処理過程と、第1の処理過程で変化さ
せた実世界の環境を単位として構築されて、その実世界
環境を模擬するとともに、それとの対応をとりつつ、第
1の処理過程で収集した環境センシング情報を管理する
実世界情報データベースを構築する第2の処理過程とを
備えるように構成する。
データベース構築方法では、第1の処理過程で、自律移
動走行体の動作環境となる実世界の環境を変化させつ
つ、その実世界の環境下で、自律移動走行体の環境セン
シング情報を収集する。
化させた実世界の環境下で、自律移動走行体を実世界の
規定位置に順次移動させつつ、それらの各規定位置で自
律移動走行体の環境センシング情報を収集することを繰
り返していくことで、自律移動走行体の環境センシング
情報を収集する。
位置に移動させ、その移動させた位置で、実世界の環境
を順次変化させつつ自律移動走行体の環境センシング情
報を収集することを繰り返していくことで、自律移動走
行体の環境センシング情報を収集する。
変化させる実世界での自律移動走行体の環境センシング
情報を収集すると、第2の処理過程で、それらの実世界
環境を模擬するとともに、それとの対応をとりつつ、収
集した環境センシング情報を管理する、それらの実世界
環境を単位とする複数の実世界情報データベースを構築
する。
タベース構築方法では、自律移動走行体の動作環境とな
る実世界を模擬するとともに、その模擬する実世界との
対応をとりつつ、実際に収集した自律移動走行体の環境
センシング情報を管理する実世界情報データベースを構
築することで、自律移動ロボットの研究開発用知的資源
を提供する構成を採るときにあって、環境変化に応じた
複数の実世界情報データベースを構築する方法を採るこ
とで、環境の変化に依存するような課題を実験できるよ
うになる。
は、自律移動走行体の動作環境となる実世界を模擬する
とともに、それとの対応をとりつつ、その実世界におけ
る自律移動走行体の環境センシング情報を管理する実世
界情報データベースにアクセスすることで、自律移動走
行体の自律移動制御機能の学習を実行する構成を採ると
きにあって、実世界の環境変化に応じて複数用意される
実世界情報データベースの中から、学習に用いる実世界
情報データベースを選択する第1の処理過程と、第1の
処理過程で選択した実世界情報データベースを使って、
自律移動走行体の自律移動制御機能の学習を実行して、
その学習が終了するときに、第1の処理過程を起動して
いくことで、自律移動走行体の自律移動制御機能の学習
を実行する第2の処理過程とを備えるように構成する。
行体学習方法では、第1の処理過程で、本発明の実世界
情報データベース構築方法で構築された複数の実世界情
報データベースの中から、学習に用いる実世界情報デー
タベースを選択すると、第2の処理過程で、その選択さ
れた実世界情報データベースを使って、自律移動走行体
の自律移動制御機能の学習を実行して、その学習が終了
するときに、第1の処理過程を起動していくことで、自
律移動走行体の自律移動制御機能の学習を実行する。
学習方法では、自律移動走行体の動作環境となる実世界
を模擬するとともに、それとの対応をとりつつ、その実
世界における自律移動走行体の環境センシング情報を管
理する実世界情報データベースにアクセスすることで、
自律移動走行体の自律移動制御機能の学習を実行する構
成を採るときにあって、本発明の実世界情報データベー
ス構築方法で構築された環境変化に応じて用意される複
数の実世界情報データベースを使うことで、環境の変化
に依存するような課題を実験できるようになる。
を詳細に説明する。
ロボット1の動作環境となる実世界、3-i(i=1〜
n)は実世界2を模擬する実世界情報データベース、4
は実世界情報データベース3-iを作成するデータベース
作成プログラム、5はデータベース作成プログラム4を
展開するデータベース作成装置、6はデータベース作成
装置5の備える端末、7は移動ロボット1の駆動制御信
号を生成するニューラルネットワーク、8はニューラル
ネットワーク7の重みを学習する重み学習プログラム、
9は重み学習プログラム8を展開するロボット学習装置
である。
ものであってもよいが、この実施例では、Nomadic T
echnologies,Inc社製のNomad200 を使用した。
その周囲360度に、16個の近距離検出用の赤外線セ
ンサと、16個の遠距離検出用の超音波センサと、20
個の接触センサとを備え、更に、全方位画像カメラを備
えている。
5からの無線信号で移動するものであり、1回の移動ス
テップで、22.5度単位の16方向のいずれかに向かっ
て、10cmの枡目単位に移動するように動作する。
ニューラルネットワーク7の一実施例を図示する。
ト1の駆動機構に与える駆動制御信号を生成するために
用意されるものであって、この図に示すように、行動決
定ネットワーク70と、行動評価ネットワーク71と、
ゲインコントローラ72と、加算器73と、メモリ74
とを備える。
(a)に示すように、移動ロボット1の赤外線センサ/
超音波センサにより検出される現時点及び2ステップ前
までの距離データを入力して分配出力する96ユニット
の入力層と、入力層の出力値とそれに対して乗算される
重み値との積和を算出して、その積和値を関数変換する
ことで最終出力を得る基本ユニットが16ユニット用意
されることで構成される中間層と、中間層の出力値とそ
れに対して乗算される重み値との積和を算出して、その
積和値を関数変換することで最終出力を得る基本ユニッ
トが16ユニット用意されることで構成される出力層と
で構成されて、移動ロボット1の駆動機構に与える駆動
制御信号(16方向のどの方向に移動するのかを指示す
る信号)を生成する。
に示すように、移動ロボット1の赤外線センサ/超音波
センサにより検出される現時点及び1ステップ前の距離
データと、1ステップ前の行動決定ネットワーク70の
ノイズ加算された出力データとを入力して分配出力する
80ユニットの入力層と、入力層の出力値とそれに対し
て乗算される重み値との積和を算出して、その積和値を
関数変換することで最終出力を得る基本ユニットが16
ユニット用意されることで構成される中間層と、中間層
の出力値とそれに対して乗算される重み値との積和を算
出して、その積和値を関数変換することで最終出力を得
る基本ユニットが1ユニット用意されることで構成され
る出力層とで構成されて、行動決定ネットワーク70の
出力する駆動制御信号に対しての評価データを出力す
る。
トワーク70の出力する駆動制御信号に合わせて16個
用意され、ランダムに発生するノイズを入力として、行
動評価ネットワーク71の出力する評価データに応じ
て、その評価データが高い評価を示すときには、入力ノ
イズを小さくしていくという形態に従って、入力ノイズ
のゲインをコントロールして出力する。
の出力する駆動制御信号に合わせて16個用意され、対
となる駆動制御信号と、対となるゲインコントローラ7
2の出力信号とを加算することで、移動ロボット1に与
える駆動制御信号を生成する。
ンサ/超音波センサにより検出される2ステップ前まで
の距離データを保持して、その内の該当するものを行動
決定ネットワーク70/行動評価ネットワーク71の入
力層に入力するとともに、ノイズ加算された行動決定ネ
ットワーク70の出力する1ステップ前の駆動制御信号
を保持して、行動評価ネットワーク71の入力層に入力
する。
実行する処理フローの一実施例を図示する。次に、この
処理フローに従って、データベース作成プログラム4が
実行する実世界情報データベース3-iの作成処理につい
て説明する。
から実世界情報データベース3-iの作成要求が発行され
ると、図4の処理フローに示すように、先ず最初に、ス
テップ1で、ユーザから基本となる実世界2の情報を入
力することで、基本となる実世界2のシミュレーション
モデルを作成する。
実世界2の基本が図5に示すようなものである場合に
は、その基本となる実世界2のシミュレーションモデル
を作成するのである。ここで、図5(a)は実世界2に
配置される物体の種類、図5(b)はそれらの物体の配
置位置を示している。
ことで、基本となる実世界2に対する環境変化のシナリ
オを作成する。
る実世界2に、図6(b)に示すように障害物を置くこ
とで環境を変化させるとか、照明を変化させることで環
境を変化させるとかいった環境変化のシナリオを作成す
るのである。
の指定する全ての環境変化を選択したのか否かを判断し
て、全ての環境変化を選択したことを判断するときに
は、実世界情報データベース3-iの作成終了を判断し
て、処理を終了する。
全ての環境変化を選択していないことを判断するときに
は、ステップ4に進んで、シナリオの指定する環境変化
の中から未選択のものを1つ選択し、それに従って実世
界2の環境を変化させる。例えば、選択した環境変化に
従って障害物を置くことで実世界2の環境を変化させる
のである。
して実世界2に定義される全てのマトリックス位置に移
動ロボット1を移動させたのか否かを判断して、全ての
マトリックス位置に移動ロボット1を移動させていない
ことを判断するときには、ステップ6に進んで、未処理
のマトリックス位置を1つ選択して、その位置に移動ロ
ボット1を移動させ、続くステップ7で、その移動させ
た移動ロボット1の検出するセンサデータを収集して、
ステップ5に戻る。
は、行動決定ネットワーク70/行動評価ネットワーク
71に入力される赤外線センサ及び超音波センサの検出
する距離データである。
プ7の処理を繰り返していくことで、10cmを単位と
して実世界2に定義されるマトリックス位置での移動ロ
ボット1のセンサデータを収集していくときに、ステッ
プ5で、全てのマトリックス位置に移動ロボット1を移
動させたことを判断するときには、ステップ8に進ん
で、選択した環境変化に従って、ステップ1で作成した
基本となる実世界2のシミュレーションモデルを変化さ
せることで、その選択した環境変化の規定する実世界2
のシミュレーションモデルを作成するとともに、それに
対応付けて、ステップ7で収集したセンサデータを記録
することで実世界情報を作成して実世界情報データベー
ス3-iとして登録する。
ラム4は、環境変化の規定する実世界2のシミュレーシ
ョンモデルを作成し、それに対応付けて、図7に示すよ
うなセンサデータを記録することで、環境変化毎に定義
される複数の実世界情報データベース3-iを作成するの
ある。
により、例えば、図6(a)に示すような実世界2をシ
ミュレーションするとともに、その実世界2で実際に移
動ロボット1により検出されたセンサデータを保持する
実世界情報データベース3-iが作成されるとともに、図
6(b)に示すような実世界2をシミュレーションする
とともに、その実世界で実際に移動ロボット1により検
出されたセンサデータを保持する実世界情報データベー
ス3-iが作成されることになる。
ベース作成プログラム4は、実世界2に対してシナリオ
の規定する環境変化を施し、その状態で、移動ロボット
1を順次マトリックス位置に移動させながらセンサデー
タを収集していくことを繰り返していくことで、各環境
変化の各マトリックス位置でのセンサデータを収集して
いくという方法を用いたが、図8の処理フローに示すよ
うに、移動ロボット1を1つのマトリックス位置に移動
させ、その状態で、実世界2に対してシナリオの規定す
る環境変化を施していきながらセンサデータを収集して
いくことを繰り返していくことで、各環境変化の各マト
リックス位置でのセンサデータを収集していくという方
法を用いることも可能である。
は、図8の処理フローに従う場合には、先ず最初に、ス
テップ1で、ユーザから基本となる実世界2の情報を入
力することで、基本となる実世界2のシミュレーション
モデルを作成し、続くステップ2で、ユーザと対話する
ことで、基本となる実世界2に対する環境変化のシナリ
オを作成する。
ス位置に移動ロボット1を移動させたのか否かを判断
し、全てのマトリックス位置に移動ロボット1を移動さ
せていないことを判断するときには、ステップ4に進ん
で、未処理のマトリックス位置を1つ選択する。
る全ての環境変化を選択したのか否かを判断して、全て
の環境変化を選択していないことを判断するときには、
ステップ6に進んで、シナリオの指定する環境変化の中
から未選択のものを1つ選択し、それに従って実世界2
の環境を変化させ、続くステップ7で、移動ロボット1
の検出するセンサデータを収集して、ステップ5に戻
る。
全ての環境変化を選択したことを判断するときには、次
のマトリックス位置でのセンサデータの収集に進むべ
く、ステップ3に戻っていく。
ス位置に移動ロボット1を移動させたことを判断すると
きには、ステップ8に進んで、シナリオの指定する環境
変化毎に、それらの環境変化に従って、ステップ1で作
成した基本となる実世界2のシミュレーションモデルを
変化させることで、それらの環境変化の規定する実世界
2のシミュレーションモデルを作成するとともに、それ
に対応付けて、ステップ7で収集したセンサデータを記
録することで実世界情報を作成して実世界情報データベ
ース3-iとして登録する。
ラム4は、図8の処理フローに従う場合には、移動ロボ
ット1を1つのマトリックス位置に移動させ、その状態
で、実世界2に対してシナリオの規定する環境変化を施
していきながらセンサデータを収集していくことを繰り
返していくことで、各環境変化の各マトリックス位置で
のセンサデータを収集していくことで、実世界情報デー
タベース3-iを作成していくように処理することにな
る。
義される複数の実世界情報データベース3-iを受けて、
重み学習プログラム8は、例えば、移動制御機能として
構築すべき、実世界2に設定される複数の移動開始位置
から実世界2に設定される目標位置への移動ロボット1
の移動を可能とするニューラルネットワーク7の重みを
学習する。
れる複数の移動開始位置から、図6のターゲット点とし
て設定される目標位置への移動ロボット1の移動を可能
とする行動決定ネットワーク70/行動評価ネットワー
ク71の重みを学習するのである。
って、この移動開始位置から目標位置への移動ロボット
1の移動を可能とするために、重み学習プログラム8が
実行する重み学習処理について説明する。
ら目標位置への移動ロボット1の移動を可能とするニュ
ーラルネットワーク7の重みの学習要求が発行される
と、図9の処理フローに示すように、先ず最初に、ステ
ップ1で、行動決定ネットワーク70/行動評価ネット
ワーク71に対して、乱数などにより決定する重み初期
値を設定する。
定された全ての実世界情報データベース3-iを選択した
のか否かを判断して、全ての実世界情報データベース3
-iを選択していないことを判断するときには、ステップ
3に進んで、その実世界情報データベース3-iを先頭か
らの順番に従って1つ選択する。
界情報データベース3-iを使って、行動決定ネットワー
ク70/行動評価ネットワーク71の重みを学習して、
ステップ2に戻る。
された実世界情報データベース3-iの全てを選択したこ
とを判断するときには、ステップ5に進んで、規定のト
ライアル回数学習を実行したのか否かを判断して、規定
のトライアル回数学習を実行したことを判断するときに
は、行動決定ネットワーク70/行動評価ネットワーク
71の重みの学習終了を判断して、処理を終了する。
数学習を実行していないことを判断するときには、ステ
ップ6に進んで、選択用ポインタ(次に選択する実世界
情報データベース3-iを指すポインタ)が先頭の実世界
情報データベース3-iを指すようにと更新してから、ス
テップ2に戻る。
は、例えば、実世界情報データベースA〜Cという3つ
が学習対象として指定されると、先ず最初に、実世界情
報データベースAを使って重みを学習し、続いて、実世
界情報データベースBを使って重みを学習し、続いて、
実世界情報データベースCを使って重みを学習すること
で、1回目の学習トライアルを実行する。そして、この
学習トライアルを例えば200回繰り返していくこと
で、行動決定ネットワーク70/行動評価ネットワーク
71の重みを学習していくのである。
処理フローのステップ4で実行する重みの学習処理の詳
細である。
の処理フローのステップ4で、選択した実世界情報デー
タベース3-iを使って、行動決定ネットワーク70/行
動評価ネットワーク71の重みの学習に入ると、図10
及び図11の処理フローの処理フローに示すように、先
ず最初に、ステップ40で、設定されている全ての移動
開始位置を選択したのか否かを判断して、全ての移動開
始位置を選択したことを判断するときには、処理を終了
する。すなわち、図9の処理フローのステップ4として
の処理を終了するのである。
置を選択していないことを判断するときには、ステップ
41に進んで、移動開始位置の中から未選択のものを1
つ選択する。
動開始位置から、規定のステップ数分移動ロボット1の
移動をシミュレーションしたのか否かを否かを判断し
て、シミュレーションしたことを判断するときには、次
の移動開始位置からのシミュレーションに進むべく、ス
テップ40に戻る。
分移動ロボット1の移動をシミュレーションしていない
ことを判断するときには、ステップ43に進んで、選択
した実世界情報データベース3-iにアクセスすること
で、移動ロボット1の現在位置の指すセンサデータを取
得する。
ンサデータを行動決定ネットワーク70/行動評価ネッ
トワーク71に入力することで、移動ロボット1に与え
る駆動制御信号のシミュレーションデータを得て、それ
により移動ロボット1の移動位置をシミュレーションす
る。
の移動シミュレーションにより、移動ロボット1が壁な
どに衝突することで目標位置への到達に失敗したのか否
かを判断して、目標位置への到達に失敗したことを判断
するときには、次の移動開始位置からのシミュレーショ
ンに進むべく、ステップ40に戻る。
に失敗していないことを判断するときには、ステップ4
6に進んで、ステップ44での移動シミュレーションに
より、移動ロボット1が目標位置への到達に成功したの
か否かを判断して、目標位置への到達に成功したことを
判断するときには、次の移動開始位置からのシミュレー
ションに進むべく、ステップ40に戻る。
目標位置へ到達していないことを判断するときには、ス
テップ47に進んで、ステップ44での移動シミュレー
ションにより、移動ロボット1の位置が目標位置に近づ
いているのか否かを評価することで、その移動シミュレ
ーションの良否を決定する。
良好な移動評価が得られたのか否かを判断して、良好な
移動評価が得られたことを判断するときには、ステップ
49(図11の処理フロー)に進んで、そのときに行動
決定ネットワーク70に入力される信号と、そのときに
行動決定ネットワーク70から出力されるノイズ加算さ
れた出力信号との対データを学習信号として用いて、パ
ックプロパゲーション法を例えば5回繰り返し実行する
ことで、行動決定ネットワーク70の重みを学習する。
行動評価ネットワーク71に入力される信号と、良好な
移動評価であることを示す信号値(例えば1)との対デ
ータを学習信号として用いて、パックプロパゲーション
法を例えば5回繰り返し実行することで、行動評価ネッ
トワーク71の重みを学習してから、次の移動シミュレ
ーションに進むべく、ステップ42に戻る。
得られなかったことを判断するときには、ステップ51
(図11の処理フロー)に進んで、そのときに行動評価
ネットワーク71に入力される信号と、良好な移動評価
でないことを示す信号値(例えば0)との対データを学
習信号として用いて、パックプロパゲーション法を例え
ば5回繰り返し実行することで、行動評価ネットワーク
71の重みを学習してから、次の移動シミュレーション
に進むべく、ステップ42に戻る。
ミュレーションの評価結果が良好なものでないときに
は、行動決定ネットワーク70の重みを学習することな
く、行動評価ネットワーク71の重みを学習してから、
次の移動シミュレーションに進むべく、ステップ42に
戻るのである。
9の処理フローのステップ4に従って行動決定ネットワ
ーク70/行動評価ネットワーク71の重みの学習に入
ると、設定される移動開始位置を順番に選択しながら、
実世界情報データベース3-iに格納される実際に検出さ
れたセンサデータを使いつつ、規定ステップ数(途中で
移動が失敗したり成功する場合には、そこまで)分だけ
移動ロボット1の動きをシミュレーションして、目標位
置に向かう良好な動きを示すときには、それを学習信号
として、行動決定ネットワーク70/行動評価ネットワ
ーク71の重みを学習するとともに、目標位置に向かわ
ない良好でない動きを示すときには、それを学習信号と
して、行動評価ネットワーク71の重みを学習していく
ように処理するのである。
0/行動評価ネットワーク71の重みが学習されると、
図12に示すように、この重みの設定された行動決定ネ
ットワーク70/行動評価ネットワーク71を持つニュ
ーラルネットワーク7と、それを使って移動ロボット1
の移動を制御する移動制御プログラム10とを展開する
ロボット制御装置11が構築され、これにより、移動ロ
ボット1の移動が制御されることになる。
れる移動制御プログラム10は、図13の処理フローに
示すように、先ず最初に、ステップ1で、移動ロボット
1からセンサデータを収集する。このとき収集するセン
サデータは、行動決定ネットワーク70/行動評価ネッ
トワーク71の重みの学習に用いた赤外線センサ及び超
音波センサの検出する距離データである。
サデータを行動決定ネットワーク70/行動評価ネット
ワーク71に入力することで、移動ロボット1に与える
駆動制御信号を求める。続いて、ステップ3で、その求
めた駆動制御信号を移動ロボット1に送信することで、
移動ロボット1を1ステップ移動させる。
動ロボット1が壁などに衝突することで、その移動が失
敗したのか否かを判断して、失敗したことを判断すると
きには、処理を終了する。
動が失敗していないことを判断するときには、ステップ
5に進んで、その移動により移動ロボット1が目標位置
に到達することで、その移動が成功したのか否かを判断
して、成功したことを判断するときには、処理を終了
し、成功しないことを判断するときには、目標位置への
到達を試みるべく、ステップ1に戻っていく。
制御プログラム10の制御処理に従って、移動開始位置
から目標位置へと自律的に移動していくように動作する
ことになる。
った実験結果について説明する。
環境として、図6(a)に示すもののみを想定して実世
界情報データベース3-iを作成して、それを使って、行
動決定ネットワーク70/行動評価ネットワーク71の
重みの学習を行い、それに従って実際に移動ロボット1
の移動を制御することで行うとともに、それと比較する
ために、(B)移動ロボット1の動作環境として、図6
(a)に示すものと図6(b)に示すものとを想定して
実世界情報データベース3-iを作成して、その2つを使
って、行動決定ネットワーク70/行動評価ネットワー
ク71の重みの学習を行い、それに従って実際に移動ロ
ボット1の移動を制御することで行った。
ーションにより得た重みを使い、図6(b)に示す実世
界2で移動ロボット1を実際に移動させたときの移動軌
跡の実験結果を図示し、図14(b)に、上述の(B)
のシミュレーションにより得た重みを使い、図6(b)
に示す実世界2で移動ロボット1を実際に移動させたと
きの移動軌跡の実験結果を図示する。
位置を示している。また、比較処理であることから、
(A)のシミュレーションで実行するバックプロパゲー
ション法の学習回数と、(B)のシミュレーションで実
行するバックプロパゲーション法の学習回数とは同一に
なるようにしている。
ット1が実際に検出したセンサデータを使って実世界情
報データベース3-iを構築しても、環境変化を考慮しな
いで実世界情報データベース3-iを作成する場合には、
環境変化に依存するような課題を持つ移動ロボット1の
実験はできないのに対して、本発明のように、環境変化
を考慮した実世界情報データベース3-iを作成すること
で、そのような実験ができるようになることが分かる。
移動走行体の動作環境となる実世界を模擬するととも
に、その模擬する実世界との対応をとりつつ、実際に収
集した自律移動走行体の環境センシング情報を管理する
実世界情報データベースを構築することで、自律移動ロ
ボットの研究開発用知的資源を提供する構成を採るとき
にあって、環境変化に応じた複数の実世界情報データベ
ースを構築する方法を採ることで、環境の変化に依存す
るような課題を実験できるようになる。
環境となる実世界を模擬するとともに、それとの対応を
とりつつ、その実世界における自律移動走行体の環境セ
ンシング情報を管理する実世界情報データベースにアク
セスすることで、自律移動走行体の自律移動制御機能の
学習を実行する構成を採るときにあって、本発明の実世
界情報データベース構築方法で構築された環境変化に応
じて用意される複数の実世界情報データベースを使うこ
とで、環境の変化に依存するような課題を実験できるよ
うになる。
る。
る。
Claims (6)
- 【請求項1】 自律移動走行体の学習に用いられる実世
界情報データベースを構築する実世界情報データベース
構築方法であって、 自律移動走行体の動作環境となる実世界の環境を変化さ
せつつ、該実世界の環境下で、自律移動走行体の環境セ
ンシング情報を収集する第1の処理過程と、 第1の処理過程で変化させた実世界の環境を単位として
構築されて、該実世界環境を模擬するとともに、それと
の対応をとりつつ、第1の処理過程で収集した環境セン
シング情報を管理する実世界情報データベースを構築す
る第2の処理過程とを備えることを、 特徴とする実世界情報データベース構築方法。 - 【請求項2】 請求項1に記載される実世界情報データ
ベース構築方法において、 第1の処理過程で、実世界の環境を変化させ、その変化
させた実世界の環境下で、自律移動走行体を実世界の規
定位置に順次移動させつつ、それらの各規定位置で自律
移動走行体の環境センシング情報を収集することを繰り
返していくことで、自律移動走行体の環境センシング情
報を収集することを、 特徴とする実世界情報データベース構築方法。 - 【請求項3】 請求項1に記載される実世界情報データ
ベース構築方法において、 第1の処理過程で、自律移動走行体を実世界の規定位置
に移動させ、その移動させた位置で、実世界の環境を順
次変化させつつ自律移動走行体の環境センシング情報を
収集することを繰り返していくことで、自律移動走行体
の環境センシング情報を収集することを、 特徴とする実世界情報データベース構築方法。 - 【請求項4】 自律移動走行体の学習に用いられる実世
界情報データベースを構築する実世界情報データベース
構築装置であって、 自律移動走行体の動作環境となる実世界の環境を変化さ
せつつ、該実世界の環境下で、自律移動走行体の環境セ
ンシング情報を収集する収集手段と、 上記収集手段で変化させた実世界の環境を単位として構
築されて、該実世界環境を模擬するとともに、それとの
対応をとりつつ、上記収集手段で収集した環境センシン
グ情報を管理する実世界情報データベースを構築する構
築手段とを備えることを、 特徴とする実世界情報データベース構築装置。 - 【請求項5】 自律移動走行体の動作環境となる実世界
を模擬するとともに、それとの対応をとりつつ、該実世
界における自律移動走行体の環境センシング情報を管理
する実世界情報データベースにアクセスすることで、自
律移動走行体の自律移動制御機能の学習を実行する自律
移動走行体学習方法であって、 実世界の環境変化に応じて複数用意される上記実世界情
報データベースの中から、学習に用いる上記実世界情報
データベースを選択する第1の処理過程と、 第1の処理過程で選択した実世界情報データベースを使
って、自律移動走行体の自律移動制御機能の学習を実行
して、その学習が終了するときに、第1の処理過程を起
動していくことで、自律移動走行体の自律移動制御機能
の学習を実行する第2の処理過程とを備えることを、 特徴とする自律移動走行体学習方法。 - 【請求項6】 請求項5に記載される記載の自律移動走
行体学習方法において、 第1の処理過程で、実世界情報データベースをサイクリ
ックに選択していくことで、学習に用いる実世界情報デ
ータベースを選択することを、 特徴とする自律移動走行体学習方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24068699A JP3363846B2 (ja) | 1999-08-27 | 1999-08-27 | 実世界情報データベース構築方法及び装置と自律移動走行体学習方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24068699A JP3363846B2 (ja) | 1999-08-27 | 1999-08-27 | 実世界情報データベース構築方法及び装置と自律移動走行体学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001067125A true JP2001067125A (ja) | 2001-03-16 |
JP3363846B2 JP3363846B2 (ja) | 2003-01-08 |
Family
ID=17063210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP24068699A Expired - Fee Related JP3363846B2 (ja) | 1999-08-27 | 1999-08-27 | 実世界情報データベース構築方法及び装置と自律移動走行体学習方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3363846B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017185577A (ja) * | 2016-04-04 | 2017-10-12 | ファナック株式会社 | シミュレーション結果を利用して学習を行う機械学習装置,機械システム,製造システムおよび機械学習方法 |
CN109857018A (zh) * | 2019-01-28 | 2019-06-07 | 中国地质大学(武汉) | 一种数字传感器软模型系统 |
JP2022522278A (ja) * | 2019-02-22 | 2022-04-15 | ビ-エイイ- システムズ パブリック リミテッド カンパニ- | ビスポークな検出モデル |
WO2022264493A1 (ja) * | 2021-06-15 | 2022-12-22 | パナソニックIpマネジメント株式会社 | 情報生成方法、情報生成装置及びプログラム |
CN117310772A (zh) * | 2023-11-28 | 2023-12-29 | 电子科技大学 | 一种基于地图信息视距或非视距检测的电磁目标定位方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07287695A (ja) * | 1994-04-18 | 1995-10-31 | Fujitsu Ltd | 自律的に学習、成長するコンピュータシステム、及びロボットシステム |
JPH11104984A (ja) * | 1997-10-06 | 1999-04-20 | Fujitsu Ltd | 実環境情報表示装置及び実環境情報表示処理を実行するプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JPH11149315A (ja) * | 1997-11-19 | 1999-06-02 | Mitsubishi Heavy Ind Ltd | ロボット制御システム |
-
1999
- 1999-08-27 JP JP24068699A patent/JP3363846B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07287695A (ja) * | 1994-04-18 | 1995-10-31 | Fujitsu Ltd | 自律的に学習、成長するコンピュータシステム、及びロボットシステム |
JPH11104984A (ja) * | 1997-10-06 | 1999-04-20 | Fujitsu Ltd | 実環境情報表示装置及び実環境情報表示処理を実行するプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JPH11149315A (ja) * | 1997-11-19 | 1999-06-02 | Mitsubishi Heavy Ind Ltd | ロボット制御システム |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017185577A (ja) * | 2016-04-04 | 2017-10-12 | ファナック株式会社 | シミュレーション結果を利用して学習を行う機械学習装置,機械システム,製造システムおよび機械学習方法 |
US10317854B2 (en) | 2016-04-04 | 2019-06-11 | Fanuc Corporation | Machine learning device that performs learning using simulation result, machine system, manufacturing system, and machine learning method |
CN109857018A (zh) * | 2019-01-28 | 2019-06-07 | 中国地质大学(武汉) | 一种数字传感器软模型系统 |
CN109857018B (zh) * | 2019-01-28 | 2020-09-25 | 中国地质大学(武汉) | 一种数字传感器软模型系统 |
JP2022522278A (ja) * | 2019-02-22 | 2022-04-15 | ビ-エイイ- システムズ パブリック リミテッド カンパニ- | ビスポークな検出モデル |
JP7247358B2 (ja) | 2019-02-22 | 2023-03-28 | ビ-エイイ- システムズ パブリック リミテッド カンパニ- | ビスポークな検出モデル |
WO2022264493A1 (ja) * | 2021-06-15 | 2022-12-22 | パナソニックIpマネジメント株式会社 | 情報生成方法、情報生成装置及びプログラム |
CN117310772A (zh) * | 2023-11-28 | 2023-12-29 | 电子科技大学 | 一种基于地图信息视距或非视距检测的电磁目标定位方法 |
CN117310772B (zh) * | 2023-11-28 | 2024-02-02 | 电子科技大学 | 一种基于地图信息视距或非视距检测的电磁目标定位方法 |
Also Published As
Publication number | Publication date |
---|---|
JP3363846B2 (ja) | 2003-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108115681B (zh) | 机器人的模仿学习方法、装置、机器人及存储介质 | |
Duguleana et al. | Obstacle avoidance of redundant manipulators using neural networks based reinforcement learning | |
Zhao et al. | A path planning method based on multi-objective cauchy mutation cat swarm optimization algorithm for navigation system of intelligent patrol car | |
CN110516389B (zh) | 行为控制策略的学习方法、装置、设备及存储介质 | |
US20230045162A1 (en) | Training data screening device, robot system, and training data screening method | |
Xie et al. | Convergence analysis and performance of the extended artificial physics optimization algorithm | |
Pham et al. | Navigation of multiple mobile robots using a neural network and a Petri Net model | |
Hu et al. | Heterogeneous crowd simulation using parametric reinforcement learning | |
KR20240052808A (ko) | 그래프 신경망을 이용한 다중 로봇 조정 | |
Zhao et al. | Hybrid navigation method for multiple robots facing dynamic obstacles | |
JP3363846B2 (ja) | 実世界情報データベース構築方法及び装置と自律移動走行体学習方法 | |
Chen et al. | Deep reinforcement learning-based robot exploration for constructing map of unknown environment | |
Xu et al. | Automated labeling for robotic autonomous navigation through multi-sensory semi-supervised learning on big data | |
Arbabi et al. | Planning for autonomous driving via interaction-aware probabilistic action policies | |
KR102617418B1 (ko) | 센서 구성과 로봇 형태에 적응 가능한 강화학습 기반 자율주행 방법, 컴퓨터 시스템, 및 컴퓨터 프로그램 | |
CN113741461B (zh) | 一种面向受限通信的复杂场景下多机器人避障方法 | |
Buck et al. | M-ROSE: A multi robot simulation environment for learning cooperative behavior | |
Leonard et al. | Bootstrapped Neuro-Simulation as a method of concurrent neuro-evolution and damage recovery | |
Antonelo et al. | Modeling multiple autonomous robot behaviors and behavior switching with a single reservoir computing network | |
Xia et al. | Balanced map coverage using reinforcement learning in repeated obstacle environments | |
Weisbin | Intelligent-machine research at CESAR | |
Perteet et al. | A multi-vehicle framework for the development of robotic games: The Marco Polo case | |
Aamer et al. | A Novel Algorithm for Autonomous Robot Navigation System Using Neural Network | |
Talbi et al. | Parallel Cooperating Genetic Algorithms: An application to robot motion planning | |
Zhou et al. | On-line collision avoidance system for two PTP command-based manipulators with distributed controller |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20021008 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081025 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081025 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091025 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091025 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101025 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101025 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111025 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |