JP2021143830A - 情報処理装置および情報処理方法 - Google Patents
情報処理装置および情報処理方法 Download PDFInfo
- Publication number
- JP2021143830A JP2021143830A JP2018114295A JP2018114295A JP2021143830A JP 2021143830 A JP2021143830 A JP 2021143830A JP 2018114295 A JP2018114295 A JP 2018114295A JP 2018114295 A JP2018114295 A JP 2018114295A JP 2021143830 A JP2021143830 A JP 2021143830A
- Authority
- JP
- Japan
- Prior art keywords
- heuristic
- information processing
- map
- search
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/20—Drawing from basic elements, e.g. lines or circles
- G06T11/203—Drawing of straight lines or curves
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J13/00—Controls for manipulators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/20—Drawing from basic elements, e.g. lines or circles
- G06T11/206—Drawing of charts or graphs
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/16—Anti-collision systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Image Analysis (AREA)
- Navigation (AREA)
- Manipulator (AREA)
- Traffic Control Systems (AREA)
Abstract
【課題】探索時間を大きく低減し汎用的なヒューリスティクスを学習する。【解決手段】畳み込みネットワークを用いて、経路探索に係るヒューリスティクス関数を学習する学習部、を備え、前記畳み込みネットワークは、複数の障害物マップに基づく学習を行い、前記ヒューリスティクス関数を2次元以上の画像として表現したヒューリスティクスマップを出力する、情報処理装置が提供される。また、プロセッサが、畳み込みネットワークを用いて、経路探索に係るヒューリスティクス関数を学習すること、を含み、前記畳み込みネットワークは、複数の障害物マップに基づく学習を行い、前記ヒューリスティクス関数を2次元以上の画像として表現したヒューリスティクスマップを出力する、情報処理方法が提供される。【選択図】図1
Description
本開示は、情報処理装置および情報処理方法に関する。
近年、種々の経路探索アルゴリズムが研究され、また当該アルゴリズムにより探索した経路に基づいて動作する装置が開発されている。例えば、非特許文献1には、探索アルゴリズムを用いて囲碁における次のアクションを探索するコンピュータプログラムが開示されている。
David Silver、外19名、「Mastering the game of Go with deepneural networks and tree search」、Nature、2016年1月28日、volume 529、pages 484-489
しかし、非特許文献1に記載の技術は、深層学習を用いたヒューリスティクス学習による経路探索において、価値関数および方策を求めるフレームワークであり、汎用的とは言い難く、また探索時間に改善の余地がある。
そこで、本開示では、探索時間を大きく低減し汎用的なヒューリスティクスを学習することが可能な、新規かつ改良された情報処理装置および情報処理方法を提案する。
本開示によれば、畳み込みネットワークを用いて、経路探索に係るヒューリスティクス関数を学習する学習部、を備え、前記畳み込みネットワークは、複数の障害物マップに基づく学習を行い、前記ヒューリスティクス関数を2次元以上の画像として表現したヒューリスティクスマップを出力する、情報処理装置が提供される。
また、本開示によれば、学習されたヒューリスティクス関数に基づいて経路探索を行う探索部、を備え、前記探索部は、複数の障害物マップに基づく学習により得られた、2次元以上の画像として表現された前記ヒューリスティクス関数に基づいて経路探索を行う、
情報処理装置が提供される。
情報処理装置が提供される。
また、本開示によれば、プロセッサが、畳み込みネットワークを用いて、経路探索に係るヒューリスティクス関数を学習すること、を含み、前記畳み込みネットワークは、複数の障害物マップに基づく学習を行い、前記ヒューリスティクス関数を2次元以上の画像として表現したヒューリスティクスマップを出力する、情報処理方法が提供される。
また、本開示によれば、プロセッサが、学習されたヒューリスティクス関数に基づいて経路探索を行うこと、を含み、前記経路探索を行うことは、複数の障害物マップに基づく学習により得られた、2次元以上の画像として表現された前記ヒューリスティクス関数に基づいて経路探索を行うこと、をさらに含む、情報処理方法が提供される。
以上説明したように本開示によれば、探索時間を大きく低減し汎用的なヒューリスティクスを学習することが可能となる。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.実施形態
1.1.学習手法
1.2.学習装置10の機能構成例
1.3.探索装置20の機能構成例
1.4.効果
1.5.適用例
2.ハードウェア構成例
3.まとめ
1.実施形態
1.1.学習手法
1.2.学習装置10の機能構成例
1.3.探索装置20の機能構成例
1.4.効果
1.5.適用例
2.ハードウェア構成例
3.まとめ
<1.実施形態>
<<1.1.学習手法>>
まず、本開示の一実施形態の概要について説明する。上述したように、近年では、探索アルゴリズムを用いた経路探索の結果に基づいて動作する装置が開発されている。上記のような装置には、例えば、自律ナビゲーションロボットや各種のマニピュレータが挙げられる。
<<1.1.学習手法>>
まず、本開示の一実施形態の概要について説明する。上述したように、近年では、探索アルゴリズムを用いた経路探索の結果に基づいて動作する装置が開発されている。上記のような装置には、例えば、自律ナビゲーションロボットや各種のマニピュレータが挙げられる。
また、探索アルゴリズムの一例としては、例えば、A*探索アルゴリズムやRRT(Rapidly exploring Random Tree)が挙げられる。A*やRRTなどの探索アルゴリズムは、ヒューリスティクス関数を用いて経路探索を行う。
通常、自律ナビゲーションロボットやマニピュレーションに係るグローバルな経路計画(path planning)では、探索に少なくない時間を要するが、ここで、探索時間を低減し、また探索精度を向上させるためには、上記のヒューリスティクス関数の設定が重要となる。
一般的に、経路計画問題を解くためのヒューリスティクス関数は、実験者により設定される場合が多い。しかし、経路やタスクが複雑となるほど、適切なヒューリスティクス関数を設定することは困難となり、人手により最適なヒューリスティクス関数を求めるには限界がある。
本開示に係る技術思想は、上記の点に着目して発想されたものであり、探索時間を大きく低減し汎用的なヒューリスティクスを学習することを可能とする。このために、本開示の一実施形態に係る情報処理方法を実現する学習装置10は、畳み込みネットワーク(CNN:Convolutional Neural Network)を用いて、経路探索に係るヒューリスティクス関数を学習する学習部120を備える。また、本開示の一実施形態に係るCNNは、複数の障害物マップに基づく学習を行い、ヒューリスティクス関数を2次元以上の画像として表現したヒューリスティクスマップを出力すること、を特徴の一つとする。
このように、本開示の一実施形態に係るCNNは、ヒューリスティクス関数を画像とした表現したヒューリスティクスマップとして出力することが可能である。当該特徴によれば、これまで、数式として表現されていたヒューリスティクス関数を画像として可視化することができ、実験者などが直観的にヒューリスティクスの分布を把握することが可能となる。
ここで、まず、本開示の一実施形態に係るグラフ探索について概要を説明する。本開示の一実施形態に係る情報処理方法では、グラフG=<V,E>における探索ベースの経路計画を基礎として考える。この際、本開示の一実施形態に係るグラフ探索は、開始ノードVsから開始される。各ノードの評価においては、Succ(V)により次の探索候補が拡張され、後続エッジおよび子頂点が返される。
まず、始めに、探索候補頂点がValid(e,v,φ)により与えられる。ここで、eは環境を示し、φに応じた障害物によって値が決定され、Falseが返される。次に、探索候補はScore(v,φ)により評価され、後の頂点オープンリストのスコアによって優先順位付けされたキュー(オープンリスト):0に、スコアと頂点の組が、ゴールVgが見つかるか、または頂点がなくなるまで繰り返し挿入される。
この際、現在評価が行われている頂点のcost−so−far値によって定義されるスコア関数は、例えば、ダイクストラ探索アルゴリズムでは、下記の数式(1)となる。なお、上記のcost−so−far値とは、探索時点に見つかっている最短経路に沿った累積コストを示す。
また、本開示の一実施形態に係る情報処理方法では、探索ヒューリスティクス関数h(v,φ)を定義することにより、下記の数式(2)に示すスコア関数からA*探索アルゴリズムを導出することができる。
また、本開示の一実施形態においては、greedy探索アルゴリズムとしてのヒューリスティクスのみに依存した探索を下記の数式(3)により定義する。
続いて、本開示の一実施形態に係るCNNを用いたヒューリスティクス学習について説明する。本開示の一実施形態に係る情報処理方法によれば、探索コストを最小限に抑える(探索中の頂点候補のオープン数を最小限とする)優れたヒューリスティクス関数を学習することが可能となる。
図1は、本開示の一実施形態に係るヒューリスティクス学習の概要を示す図である。図1に示すように、本開示の一実施形態に係る情報処理方法では、障害物マップとコスト関数の両方、またはいずれか一方を環境として取り込み、抽出した特徴マップをCNNに入力することで、グラフの各ノードのヒューリスティクス値を予測する。本開示の一実施形態に係るCNNは、各ノードに係る予測ヒューリスティクス値を、2次元以上の画像として表現したヒューリスティクスマップとして出力することができる。
また、ヒューリスティクスマップが含む予測ヒューリスティクス値は、グラフ探索ベースのプランナ(後述する探索装置20に対応する)において、ヒューリスティクス関数h(v,φ)として用いられる。プランナは、CNNにより出力されたヒューリスティクスマップと任意の探索アルゴリズムに基づいて、経路計画を高速に行うことが可能である。
なお、本開示の一実施形態に係るCNNは、全層畳み込みネットワーク(FCN:Fully Convolutional Network)であってもよい。本開示の一実施形態に係るFCNによれば、グラフ内のすべてのノードに係るヒューリスティクス値を同時に予測することが可能である(単一ショット推論)。
一方、本開示の一実施形態に係るCNNは、例えば、GPGPU(General−Purpose Computing On Graphics Processing Units)の実装によりcuDNNなどで実現されてもよい。
また、本開示の一実施形態に係るCNNを用いたヒューリスティクス学習では、学習用のプランナを用いてヒューリスティクス値を生成し、CNNによる学習において予測ヒューリスティクス値のターゲットとして用いる。以下では、3つの学習アルゴリズムを例示する。図2は、本開示の一実施形態に係る学習アルゴリズムについて説明するための図である。
1つ目は、逆方向ダイクストラ(backward Dijkstra)法による高密度ターゲット学習である。本開示の一実施形態に係る逆方向ダイクストラ法による高密度ターゲット学習において、CNNは、各ノードの予測コストと目標コストの二乗誤差を最小限に抑えることにより、ヒューリスティクスを直接学習することが可能である。
この際、頂点のコストは、目標への最短経路に沿った累積コスト(cost−so−far値)として定義される。逆方向ダイクストラ法によれば、グラフ内のすべての有効頂点に係るcost−so−far値を算出することが可能である。
また、本開示の一実施形態に係る逆方向ダイクストラ法による高密度ターゲット学習では、下記の数式(4)に示す損失関数(Loss function)を最小化することで学習が行われる。
ここで、上記の数式(4)におけるHは、逆方向ダイクストラ法によって生成される目標コスト値マップ(cost−to−go値マップ、図2におけるGround Truth Heuristics functionに対応)を表し、またMは、逆方向ダイクストラ探索が訪問できない無効な頂点(例えば、障害物に占領されたエリアや障害物に囲まれたエリア)を無視するためのマスクを表す。
次に、2つ目の学習アルゴリズムについて説明する。本開示の一実施形態に係る2つ目の学習アルゴリズムは、A*探索アルゴリズムによるターゲット学習である。上述した逆方向ダイクストラ法は、グラフ内のすべての有効頂点に係るcost−so−far値を算出するため、大規模な問題(例えば、巨大な2Dグリッドマップや高次元マップにおける経路計画問題)では、計算時間が長くなることが多く、ヒューリスティクス学習においてボトルネックとなりがちである。
このため、本開示の一実施形態では、ランダムにサンプリングされた開始位置と終了位置を与えられたA*探索アルゴリズムによる最短経路に属する頂点の目標コスト値のみに依存する学習手法を提案する。
A*探索アルゴリズムは、ダイクストラ法および逆ダイクストラ法のどちらよりもはるかに高速であり、環境変化に関するデータ修正をより効率的に実現することが可能である。なお、逆ダイクストラ法を用いる場合と同様に、上記の数式(4)が損失関数として用いられる。一方、A*探索アルゴリズムを用いる場合、マスクMは、経路沿いの頂点においてのみ1となる。
次に、3つ目の学習アルゴリズムについて説明する。本開示の一実施形態に係る3つ目の学習アルゴリズムは、TD(Temporal difference)誤差最小化によるターゲット学習である。本開示の一実施形態に係るTD誤差最小化によるターゲット学習によれば、上述したA*探索アルゴリズムを用いた場合のように疎なターゲット信号により学習結果が貧弱となる可能性を改善することが可能となる。
本開示の一実施形態に係るTD誤差最小化によるターゲット学習では、TD学習手法と、A*探索アルゴリズムなどの疎な教師信号を用いた学習手法とが組み合わせで用いられる。この際、TD誤差は、下記の数式(5)に示すように、価値反復(Value Iteration)の単一ステップによりhを更新することで取得することができる。
この際、〜h(v)は、現在の予測ヒューリスティクス値h(v,φ)、〜h(vg)=0、〜h(v∈Vinvalid)=∞、として初期化される。価値反復はオフポリシーアルゴリズムであるため、グラフにおけるすべての頂点をサンプリングすることが可能である。
なお、本開示の一実施形態では、より密度の高い目標コスト値(cost−to−go値)を得るために、一度の価値反復更新のみが実行される。また、損失関数は、更新されたcost−to−go推定〜h(v)を用いて、下記の数式(6)により表される。
ここで、上記の数式(6)におけるMTD(v)は、M∩Vvalidにおいて1、その他において0であり、またλバランスはTD最小化損失に係る重みである。
続いて、本開示の一実施形態に係るCNNについて詳細に説明する。上述したように、本開示の一実施形態に係るCNNは、複数の2次元以上の障害物マップに基づく学習を行い、ヒューリスティクス関数を2次元以上の画像として表現したヒューリスティクスマップを出力することができる。
この際、CNNは、上記の障害物マップと同一次元の画像として表現したヒューリスティクスマップを出力してよい。
より具体的には、本開示の一実施形態に係るCNNには、2次元以上の障害物マップに基づいて抽出された特徴量マップが入力される。ここで、上記の特徴量マップは、2次元以上のマップ、上記2次元以上のマップにおける障害物情報、上記2次元以上のマップにおける経路情報を含んでよい。
なお、上記の障害物情報は、例えば、障害物からの距離に係る情報などを含んでよい。また、上記の経路情報は、ゴール地点までのコストに係る情報などを含んでよい。ゴール地点までのコストは、例えば、ゴール地点までの距離により表されてもよい。また、ゴール地点までの距離は、例えば、チャネルとして画像に付与されてもよい。
本開示の一実施形態に係るCNNは、エンコーダCNNとデコーダCNNの2つのパートから成る。
エンコーダCNNは、3つのConvolutionモジュールを含み、各モジュールのチャネル数は、それぞれ16、32、64である。
また、各Convolutionモジュールは、3つのConvolution層を有し、各Convolution層の後ろには、Batch NormalizationとLeaky ReLUが配置される。
また、3つのConvolution層のうち、最初のConvolution層のストライド幅は、例えば2であってよい。また、カーネルのDilation Factorは、1〜3にインクリメントされる。
一方、デコーダCNNは、3つのDeconvolutionモジュールを含む。Deconvolutionモジュールは、最初の層がDeconvolution層であること以外は、基本的にConvolutionモジュールと類似の構成を有する。なお、カーネルサイズは4×4でありUpscaling Factorは2であってもよい。
なお、各モジュールのチャネル数は、それぞれ、32、16、16である。ただし、最後のモジュールは1チャネルの出力でヒューリスティクスマップを出力する。
以上、本開示の一実施形態に係るCNNの構成について説明した。本開示の一実施形態によれば、人手を介さずにヒューリスティクス関数を容易定義することができ、また3次元などの複雑な経路やタスクにも適用が可能な汎用的なヒューリスティクス関数を得ることが可能となる。
また、本開示の一実施形態に係るCNNによれば、例えば、2次元の画像から2次元画像として表現されるヒューリスティクス関数を、3次元の画像から3次元画像として表現されるヒューリスティクス関数を出力することができ、入力される画像のサイズに依らず直接的かつ簡素に学習することが可能である。
<<1.2.学習装置10の機能構成例>>
続いて、本開示の一実施形態に係る学習装置10の機能構成例について説明する。本開示の一実施形態に係る学習装置10は、上述したCNNを用いてヒューリスティクス学習を行い、ヒューリスティクス関数を2次元以上の画像として表現したヒューリスティクスマップを出力する情報処理装置である。図3は、本開示の一実施形態に係る学習装置10の機能構成例を示すブロック図である。図3を参照すると、本開示の一実施形態に係る学習装置10は、入力部110、学習部120、記憶部130、および表示部140を備える。
続いて、本開示の一実施形態に係る学習装置10の機能構成例について説明する。本開示の一実施形態に係る学習装置10は、上述したCNNを用いてヒューリスティクス学習を行い、ヒューリスティクス関数を2次元以上の画像として表現したヒューリスティクスマップを出力する情報処理装置である。図3は、本開示の一実施形態に係る学習装置10の機能構成例を示すブロック図である。図3を参照すると、本開示の一実施形態に係る学習装置10は、入力部110、学習部120、記憶部130、および表示部140を備える。
(入力部110)
本開示の一実施形態に係る入力部110は、画像や各種のデータ、ユーザの操作情報などを受け付ける。本開示の一実施形態に係る入力部110は、例えば、キーボード、マウス、タッチパネルなどを備える。
本開示の一実施形態に係る入力部110は、画像や各種のデータ、ユーザの操作情報などを受け付ける。本開示の一実施形態に係る入力部110は、例えば、キーボード、マウス、タッチパネルなどを備える。
(学習部120)
本開示の一実施形態に係る学習部120は、CCNを用いて、経路探索に係るヒューリスティクス関数を学習する機能を有する。上述したように、本開示の一実施形態に係るCNNは、複数の障害物マップに基づく学習を行い、ヒューリスティクス関数を2次元以上の画像として表現したヒューリスティクスマップを出力すること、を特徴の一つとする。
本開示の一実施形態に係る学習部120は、CCNを用いて、経路探索に係るヒューリスティクス関数を学習する機能を有する。上述したように、本開示の一実施形態に係るCNNは、複数の障害物マップに基づく学習を行い、ヒューリスティクス関数を2次元以上の画像として表現したヒューリスティクスマップを出力すること、を特徴の一つとする。
(記憶部130)
本開示の一実施形態に係る記憶部130は、学習装置10が備える各構成で用いられるプログラムやデータなどを記憶する。本開示の一実施形態に係る記憶部130は、例えば、CNNに係る各種のパラメータや、CNNが出力するヒューリスティクスマップなどを記憶する。
本開示の一実施形態に係る記憶部130は、学習装置10が備える各構成で用いられるプログラムやデータなどを記憶する。本開示の一実施形態に係る記憶部130は、例えば、CNNに係る各種のパラメータや、CNNが出力するヒューリスティクスマップなどを記憶する。
(表示部140)
本開示の一実施形態に係る表示部140は、各種の視覚情報を表示する。このために、本開示の一実施形態に係る表示部140は、視覚情報を提示する表示デバイスなどを備える。上記の表示デバイスには、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、OLED(Organic Light Emitting Diode)装置、タッチパネルなどが挙げられる。
本開示の一実施形態に係る表示部140は、各種の視覚情報を表示する。このために、本開示の一実施形態に係る表示部140は、視覚情報を提示する表示デバイスなどを備える。上記の表示デバイスには、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、OLED(Organic Light Emitting Diode)装置、タッチパネルなどが挙げられる。
本開示の一実施形態に係る表示部140は、例えば、CNNによる学習の過程や、CNNが出力するヒューリスティクスマップなどを表示する。
以上、本開示の一実施形態に係る学習装置10の機能構成例について説明した。なお、図3を用いて説明した上記の構成はあくまで一例であり、本開示の一実施形態に係る学習装置10の機能構成は係る例に限定されない。本開示の一実施形態に係る学習装置10の機能構成は、仕様や運用に応じて柔軟に変形可能である。
<<1.3.探索装置20の機能構成例>>
次に、本開示の一実施形態に係る探索装置20の機能構成例について説明する。本開示の一実施形態に係る探索装置20は、学習装置10が生成したヒューリスティクスマップと任意の探索アルゴリズムを用いて、経路探索を行う情報処理装置である。本開示の一実施形態に係る探索装置20は、例えば、各種の自律ナビゲーションロボットやマニピュレータなどであってよい。
次に、本開示の一実施形態に係る探索装置20の機能構成例について説明する。本開示の一実施形態に係る探索装置20は、学習装置10が生成したヒューリスティクスマップと任意の探索アルゴリズムを用いて、経路探索を行う情報処理装置である。本開示の一実施形態に係る探索装置20は、例えば、各種の自律ナビゲーションロボットやマニピュレータなどであってよい。
図4は、本開示の一実施形態に係る探索装置20の機能構成例を示すブロック図である。図4を参照すると、本開示の一実施形態に係る探索装置20は、入力部210、センサ部220、探索部230、記憶部240、および制御部250を備える。
(入力部210)
本開示の一実施形態に係る入力部210は、ヒューリスティックマップを含む画像や各種のデータ、ユーザの操作情報などを受け付ける。ユーザは、例えば、入力部210を介して、ゴール地点などを設定することができる。本開示の一実施形態に係る入力部210は、例えば、キーボード、マウス、タッチパネル、ボタンなどを備える。
本開示の一実施形態に係る入力部210は、ヒューリスティックマップを含む画像や各種のデータ、ユーザの操作情報などを受け付ける。ユーザは、例えば、入力部210を介して、ゴール地点などを設定することができる。本開示の一実施形態に係る入力部210は、例えば、キーボード、マウス、タッチパネル、ボタンなどを備える。
(センサ部220)
本開示の一実施形態に係るセンサ部220は、周囲環境の状態をセンシングする機能を有する。本開示の一実施形態に係るセンサ部220は、例えば、撮像センサ、赤外線センサを含む各種の光センサ、加速度センサ、ジャイロセンサ、地磁気センサ、熱センサ、振動センサ、GNSS(Global Navigation Satellite System)信号受信装置などを備える。
本開示の一実施形態に係るセンサ部220は、周囲環境の状態をセンシングする機能を有する。本開示の一実施形態に係るセンサ部220は、例えば、撮像センサ、赤外線センサを含む各種の光センサ、加速度センサ、ジャイロセンサ、地磁気センサ、熱センサ、振動センサ、GNSS(Global Navigation Satellite System)信号受信装置などを備える。
また、本開示の一実施形態に係るセンサ部220は、収集したセンサ情報に基づいて、周囲環境の状態推定や、障害物の認識、自己位置推定などを行ってよい。
(探索部230)
本開示の一実施形態に係る探索部230は、学習装置10により学習されたヒューリスティクス関数に基づいて経路探索を行う機能を有する。より具体的には、本開示の一実施形態に係る探索部230は、複数の障害物マップに基づく学習により得られた、2次元以上の画像として表現されたヒューリスティクスマップに基づいて経路探索を行うこと、を特徴の一つとする。
本開示の一実施形態に係る探索部230は、学習装置10により学習されたヒューリスティクス関数に基づいて経路探索を行う機能を有する。より具体的には、本開示の一実施形態に係る探索部230は、複数の障害物マップに基づく学習により得られた、2次元以上の画像として表現されたヒューリスティクスマップに基づいて経路探索を行うこと、を特徴の一つとする。
本開示の一実施形態に係る探索部230が有する上記の特徴によれば、探索に要するステップを大幅に低減し、タスク全体の高速化を実現するとともに、探索装置20が適格な状況把握に基づいて動作を行うことが可能となり、知的制御の著しい高度化を達成することができる。
なお、本開示の一実施形態に係る探索部230は、学習装置10により学習されたヒューリスティクスマップと任意の探索アルゴリズムを用いて経路探索を行ってよい。上記の探索アルゴリズムには、例えば、A*探索アルゴリズムが挙げられる。
(記憶部240)
本開示の一実施形態に係る記憶部240は、探索装置20が備える各構成で用いられるプログラムやデータなどを記憶する。本開示の一実施形態に係る記憶部240は、例えば、マップ情報やゴール設定、ヒューリスティクスマップなどを記憶する。
本開示の一実施形態に係る記憶部240は、探索装置20が備える各構成で用いられるプログラムやデータなどを記憶する。本開示の一実施形態に係る記憶部240は、例えば、マップ情報やゴール設定、ヒューリスティクスマップなどを記憶する。
(制御部250)
本開示の一実施形態に係る制御部250は、探索部230が探索した経路に基づいて、探索装置20の特定に応じた動作制御を行う。例えば、探索装置20が自動車である場合、制御部250は、ステアリング、アクセル、ブレーキなどを制御し、自動運転を実現する。また、例えば、探索装置20がマニピュレータである場合、制御部250は、各関節のアクチュエータを制御し、任意のタスクを実現する。
本開示の一実施形態に係る制御部250は、探索部230が探索した経路に基づいて、探索装置20の特定に応じた動作制御を行う。例えば、探索装置20が自動車である場合、制御部250は、ステアリング、アクセル、ブレーキなどを制御し、自動運転を実現する。また、例えば、探索装置20がマニピュレータである場合、制御部250は、各関節のアクチュエータを制御し、任意のタスクを実現する。
以上、本開示の一実施形態に係る探索装置20の機能構成例について説明した。なお、図4を用いて説明した上記の機能構成はあくまで一例であり、本開示の一実施形態に係る探索装置20の機能構成は係る例に限定されない。本開示の一実施形態に係る探索装置20は、例えば、装置の特性に応じた、制御部250の制御対象となる構成を備えてもよい。本開示の一実施形態に係る探索装置20の機能構成は、仕様や運用に応じて柔軟に変形可能である。
<<1.4.効果>>
次に、本開示の一実施形態に係るヒューリスティクスマップを用いた経路探索の効果について説明する。以下、本開示の一実施形態に係る学習手法の有用性を実証するための実験データについて述べる。ここでは、上述した学習手法により得たヒューリスティクスを、SaILデータセットを用いたトイプロブレム(Toy problem)に適用した。
次に、本開示の一実施形態に係るヒューリスティクスマップを用いた経路探索の効果について説明する。以下、本開示の一実施形態に係る学習手法の有用性を実証するための実験データについて述べる。ここでは、上述した学習手法により得たヒューリスティクスを、SaILデータセットを用いたトイプロブレム(Toy problem)に適用した。
なお、トイプロブレムにおいては、障害物を含む2次元のグリッドワールドにおけるロボットのナビゲーションタスクを設計し、ベースラインとしてダイクストラ法を用いた学習(Full Dijkstra Supervised Learning:FDSL)、A*探索アルゴリズムを用いた学習(Optimal Planner Supervised Learning:OPSL)によりサンプリングされたヒューリスティクス関数を用いた。
また、本開示の一実施形態では、スタート地点およびゴール地点を設定した4つの環境において実験を行った。データは、ダイクストラ法を用いたプランナ、A*探査アルゴリズムを用いたプランナによりサンプリングされ、本開示の一実施形態に係るCNNによるFDSLまたはOPSLを経たに、A*探索アルゴリズムまたはgreedyアルゴリズムにより検証された。
図5〜図8は、本開示の一実施形態に係る学習手法により得られたヒューリスティクスマップと当該ヒューリスティクスマップを用いた経路探索の結果を示す図である。なお、図5〜図8では、OPSLにより学習されたヒューリスティクスマップに係る実験の結果を示している。
ここで、図5は、Shifting gap環境に係る実験の結果を示す図である。図6は、Bugtrap and Forest環境に係る実験の結果を示す図である。図7は、Forestに係る実験の結果を示す図である。また、図8は、Gap and Forestに係る実験の結果を示す図である。
図5〜図8では、左から順に、入力画像IN、本開示の一実施形態に係るCNNにより出力されたヒューリスティクスマップHM、ターゲットヒューリスティクス関数TH、および探索結果PPが示されている。
また図5〜図8において、探索結果PPには、探索ステップ数が併せて示されている。なお、図中のeは従来のA*探索アルゴリズム(A*およびユークリッド距離ヒューリスティクス)による探索結果を、egは従来のgreedyアルゴリズム(greedyおよびユークリッド距離ヒューリスティクス)による探索結果を、yは本開示の一実施形態に係る学習手法により得られたヒューリスティクスマップを用いたA*探索アルゴリズムによる探索結果を、ygは本開示の一実施形態に係る学習手法により得られたヒューリスティクスマップを用いたgreedyアルゴリズムによる探索結果を、それぞれ示している。また、図中におけるtおよびtgは、それぞれダイクストラ法およびA*探索アルゴリズムを用いたターゲット、ダイクストラ法およびgreedyアルゴリズムを用いたターゲットを、それぞれ示している。
図5〜図8に示す探索結果PPに着目すると、いずれの環境においても、本開示の一実施形態に係る学習手法により得られたヒューリスティクスマップを用いた探索が、従来手法と比較して有利な結果を示している。例えば、図5におけるeとyを比較すると、それぞれの探索ステップ数は、37039、1123であり、本開示の一実施形態に係る学習手法によれば、探索ステップ数が、約97%も削減できることがわかる。また、図5におけるegおよびygを比較した場合、本開示の一実施形態に係る学習手法により、探索ステップ数が、実に99%以上改善していることがわかる。
このように、本開示の一実施形態に係る情報処理方法を用いたヒューリスティクス学習によれば、経路探索に用いるヒューリスティクスを効率的に学習し、探索スピードを劇的に高速化することが可能となる。
また、図9〜図12は、各環境における探索結果の分布を示す散布図である。図9は、Shifting gap環境に係る実験の結果を示す図である。図10は、Bugtrap and Forest環境に係る実験の結果を示す図である。図11は、Forestに係る実験の結果を示す図である。また、図12は、Gap and Forestに係る実験の結果を示す図である。
図9〜図12では、左から順に従来のユークリッド距離ヒューリスティクスによる探索ステップ数、本開示の一実施形態に係るOPSLにより得られたヒューリスティクスマップによる探索ステップ数、本開示の一実施形態に係るOPSLおよびTD誤差最小化により得られたヒューリスティクスマップによる探索ステップ数、また本開示の一実施形態に係るFDSLにより得られたヒューリスティクスマップによる探索ステップ数が、それぞれ示されている。
図9〜図12を参照すると、本開示の一実施形態に係るヒューリスティクスマップを用いた探索は、いずれの学習手法を用いた場合であっても、従来のユークリッド距離ヒューリスティクスによる探索に対し、大きな優位性を持つことがわかる。
以上、本開示の一実施形態に係るヒューリスティクスマップを用いた経路探索の効果について説明した。上記で示したように、本開示の一実施形態に係るヒューリスティクス学習によれば、経路探索に係る探索時間を劇的に低減し、汎用的なヒューリスティクスを学習することが可能となる。
<<1.5.適用例>>
以上説明したように、本開示の一実施形態に係るヒューリスティクスマップを用いた経路探索によれば、探索ステップを大幅に低減し、探索装置20が実行するタスク全体を高速化することが可能となる。
以上説明したように、本開示の一実施形態に係るヒューリスティクスマップを用いた経路探索によれば、探索ステップを大幅に低減し、探索装置20が実行するタスク全体を高速化することが可能となる。
ここで、本開示の一実施形態に係るヒューリスティクスマップを用いた経路探索の適用例を示す。図13は、本開示の一実施形態に係るヒューリスティクスマップを用いた経路探索を自動運転車に適応した場合の一例について説明するための図である。
図13には、自動運転車である探索装置20が、駐車スペースへの駐車をタスクとした自動運転を行う場合の一例が示されている。
この際、探索装置20は、センサ部220が認識した周囲環境や、他の車である障害物O1およびO2の状態変化に対応した経路探索をヒューリスティクスマップを用いて実行する。
例えば、探索装置20は、図示するように、自動車である障害物O2が、対向して走行している場合、図中左の駐車スペースをゴール地点として自律的に設定し、また当該ゴール地点に至るまでの経路を探索する。
一方、この後、障害物O1が対向して走行してきた場合、当初ゴール地点として設定した図中左の駐車スペースへの走行の間に障害物O1との衝突の可能性が生じることから、探索装置20は、再度経路探索を実行し、図中右側の駐車スペースへの移動や、バック、前方で停止する、などの判断を行うことができる。
この際、本開示の一実施形態に係る探索装置20は、上述のヒューリスティクスマップを用いた経路探索を行うことで、上記の判断を高速に行うことが可能である。このように、本開示の一実施形態に係るヒューリスティクスマップを用いた経路探索を行うことで、例えば、自動運転車が、自動車や歩行者などの飛び出しに遭遇した場合であっても、回避経路を高速で探索することができ、より安全な自動運転を実現することが可能となる。
また、図14は、本開示の一実施形態に係るヒューリスティクスマップを用いた経路探索をマニピュレータに適応した場合の一例について説明するための図である。
図14には、マニピュレータである探索装置20が、障害物O1およびO2が存在する環境で、ボールBのピッキングに係るタスクを実行する場合の一例が示されている。
このように、本開示の一実施形態に係るヒューリスティクスマップを用いた経路探索は、2次元に限定されず、3次元における軌道制御にも適用可能である。この際、本開示の一実施形態に係る学習装置10は、3次元マップを入力とし、3次元の画像として表現されるヒューリスティクスマップを出力してよい。
また、図13に示した自動運転の場合と同様に、マニピュレータである探索装置20は、周囲環境や障害物の状態変化に応じて動的に経路探索を行ってよい。例えば、図14に示す障害物O1およびO2、またボールBは、可動性を有する物体であってもよい。
この場合であっても、探索装置20は、センサ部220が認識した障害物O1およびO2、ボールBの状態変化に対応して動的に経路を再探索し、探索結果に基づいてタスクを完遂することが可能である。
このように、本開示の一実施形態に係るヒューリスティクスマップを用いた経路探索は、人手による設定が困難である3次元の軌道制御にも適用が可能である。本開示の一実施形態に係るヒューリスティクスマップを用いた経路探索によれば、例えば、医療ロボットによる手術を行う際に複数の医療用アームがそれぞれ自律的に動作する状況において、医療用アーム間の衝突を避けるための軌道を高速で探索し、より安全な手術を実現することなどが可能となる。
<2.ハードウェア構成例>
次に、本開示の一実施形態に係る学習装置10および探索装置20に共通するハードウェア構成例について説明する。図15は、本開示の一実施形態に係る学習装置10および探索装置20のハードウェア構成例を示すブロック図である。図15を参照すると、学習装置10および探索装置20は、例えば、プロセッサ871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
次に、本開示の一実施形態に係る学習装置10および探索装置20に共通するハードウェア構成例について説明する。図15は、本開示の一実施形態に係る学習装置10および探索装置20のハードウェア構成例を示すブロック図である。図15を参照すると、学習装置10および探索装置20は、例えば、プロセッサ871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
(プロセッサ871)
プロセッサ871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
プロセッサ871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
(ROM872、RAM873)
ROM872は、プロセッサ871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、プロセッサ871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
ROM872は、プロセッサ871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、プロセッサ871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
(ホストバス874、ブリッジ875、外部バス876、インターフェース877)
プロセッサ871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
プロセッサ871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
(入力装置878)
入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
(出力装置879)
出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
(ストレージ880)
ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
(ドライブ881)
ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
(リムーバブル記録媒体901)
リムーバブル記録媒体901は、例えば、DVDメディア、Blu−ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
リムーバブル記録媒体901は、例えば、DVDメディア、Blu−ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
(接続ポート882)
接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS−232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS−232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
(外部接続機器902)
外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
(通信装置883)
通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
<3.まとめ>
以上説明したように、本開示の一実施形態に係る情報処理方法を実現する学習装置10は、畳み込みネットワークを用いて、経路探索に係るヒューリスティクス関数を学習する学習部120を備える。また、本開示の一実施形態に係るCNNは、複数の障害物マップに基づく学習を行い、ヒューリスティクス関数を2次元以上の画像として表現したヒューリスティクスマップを出力すること、を特徴の一つとする。係る構成によれば、探索時間を大きく低減し汎用的なヒューリスティクスを学習することが可能となる。
以上説明したように、本開示の一実施形態に係る情報処理方法を実現する学習装置10は、畳み込みネットワークを用いて、経路探索に係るヒューリスティクス関数を学習する学習部120を備える。また、本開示の一実施形態に係るCNNは、複数の障害物マップに基づく学習を行い、ヒューリスティクス関数を2次元以上の画像として表現したヒューリスティクスマップを出力すること、を特徴の一つとする。係る構成によれば、探索時間を大きく低減し汎用的なヒューリスティクスを学習することが可能となる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
また、コンピュータに内蔵されるCPU、ROMおよびRAMなどのハードウェアに、学習装置10または探索装置20が有する構成と同等の機能を発揮させるためのプログラムも作成可能であり、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
畳み込みネットワークを用いて、経路探索に係るヒューリスティクス関数を学習する学習部、
を備え、
前記畳み込みネットワークは、複数の障害物マップに基づく学習を行い、前記ヒューリスティクス関数を2次元以上の画像として表現したヒューリスティクスマップを出力する、
情報処理装置。
(2)
前記畳み込みネットワークは、前記障害物マップと同一次元の画像として表現した前記ヒューリスティクスマップを出力する、
前記(1)に記載の情報処理装置。
(3)
前記畳み込みネットワークは、前記障害物マップに基づいて抽出された特徴量マップを入力とし、前記ヒューリスティクスマップを出力する、
前記(1)または(2)に記載の情報処理装置。
(4)
前記特徴量マップは、2次元以上のマップ、前記2次元以上のマップにおける障害物情報、および前記2次元以上のマップにおける経路情報を含む、
前記(3)に記載の情報処理装置。
(5)
前記経路情報は、少なくともゴール地点までのコストに係る情報を含む、
前記(4)に記載の情報処理装置。
(6)
前記ゴール地点までのコストは、ゴール地点までの距離である、
前記(5)に記載の情報処理装置。
(7)
前記障害物情報は、少なくとも障害物からの距離に係る情報を含む、
前記(4)に記載の情報処理装置。
(8)
前記畳み込みネットワークは、逆方向ダイクストラ法によるターゲット学習を行い、前記ヒューリスティクスマップを出力する、
前記(1)〜(7)のいずれかに記載の情報処理装置。
(9)
前記畳み込みネットワークは、A*探索アルゴリズムによるターゲット学習を行い、前記ヒューリスティクスマップを出力する、
前記(1)〜(8)のいずれかに記載の情報処理装置。
(10)
前記畳み込みネットワークは、TD誤差最小化によるターゲット学習を行い、前記ヒューリスティクスマップを出力する、
前記(1)〜(9)のいずれかに記載の情報処理装置。
(11)
前記畳み込みネットワークは、TD学習と、A*探索アルゴリズムにより得られたコスト値を教師とした教師あり学習とを組み合わせて、前記TD誤差最小化によるターゲット学習を行う、
前記(10)に記載の情報処理装置。
(12)
前記畳み込みネットワークは、全層畳み込みネットワークである、
前記(1)〜(11)のいずれかに記載の情報処理装置。
(13)
前記畳み込みネットワークは、エンコーダとデコーダを含む、
前記(1)〜(12)のいずれかに記載の情報処理装置。
(14)
学習されたヒューリスティクス関数に基づいて経路探索を行う探索部、
を備え、
前記探索部は、複数の障害物マップに基づく学習により得られた、2次元以上の画像として表現された前記ヒューリスティクス関数に基づいて経路探索を行う、
情報処理装置。
(15)
プロセッサが、畳み込みネットワークを用いて、経路探索に係るヒューリスティクス関数を学習すること、
を含み、
前記畳み込みネットワークは、複数の障害物マップに基づく学習を行い、前記ヒューリスティクス関数を2次元以上の画像として表現したヒューリスティクスマップを出力する、
情報処理方法。
(16)
プロセッサが、学習されたヒューリスティクス関数に基づいて経路探索を行うこと、
を含み、
前記経路探索を行うことは、複数の障害物マップに基づく学習により得られた、2次元以上の画像として表現された前記ヒューリスティクス関数に基づいて経路探索を行うこと、をさらに含む、
情報処理方法。
(1)
畳み込みネットワークを用いて、経路探索に係るヒューリスティクス関数を学習する学習部、
を備え、
前記畳み込みネットワークは、複数の障害物マップに基づく学習を行い、前記ヒューリスティクス関数を2次元以上の画像として表現したヒューリスティクスマップを出力する、
情報処理装置。
(2)
前記畳み込みネットワークは、前記障害物マップと同一次元の画像として表現した前記ヒューリスティクスマップを出力する、
前記(1)に記載の情報処理装置。
(3)
前記畳み込みネットワークは、前記障害物マップに基づいて抽出された特徴量マップを入力とし、前記ヒューリスティクスマップを出力する、
前記(1)または(2)に記載の情報処理装置。
(4)
前記特徴量マップは、2次元以上のマップ、前記2次元以上のマップにおける障害物情報、および前記2次元以上のマップにおける経路情報を含む、
前記(3)に記載の情報処理装置。
(5)
前記経路情報は、少なくともゴール地点までのコストに係る情報を含む、
前記(4)に記載の情報処理装置。
(6)
前記ゴール地点までのコストは、ゴール地点までの距離である、
前記(5)に記載の情報処理装置。
(7)
前記障害物情報は、少なくとも障害物からの距離に係る情報を含む、
前記(4)に記載の情報処理装置。
(8)
前記畳み込みネットワークは、逆方向ダイクストラ法によるターゲット学習を行い、前記ヒューリスティクスマップを出力する、
前記(1)〜(7)のいずれかに記載の情報処理装置。
(9)
前記畳み込みネットワークは、A*探索アルゴリズムによるターゲット学習を行い、前記ヒューリスティクスマップを出力する、
前記(1)〜(8)のいずれかに記載の情報処理装置。
(10)
前記畳み込みネットワークは、TD誤差最小化によるターゲット学習を行い、前記ヒューリスティクスマップを出力する、
前記(1)〜(9)のいずれかに記載の情報処理装置。
(11)
前記畳み込みネットワークは、TD学習と、A*探索アルゴリズムにより得られたコスト値を教師とした教師あり学習とを組み合わせて、前記TD誤差最小化によるターゲット学習を行う、
前記(10)に記載の情報処理装置。
(12)
前記畳み込みネットワークは、全層畳み込みネットワークである、
前記(1)〜(11)のいずれかに記載の情報処理装置。
(13)
前記畳み込みネットワークは、エンコーダとデコーダを含む、
前記(1)〜(12)のいずれかに記載の情報処理装置。
(14)
学習されたヒューリスティクス関数に基づいて経路探索を行う探索部、
を備え、
前記探索部は、複数の障害物マップに基づく学習により得られた、2次元以上の画像として表現された前記ヒューリスティクス関数に基づいて経路探索を行う、
情報処理装置。
(15)
プロセッサが、畳み込みネットワークを用いて、経路探索に係るヒューリスティクス関数を学習すること、
を含み、
前記畳み込みネットワークは、複数の障害物マップに基づく学習を行い、前記ヒューリスティクス関数を2次元以上の画像として表現したヒューリスティクスマップを出力する、
情報処理方法。
(16)
プロセッサが、学習されたヒューリスティクス関数に基づいて経路探索を行うこと、
を含み、
前記経路探索を行うことは、複数の障害物マップに基づく学習により得られた、2次元以上の画像として表現された前記ヒューリスティクス関数に基づいて経路探索を行うこと、をさらに含む、
情報処理方法。
10 学習装置
110 入力部
120 学習部
130 記憶部
140 表示部
20 探索装置
210 入力部
220 センサ部
230 探索部
240 記憶部
250 制御部
110 入力部
120 学習部
130 記憶部
140 表示部
20 探索装置
210 入力部
220 センサ部
230 探索部
240 記憶部
250 制御部
Claims (16)
- 畳み込みネットワークを用いて、経路探索に係るヒューリスティクス関数を学習する学習部、
を備え、
前記畳み込みネットワークは、複数の障害物マップに基づく学習を行い、前記ヒューリスティクス関数を2次元以上の画像として表現したヒューリスティクスマップを出力する、
情報処理装置。 - 前記畳み込みネットワークは、前記障害物マップと同一次元の画像として表現した前記ヒューリスティクスマップを出力する、
請求項1に記載の情報処理装置。 - 前記畳み込みネットワークは、前記障害物マップに基づいて抽出された特徴量マップを入力とし、前記ヒューリスティクスマップを出力する、
請求項1または2に記載の情報処理装置。 - 前記特徴量マップは、2次元以上のマップ、前記2次元以上のマップにおける障害物情報、および前記2次元以上のマップにおける経路情報を含む、
請求項3に記載の情報処理装置。 - 前記経路情報は、少なくともゴール地点までのコストに係る情報を含む、
請求項4に記載の情報処理装置。 - 前記ゴール地点までのコストは、ゴール地点までの距離である、
請求項5に記載の情報処理装置。 - 前記障害物情報は、少なくとも障害物からの距離に係る情報を含む、
請求項4に記載の情報処理装置。 - 前記畳み込みネットワークは、逆方向ダイクストラ法によるターゲット学習を行い、前記ヒューリスティクスマップを出力する、
請求項1に記載の情報処理装置。 - 前記畳み込みネットワークは、A*探索アルゴリズムによるターゲット学習を行い、前記ヒューリスティクスマップを出力する、
請求項1に記載の情報処理装置。 - 前記畳み込みネットワークは、TD誤差最小化によるターゲット学習を行い、前記ヒューリスティクスマップを出力する、
請求項1に記載の情報処理装置。 - 前記畳み込みネットワークは、TD学習と、A*探索アルゴリズムにより得られたコスト値を教師とした教師あり学習とを組み合わせて、前記TD誤差最小化によるターゲット学習を行う、
請求項10に記載の情報処理装置。 - 前記畳み込みネットワークは、全層畳み込みネットワークである、
請求項1に記載の情報処理装置。 - 前記畳み込みネットワークは、エンコーダとデコーダを含む、
請求項1に記載の情報処理装置。 - 学習されたヒューリスティクス関数に基づいて経路探索を行う探索部、
を備え、
前記探索部は、複数の障害物マップに基づく学習により得られた、2次元以上の画像として表現された前記ヒューリスティクス関数に基づいて経路探索を行う、
情報処理装置。 - プロセッサが、畳み込みネットワークを用いて、経路探索に係るヒューリスティクス関数を学習すること、
を含み、
前記畳み込みネットワークは、複数の障害物マップに基づく学習を行い、前記ヒューリスティクス関数を2次元以上の画像として表現したヒューリスティクスマップを出力する、
情報処理方法。 - プロセッサが、学習されたヒューリスティクス関数に基づいて経路探索を行うこと、
を含み、
前記経路探索を行うことは、複数の障害物マップに基づく学習により得られた、2次元以上の画像として表現された前記ヒューリスティクス関数に基づいて経路探索を行うこと、をさらに含む、
情報処理方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018114295A JP2021143830A (ja) | 2018-06-15 | 2018-06-15 | 情報処理装置および情報処理方法 |
PCT/JP2019/014090 WO2019239680A1 (ja) | 2018-06-15 | 2019-03-29 | 情報処理装置および情報処理方法 |
US16/973,138 US20210256371A1 (en) | 2018-06-15 | 2019-03-29 | Information processing device and information processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018114295A JP2021143830A (ja) | 2018-06-15 | 2018-06-15 | 情報処理装置および情報処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021143830A true JP2021143830A (ja) | 2021-09-24 |
Family
ID=68843206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018114295A Pending JP2021143830A (ja) | 2018-06-15 | 2018-06-15 | 情報処理装置および情報処理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210256371A1 (ja) |
JP (1) | JP2021143830A (ja) |
WO (1) | WO2019239680A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021135770A (ja) * | 2020-02-27 | 2021-09-13 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法、コンピュータプログラム、並びに観測装置 |
CN112698653A (zh) * | 2020-12-23 | 2021-04-23 | 南京中朗智能技术有限公司 | 基于深度学习的机器人自主导航控制方法及系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997033212A1 (en) * | 1996-03-06 | 1997-09-12 | Gmd - Forschungszentrum Informationstechnik Gmbh | Autonomous mobile robot system for sensor-based and map-based navigation in pipe networks |
JP2000020494A (ja) * | 1998-07-07 | 2000-01-21 | Nippon Telegr & Teleph Corp <Ntt> | マルチエージェントモデルを用いて経験強化型強化学習法と環境同定型強化学習法を統合する分散強化学習法 |
JP6527060B2 (ja) * | 2015-09-15 | 2019-06-05 | アイシン・エィ・ダブリュ株式会社 | 経路探索システム、経路探索方法及びコンピュータプログラム |
CN106873585B (zh) * | 2017-01-18 | 2019-12-03 | 上海器魂智能科技有限公司 | 一种导航寻路方法、机器人及系统 |
CN108121347B (zh) * | 2017-12-29 | 2020-04-07 | 北京三快在线科技有限公司 | 用于控制设备运动的方法、装置及电子设备 |
CN108885459B (zh) * | 2018-06-08 | 2021-02-19 | 珊口(深圳)智能科技有限公司 | 导航方法、导航系统、移动控制系统及移动机器人 |
GB2578721A (en) * | 2018-11-05 | 2020-05-27 | Continental Automotive Gmbh | Method and system for processing image data utilizing deep neural network |
US11093671B2 (en) * | 2019-09-06 | 2021-08-17 | Beamup Ltd. | Structural design systems and methods to define areas of interest for modeling and simulation-based space planning |
US20230078911A1 (en) * | 2021-09-08 | 2023-03-16 | Here Global B.V. | Method and apparatus for dispersing incident routing |
-
2018
- 2018-06-15 JP JP2018114295A patent/JP2021143830A/ja active Pending
-
2019
- 2019-03-29 WO PCT/JP2019/014090 patent/WO2019239680A1/ja active Application Filing
- 2019-03-29 US US16/973,138 patent/US20210256371A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20210256371A1 (en) | 2021-08-19 |
WO2019239680A1 (ja) | 2019-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Francis et al. | Long-range indoor navigation with PRM-RL | |
CN111587408B (zh) | 机器人导航和对象跟踪 | |
Shah et al. | ViNT: A foundation model for visual navigation | |
JP7271702B2 (ja) | 深層強化学習に基づく自律走行エージェントの学習方法およびシステム | |
WO2022222718A1 (zh) | 导航方法、装置、存储介质及设备 | |
JP6744679B2 (ja) | ヒューマンマシンハイブリッド意思決定方法および装置 | |
CN108139756A (zh) | 为自动驾驶车辆构建周围环境以制定驾驶决策的方法和系统 | |
Kulhánek et al. | Visual navigation in real-world indoor environments using end-to-end deep reinforcement learning | |
CN110239562A (zh) | 自动驾驶车辆的基于周围车辆行为的实时感知调整与驾驶调适 | |
CN109491377A (zh) | 用于自动驾驶车辆的基于dp和qp的决策和规划 | |
CN110119140A (zh) | 用于加速曲线投影的系统和方法 | |
CN109491376A (zh) | 用于自动驾驶车辆的基于动态规划和梯度下降的决策和规划 | |
JP2022547611A (ja) | 道路シーンにおける多様な長期将来軌道のシミュレーション | |
WO2020183877A1 (ja) | 情報処理装置および情報処理方法 | |
Zhu et al. | Deep learning for embodied vision navigation: A survey | |
CN113253733A (zh) | 一种基于学习和融合的导航避障方法、装置及系统 | |
US12061481B2 (en) | Robot navigation using a high-level policy model and a trained low-level policy model | |
WO2019239680A1 (ja) | 情報処理装置および情報処理方法 | |
Xue et al. | Navigation system with SLAM-based trajectory topological map and reinforcement learning-based local planner | |
US20240111259A1 (en) | Method for training an agent | |
Nguyen et al. | Autonomous navigation with mobile robots using deep learning and the robot operating system | |
Sharma | SAC-RL: Continuous Control of Wheeled Mobile Robot for Navigation in a Dynamic Environment | |
Cimurs et al. | Information-based heuristics for learned goal-driven exploration and mapping | |
Cai et al. | Intelligent Systems in Motion: A Comprehensive Review on Multi-Sensor Fusion and Information Processing From Sensing to Navigation in Path Planning | |
KR102617418B1 (ko) | 센서 구성과 로봇 형태에 적응 가능한 강화학습 기반 자율주행 방법, 컴퓨터 시스템, 및 컴퓨터 프로그램 |