JP2021143830A

JP2021143830A - 情報処理装置および情報処理方法

Info

Publication number: JP2021143830A
Application number: JP2018114295A
Authority: JP
Inventors: 由香有木; Yuka Ariki; 拓也成平; Takuya Narihira
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2018-06-15
Filing date: 2018-06-15
Publication date: 2021-09-24
Also published as: US20210256371A1; WO2019239680A1

Abstract

【課題】探索時間を大きく低減し汎用的なヒューリスティクスを学習する。【解決手段】畳み込みネットワークを用いて、経路探索に係るヒューリスティクス関数を学習する学習部、を備え、前記畳み込みネットワークは、複数の障害物マップに基づく学習を行い、前記ヒューリスティクス関数を２次元以上の画像として表現したヒューリスティクスマップを出力する、情報処理装置が提供される。また、プロセッサが、畳み込みネットワークを用いて、経路探索に係るヒューリスティクス関数を学習すること、を含み、前記畳み込みネットワークは、複数の障害物マップに基づく学習を行い、前記ヒューリスティクス関数を２次元以上の画像として表現したヒューリスティクスマップを出力する、情報処理方法が提供される。【選択図】図１

Description

本開示は、情報処理装置および情報処理方法に関する。

近年、種々の経路探索アルゴリズムが研究され、また当該アルゴリズムにより探索した経路に基づいて動作する装置が開発されている。例えば、非特許文献１には、探索アルゴリズムを用いて囲碁における次のアクションを探索するコンピュータプログラムが開示されている。

David Silver、外１９名、「Mastering the game of Go with deepneural networks and tree search」、Nature、２０１６年１月２８日、volume 529、pages 484-489

しかし、非特許文献１に記載の技術は、深層学習を用いたヒューリスティクス学習による経路探索において、価値関数および方策を求めるフレームワークであり、汎用的とは言い難く、また探索時間に改善の余地がある。

そこで、本開示では、探索時間を大きく低減し汎用的なヒューリスティクスを学習することが可能な、新規かつ改良された情報処理装置および情報処理方法を提案する。

本開示によれば、畳み込みネットワークを用いて、経路探索に係るヒューリスティクス関数を学習する学習部、を備え、前記畳み込みネットワークは、複数の障害物マップに基づく学習を行い、前記ヒューリスティクス関数を２次元以上の画像として表現したヒューリスティクスマップを出力する、情報処理装置が提供される。

また、本開示によれば、学習されたヒューリスティクス関数に基づいて経路探索を行う探索部、を備え、前記探索部は、複数の障害物マップに基づく学習により得られた、２次元以上の画像として表現された前記ヒューリスティクス関数に基づいて経路探索を行う、
情報処理装置が提供される。

また、本開示によれば、プロセッサが、畳み込みネットワークを用いて、経路探索に係るヒューリスティクス関数を学習すること、を含み、前記畳み込みネットワークは、複数の障害物マップに基づく学習を行い、前記ヒューリスティクス関数を２次元以上の画像として表現したヒューリスティクスマップを出力する、情報処理方法が提供される。

また、本開示によれば、プロセッサが、学習されたヒューリスティクス関数に基づいて経路探索を行うこと、を含み、前記経路探索を行うことは、複数の障害物マップに基づく学習により得られた、２次元以上の画像として表現された前記ヒューリスティクス関数に基づいて経路探索を行うこと、をさらに含む、情報処理方法が提供される。

以上説明したように本開示によれば、探索時間を大きく低減し汎用的なヒューリスティクスを学習することが可能となる。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態に係るヒューリスティクス学習の概要を示す図である。同実施形態に係る学習アルゴリズムについて説明するための図である。同実施形態に係る学習装置の機能構成例を示すブロック図である。同実施形態に係る探索装置の機能構成例を示すブロック図である。同実施形態に係る学習手法により得られたヒューリスティクスマップと当該ヒューリスティクスマップを用いた経路探索の結果を示す図である。同実施形態に係る学習手法により得られたヒューリスティクスマップと当該ヒューリスティクスマップを用いた経路探索の結果を示す図である。同実施形態に係る学習手法により得られたヒューリスティクスマップと当該ヒューリスティクスマップを用いた経路探索の結果を示す図である。同実施形態に係る学習手法により得られたヒューリスティクスマップと当該ヒューリスティクスマップを用いた経路探索の結果を示す図である。同実施形態に係る各環境における探索結果の分布を示す散布図である。同実施形態に係る各環境における探索結果の分布を示す散布図である。同実施形態に係る各環境における探索結果の分布を示す散布図である。同実施形態に係る各環境における探索結果の分布を示す散布図である。同実施形態に係るヒューリスティクスマップを用いた経路探索をマニピュレータに適応した場合の一例について説明するための図である。同実施形態に係るヒューリスティクスマップを用いた経路探索を自動運転車に適応した場合の一例について説明するための図である。本開示の一実施形態に係るハードウェア構成例を示す図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．実施形態
１．１．学習手法
１．２．学習装置１０の機能構成例
１．３．探索装置２０の機能構成例
１．４．効果
１．５．適用例
２．ハードウェア構成例
３．まとめ

＜１．実施形態＞
＜＜１．１．学習手法＞＞
まず、本開示の一実施形態の概要について説明する。上述したように、近年では、探索アルゴリズムを用いた経路探索の結果に基づいて動作する装置が開発されている。上記のような装置には、例えば、自律ナビゲーションロボットや各種のマニピュレータが挙げられる。

また、探索アルゴリズムの一例としては、例えば、Ａ＊探索アルゴリズムやＲＲＴ（ＲａｐｉｄｌｙｅｘｐｌｏｒｉｎｇＲａｎｄｏｍＴｒｅｅ）が挙げられる。Ａ＊やＲＲＴなどの探索アルゴリズムは、ヒューリスティクス関数を用いて経路探索を行う。

通常、自律ナビゲーションロボットやマニピュレーションに係るグローバルな経路計画（ｐａｔｈｐｌａｎｎｉｎｇ）では、探索に少なくない時間を要するが、ここで、探索時間を低減し、また探索精度を向上させるためには、上記のヒューリスティクス関数の設定が重要となる。

一般的に、経路計画問題を解くためのヒューリスティクス関数は、実験者により設定される場合が多い。しかし、経路やタスクが複雑となるほど、適切なヒューリスティクス関数を設定することは困難となり、人手により最適なヒューリスティクス関数を求めるには限界がある。

本開示に係る技術思想は、上記の点に着目して発想されたものであり、探索時間を大きく低減し汎用的なヒューリスティクスを学習することを可能とする。このために、本開示の一実施形態に係る情報処理方法を実現する学習装置１０は、畳み込みネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いて、経路探索に係るヒューリスティクス関数を学習する学習部１２０を備える。また、本開示の一実施形態に係るＣＮＮは、複数の障害物マップに基づく学習を行い、ヒューリスティクス関数を２次元以上の画像として表現したヒューリスティクスマップを出力すること、を特徴の一つとする。

このように、本開示の一実施形態に係るＣＮＮは、ヒューリスティクス関数を画像とした表現したヒューリスティクスマップとして出力することが可能である。当該特徴によれば、これまで、数式として表現されていたヒューリスティクス関数を画像として可視化することができ、実験者などが直観的にヒューリスティクスの分布を把握することが可能となる。

ここで、まず、本開示の一実施形態に係るグラフ探索について概要を説明する。本開示の一実施形態に係る情報処理方法では、グラフＧ＝＜Ｖ，Ｅ＞における探索ベースの経路計画を基礎として考える。この際、本開示の一実施形態に係るグラフ探索は、開始ノードＶ_ｓから開始される。各ノードの評価においては、Ｓｕｃｃ（Ｖ）により次の探索候補が拡張され、後続エッジおよび子頂点が返される。

まず、始めに、探索候補頂点がＶａｌｉｄ（ｅ，ｖ，φ）により与えられる。ここで、ｅは環境を示し、φに応じた障害物によって値が決定され、Ｆａｌｓｅが返される。次に、探索候補はＳｃｏｒｅ（ｖ，φ）により評価され、後の頂点オープンリストのスコアによって優先順位付けされたキュー（オープンリスト）：０に、スコアと頂点の組が、ゴールＶ_ｇが見つかるか、または頂点がなくなるまで繰り返し挿入される。

この際、現在評価が行われている頂点のｃｏｓｔ−ｓｏ−ｆａｒ値によって定義されるスコア関数は、例えば、ダイクストラ探索アルゴリズムでは、下記の数式（１）となる。なお、上記のｃｏｓｔ−ｓｏ−ｆａｒ値とは、探索時点に見つかっている最短経路に沿った累積コストを示す。

また、本開示の一実施形態に係る情報処理方法では、探索ヒューリスティクス関数ｈ（ｖ，φ）を定義することにより、下記の数式（２）に示すスコア関数からＡ＊探索アルゴリズムを導出することができる。

また、本開示の一実施形態においては、ｇｒｅｅｄｙ探索アルゴリズムとしてのヒューリスティクスのみに依存した探索を下記の数式（３）により定義する。

続いて、本開示の一実施形態に係るＣＮＮを用いたヒューリスティクス学習について説明する。本開示の一実施形態に係る情報処理方法によれば、探索コストを最小限に抑える（探索中の頂点候補のオープン数を最小限とする）優れたヒューリスティクス関数を学習することが可能となる。

図１は、本開示の一実施形態に係るヒューリスティクス学習の概要を示す図である。図１に示すように、本開示の一実施形態に係る情報処理方法では、障害物マップとコスト関数の両方、またはいずれか一方を環境として取り込み、抽出した特徴マップをＣＮＮに入力することで、グラフの各ノードのヒューリスティクス値を予測する。本開示の一実施形態に係るＣＮＮは、各ノードに係る予測ヒューリスティクス値を、２次元以上の画像として表現したヒューリスティクスマップとして出力することができる。

また、ヒューリスティクスマップが含む予測ヒューリスティクス値は、グラフ探索ベースのプランナ（後述する探索装置２０に対応する）において、ヒューリスティクス関数ｈ（ｖ，φ）として用いられる。プランナは、ＣＮＮにより出力されたヒューリスティクスマップと任意の探索アルゴリズムに基づいて、経路計画を高速に行うことが可能である。

なお、本開示の一実施形態に係るＣＮＮは、全層畳み込みネットワーク（ＦＣＮ：ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）であってもよい。本開示の一実施形態に係るＦＣＮによれば、グラフ内のすべてのノードに係るヒューリスティクス値を同時に予測することが可能である（単一ショット推論）。

一方、本開示の一実施形態に係るＣＮＮは、例えば、ＧＰＧＰＵ（Ｇｅｎｅｒａｌ−ＰｕｒｐｏｓｅＣｏｍｐｕｔｉｎｇＯｎＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ）の実装によりｃｕＤＮＮなどで実現されてもよい。

また、本開示の一実施形態に係るＣＮＮを用いたヒューリスティクス学習では、学習用のプランナを用いてヒューリスティクス値を生成し、ＣＮＮによる学習において予測ヒューリスティクス値のターゲットとして用いる。以下では、３つの学習アルゴリズムを例示する。図２は、本開示の一実施形態に係る学習アルゴリズムについて説明するための図である。

１つ目は、逆方向ダイクストラ（ｂａｃｋｗａｒｄＤｉｊｋｓｔｒａ）法による高密度ターゲット学習である。本開示の一実施形態に係る逆方向ダイクストラ法による高密度ターゲット学習において、ＣＮＮは、各ノードの予測コストと目標コストの二乗誤差を最小限に抑えることにより、ヒューリスティクスを直接学習することが可能である。

この際、頂点のコストは、目標への最短経路に沿った累積コスト（ｃｏｓｔ−ｓｏ−ｆａｒ値）として定義される。逆方向ダイクストラ法によれば、グラフ内のすべての有効頂点に係るｃｏｓｔ−ｓｏ−ｆａｒ値を算出することが可能である。

また、本開示の一実施形態に係る逆方向ダイクストラ法による高密度ターゲット学習では、下記の数式（４）に示す損失関数（Ｌｏｓｓｆｕｎｃｔｉｏｎ）を最小化することで学習が行われる。

ここで、上記の数式（４）におけるＨは、逆方向ダイクストラ法によって生成される目標コスト値マップ（ｃｏｓｔ−ｔｏ−ｇｏ値マップ、図２におけるＧｒｏｕｎｄＴｒｕｔｈＨｅｕｒｉｓｔｉｃｓｆｕｎｃｔｉｏｎに対応）を表し、またＭは、逆方向ダイクストラ探索が訪問できない無効な頂点（例えば、障害物に占領されたエリアや障害物に囲まれたエリア）を無視するためのマスクを表す。

次に、２つ目の学習アルゴリズムについて説明する。本開示の一実施形態に係る２つ目の学習アルゴリズムは、Ａ＊探索アルゴリズムによるターゲット学習である。上述した逆方向ダイクストラ法は、グラフ内のすべての有効頂点に係るｃｏｓｔ−ｓｏ−ｆａｒ値を算出するため、大規模な問題（例えば、巨大な２Ｄグリッドマップや高次元マップにおける経路計画問題）では、計算時間が長くなることが多く、ヒューリスティクス学習においてボトルネックとなりがちである。

このため、本開示の一実施形態では、ランダムにサンプリングされた開始位置と終了位置を与えられたＡ＊探索アルゴリズムによる最短経路に属する頂点の目標コスト値のみに依存する学習手法を提案する。

Ａ＊探索アルゴリズムは、ダイクストラ法および逆ダイクストラ法のどちらよりもはるかに高速であり、環境変化に関するデータ修正をより効率的に実現することが可能である。なお、逆ダイクストラ法を用いる場合と同様に、上記の数式（４）が損失関数として用いられる。一方、Ａ＊探索アルゴリズムを用いる場合、マスクＭは、経路沿いの頂点においてのみ１となる。

次に、３つ目の学習アルゴリズムについて説明する。本開示の一実施形態に係る３つ目の学習アルゴリズムは、ＴＤ（Ｔｅｍｐｏｒａｌｄｉｆｆｅｒｅｎｃｅ）誤差最小化によるターゲット学習である。本開示の一実施形態に係るＴＤ誤差最小化によるターゲット学習によれば、上述したＡ＊探索アルゴリズムを用いた場合のように疎なターゲット信号により学習結果が貧弱となる可能性を改善することが可能となる。

本開示の一実施形態に係るＴＤ誤差最小化によるターゲット学習では、ＴＤ学習手法と、Ａ＊探索アルゴリズムなどの疎な教師信号を用いた学習手法とが組み合わせで用いられる。この際、ＴＤ誤差は、下記の数式（５）に示すように、価値反復（ＶａｌｕｅＩｔｅｒａｔｉｏｎ）の単一ステップによりｈを更新することで取得することができる。

この際、^〜ｈ（ｖ）は、現在の予測ヒューリスティクス値ｈ（ｖ，φ）、^〜ｈ（ｖ_ｇ）＝０、^〜ｈ（ｖ∈Ｖ_{ｉｎｖａｌｉｄ}）＝∞、として初期化される。価値反復はオフポリシーアルゴリズムであるため、グラフにおけるすべての頂点をサンプリングすることが可能である。

なお、本開示の一実施形態では、より密度の高い目標コスト値（ｃｏｓｔ−ｔｏ−ｇｏ値）を得るために、一度の価値反復更新のみが実行される。また、損失関数は、更新されたｃｏｓｔ−ｔｏ−ｇｏ推定^〜ｈ（ｖ）を用いて、下記の数式（６）により表される。

ここで、上記の数式（６）におけるＭ_ＴＤ（ｖ）は、Ｍ∩Ｖ_{ｖａｌｉｄ}において１、その他において０であり、またλバランスはＴＤ最小化損失に係る重みである。

続いて、本開示の一実施形態に係るＣＮＮについて詳細に説明する。上述したように、本開示の一実施形態に係るＣＮＮは、複数の２次元以上の障害物マップに基づく学習を行い、ヒューリスティクス関数を２次元以上の画像として表現したヒューリスティクスマップを出力することができる。

この際、ＣＮＮは、上記の障害物マップと同一次元の画像として表現したヒューリスティクスマップを出力してよい。

より具体的には、本開示の一実施形態に係るＣＮＮには、２次元以上の障害物マップに基づいて抽出された特徴量マップが入力される。ここで、上記の特徴量マップは、２次元以上のマップ、上記２次元以上のマップにおける障害物情報、上記２次元以上のマップにおける経路情報を含んでよい。

なお、上記の障害物情報は、例えば、障害物からの距離に係る情報などを含んでよい。また、上記の経路情報は、ゴール地点までのコストに係る情報などを含んでよい。ゴール地点までのコストは、例えば、ゴール地点までの距離により表されてもよい。また、ゴール地点までの距離は、例えば、チャネルとして画像に付与されてもよい。

本開示の一実施形態に係るＣＮＮは、エンコーダＣＮＮとデコーダＣＮＮの２つのパートから成る。

エンコーダＣＮＮは、３つのＣｏｎｖｏｌｕｔｉｏｎモジュールを含み、各モジュールのチャネル数は、それぞれ１６、３２、６４である。

また、各Ｃｏｎｖｏｌｕｔｉｏｎモジュールは、３つのＣｏｎｖｏｌｕｔｉｏｎ層を有し、各Ｃｏｎｖｏｌｕｔｉｏｎ層の後ろには、ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎとＬｅａｋｙＲｅＬＵが配置される。

また、３つのＣｏｎｖｏｌｕｔｉｏｎ層のうち、最初のＣｏｎｖｏｌｕｔｉｏｎ層のストライド幅は、例えば２であってよい。また、カーネルのＤｉｌａｔｉｏｎＦａｃｔｏｒは、１〜３にインクリメントされる。

一方、デコーダＣＮＮは、３つのＤｅｃｏｎｖｏｌｕｔｉｏｎモジュールを含む。Ｄｅｃｏｎｖｏｌｕｔｉｏｎモジュールは、最初の層がＤｅｃｏｎｖｏｌｕｔｉｏｎ層であること以外は、基本的にＣｏｎｖｏｌｕｔｉｏｎモジュールと類似の構成を有する。なお、カーネルサイズは４×４でありＵｐｓｃａｌｉｎｇＦａｃｔｏｒは２であってもよい。

なお、各モジュールのチャネル数は、それぞれ、３２、１６、１６である。ただし、最後のモジュールは１チャネルの出力でヒューリスティクスマップを出力する。

以上、本開示の一実施形態に係るＣＮＮの構成について説明した。本開示の一実施形態によれば、人手を介さずにヒューリスティクス関数を容易定義することができ、また３次元などの複雑な経路やタスクにも適用が可能な汎用的なヒューリスティクス関数を得ることが可能となる。

また、本開示の一実施形態に係るＣＮＮによれば、例えば、２次元の画像から２次元画像として表現されるヒューリスティクス関数を、３次元の画像から３次元画像として表現されるヒューリスティクス関数を出力することができ、入力される画像のサイズに依らず直接的かつ簡素に学習することが可能である。

＜＜１．２．学習装置１０の機能構成例＞＞
続いて、本開示の一実施形態に係る学習装置１０の機能構成例について説明する。本開示の一実施形態に係る学習装置１０は、上述したＣＮＮを用いてヒューリスティクス学習を行い、ヒューリスティクス関数を２次元以上の画像として表現したヒューリスティクスマップを出力する情報処理装置である。図３は、本開示の一実施形態に係る学習装置１０の機能構成例を示すブロック図である。図３を参照すると、本開示の一実施形態に係る学習装置１０は、入力部１１０、学習部１２０、記憶部１３０、および表示部１４０を備える。

（入力部１１０）
本開示の一実施形態に係る入力部１１０は、画像や各種のデータ、ユーザの操作情報などを受け付ける。本開示の一実施形態に係る入力部１１０は、例えば、キーボード、マウス、タッチパネルなどを備える。

（学習部１２０）
本開示の一実施形態に係る学習部１２０は、ＣＣＮを用いて、経路探索に係るヒューリスティクス関数を学習する機能を有する。上述したように、本開示の一実施形態に係るＣＮＮは、複数の障害物マップに基づく学習を行い、ヒューリスティクス関数を２次元以上の画像として表現したヒューリスティクスマップを出力すること、を特徴の一つとする。

（記憶部１３０）
本開示の一実施形態に係る記憶部１３０は、学習装置１０が備える各構成で用いられるプログラムやデータなどを記憶する。本開示の一実施形態に係る記憶部１３０は、例えば、ＣＮＮに係る各種のパラメータや、ＣＮＮが出力するヒューリスティクスマップなどを記憶する。

（表示部１４０）
本開示の一実施形態に係る表示部１４０は、各種の視覚情報を表示する。このために、本開示の一実施形態に係る表示部１４０は、視覚情報を提示する表示デバイスなどを備える。上記の表示デバイスには、例えば、液晶ディスプレイ（ＬＣＤ：ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）装置、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置、タッチパネルなどが挙げられる。

本開示の一実施形態に係る表示部１４０は、例えば、ＣＮＮによる学習の過程や、ＣＮＮが出力するヒューリスティクスマップなどを表示する。

以上、本開示の一実施形態に係る学習装置１０の機能構成例について説明した。なお、図３を用いて説明した上記の構成はあくまで一例であり、本開示の一実施形態に係る学習装置１０の機能構成は係る例に限定されない。本開示の一実施形態に係る学習装置１０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

＜＜１．３．探索装置２０の機能構成例＞＞
次に、本開示の一実施形態に係る探索装置２０の機能構成例について説明する。本開示の一実施形態に係る探索装置２０は、学習装置１０が生成したヒューリスティクスマップと任意の探索アルゴリズムを用いて、経路探索を行う情報処理装置である。本開示の一実施形態に係る探索装置２０は、例えば、各種の自律ナビゲーションロボットやマニピュレータなどであってよい。

図４は、本開示の一実施形態に係る探索装置２０の機能構成例を示すブロック図である。図４を参照すると、本開示の一実施形態に係る探索装置２０は、入力部２１０、センサ部２２０、探索部２３０、記憶部２４０、および制御部２５０を備える。

（入力部２１０）
本開示の一実施形態に係る入力部２１０は、ヒューリスティックマップを含む画像や各種のデータ、ユーザの操作情報などを受け付ける。ユーザは、例えば、入力部２１０を介して、ゴール地点などを設定することができる。本開示の一実施形態に係る入力部２１０は、例えば、キーボード、マウス、タッチパネル、ボタンなどを備える。

（センサ部２２０）
本開示の一実施形態に係るセンサ部２２０は、周囲環境の状態をセンシングする機能を有する。本開示の一実施形態に係るセンサ部２２０は、例えば、撮像センサ、赤外線センサを含む各種の光センサ、加速度センサ、ジャイロセンサ、地磁気センサ、熱センサ、振動センサ、ＧＮＳＳ（ＧｌｏｂａｌＮａｖｉｇａｔｉｏｎＳａｔｅｌｌｉｔｅＳｙｓｔｅｍ）信号受信装置などを備える。

また、本開示の一実施形態に係るセンサ部２２０は、収集したセンサ情報に基づいて、周囲環境の状態推定や、障害物の認識、自己位置推定などを行ってよい。

（探索部２３０）
本開示の一実施形態に係る探索部２３０は、学習装置１０により学習されたヒューリスティクス関数に基づいて経路探索を行う機能を有する。より具体的には、本開示の一実施形態に係る探索部２３０は、複数の障害物マップに基づく学習により得られた、２次元以上の画像として表現されたヒューリスティクスマップに基づいて経路探索を行うこと、を特徴の一つとする。

本開示の一実施形態に係る探索部２３０が有する上記の特徴によれば、探索に要するステップを大幅に低減し、タスク全体の高速化を実現するとともに、探索装置２０が適格な状況把握に基づいて動作を行うことが可能となり、知的制御の著しい高度化を達成することができる。

なお、本開示の一実施形態に係る探索部２３０は、学習装置１０により学習されたヒューリスティクスマップと任意の探索アルゴリズムを用いて経路探索を行ってよい。上記の探索アルゴリズムには、例えば、Ａ＊探索アルゴリズムが挙げられる。

（記憶部２４０）
本開示の一実施形態に係る記憶部２４０は、探索装置２０が備える各構成で用いられるプログラムやデータなどを記憶する。本開示の一実施形態に係る記憶部２４０は、例えば、マップ情報やゴール設定、ヒューリスティクスマップなどを記憶する。

（制御部２５０）
本開示の一実施形態に係る制御部２５０は、探索部２３０が探索した経路に基づいて、探索装置２０の特定に応じた動作制御を行う。例えば、探索装置２０が自動車である場合、制御部２５０は、ステアリング、アクセル、ブレーキなどを制御し、自動運転を実現する。また、例えば、探索装置２０がマニピュレータである場合、制御部２５０は、各関節のアクチュエータを制御し、任意のタスクを実現する。

以上、本開示の一実施形態に係る探索装置２０の機能構成例について説明した。なお、図４を用いて説明した上記の機能構成はあくまで一例であり、本開示の一実施形態に係る探索装置２０の機能構成は係る例に限定されない。本開示の一実施形態に係る探索装置２０は、例えば、装置の特性に応じた、制御部２５０の制御対象となる構成を備えてもよい。本開示の一実施形態に係る探索装置２０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

＜＜１．４．効果＞＞
次に、本開示の一実施形態に係るヒューリスティクスマップを用いた経路探索の効果について説明する。以下、本開示の一実施形態に係る学習手法の有用性を実証するための実験データについて述べる。ここでは、上述した学習手法により得たヒューリスティクスを、ＳａＩＬデータセットを用いたトイプロブレム（Ｔｏｙｐｒｏｂｌｅｍ）に適用した。

なお、トイプロブレムにおいては、障害物を含む２次元のグリッドワールドにおけるロボットのナビゲーションタスクを設計し、ベースラインとしてダイクストラ法を用いた学習（ＦｕｌｌＤｉｊｋｓｔｒａＳｕｐｅｒｖｉｓｅｄＬｅａｒｎｉｎｇ：ＦＤＳＬ）、Ａ＊探索アルゴリズムを用いた学習（ＯｐｔｉｍａｌＰｌａｎｎｅｒＳｕｐｅｒｖｉｓｅｄＬｅａｒｎｉｎｇ：ＯＰＳＬ）によりサンプリングされたヒューリスティクス関数を用いた。

また、本開示の一実施形態では、スタート地点およびゴール地点を設定した４つの環境において実験を行った。データは、ダイクストラ法を用いたプランナ、Ａ＊探査アルゴリズムを用いたプランナによりサンプリングされ、本開示の一実施形態に係るＣＮＮによるＦＤＳＬまたはＯＰＳＬを経たに、Ａ＊探索アルゴリズムまたはｇｒｅｅｄｙアルゴリズムにより検証された。

図５〜図８は、本開示の一実施形態に係る学習手法により得られたヒューリスティクスマップと当該ヒューリスティクスマップを用いた経路探索の結果を示す図である。なお、図５〜図８では、ＯＰＳＬにより学習されたヒューリスティクスマップに係る実験の結果を示している。

ここで、図５は、Ｓｈｉｆｔｉｎｇｇａｐ環境に係る実験の結果を示す図である。図６は、ＢｕｇｔｒａｐａｎｄＦｏｒｅｓｔ環境に係る実験の結果を示す図である。図７は、Ｆｏｒｅｓｔに係る実験の結果を示す図である。また、図８は、ＧａｐａｎｄＦｏｒｅｓｔに係る実験の結果を示す図である。

図５〜図８では、左から順に、入力画像ＩＮ、本開示の一実施形態に係るＣＮＮにより出力されたヒューリスティクスマップＨＭ、ターゲットヒューリスティクス関数ＴＨ、および探索結果ＰＰが示されている。

また図５〜図８において、探索結果ＰＰには、探索ステップ数が併せて示されている。なお、図中のｅは従来のＡ＊探索アルゴリズム（Ａ＊およびユークリッド距離ヒューリスティクス）による探索結果を、ｅｇは従来のｇｒｅｅｄｙアルゴリズム（ｇｒｅｅｄｙおよびユークリッド距離ヒューリスティクス）による探索結果を、ｙは本開示の一実施形態に係る学習手法により得られたヒューリスティクスマップを用いたＡ＊探索アルゴリズムによる探索結果を、ｙｇは本開示の一実施形態に係る学習手法により得られたヒューリスティクスマップを用いたｇｒｅｅｄｙアルゴリズムによる探索結果を、それぞれ示している。また、図中におけるｔおよびｔｇは、それぞれダイクストラ法およびＡ＊探索アルゴリズムを用いたターゲット、ダイクストラ法およびｇｒｅｅｄｙアルゴリズムを用いたターゲットを、それぞれ示している。

図５〜図８に示す探索結果ＰＰに着目すると、いずれの環境においても、本開示の一実施形態に係る学習手法により得られたヒューリスティクスマップを用いた探索が、従来手法と比較して有利な結果を示している。例えば、図５におけるｅとｙを比較すると、それぞれの探索ステップ数は、３７０３９、１１２３であり、本開示の一実施形態に係る学習手法によれば、探索ステップ数が、約９７％も削減できることがわかる。また、図５におけるｅｇおよびｙｇを比較した場合、本開示の一実施形態に係る学習手法により、探索ステップ数が、実に９９％以上改善していることがわかる。

このように、本開示の一実施形態に係る情報処理方法を用いたヒューリスティクス学習によれば、経路探索に用いるヒューリスティクスを効率的に学習し、探索スピードを劇的に高速化することが可能となる。

また、図９〜図１２は、各環境における探索結果の分布を示す散布図である。図９は、Ｓｈｉｆｔｉｎｇｇａｐ環境に係る実験の結果を示す図である。図１０は、ＢｕｇｔｒａｐａｎｄＦｏｒｅｓｔ環境に係る実験の結果を示す図である。図１１は、Ｆｏｒｅｓｔに係る実験の結果を示す図である。また、図１２は、ＧａｐａｎｄＦｏｒｅｓｔに係る実験の結果を示す図である。

図９〜図１２では、左から順に従来のユークリッド距離ヒューリスティクスによる探索ステップ数、本開示の一実施形態に係るＯＰＳＬにより得られたヒューリスティクスマップによる探索ステップ数、本開示の一実施形態に係るＯＰＳＬおよびＴＤ誤差最小化により得られたヒューリスティクスマップによる探索ステップ数、また本開示の一実施形態に係るＦＤＳＬにより得られたヒューリスティクスマップによる探索ステップ数が、それぞれ示されている。

図９〜図１２を参照すると、本開示の一実施形態に係るヒューリスティクスマップを用いた探索は、いずれの学習手法を用いた場合であっても、従来のユークリッド距離ヒューリスティクスによる探索に対し、大きな優位性を持つことがわかる。

以上、本開示の一実施形態に係るヒューリスティクスマップを用いた経路探索の効果について説明した。上記で示したように、本開示の一実施形態に係るヒューリスティクス学習によれば、経路探索に係る探索時間を劇的に低減し、汎用的なヒューリスティクスを学習することが可能となる。

＜＜１．５．適用例＞＞
以上説明したように、本開示の一実施形態に係るヒューリスティクスマップを用いた経路探索によれば、探索ステップを大幅に低減し、探索装置２０が実行するタスク全体を高速化することが可能となる。

ここで、本開示の一実施形態に係るヒューリスティクスマップを用いた経路探索の適用例を示す。図１３は、本開示の一実施形態に係るヒューリスティクスマップを用いた経路探索を自動運転車に適応した場合の一例について説明するための図である。

図１３には、自動運転車である探索装置２０が、駐車スペースへの駐車をタスクとした自動運転を行う場合の一例が示されている。

この際、探索装置２０は、センサ部２２０が認識した周囲環境や、他の車である障害物Ｏ１およびＯ２の状態変化に対応した経路探索をヒューリスティクスマップを用いて実行する。

例えば、探索装置２０は、図示するように、自動車である障害物Ｏ２が、対向して走行している場合、図中左の駐車スペースをゴール地点として自律的に設定し、また当該ゴール地点に至るまでの経路を探索する。

一方、この後、障害物Ｏ１が対向して走行してきた場合、当初ゴール地点として設定した図中左の駐車スペースへの走行の間に障害物Ｏ１との衝突の可能性が生じることから、探索装置２０は、再度経路探索を実行し、図中右側の駐車スペースへの移動や、バック、前方で停止する、などの判断を行うことができる。

この際、本開示の一実施形態に係る探索装置２０は、上述のヒューリスティクスマップを用いた経路探索を行うことで、上記の判断を高速に行うことが可能である。このように、本開示の一実施形態に係るヒューリスティクスマップを用いた経路探索を行うことで、例えば、自動運転車が、自動車や歩行者などの飛び出しに遭遇した場合であっても、回避経路を高速で探索することができ、より安全な自動運転を実現することが可能となる。

また、図１４は、本開示の一実施形態に係るヒューリスティクスマップを用いた経路探索をマニピュレータに適応した場合の一例について説明するための図である。

図１４には、マニピュレータである探索装置２０が、障害物Ｏ１およびＯ２が存在する環境で、ボールＢのピッキングに係るタスクを実行する場合の一例が示されている。

このように、本開示の一実施形態に係るヒューリスティクスマップを用いた経路探索は、２次元に限定されず、３次元における軌道制御にも適用可能である。この際、本開示の一実施形態に係る学習装置１０は、３次元マップを入力とし、３次元の画像として表現されるヒューリスティクスマップを出力してよい。

また、図１３に示した自動運転の場合と同様に、マニピュレータである探索装置２０は、周囲環境や障害物の状態変化に応じて動的に経路探索を行ってよい。例えば、図１４に示す障害物Ｏ１およびＯ２、またボールＢは、可動性を有する物体であってもよい。

この場合であっても、探索装置２０は、センサ部２２０が認識した障害物Ｏ１およびＯ２、ボールＢの状態変化に対応して動的に経路を再探索し、探索結果に基づいてタスクを完遂することが可能である。

このように、本開示の一実施形態に係るヒューリスティクスマップを用いた経路探索は、人手による設定が困難である３次元の軌道制御にも適用が可能である。本開示の一実施形態に係るヒューリスティクスマップを用いた経路探索によれば、例えば、医療ロボットによる手術を行う際に複数の医療用アームがそれぞれ自律的に動作する状況において、医療用アーム間の衝突を避けるための軌道を高速で探索し、より安全な手術を実現することなどが可能となる。

＜２．ハードウェア構成例＞
次に、本開示の一実施形態に係る学習装置１０および探索装置２０に共通するハードウェア構成例について説明する。図１５は、本開示の一実施形態に係る学習装置１０および探索装置２０のハードウェア構成例を示すブロック図である。図１５を参照すると、学習装置１０および探索装置２０は、例えば、プロセッサ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

（プロセッサ８７１）
プロセッサ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

（ＲＯＭ８７２、ＲＡＭ８７３）
ＲＯＭ８７２は、プロセッサ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、プロセッサ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
プロセッサ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

（入力装置８７８）
入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８７８には、マイクロフォンなどの音声入力装置が含まれる。

（出力装置８７９）
出力装置８７９は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置８７９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。

（ストレージ８８０）
ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

（ドライブ８８１）
ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

（リムーバブル記録媒体９０１）
リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ−ｒａｙ（登録商標）メディア、ＨＤＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

（接続ポート８８２）
接続ポート８８２は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）、ＲＳ−２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

（外部接続機器９０２）
外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

（通信装置８８３）
通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ、又は各種通信用のモデム等である。

＜３．まとめ＞
以上説明したように、本開示の一実施形態に係る情報処理方法を実現する学習装置１０は、畳み込みネットワークを用いて、経路探索に係るヒューリスティクス関数を学習する学習部１２０を備える。また、本開示の一実施形態に係るＣＮＮは、複数の障害物マップに基づく学習を行い、ヒューリスティクス関数を２次元以上の画像として表現したヒューリスティクスマップを出力すること、を特徴の一つとする。係る構成によれば、探索時間を大きく低減し汎用的なヒューリスティクスを学習することが可能となる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

また、コンピュータに内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアに、学習装置１０または探索装置２０が有する構成と同等の機能を発揮させるためのプログラムも作成可能であり、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
畳み込みネットワークを用いて、経路探索に係るヒューリスティクス関数を学習する学習部、
を備え、
前記畳み込みネットワークは、複数の障害物マップに基づく学習を行い、前記ヒューリスティクス関数を２次元以上の画像として表現したヒューリスティクスマップを出力する、
情報処理装置。
（２）
前記畳み込みネットワークは、前記障害物マップと同一次元の画像として表現した前記ヒューリスティクスマップを出力する、
前記（１）に記載の情報処理装置。
（３）
前記畳み込みネットワークは、前記障害物マップに基づいて抽出された特徴量マップを入力とし、前記ヒューリスティクスマップを出力する、
前記（１）または（２）に記載の情報処理装置。
（４）
前記特徴量マップは、２次元以上のマップ、前記２次元以上のマップにおける障害物情報、および前記２次元以上のマップにおける経路情報を含む、
前記（３）に記載の情報処理装置。
（５）
前記経路情報は、少なくともゴール地点までのコストに係る情報を含む、
前記（４）に記載の情報処理装置。
（６）
前記ゴール地点までのコストは、ゴール地点までの距離である、
前記（５）に記載の情報処理装置。
（７）
前記障害物情報は、少なくとも障害物からの距離に係る情報を含む、
前記（４）に記載の情報処理装置。
（８）
前記畳み込みネットワークは、逆方向ダイクストラ法によるターゲット学習を行い、前記ヒューリスティクスマップを出力する、
前記（１）〜（７）のいずれかに記載の情報処理装置。
（９）
前記畳み込みネットワークは、Ａ＊探索アルゴリズムによるターゲット学習を行い、前記ヒューリスティクスマップを出力する、
前記（１）〜（８）のいずれかに記載の情報処理装置。
（１０）
前記畳み込みネットワークは、ＴＤ誤差最小化によるターゲット学習を行い、前記ヒューリスティクスマップを出力する、
前記（１）〜（９）のいずれかに記載の情報処理装置。
（１１）
前記畳み込みネットワークは、ＴＤ学習と、Ａ＊探索アルゴリズムにより得られたコスト値を教師とした教師あり学習とを組み合わせて、前記ＴＤ誤差最小化によるターゲット学習を行う、
前記（１０）に記載の情報処理装置。
（１２）
前記畳み込みネットワークは、全層畳み込みネットワークである、
前記（１）〜（１１）のいずれかに記載の情報処理装置。
（１３）
前記畳み込みネットワークは、エンコーダとデコーダを含む、
前記（１）〜（１２）のいずれかに記載の情報処理装置。
（１４）
学習されたヒューリスティクス関数に基づいて経路探索を行う探索部、
を備え、
前記探索部は、複数の障害物マップに基づく学習により得られた、２次元以上の画像として表現された前記ヒューリスティクス関数に基づいて経路探索を行う、
情報処理装置。
（１５）
プロセッサが、畳み込みネットワークを用いて、経路探索に係るヒューリスティクス関数を学習すること、
を含み、
前記畳み込みネットワークは、複数の障害物マップに基づく学習を行い、前記ヒューリスティクス関数を２次元以上の画像として表現したヒューリスティクスマップを出力する、
情報処理方法。
（１６）
プロセッサが、学習されたヒューリスティクス関数に基づいて経路探索を行うこと、
を含み、
前記経路探索を行うことは、複数の障害物マップに基づく学習により得られた、２次元以上の画像として表現された前記ヒューリスティクス関数に基づいて経路探索を行うこと、をさらに含む、
情報処理方法。

１０学習装置
１１０入力部
１２０学習部
１３０記憶部
１４０表示部
２０探索装置
２１０入力部
２２０センサ部
２３０探索部
２４０記憶部
２５０制御部

Claims

畳み込みネットワークを用いて、経路探索に係るヒューリスティクス関数を学習する学習部、
を備え、
前記畳み込みネットワークは、複数の障害物マップに基づく学習を行い、前記ヒューリスティクス関数を２次元以上の画像として表現したヒューリスティクスマップを出力する、
情報処理装置。
前記畳み込みネットワークは、前記障害物マップと同一次元の画像として表現した前記ヒューリスティクスマップを出力する、
請求項１に記載の情報処理装置。
前記畳み込みネットワークは、前記障害物マップに基づいて抽出された特徴量マップを入力とし、前記ヒューリスティクスマップを出力する、
請求項１または２に記載の情報処理装置。
前記特徴量マップは、２次元以上のマップ、前記２次元以上のマップにおける障害物情報、および前記２次元以上のマップにおける経路情報を含む、
請求項３に記載の情報処理装置。
前記経路情報は、少なくともゴール地点までのコストに係る情報を含む、
請求項４に記載の情報処理装置。
前記ゴール地点までのコストは、ゴール地点までの距離である、
請求項５に記載の情報処理装置。
前記障害物情報は、少なくとも障害物からの距離に係る情報を含む、
請求項４に記載の情報処理装置。
前記畳み込みネットワークは、逆方向ダイクストラ法によるターゲット学習を行い、前記ヒューリスティクスマップを出力する、
請求項１に記載の情報処理装置。
前記畳み込みネットワークは、Ａ＊探索アルゴリズムによるターゲット学習を行い、前記ヒューリスティクスマップを出力する、
請求項１に記載の情報処理装置。
前記畳み込みネットワークは、ＴＤ誤差最小化によるターゲット学習を行い、前記ヒューリスティクスマップを出力する、
請求項１に記載の情報処理装置。
前記畳み込みネットワークは、ＴＤ学習と、Ａ＊探索アルゴリズムにより得られたコスト値を教師とした教師あり学習とを組み合わせて、前記ＴＤ誤差最小化によるターゲット学習を行う、
請求項１０に記載の情報処理装置。
前記畳み込みネットワークは、全層畳み込みネットワークである、
請求項１に記載の情報処理装置。
前記畳み込みネットワークは、エンコーダとデコーダを含む、
請求項１に記載の情報処理装置。
学習されたヒューリスティクス関数に基づいて経路探索を行う探索部、
を備え、
前記探索部は、複数の障害物マップに基づく学習により得られた、２次元以上の画像として表現された前記ヒューリスティクス関数に基づいて経路探索を行う、
情報処理装置。
プロセッサが、畳み込みネットワークを用いて、経路探索に係るヒューリスティクス関数を学習すること、
を含み、
前記畳み込みネットワークは、複数の障害物マップに基づく学習を行い、前記ヒューリスティクス関数を２次元以上の画像として表現したヒューリスティクスマップを出力する、
情報処理方法。
プロセッサが、学習されたヒューリスティクス関数に基づいて経路探索を行うこと、
を含み、
前記経路探索を行うことは、複数の障害物マップに基づく学習により得られた、２次元以上の画像として表現された前記ヒューリスティクス関数に基づいて経路探索を行うこと、をさらに含む、
情報処理方法。