JP2021135770A - 情報処理装置及び情報処理方法、コンピュータプログラム、並びに観測装置 - Google Patents
情報処理装置及び情報処理方法、コンピュータプログラム、並びに観測装置 Download PDFInfo
- Publication number
- JP2021135770A JP2021135770A JP2020031819A JP2020031819A JP2021135770A JP 2021135770 A JP2021135770 A JP 2021135770A JP 2020031819 A JP2020031819 A JP 2020031819A JP 2020031819 A JP2020031819 A JP 2020031819A JP 2021135770 A JP2021135770 A JP 2021135770A
- Authority
- JP
- Japan
- Prior art keywords
- dimensional
- information
- low
- partial observation
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
【課題】部分観測情報から周辺環境を生成する情報を処理する情報処理装置を提供する。【解決手段】情報処理装置は、高次元の環境情報を低次元空間の環境情報にエンコードする立体エンコーダと、環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコーダと、低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する立体デコーダと、立体デコーダが再構築した環境情報と元の高次元の環境情報の差分を識別する識別器と、を備える。【選択図】図1
Description
本明細書で開示する技術(以下、「本開示」とする)は、ロボットの経路に関する情報を処理する情報処理装置及び情報処理方法、コンピュータプログラム、並びに観測装置に関する。
最近、ロボットやドローンなどの移動体装置に普及が進んでいる。ロボットは、カメラの画像に基づいて環境認識して、与えられた目的地までの経路を計画して自律的に移動したり、障害物を回避しながらマニピュレータを移動させて目標とする物体を把持したりする。例えば、カメラと演算機能を用いて自己位置と回転角度、さらには障害物有無を判断し、経路を補正する移動ロボットが提案されている(例えば、特許文献1を参照のこと)。
本開示の目的は、ロボットの経路に関する情報を処理する情報処理装置及び情報処理方法、コンピュータプログラム、並びに観測装置を提供することにある。
本開示の第1の側面は、
高次元の環境情報を低次元空間の環境情報にエンコードする立体エンコーダと、
環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコーダと、
低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する立体デコーダと、
を具備する情報処理装置である。
高次元の環境情報を低次元空間の環境情報にエンコードする立体エンコーダと、
環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコーダと、
低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する立体デコーダと、
を具備する情報処理装置である。
前記立体エンコーダは、第1のニューラルネットワークモデルを用いて、高次元の環境情報を低次元空間の環境情報にエンコードする。また、前記部分観測エンコーダは、第2のニューラルネットワークモデルを用いて、環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする。また、前記立体デコーダは、学習済みの第3のニューラルネットワークモデルを用いて、低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する。
第1の側面に係る情報処理装置は、前記立体デコーダが再構築した環境情報と元の高次元の環境情報の差分を識別する識別器をさらに備える。そして、前記識別器が識別する差分が最小となるように、前記第1乃至第3のニューラルネットワークの学習を行う。
第1の側面に係る情報処理装置は、前記立体デコーダが再構築した環境情報に基づいてマップを生成するマップ生成部をさらに備えてもよい。前記マップ生成部は、ロボットの経験則に基づいて、ロボットの目的地の入力に対するロボットの経路計画を出力する障害物マップを生成する、
また、本開示の第2の側面は、
高次元の環境情報を低次元空間の環境情報にエンコードする立体エンコードステップと、
環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコードステップと、
低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する立体デコードステップと、
を有する情報処理方法である。
高次元の環境情報を低次元空間の環境情報にエンコードする立体エンコードステップと、
環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコードステップと、
低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する立体デコードステップと、
を有する情報処理方法である。
また、本開示の第3の側面は、
高次元の環境情報を低次元空間の環境情報にエンコードする立体エンコーダ、
環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコーダ、
低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する立体デコーダ、
としてコンピュータを機能させるようにコンピュータ可読形式で記述されたコンピュータプログラムである。
高次元の環境情報を低次元空間の環境情報にエンコードする立体エンコーダ、
環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコーダ、
低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する立体デコーダ、
としてコンピュータを機能させるようにコンピュータ可読形式で記述されたコンピュータプログラムである。
本開示の第3の側面に係るコンピュータプログラムは、コンピュータ上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータプログラムを定義したものである。換言すれば、本願の請求項に係るコンピュータプログラムをコンピュータにインストールすることによって、コンピュータ上では協働的作用が発揮され、本開示の第1の側面に係る情報処理装置と同様の作用効果を得ることができる。
また、本開示の第4の側面は、
周囲環境を部分観測するセンサーと、
前記センサーが観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコーダと、
前記部分観測エンコーダがエンコードした情報を外部に出力する出力部と、
を具備する観測装置である。
周囲環境を部分観測するセンサーと、
前記センサーが観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコーダと、
前記部分観測エンコーダがエンコードした情報を外部に出力する出力部と、
を具備する観測装置である。
本開示によれば、部分観測情報から周辺環境を生成する情報を処理する情報処理装置及び情報処理方法、コンピュータプログラム、並びに観測装置を提供することができる。
なお、本明細書に記載された効果は、あくまでも例示であり、本開示によりもたらされる効果はこれに限定されるものではない。また、本開示が、上記の効果以外に、さらに付加的な効果を奏する場合もある。
本開示のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
以下、図面を参照しながら本開示に係る技術について、以下の順に従って説明する。
A.概要
B.導入
C.フレームワーク
D.VAEについて
E.GANについて
F.VAE−GANについて
G.部分観測組み込みネットワークについて
H.HMNet及びプランニングについて
I.実験
J.結果
K.結論
L.ハードウェア構成例
B.導入
C.フレームワーク
D.VAEについて
E.GANについて
F.VAE−GANについて
G.部分観測組み込みネットワークについて
H.HMNet及びプランニングについて
I.実験
J.結果
K.結論
L.ハードウェア構成例
A.概要
狭い空間や雑多な障害物が散らばる環境におけるロボットやマニピュレータの経路計画は難しい問題である。一般に、ロボットはカメラやLiDAR(Light Detection and Ranging)といった環境を測定するセンサーを装備しているが、これらのセンサーの視界は狭いため、狭い視野で煩雑な環境下でロボットが動くことが期待されている。そこで、本開示では、ロボットが視野外の状況を推定し、その推定結果に基づいて障害物との接触や衝突を回避しながら移動するための情報処理について提案する。
狭い空間や雑多な障害物が散らばる環境におけるロボットやマニピュレータの経路計画は難しい問題である。一般に、ロボットはカメラやLiDAR(Light Detection and Ranging)といった環境を測定するセンサーを装備しているが、これらのセンサーの視界は狭いため、狭い視野で煩雑な環境下でロボットが動くことが期待されている。そこで、本開示では、ロボットが視野外の状況を推定し、その推定結果に基づいて障害物との接触や衝突を回避しながら移動するための情報処理について提案する。
本開示では、カメラやLiDARなどの視野が狭いセンサーを利用した部分的な観測結果から、広視野又は環境全体の高精細な情報を推定して、障害物との接触や衝突を回避するロボットの経路計画を行うものである。具体的には、本開示では、変分オートエンコーダ(VAE:Variational Auto−Encoder)に敵対的生成ネットワーク(GAN:Generative Adversarial Network)を組み合わせたVAE−GANを用いて、部分観測情報から周辺環境を生成する。部分観測情報は、カメラで撮影した画像や、LiDARなどで計測した点群のデータである。
本開示は、物体や環境を認識するというよりも、部分観測を満たす周辺環境を生成する技術である。本開示により生成された周辺環境を評価するために、実際にロボットの経路計画を行うようにしてもよい。例えば、本出願人に既に譲渡されている特願2019−42678号明細書には、ロボットが経路を探索してきた経験則に基づいて周辺環境から経路計画を高速化する方法について開示している。この方法を用いて本開示により生成した周辺環境からロボットの経路計画を行うことで、本開示を評価することができる。
B.導入
最近、視覚を含んだ経路計画に関する深層学習に関する研究が進んでおり、ロボットのマニピュレータの操作、把持、移動などのアプリケーションで成果を挙げている。これらのアプリケーションは、ロボットの操作がデカルト空間(T空間)で実行されるものとして考慮される。煩雑な環境下で物体を把持するような多くのアプリケーションでは、通常、ロボットのゴール姿勢よりもむしろゴール位置を指定して、ロボットがそのゴール位置にエンドエフェクタを移動させるように経路計画を行う。したがって、プランナーは実行可能な経路と所望のゴール位置に対応するゴール姿勢を同時に見つけることができるので、T空間で解決を探索するのが当然である。さらに、T空間内で経路計画を行うことによって、環境情報を直接活用することができる。T空間内で計画を行う利点を得るために、環境情報を効率的に得ることが重要な問題である。多くの視覚に基づく行動計画では、この問題に触れていないが、トップダウンカメラの平面操作に制限しているため、多くの実際のシナリオでは不十分である。また、ロボットのビジョンシステムの視野(例えば、リアルセンスのような)は狭い。広範囲の詳細なマップを作成するには、時間を要する。
最近、視覚を含んだ経路計画に関する深層学習に関する研究が進んでおり、ロボットのマニピュレータの操作、把持、移動などのアプリケーションで成果を挙げている。これらのアプリケーションは、ロボットの操作がデカルト空間(T空間)で実行されるものとして考慮される。煩雑な環境下で物体を把持するような多くのアプリケーションでは、通常、ロボットのゴール姿勢よりもむしろゴール位置を指定して、ロボットがそのゴール位置にエンドエフェクタを移動させるように経路計画を行う。したがって、プランナーは実行可能な経路と所望のゴール位置に対応するゴール姿勢を同時に見つけることができるので、T空間で解決を探索するのが当然である。さらに、T空間内で経路計画を行うことによって、環境情報を直接活用することができる。T空間内で計画を行う利点を得るために、環境情報を効率的に得ることが重要な問題である。多くの視覚に基づく行動計画では、この問題に触れていないが、トップダウンカメラの平面操作に制限しているため、多くの実際のシナリオでは不十分である。また、ロボットのビジョンシステムの視野(例えば、リアルセンスのような)は狭い。広範囲の詳細なマップを作成するには、時間を要する。
本開示は、部分観測した情報から周辺環境を推定するフレームワークである。本開示に係るフレームワークは、主に手さばき(manipulation)に適用されるが、把持(grasp)と組み合わせることも容易である。
最近のコンピュータグラフィックスの分野では、3Dオブジェクトの生成並びに再構築が盛んである。使用するニューラルネットワークをすべて畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)で構成して3Dオブジェクトを生成する研究が最も盛んである。これらの研究では、トレーニング用データセットからのみ3Dオブジェクトを生成する。
さまざまな3Dヘアスタイルを変分オートエンコーダ(VAE)のコンパクトな潜在空間を通じて暗に表現する研究もなされている。この研究では、end−to−endの3Dヘアスタイル推定を実現するために、2Dの入力画像のみからVAE潜在空間内の符号を予測するように、追加の埋め込みネットワークのトレーニングを行う。
これに対し、本開示に係るフレームワークは、立体変分オートエンコーダ(Volumetric VAE)のコンパクトな潜在空間を敵対的生成ネットワーク(GAN)と組み合わせて、部分観測した画像又は点群を入力としてさまざまな3D周辺環境を表現するものである。本開示に係るニューラルネットワークの構造は、VAE−3DGANに近い面もある。本開示によって再構築された周辺環境は、前述した特願2019−42678号明細書で開示される情報処理装置に対する入力データとなり、この情報処理装置によってロボットの経験則に基づく障害物マップを高速に生成することができる。この障害物マップに目的地を入力すれば、経路計画を得ることができる。
C.フレームワーク
図1には、本開示に係る、部分観測データから周辺環境を生成する情報処理装置100の機能的構成例を示している。なお、図1では、本開示により生成された周辺環境から、ロボットの経験則に基づく障害物マップを生成するマップ生成部105を含めて、情報処理装置100の構成を示している。
図1には、本開示に係る、部分観測データから周辺環境を生成する情報処理装置100の機能的構成例を示している。なお、図1では、本開示により生成された周辺環境から、ロボットの経験則に基づく障害物マップを生成するマップ生成部105を含めて、情報処理装置100の構成を示している。
情報処理装置100は、立体エンコーダ(Volumetric Encoder)101と、立体デコーダ(Volumetric Decoder)102と、識別部(Discriminator)103と、部分観測エンコーダ(Volumetric or Image Encoder)104を備えている。
立体エンコーダ101と、立体デコーダ102と、部分観測エンコーダ104は、それぞれCNNなどのニューラルネットワークで構成される。まず、立体エンコーダ101と、立体デコーダ102と、部分観測エンコーダ104の各ニューラルネットワークが学習済みであるものとして、各々の機能について説明する。
立体エンコーダ101は、周囲環境の3D点群データ111を入力して、低次元空間(又は、潜在空間)112にエンコードする。立体エンコーダ101に入力される3D点群データ111は、例えば64×64×64ボクセルからなる高次元空間である。立体エンコーダ101は、入力された高次元空間データを例えば200次元の低次元空間112の3D点群にエンコードする。低次元空間112は、上述した「コンパクトな潜在空間」のことである。そして、立体デコーダ102は、低次元空間112の3D点群データを入力して、元の高次元空間の周囲環境の3D点群データ113を再構築する。立体エンコーダ101と立体デコーダ102の組み合わせにより、変分オートエンコーダ(VAE)が構成される。
部分観測エンコーダ104は、カメラが撮影した2次元イメージや、LiDARなどを用いて計測された部分観測結果の3D点群データなどの部分観測データ114を入力して、低次元空間112の部分環境の3D点群データにエンコードする。カメラやLiDARなどのセンサーの視野は狭い。したがって、部分観測エンコーダ104には、周囲環境の部分観測データのみが入力される。
本実施形態では、部分観測エンコーダ104のニューラルネットワークは、周辺環境全体と対応付けて部分観測結果を低次元空間にエンコードするように学習が行われている。また、立体デコーダ102のニューラルネットワークは、部分観測結果の低次元空間データを、部分観測結果ではなく元の周辺環境全体をデコードするように学習が行われている。したがって、部分環境エンコーダ104に部分環境の画像や3D点群データが入力され、その低次元空間データが推定された場合には、立体デコーダ102は、部分環境に対応する周辺環境全体を再構築することができる。
要するに、立体デコーダ102は、周辺環境又は周辺環境の部分観測結果の低次元空間データから、元の高次元の周辺環境データを再構築した周辺環境から、ロボットの経験則に基づく障害物マップを生成する。マップ生成部105は、立体デコーダ102が再構築した周辺環境データから、ロボットの経験則に基づく障害物マップ115を生成する。障害物マップにロボットの目的地を入力すると、ロボットの現在値から目的地までの経路計画を行うことができる。
識別器103は、学習時に使用され、立体デコーダ102が再構築した周辺環境と教師データの周辺環境との差分を求め、立体エンコーダ101と、立体デコーダ102と、部分観測エンコーダ104にフィードバックする。立体エンコーダ101と、立体デコーダ102と、部分観測エンコーダ104は、識別器103からフィードバックされたデータに基づいて、ニューラルネットワークの学習を行う。
続いて、立体エンコーダ101と、立体デコーダ102と、部分観測エンコーダ104の各ニューラルネットワークの学習について説明する。本実施形態では、立体エンコーダ101による周辺環境のエンコードと、部分観測エンコーダ104による部分観測結果のエンコードを対応付けるように学習が行われる。
立体エンコーダ101のニューラルネットワークの学習を行うときには、立体デコーダ102のニューラルネットワークの学習を停止する。立体エンコーダ101は、学習データとなる周辺環境の3D点群データを入力して、低次元空間の3D点群データを推定する。立体デコーダ102は、立体エンコーダ101が推定した低次元空間の3D点群データから、元の高次元空間の周囲環境の3D点群データを再構築する。識別器103は、立体デコーダ102が再構築した周辺環境と立体エンコーダ101に入力された学習データの周辺環境との差分を求め、立体エンコーダ101にフィードバックする。そして、識別器103からフィードバックされる差分が小さくなるように、立体エンコーダ101のニューラルネットワークの学習が行われる。
また、立体デコーダ102のニューラルネットワークの学習を行うときには、立体エンコーダ101のニューラルネットワークの学習を停止する。立体エンコーダ101は、学習データとなる周辺環境の3D点群データを入力して、低次元空間の3D点群データを推定する。立体デコーダ102は、立体エンコーダ101が推定した低次元空間の3D点群データから、元の高次元空間の周囲環境の3D点群データを再構築する。識別器103は、立体デコーダ102が再構築した周辺環境と立体エンコーダ101に入力された学習データの周辺環境との差分を求め、立体デコーダ102にフィードバックする。そして、識別器103からフィードバックされる差分が小さくなるように、立体デコーダ102のニューラルネットワークの学習が行われる。立体エンコーダ101と、立体デコーダ102と、識別器103で、VAE−GANを構成する。本開示に係るVAE−GANは、3D環境情報を扱うことから、VAE−3DGANと呼ぶこともできる。
また、部分観測エンコーダ104のニューラルネットワークの学習を行うときには、立体エンコーダ101及び立体デコーダ102のニューラルネットワークの学習を停止する。部分観測エンコーダ104は、学習データとして、立体エンコーダ101への学習データとなる周辺環境の部分観測結果を入力して、その部分観測結果に対する低次元空間の3D点群データを推定する。部分観測結果は、カメラが撮影した狭い視野の2次元イメージや、LiDARなどを用いて計測された狭い視野の3D点群データである。立体デコーダ102は、部分観測エンコーダ104が推定した部分観測結果の3D点群データから、立体エンコーダ101への学習データである、元の高次元空間の周囲環境の3D点群データを再構築する。識別器103は、立体デコーダ102が再構築した周辺環境と立体エンコーダ101に入力された学習データの周辺環境との差分を求め、部分観測エンコーダ104にフィードバックする。そして、識別器103からフィードバックされる差分が小さくなるように、部分観測エンコーダ104のニューラルネットワークの学習が行われる。
なお、部分観測エンコーダ104は、図1に示したシステム構成では、情報処理装置100内に組み込まれ、外部のカメラが撮影した2次元イメージや、LiDARなどを用いて計測された部分観測結果の3D点群データを情報処理装置100に取り込んでエンコードを行う。他のシステム構成例として、情報処理装置100の外部のカメラやLiDARなどの観測装置に部分観測エンコーダ104が組み込まれてもよい(図12を参照のこと)。この場合、観測装置は、カメラやLiDARなどのセンサーによって観測された周囲環境の部分観測データを部分観測エンコーダ104によってエンコードした低次元空間112の部分環境の3D点群データを、情報処理装置100に入力することで、図1に示したシステム構成例と実質的に同様の機能を有する。
D.VAEについて
情報処理装置100の機能的構成は、変分オートエンコーダ(VAE)を利用して構成される。オートエンコーダは入力サンプルよりも圧倒的に次元数の低い特徴を抽出する生成モデルである。変分オートエンコーダは、オートエンコーダの拡張であり、最近出現した人気のある生成モデルの1つである。
情報処理装置100の機能的構成は、変分オートエンコーダ(VAE)を利用して構成される。オートエンコーダは入力サンプルよりも圧倒的に次元数の低い特徴を抽出する生成モデルである。変分オートエンコーダは、オートエンコーダの拡張であり、最近出現した人気のある生成モデルの1つである。
典型的な変分オートエンコーダは、入力を潜在空間上の特徴量で表すエンコーダと、潜在空間から元の次元を再現するデコーダからなる。エンコーダE(x)は、入力xを潜在変数zにエンコードし、デコーダD(z)は潜在変数zから入力xの推定値を生成する。そして、入力xとデコーダD(z)が出力するxの推定値との誤差が最小となるように、エンコーダ及びデコーダの重み係数が学習される。ここで言う入力は、図1中の周辺環境の3D点群データ111に対応し、エンコーダは立体エンコーダ101に対応し、潜在空間は低次元空間112に対応し、デコーダは立体デコーダ102に対応する。
変数オートエンコーダは、エンコーダE(x)を事後分布q(z|x)として近似し、事前分布から潜在変数zをサンプリングして新しいxの推定値を生成する。ちなみに、バニラオートエンコーダはエンコーダE(x)に決定的関数を用いる。変分オートエンコーダは、潜在分布p(z)に事前分布を課すことによって、エンコーダを正規化する。通常、z乃至N(0,I)が選択される。変分オートエンコーダの損失は、期待される対数尤度(再構成誤差)と初期分布の正則化項との合計を引いたものである。エンコーダとデコーダの学習には、下式(1)に示す、確率的勾配変数ベイズ(SGVB)アルゴリズムが用いられる。
E.GANについて
敵対的生成ネットワーク(GAN)は、生成(generator)ネットワークと識別(discriminator)ネットワークの2つのネットワークで構成される、ニューラルネットワークにより実装される人工知能である。生成ネットワークGen(z)は、潜在変数zをデータ空間にマッピングし、識別ネットワークは確率y=Dis(x)∈[0,1](但し、xは現実のトレーニング用サンプルである)と確率1−y(但し、xはx=Gen(z)からz〜p(z)の範囲で本開示に係るモデルを使って生成される)を割り当てる。 敵対的生成ネットワークの目的は、真のデータと生成されたデータとの可能な限り最良の識別を与えると同時に、生成ネットワークが真のデータ分布に適合するように促すバイナリ分類器を見つけることにある。したがって、本開示では、下式(2)に基づいて、バイナリクロスエントロピーを最大化又は最小化することを目指す。
敵対的生成ネットワーク(GAN)は、生成(generator)ネットワークと識別(discriminator)ネットワークの2つのネットワークで構成される、ニューラルネットワークにより実装される人工知能である。生成ネットワークGen(z)は、潜在変数zをデータ空間にマッピングし、識別ネットワークは確率y=Dis(x)∈[0,1](但し、xは現実のトレーニング用サンプルである)と確率1−y(但し、xはx=Gen(z)からz〜p(z)の範囲で本開示に係るモデルを使って生成される)を割り当てる。 敵対的生成ネットワークの目的は、真のデータと生成されたデータとの可能な限り最良の識別を与えると同時に、生成ネットワークが真のデータ分布に適合するように促すバイナリ分類器を見つけることにある。したがって、本開示では、下式(2)に基づいて、バイナリクロスエントロピーを最大化又は最小化することを目指す。
上式(2)において、識別ネットワーク及び生成ネットワークに関して、xはトレーニングサンプルとz〜p(z)に従う。
ここで言う生成ネットワークは、図1中の立体エンコーダ101及び立体デコーダ102に対応し、識別ネットワークは識別器103に対応する。
F.VAE−GANについて
敵対的生成ネットワーク(GAN)の魅力的な特性は、イメージ又は3Dオブジェクトの豊富な類似性メトリックをイメージでないものから識別できるように、暗黙的に学習する必要がある点である。識別ネットワークに、イメージ又は3Dオブジェクトの性質を学習させて、変分オートエンコーダのより抽象的な再構築誤差に転送できるようにするべきである。VAE−GANは、高品質の生成モデルであるGANの利点と、データを潜在空間zにエンコードするエンコーダを生成するメソッドであるVAEを組み合わせたものである。
敵対的生成ネットワーク(GAN)の魅力的な特性は、イメージ又は3Dオブジェクトの豊富な類似性メトリックをイメージでないものから識別できるように、暗黙的に学習する必要がある点である。識別ネットワークに、イメージ又は3Dオブジェクトの性質を学習させて、変分オートエンコーダのより抽象的な再構築誤差に転送できるようにするべきである。VAE−GANは、高品質の生成モデルであるGANの利点と、データを潜在空間zにエンコードするエンコーダを生成するメソッドであるVAEを組み合わせたものである。
VAEはイメージや不変量を持つその他の信号に対する要素毎の再構成誤差が十分でないので、VAE−GANは、上式(1)中からVAEの再構築(予想される対数尤度)のエラー項を、GANの識別器において表される再構築エラーに置き換える。これを実現するには、Disl(x)が識別器の隠れ層の第l層を示すようにする。ガウス観察モデルは、下式(3)に示す通りである。
したがって、VAE−GANの尤度は下式(4)に示す通りである。
G.部分観測組み込みネットワークについて
VAE−GANの1つの利点は、マルチモーダル入力に潜在ベクトルが用いられることである。エンドツーエンドのシングルビュー3D環境推定を実現するために、本開示では、部分観察結果の入力から、VAE−GANの潜在空間における潜在変数zを予測するように、部分観測組み込みネットワークのトレーニングが行われる。
VAE−GANの1つの利点は、マルチモーダル入力に潜在ベクトルが用いられることである。エンドツーエンドのシングルビュー3D環境推定を実現するために、本開示では、部分観察結果の入力から、VAE−GANの潜在空間における潜在変数zを予測するように、部分観測組み込みネットワークのトレーニングが行われる。
部分的な点群又は画像の収集されたデータセットと、対応する3D環境が、部分観測組み込みネットワークのトレーニング用データである。トレーニング用データは限られているので、部分観測埋め込みネットワークのより堅牢なトレーニングのために予測される未知数の数を削減することが望ましい。本開示では、線形マッピングとカーネル標準の相関解析(kCCA)を使用して、組み込みネットワークの潜在と3D環境の実行可能空間の潜在変数z表現をマッピングする。確率的にサンプリングされた潜在変数z〜N(zμ,zσ)の代わりに線形マッピングとカーネル標準の相関解析(kCCA)を使用することによって、組み込み家庭におけるランダム性を排除する点に留意されたい。本開示に係る部分観測組み込みパイプラインは、図1に示した情報処理装置100内では、部分観測組み込みネットワークは部分観測エンコーダ104に対応する。
H.HMNet及び経路計画について
本開示を利用して、上述したVAE−GANによって生成された3D環境から探索コストを最小にする、より効率的なヒューリスティック関数を最終的に見つけることができる。ここで言う探索コストは、探索の間に訪れ又は試行した頂点の数で表される。具体的には、図1に示す情報処理装置100において、マップ生成部105は、立体デコーダ102が再構築した周辺環境データから、ロボットの経験則に基づく障害物マップ115を生成する。
本開示を利用して、上述したVAE−GANによって生成された3D環境から探索コストを最小にする、より効率的なヒューリスティック関数を最終的に見つけることができる。ここで言う探索コストは、探索の間に訪れ又は試行した頂点の数で表される。具体的には、図1に示す情報処理装置100において、マップ生成部105は、立体デコーダ102が再構築した周辺環境データから、ロボットの経験則に基づく障害物マップ115を生成する。
マップ生成部105が障害物マップを生成する手法のことを、本明細書では「HMNet」とも呼ぶ。HMNetは、バイナリ障害物マップを入力として含む環境を考察して、CNNを用いて「経験マップ(heuristic map)」と呼ぶグラフ内の各ノードvにおける経験値を予測する。予測された経験マップは、プランナー(ここでは、「TS−RRT」とする)の要求に基づいてグラフ探索を行う最中に、経験値h(v,φ)の問合せ用の早見表として使用される。
HMNetは、予測と目標のCost−to−Go値の二乗誤差を最小化することによって直接学習を行うことができる。頂点のCost−to−valueは、ゴールへの最短経路に沿った累積コストとして定義される。TSS−RRTアルゴリズムにより、cost−to−go値を計算することができる。HMNetの学習は、下式(5)に示す損失関数を最小にすることで実行される。
マスクMは、例えば障害物により占有され又は囲まれた領域である。学習済みのHMNetは、VAE−GANによって推定された3D環境と目標位置を持つヒューリスティック関数である。
なお、マップ生成部105の詳細については、本出願人に既に譲渡されている特願2019−42678号明細書を参照されたい。
I.実験
本開示に係るフレームワーク(図1を参照のこと)の一般性及び有効性を検証するために、モバイルマニピュレータを用いてデータセットの収集と評価を実施した。本開示に係る手法を現実のロボット及び環境に直接適用するために、この実験では、実際の深度センサーから得られた実世界のデータを環境情報に用いた。実験の詳細なセットアップ及び実験について、以下で説明する。
本開示に係るフレームワーク(図1を参照のこと)の一般性及び有効性を検証するために、モバイルマニピュレータを用いてデータセットの収集と評価を実施した。本開示に係る手法を現実のロボット及び環境に直接適用するために、この実験では、実際の深度センサーから得られた実世界のデータを環境情報に用いた。実験の詳細なセットアップ及び実験について、以下で説明する。
I−1.実験セットアップ
(1)ハードウェアのセットアップ
実験に使用されるモバイルマニピュレータは、モバイルプラットフォームに搭載された2本のアームを備え、合計で25DoF(Degrees of Freedom)を持つ。すべての実験で、対象関節グループは、3DoFを持つ胴体関節と7DoFを持つ右腕関節のセット(合計で10DoF)である。周辺環境を検出するために、頭部に深度カメラが搭載されている。
(1)ハードウェアのセットアップ
実験に使用されるモバイルマニピュレータは、モバイルプラットフォームに搭載された2本のアームを備え、合計で25DoF(Degrees of Freedom)を持つ。すべての実験で、対象関節グループは、3DoFを持つ胴体関節と7DoFを持つ右腕関節のセット(合計で10DoF)である。周辺環境を検出するために、頭部に深度カメラが搭載されている。
(2)データセット
経路計画を行う対象の環境として、仕切りを持つ本棚や、雑多な物体が散らばるテーブルを選択した。オクトマップを用いた深度センサーを使って捕捉された3D占有グリッドマップをトレーニング用データとする。さらに、シミュレーションキッチン環境をトレーニング用データに選択する。データセットの収集では、32ケースの本棚環境が深度カメラによって測定された。各ケースで、3D占有グリッドマップが構築された。
経路計画を行う対象の環境として、仕切りを持つ本棚や、雑多な物体が散らばるテーブルを選択した。オクトマップを用いた深度センサーを使って捕捉された3D占有グリッドマップをトレーニング用データとする。さらに、シミュレーションキッチン環境をトレーニング用データに選択する。データセットの収集では、32ケースの本棚環境が深度カメラによって測定された。各ケースで、3D占有グリッドマップが構築された。
(3)実装の詳細
すべての実験を通じて、深度センサーの解像度とロボットの周囲環境のグリッドサイズは、0.025メートル、65×57×57ボクセルに固定された。このグリッドサイズをVAE−GANのトレーニング用に64×64×64ボクセルにした。3D VAE−GANでは、生成器G(図1中の立体エンコーダ101に対応する)は、確率的潜在空間からランダムにサンプルされた、200次元の潜在ベクトルzを、3Dボクセル空間を表す64×64×64のキューブにマップする。識別器D(図1中の識別器103に対応する)は、3Dオブジェクト入力xは実数又は合成のいずれであるかを示す信頼整地D(x)を出力する。識別器は、基本的に、生成器をミラーリングしたものである。分類損失としてバイナリクロスエントロピーを使用する。実装の詳細を以下に述べる。
すべての実験を通じて、深度センサーの解像度とロボットの周囲環境のグリッドサイズは、0.025メートル、65×57×57ボクセルに固定された。このグリッドサイズをVAE−GANのトレーニング用に64×64×64ボクセルにした。3D VAE−GANでは、生成器G(図1中の立体エンコーダ101に対応する)は、確率的潜在空間からランダムにサンプルされた、200次元の潜在ベクトルzを、3Dボクセル空間を表す64×64×64のキューブにマップする。識別器D(図1中の識別器103に対応する)は、3Dオブジェクト入力xは実数又は合成のいずれであるかを示す信頼整地D(x)を出力する。識別器は、基本的に、生成器をミラーリングしたものである。分類損失としてバイナリクロスエントロピーを使用する。実装の詳細を以下に述べる。
(1)ネットワークアーキテクチャ:
(2)変分オートエンコーダ(VAE):
VAEは、2つの完全結合アフィン層であるエンコーダ及びデコーダと、オリジナルのソフト+関数から置き換えたEluからなる。VAEからの出力は、200次元ベクトルのガウス確率密度のパラメータである。VAEへの入力は、[0,1]の値を持つ64×64×64行列である。
VAEは、2つの完全結合アフィン層であるエンコーダ及びデコーダと、オリジナルのソフト+関数から置き換えたEluからなる。VAEからの出力は、200次元ベクトルのガウス確率密度のパラメータである。VAEへの入力は、[0,1]の値を持つ64×64×64行列である。
(3)生成器(GAN):
生成器は、5つの完全な畳み込み層からなる。各畳み込み層のチャネル数は{512,256,128,64,1}、カーネルサイズは{4,4,4,4,4}、ストライドは{1,2,2,2,2}である。畳み込み層とシグモイド層の終端の間には、ReLU及びバッチ正規化層が用いられる。VAEからGANへの入力は200次元ベクトルであり、GANの出力は[0,1]の値を持つ64×64×64行列である。
生成器は、5つの完全な畳み込み層からなる。各畳み込み層のチャネル数は{512,256,128,64,1}、カーネルサイズは{4,4,4,4,4}、ストライドは{1,2,2,2,2}である。畳み込み層とシグモイド層の終端の間には、ReLU及びバッチ正規化層が用いられる。VAEからGANへの入力は200次元ベクトルであり、GANの出力は[0,1]の値を持つ64×64×64行列である。
(4)識別器(GAN):
識別器は、5つの立体畳み込み層からなる。各立体畳み込み層のチャネル数は{64,128,512,1}、カーネルサイズは{4,4,4,4,4}、ストライドは{2,2,2,2,1}である。各立体畳み層の間には、パラメータ0.2のleaky ReLU層とバッチ正規化層が配置され、終端にシグモイド層が配置されている。
識別器は、5つの立体畳み込み層からなる。各立体畳み込み層のチャネル数は{64,128,512,1}、カーネルサイズは{4,4,4,4,4}、ストライドは{2,2,2,2,1}である。各立体畳み層の間には、パラメータ0.2のleaky ReLU層とバッチ正規化層が配置され、終端にシグモイド層が配置されている。
(5)トレーニング:
トレーニングには、適応的トレーニング戦略が用いられる。各バッチで、最後のバッチの精度が80より高くなければ、識別器は更新される。
トレーニングには、適応的トレーニング戦略が用いられる。各バッチで、最後のバッチの精度が80より高くなければ、識別器は更新される。
(6)生成器学習率:0.0025
(7)識別器学習率:10-5
(8)バッチサイズ:20
(9)β=0.5のAdamによる最適化
HMNet、拡張畳み込み、及びエンコーダ−デコーダの観点から、ニューラルネットワークアーキテクチャの構造が採用されている。このような構造によれば、3D入力マップと出力の空間的に一貫したマップから、グローバル及びローカルな空間コンテキストを抽出することができるので、本開示を実現するのに適している。
エンコーダのCNNでは、畳み込みモジュールを3回適用して、小さい空間次元と広い空間コンテキストを持つ特徴マップを生成する。畳み込みモジュールは、3個の3×3×3畳み込みからなり、各々の畳み込みの後にはバッチ正規化とlealy ReLUが続く。最初の畳み込みには2のストライドが用いられ、畳み込みカーネルの膨張係数は1から3に増加する。3つの畳み込みモジュールの畳み込みチャネル数は、それぞれ16、32、及び64として増加する。
デコーダ部分でも逆畳み込みモジュールが3回適用される。この逆畳み込みモジュールは、最初の畳み込みが2のアップスケーリング係数を持つ4×4×4の逆畳み込みに置き換えられる以外は、上述の畳み込みモジュールと同様である。3つのモジュールの畳み込みチャネルはそれぞれ32、16、及び16であり、最後の逆畳み込みモジュールの畳み込みを除いて、単一のチャネルをヒューリスティックマップとして出力する。
トレーニング中、データセットから20の入力が抽出され、確率的勾配降下ステップのミニバッチが作成される。確率的勾配降下アルゴリズムとして、α=0.0001、β1=0.9、及びβ2=0.999を持つAdamが用いられる。2つの損失の重みは、w1=1.0、w2=10-5である。インテル社製のCPU(Central Processing Unit)であるCore i7−K7700 4.2GHzと、CNN用にGPU(Graphic Processing Unit)であるシングルGTX 1080Ti上で、トレーニングと評価を実行した。HMNetのトレーニング時間は約3時間である。
I−2.パフォーマンス評価
(1)計画シナリオ:
本開示に係る手法を、3つの異なるシナリオでテストしてみた。
(1)計画シナリオ:
本開示に係る手法を、3つの異なるシナリオでテストしてみた。
A)仕切りのある本棚の環境における簡単な問題と部分観察。
B)散らかったテーブルとキッチンの異なる環境における比較的難しい問題。
B)散らかったテーブルとキッチンの異なる環境における比較的難しい問題。
図2及び図3には、これらの問題の環境と目標位置をそれぞれ示している。
上記の問題A及びBは、上記I−1項の実験セットアップで説明した通りの2つのテストデータセットである。問題Cの環境は、HMNetには決して見られたことがないが、本開示に係るフレームワークの一般性を検証することを意図したものであり、問題Bと同様の空間的構造を持つ。
(2)アルゴリズムのセットアップ:
本開示を適用したプランナーであるHM−TS−RRTを用いて、推定環境のヒューリスティックを部分環境のみと比較した。HM−TS−RRTのパラメータは、p=0.4、r=60である。この実験では、各プランナーについて計画を30回試行したときの平均計画時間と経路長を比較して、計画時間の機能として成功率を評価した。プランナーの実行には完了するまでに最大10秒が与えられ、成功した計画の時間を平均化した。
本開示を適用したプランナーであるHM−TS−RRTを用いて、推定環境のヒューリスティックを部分環境のみと比較した。HM−TS−RRTのパラメータは、p=0.4、r=60である。この実験では、各プランナーについて計画を30回試行したときの平均計画時間と経路長を比較して、計画時間の機能として成功率を評価した。プランナーの実行には完了するまでに最大10秒が与えられ、成功した計画の時間を平均化した。
J.結果
まず、各々の問題において、VAE及びVAE−GANを用いて生成されたヒューリスティックマップについて評価した。次いで、平均再構築誤差を再構築した環境と比較した。VAEのみを用いて生成された環境マップは、ノイズが多い。一方、VAE−GANを用いて生成したマップは、トレーニング用データに近似している。
まず、各々の問題において、VAE及びVAE−GANを用いて生成されたヒューリスティックマップについて評価した。次いで、平均再構築誤差を再構築した環境と比較した。VAEのみを用いて生成された環境マップは、ノイズが多い。一方、VAE−GANを用いて生成したマップは、トレーニング用データに近似している。
図4には、トレーニング用データとなる環境マップを示している。このトレーニング用データは、VAE及びVAE−GANのエンコーダに入力される3D点群データである。図5には、VAEのみを用いて生成された環境マップを示している。この環境マップは、図4に示した環境マップをエンコーダで潜在空間に圧縮した後、デコーダで再構築した結果である。図5から分かるように、VAEのみを用いて生成された環境マップは、ノイズが多い。
また、図6には、VAE−GANを用いて生成された環境マップを示している。VAEは再構成誤差が十分でない。これに対し、VAE−GANは、VAEにより生成された環境マップが元のトレーニング用データとの最良の識別をVAEに与え、生成された環境マップがトレーニング用データに適合するようにVAEをトレーニングする。したがって、図6に示すVAE−GANを用いて生成された環境マップは、図4に示したトレーニング用データにより近づいている。
本開示に係る手法を検証するために、以下の2つの評価を行った。
(1)HMNetからのヒューリスティックマップと部分観察のみのデータとの比較。
(2)HMNetからのヒューリスティックマップと部分観察のみのデータの各々についてのHM−TS−RRTの比較。
(2)HMNetからのヒューリスティックマップと部分観察のみのデータの各々についてのHM−TS−RRTの比較。
各プランナーについて計画を30回実行したときの平均計画時間を評価した。プランナーの実行には完了するまでに最大10秒が与えられ、各プランナーについての成功率も評価した。
J−1.部分観察からのヒューリスティックの評価
図7には、本棚(図2を参照のこと)を視野の狭いカメラで撮影した部分観察結果を示している。図8には、図7に示した部分観察結果からVAEのみを用いて生成された環境マップ(3D点群データ)を示している。また、図9には、図7に示した部分観察結果からVAE−GANを用いて生成された環境マップ(3D点群データ)を示している。
図7には、本棚(図2を参照のこと)を視野の狭いカメラで撮影した部分観察結果を示している。図8には、図7に示した部分観察結果からVAEのみを用いて生成された環境マップ(3D点群データ)を示している。また、図9には、図7に示した部分観察結果からVAE−GANを用いて生成された環境マップ(3D点群データ)を示している。
そして、図10には、HMNetが、VAE−GANを用いて生成された環境マップ(図9を参照のこと)から生成したヒューリスティックマップを示している。図10は、XYZ座標系におけるヒューリスティックマップの垂直断面におけるヒューリスティック値を示しており、目標位置も含んでいる。矢印で表されているベクトル場は、この平面におけるヒューリスティック値の負の勾配である。このようなベクトル場は、障害物を回避しながら、主に目的地に向かって流れる。ヒューリスティックマップの中には誤ったヒューリスティクスを持つ頂点もあるが、このマップは、HM−TS−RRTのような探索アルゴリズムにおいて探索の組み合わせにより依然として利用可能である。図10を参照すると、ヒューリスティックマップのほとんどの頂点は合理的なヒューリスティック値を持つことが分かり、HMNetから得られたヒューリスティックマップがプランナーに役に立つ手掛かりを提供することができる。
K.結論
本開示によれば、部分観察をVAE及びVAE−GANに組み込むことによって、新規マップ生成モデルを提供することができる。3D−CNNの特徴を活用することによって、高速モーションプランナーに適用することができる、モーションの経験からヒューリスティックマップを学習するHMNetを提供することができる。本明細書で紹介したHM−TS−RRTは、HMNetからのヒューリスティックマップの純粋な探索に代えて、搾取とガイド付き探索を実行する。
本開示によれば、部分観察をVAE及びVAE−GANに組み込むことによって、新規マップ生成モデルを提供することができる。3D−CNNの特徴を活用することによって、高速モーションプランナーに適用することができる、モーションの経験からヒューリスティックマップを学習するHMNetを提供することができる。本明細書で紹介したHM−TS−RRTは、HMNetからのヒューリスティックマップの純粋な探索に代えて、搾取とガイド付き探索を実行する。
実験結果によって、本開示に係る手法は、ローカルトラップや狭い通路の問題などの困難な問題でも、同様の分散を持つ平均計画時間という面では、よりよいパフォーマンスを持つことが示された。実験結果は、問題がトレーニングサンプルと同様の空間構造を持つときに、本明細書で説明した学習のアプローチにより、新しい計画シナリオを一般化することができるということも意味する。しかしながら、さまざまな環境において本開示に係るフレームワークの一般化パフォーマンスを定量的に評価することは困難である。ドメイン適応(転移学習)は、さまざまな環境で一般化を増加するための解決策の1つである。転移学習や強化学習などの他の方法でHMNetをトレーニングすることも考えられる。
L.ハードウェア構成例
図11には、図1に示した情報処理装置100を実現する具体的なハードウェア構成例を示している。図示の情報処理装置100は、プロセッサ1101と、ROM(Read Only Memory)1102と、RAM(Random Access Memory)1103と、ホストバス1104と、ブリッジ1105と、外部バス1106と、インターフェース1107と、入力装置1108と、出力装置1109と、ストレージ1110と、ドライブ1111と、接続ポート1112と、通信装置1113を備えている。但し、図11に示したすべての構成要素が情報処理装置100に必須とは限らず、図示した構成要素の一部を含まない構成や、図示しない他の構成要素をさらに含む構成も実現する。
図11には、図1に示した情報処理装置100を実現する具体的なハードウェア構成例を示している。図示の情報処理装置100は、プロセッサ1101と、ROM(Read Only Memory)1102と、RAM(Random Access Memory)1103と、ホストバス1104と、ブリッジ1105と、外部バス1106と、インターフェース1107と、入力装置1108と、出力装置1109と、ストレージ1110と、ドライブ1111と、接続ポート1112と、通信装置1113を備えている。但し、図11に示したすべての構成要素が情報処理装置100に必須とは限らず、図示した構成要素の一部を含まない構成や、図示しない他の構成要素をさらに含む構成も実現する。
プロセッサ1101は、例えば演算処理装置又は制御装置として機能し、ROM1102、RAM1103、ストレージ1110、又はリムーバブル記録媒体1121に記録された各種プログラムを実行して、情報処理装置100内の各構成要素の動作全般又はその一部を制御する。図1に示した、立体エンコーダ101、立体デコーダ102、識別器103、部分観測エンコーダ104、及びマップ生成部105は、プロセッサ1101がプログラムを実行することによって実現される機能モジュールである。
ROM1102は、プロセッサ1101に読み込まれるプログラムや演算に用いるデータなどを不揮発的に格納するメモリである。RAM1103は、プロセッサ1101が実行するプログラムをストレージ1110やリムーバブル記録媒体1121から読み込んだり、プロセッサ1101がプログラムを実行する際に適宜変化する各種パラメータなどの作業データを一時的に格納したりするために使用されるメモリである。
ホストバス1104は、高速なデータ伝送が可能な伝送路であり、プロセッサ1101と、ROM1102と、RAM1103を相互接続する。一方、外部バス1106は、比較的データ伝送速度が低速な伝送路であり、種々の構成要素を接続するインターフェース1107が接続されている。ブリッジ1105は、ホストバス1104と外部バス1106を相互接続する。
図11に示す構成例では、インターフェース1107に接続される構成要素は、入力装置1108と、出力装置1109と、ドライブ1111と、接続ポート1112と、通信装置1113である。
入力装置1108は、例えば、マウスやキーボード、タッチパネル、ボタン、スイッチ、レバーなどである。また、入力装置1108は、赤外線信号や無線信号を送信するリモートコントローラとその受信機を含んでいてもよい。また、入力装置1109は、マイクロフォンなどの音声入力装置を含んでいてもよい。
出力装置1109は、液晶表示ディスプレイ(LCD)や有機EL(Electro Luminescent)ディスプレイなどの表示装置、スピーカやヘッドホンなどの音声出力装置を始め、ユーザに対し視覚的又は聴覚的に情報を通知することが可能な装置が含まれる。また、出力装置1109は、触覚刺激によりユーザに情報を通知することが可能な振動デバイスなどの装置を含んでいてもよい。また、出力装置1109は、プリンタや複合機、スマートフォンやタブレットなどの多機能端末を含んでいてもよい。
ドライブ1111は、リムーバブル記録媒体1121に記録された情報を読み出し、又はリムーバブル記録媒体1121に情報を書き込む装置である。
リムーバブル記録媒体1121は、例えば、DVD(Digital Versatile Disc)ディスク、Blu−ray(登録商標)ディスク、並びに半導体メモリなどのうち少なくとも1つである。また、リムーバブル記録媒体1121は、非接触ICチップを搭載したICカードや電子機器などであってもよい。
接続ポート1112は、例えばUSB(Iniversal Serial Bus)ポートである。また、接続ポート1112は、IEEE1394ポート、SCSI(Small Computer System Interface)ポート、RS−232Cポート、HDMI(登録商標)(High−Definition Multimedia Interface)ポートであってもよい。
外部接続機器1122は、例えばプリンタ、携帯音楽プレイヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダなどである。また、情報処理装置100が図12に示したようなシステム構成の場合には、カメラやLiDARなどの観測装置は、外部接続機器1122の1つとして、接続ポート1112経由で情報処理装置100に外部接続される。
通信装置1113は、情報処理装置100をネットワークに接続するための装置であり、例えば、有線LAN(Local Area Network)、無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信インターフェースカード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデムなどである。
以上、特定の実施形態を参照しながら、本開示について詳細に説明してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
本開示は、ロボットやドローン、自動運転車など自律動作するさまざまな移動体装置における経路計画、物体を把持するマニピュレータの経路計画などに適用することができる。
要するに、例示という形態により本開示について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本開示の要旨を判断するためには、特許請求の範囲を参酌すべきである。
なお、本開示は、以下のような構成をとることも可能である。
(1)高次元の環境情報を低次元空間の環境情報にエンコードする立体エンコーダと、
環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコーダと、
低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する立体デコーダと、
を具備する情報処理装置。
環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコーダと、
低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する立体デコーダと、
を具備する情報処理装置。
(2)前記立体エンコーダは、第1のニューラルネットワークモデルを用いて、高次元の環境情報を低次元空間の環境情報にエンコードし、
前記部分観測エンコーダは、第2のニューラルネットワークモデルを用いて、環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードし、
前記立体デコーダは、学習済みの第3のニューラルネットワークモデルを用いて、低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する、
上記(1)に記載の情報処理装置。
前記部分観測エンコーダは、第2のニューラルネットワークモデルを用いて、環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードし、
前記立体デコーダは、学習済みの第3のニューラルネットワークモデルを用いて、低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する、
上記(1)に記載の情報処理装置。
(3)前記立体デコーダが再構築した環境情報と元の高次元の環境情報の差分を識別する識別器をさらに備える、
上記(2)に記載の情報処理装置。
上記(2)に記載の情報処理装置。
(4)前記立体エンコーダ及び前記立体デコーダは変分オートエンコーダを構成する、
上記(1)乃至(3)のいずれかに記載の情報処理装置。
上記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)前記立体エンコーダ、前記立体デコーダ、及び前記識別器は、敵対的生成ネットワークを構成する、
上記(3)に記載の情報処理装置。
上記(3)に記載の情報処理装置。
(6)前記識別器によって識別された、前記立体デコーダが再構築した環境情報と元の高次元の環境情報の差分が最小となるように、前記第1乃至第3のニューラルネットワークの学習を行う、
上記(3)又は(5)のいずれかに記載の情報処理装置。
上記(3)又は(5)のいずれかに記載の情報処理装置。
(7)前記立体デコーダが再構築した環境情報に基づいてマップを生成するマップ生成部をさらに備える、
上記(1)乃至(6)のいずれかに記載の情報処理装置。
上記(1)乃至(6)のいずれかに記載の情報処理装置。
(8)前記マップ生成部は、ロボットの経験則に基づく障害物マップを生成する、
上記(7)に記載の情報処理装置。
上記(7)に記載の情報処理装置。
(9)前記マップ生成部は、前記障害物マップとロボットの目的地から新たなマップを生成する、
上記(8)に記載の情報処理装置。
上記(8)に記載の情報処理装置。
(10)高次元の環境情報を低次元空間の環境情報にエンコードする立体エンコードステップと、
環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコードステップと、
低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する立体デコードステップと、
を有する情報処理方法。
環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコードステップと、
低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する立体デコードステップと、
を有する情報処理方法。
(11)高次元の環境情報を低次元空間の環境情報にエンコードする立体エンコーダ、
環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコーダ、
低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する立体デコーダ、
としてコンピュータを機能させるようにコンピュータ可読形式で記述されたコンピュータプログラム。
環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコーダ、
低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する立体デコーダ、
としてコンピュータを機能させるようにコンピュータ可読形式で記述されたコンピュータプログラム。
(12)周囲環境を部分観測するセンサーと、
前記センサーが観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコーダと、
前記部分観測エンコーダがエンコードした情報を外部に出力する出力部と、
を具備する観測装置。
前記センサーが観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコーダと、
前記部分観測エンコーダがエンコードした情報を外部に出力する出力部と、
を具備する観測装置。
100…情報処理装置、101…立体エンコーダ
102…立体デコーダ、103…識別器、104…部分観測エンコーダ
105…マップ生成部
1101…プロセッサ、1102…ROM、1103…RAM
1104…ホストバス、1105…ブリッジ、1106…外部バス
1107…インターフェース、1108…入力装置
1109…出力装置、1110…ストレージ、1111…ドライブ
1112…接続ポート、1113…通信装置
1121…リムーバブル記録媒体、1122…外部接続機器
102…立体デコーダ、103…識別器、104…部分観測エンコーダ
105…マップ生成部
1101…プロセッサ、1102…ROM、1103…RAM
1104…ホストバス、1105…ブリッジ、1106…外部バス
1107…インターフェース、1108…入力装置
1109…出力装置、1110…ストレージ、1111…ドライブ
1112…接続ポート、1113…通信装置
1121…リムーバブル記録媒体、1122…外部接続機器
Claims (12)
- 高次元の環境情報を低次元空間の環境情報にエンコードする立体エンコーダと、
環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコーダと、
低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する立体デコーダと、
を具備する情報処理装置。 - 前記立体エンコーダは、第1のニューラルネットワークモデルを用いて、高次元の環境情報を低次元空間の環境情報にエンコードし、
前記部分観測エンコーダは、第2のニューラルネットワークモデルを用いて、環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードし、
前記立体デコーダは、学習済みの第3のニューラルネットワークモデルを用いて、低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する、
請求項1に記載の情報処理装置。 - 前記立体デコーダが再構築した環境情報と元の高次元の環境情報の差分を識別する識別器をさらに備える、
請求項2に記載の情報処理装置。 - 前記立体エンコーダ及び前記立体デコーダは変分オートエンコーダ(Variational Auto−Encoder)を構成する、
請求項1に記載の情報処理装置。 - 前記立体エンコーダ、前記立体デコーダ、及び前記識別器は、VAE−GANを構成する、
請求項3に記載の情報処理装置。 - 前記識別器によって識別された、前記立体デコーダが再構築した環境情報と元の高次元の環境情報の差分が最小となるように、前記第1乃至第3のニューラルネットワークの学習を行う、
請求項3に記載の情報処理装置。 - 前記立体デコーダが再構築した環境情報に基づいてマップを生成するマップ生成部をさらに備える、
請求項1に記載の情報処理装置。 - 前記マップ生成部は、ロボットの経験則に基づく障害物マップを生成する、
請求項7に記載の情報処理装置。 - 前記マップ生成部は、前記障害物マップとロボットの目的地から新たなマップを生成する、
請求項8に記載の情報処理装置。 - 高次元の環境情報を低次元空間の環境情報にエンコードする立体エンコードステップと、
環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコードステップと、
低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する立体デコードステップと、
を有する情報処理方法。 - 高次元の環境情報を低次元空間の環境情報にエンコードする立体エンコーダ、
環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコーダ、
低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する立体デコーダ、
としてコンピュータを機能させるようにコンピュータ可読形式で記述されたコンピュータプログラム。 - 周囲環境を部分観測するセンサーと、
前記センサーが観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコーダと、
前記部分観測エンコーダがエンコードした情報を外部に出力する出力部と、
を具備する観測装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020031819A JP2021135770A (ja) | 2020-02-27 | 2020-02-27 | 情報処理装置及び情報処理方法、コンピュータプログラム、並びに観測装置 |
PCT/JP2020/048315 WO2021171768A1 (ja) | 2020-02-27 | 2020-12-23 | 情報処理装置及び情報処理方法、コンピュータプログラム、並びに観測装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020031819A JP2021135770A (ja) | 2020-02-27 | 2020-02-27 | 情報処理装置及び情報処理方法、コンピュータプログラム、並びに観測装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021135770A true JP2021135770A (ja) | 2021-09-13 |
Family
ID=77489927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020031819A Pending JP2021135770A (ja) | 2020-02-27 | 2020-02-27 | 情報処理装置及び情報処理方法、コンピュータプログラム、並びに観測装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2021135770A (ja) |
WO (1) | WO2021171768A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114358128B (zh) * | 2021-12-06 | 2024-07-12 | 深圳先进技术研究院 | 一种训练端到端的自动驾驶策略的方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10068140B2 (en) * | 2016-12-02 | 2018-09-04 | Bayerische Motoren Werke Aktiengesellschaft | System and method for estimating vehicular motion based on monocular video data |
US20190320934A1 (en) * | 2018-04-18 | 2019-10-24 | Siemens Healthcare Gmbh | Medical image acquisition with sequence prediction using deep learning |
JP2021143830A (ja) * | 2018-06-15 | 2021-09-24 | ソニーグループ株式会社 | 情報処理装置および情報処理方法 |
JP7056406B2 (ja) * | 2018-06-22 | 2022-04-19 | 日本電信電話株式会社 | センサノード及びデータセンタとして機能する装置、センサネットワーク、通信方法及びプログラム |
-
2020
- 2020-02-27 JP JP2020031819A patent/JP2021135770A/ja active Pending
- 2020-12-23 WO PCT/JP2020/048315 patent/WO2021171768A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2021171768A1 (ja) | 2021-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11325252B2 (en) | Action prediction networks for robotic grasping | |
US20230150127A1 (en) | Optimizing policy controllers for robotic agents using image embeddings | |
Ding et al. | Sim-to-real transfer for optical tactile sensing | |
CN105144196B (zh) | 用于计算相机或对象姿态的方法和设备 | |
JP5555207B2 (ja) | 3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム | |
JP2022503647A (ja) | クロスドメイン画像変換 | |
KR20190031318A (ko) | 도메인 분리 뉴럴 네트워크들 | |
US11853895B2 (en) | Mirror loss neural networks | |
JP2012083955A (ja) | 動作モデル学習装置、3次元姿勢推定装置、動作モデル学習方法、3次元姿勢推定方法およびプログラム | |
JP2014085933A (ja) | 3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム | |
Marban et al. | Estimation of interaction forces in robotic surgery using a semi-supervised deep neural network model | |
CN116343012B (zh) | 基于深度马尔可夫模型的全景图像扫视路径预测方法 | |
WO2021171768A1 (ja) | 情報処理装置及び情報処理方法、コンピュータプログラム、並びに観測装置 | |
KR20230081378A (ko) | 3차원 휴먼 자세 추정을 위한 단시점 모델의 다시점 준지도 학습 시스템 | |
CN116758212A (zh) | 基于自适应去噪算法的3d重建方法、装置、设备及介质 | |
Li et al. | DeformNet: Latent Space Modeling and Dynamics Prediction for Deformable Object Manipulation | |
CN116868203A (zh) | 利用自适应梯度裁剪的神经网络 | |
Rezazadeh et al. | KINet: Unsupervised Forward Models for Robotic Pushing Manipulation | |
Larey et al. | Facial Expression Retargeting from a Single Character | |
JP2022018333A (ja) | プログラム、情報処理方法、情報処理装置及びモデル生成方法 | |
Wu et al. | Video driven adaptive grasp planning of virtual hand using deep reinforcement learning | |
Ju et al. | Enhancing human–robot communication with a comprehensive language-conditioned imitation policy for embodied robots in smart cities | |
Malek-Podjaski et al. | Adversarial Attention for Human Motion Synthesis | |
US20240331356A1 (en) | Generating images for neural network training | |
KR102540560B1 (ko) | 랜덤 포레스트를 사용한 손 자세의 계층적 추정 방법, 이를 수행하기 위한 기록 매체 및 장치 |