JP2022091474A - 情報処理装置、情報処理方法、プログラムおよび車両制御システム - Google Patents
情報処理装置、情報処理方法、プログラムおよび車両制御システム Download PDFInfo
- Publication number
- JP2022091474A JP2022091474A JP2020204325A JP2020204325A JP2022091474A JP 2022091474 A JP2022091474 A JP 2022091474A JP 2020204325 A JP2020204325 A JP 2020204325A JP 2020204325 A JP2020204325 A JP 2020204325A JP 2022091474 A JP2022091474 A JP 2022091474A
- Authority
- JP
- Japan
- Prior art keywords
- information
- anchor
- feature
- points
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims description 48
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000001514 detection method Methods 0.000 claims abstract description 85
- 230000007246 mechanism Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 8
- 238000000034 method Methods 0.000 description 54
- 238000012545 processing Methods 0.000 description 44
- 230000008569 process Effects 0.000 description 21
- 230000006870 function Effects 0.000 description 18
- 238000013528 artificial neural network Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 230000011218 segmentation Effects 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000005259 measurement Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】計算量の増大を抑制しながら、未計測領域の属性を予測可能とする。【解決手段】情報処理装置は、エンコーダ部と、アンカー生成部と、デコーダ部と、推定部と、を備える。エンコーダ部は、検知装置により検知される3次元空間の検知情報に基づく情報から、3次元空間に含まれる複数の3次元点ごとの第1特徴量を示す特徴マップを生成する。アンカー生成部は、複数の3次元点と少なくとも一部が異なる複数のアンカー点と、複数のアンカー点それぞれの特徴量である複数の第2特徴量と、を含み、特徴マップを復元可能なアンカー情報を、特徴マップに基づいて生成する。デコーダ部は、アンカー情報から、3次元空間内で指定された1以上の対象点の第3特徴量を推定する。推定部は、第3特徴量から、対象点の属性を推定する。【選択図】図3
Description
本発明の実施形態は、情報処理装置、情報処理方法、プログラムおよび車両制御システムに関する。
近年の画像セマンティックセグメンテーションの発達に合わせて、3次元空間のセマンティックマップを推定する技術も発展している。このような属性推定技術は、自動運転において車道と歩道とを区別する周辺環境認識、並びに、工場および点検現場において対象を領域分割してデータベース化する際などに利用できる。
3次元空間のセマンティックマップ推定では、障害物によって遮蔽が発生し、1視点の検知情報(画像情報など)からでは3次元空間すべての座標を観測することはできない場合がある。そこで、観測された情報から、遮蔽による未計測領域のセマンティックマップを予測する技術が提案されている。
J. Behley, et al., "SemanticKITTI: A Dataset for Semantic Scene Understanding of LiDAR Sequences", ICCV, 2019.
R. Li, et al.,"PU-GAN: a Point Cloud Upsampling Adversarial Network", ICCV, 2019.
しかしながら、従来技術では、未計測領域の属性(セマンティックマップなど)を予測するための計算量が増大する場合があった。
実施形態の情報処理装置は、エンコーダ部と、アンカー生成部と、デコーダ部と、推定部と、を備える。エンコーダ部は、検知装置により検知される3次元空間の検知情報に基づく情報から、3次元空間に含まれる複数の3次元点ごとの第1特徴量を示す特徴マップを生成する。アンカー生成部は、複数の3次元点と少なくとも一部が異なる複数のアンカー点と、複数のアンカー点それぞれの特徴量である複数の第2特徴量と、を含み、特徴マップを復元可能なアンカー情報を、特徴マップに基づいて生成する。デコーダ部は、アンカー情報から、3次元空間内で指定された1以上の対象点の第3特徴量を推定する。推定部は、第3特徴量から、対象点の属性を推定する。
以下に添付図面を参照して、この発明にかかる情報処理装置の好適な実施形態を詳細に説明する。
上記のように、3次元空間のマップ推定では、1視点の検知情報から空間すべての座標の情報を得ることができない場合がある。異なる位置から計測される検知情報(複数視点の検知情報)を取得するように構成すれば、遮蔽による未計測領域を減らすことができる。しかし、このような技術では、複数視点の検知情報を1つの3次元空間に一貫性を保ちながら統合する必要がある。複数視点の画像を統合する手法として、SfM(Structure-from-Motion)、Multi-view stereo等による3次元再構成、および、LiDAR(Light Detection and Ranging、Laser Imaging Detection and Ranging)-SLAM(Simultaneous Localization and Mapping)のように点群を重畳していく手法がある。このような手法でも、未計測領域が生じないように複数視点の検知情報を取得することは容易ではない。
そこで、観測された情報から未計測領域のセマンティックマップを予測する技術が提案されている。例えば、3次元距離センサで取得した3次元点を、3次元のボクセルに分割した3次元空間に割り当て、未計測領域を含めた各ボクセルが含む点の属性を推定することで、3次元空間全体のセマンティックマップを推定する技術が提案されている。
このような技術では、空間をボクセルに分割することで計算量が膨大になる。またこのような技術では、3次元空間が大まかに分割され、複数の領域の境界で複数視点の情報の一貫性が保持されない。また、物体表面以外の物体属性が不明な領域(例えば空中または物体の内部)にもボクセルが配置されるため、無駄な属性推定の情報を記憶する必要がある。これが、計算量が増える要因の1つとなっている。
他の技術として、疎な3次元点群を補間する技術が提案されている。この技術と、3次元点群のセマンティックセグメンテーションとを組み合わせること、例えば、3次元点群を補間した後に3次元点群のセマンティックセグメンテーションを実行することにより、未計測領域の3次元セマンティックマップを推定することができる。しかし、補間される3次元点は補間が可能な領域に限定されるため、所望の未計測領域に対してセマンティックマップを予測するように制御することは容易ではない。
以下の実施形態の情報処理装置は、検知情報から抽出した特徴量から、疎な3次元点群に相当する複数のアンカー点(アンカー点群)と、各アンカー点の特徴量と、を推定して中間データとして記憶する。そして実施形態の情報処理装置は、アンカー点群を用いて、指定された3次元点の属性を推定する。これにより、複数視点の検知情報を3次元空間で効率よく記憶した上で、着目する未計測領域(死角領域など)に関しても属性を推定することが可能となる。すなわち、計算量の増大を抑制しながら、未計測領域の属性を予測可能となる。
以下では、カメラなどの撮像装置を検知装置とし、撮像装置により撮像された画像(画像情報)を、3次元空間の検知情報として用いる例を主に説明する。
(第1の実施形態)
図1は、第1の実施形態の情報処理装置が搭載される移動体10の例を示す図である。
図1は、第1の実施形態の情報処理装置が搭載される移動体10の例を示す図である。
移動体10は、情報処理装置20、出力部10A、カメラ10B、センサ10C、動力制御部10Gおよび動力部10Hを備える。
移動体10は、例えば車両、台車、鉄道、移動ロボット、飛行体、および、人間等であるが、これらに限定されない。車両は、例えば自動二輪車、自動四輪車および自転車等である。また、移動体10は、例えば人による運転操作を介して走行する移動体でもよいし、人による運転操作を介さずに自動的に走行(自律走行)可能な移動体でもよい。
情報処理装置20は、例えば専用または汎用のコンピュータハードウェアにより実現される。情報処理装置20は、カメラ10Bで撮像された画像から、道路などを含む3次元空間の点の属性(セマンティックマップなど)を推定する。
なお、情報処理装置20は、移動体10に搭載された形態に限定されない。情報処理装置20は、静止物に搭載されていてもよい。静止物は、例えば地面に固定された物等の移動不可能な物である。地面に固定された静止物は、例えばガードレール、ポール、駐車車両および道路標識等である。また例えば、静止物は、地面に対して静止した状態の物である。また、情報処理装置20は、クラウドシステム上で処理を実行するクラウドサーバに搭載されていてもよい。
動力部10Hは、移動体10に搭載された駆動機構である。動力部10Hは、例えば、エンジン、モータおよび車輪等である。
動力制御部10G(車両制御装置の一例)は、動力部10Hを制御する。動力制御部10Gの制御によって動力部10Hが駆動する。例えば動力制御部10Gは、情報処理装置20により推定された属性(セマンティックマップなど)に基づき動力部10Hを制御する。
出力部10Aは情報を出力する。例えば、出力部10Aは、情報処理装置20により推定された、3次元空間の点の属性(セマンティックマップなど)を示す推定結果情報を出力する。
出力部10Aは、例えば、推定結果情報を送信する通信機能、推定結果情報を表示する表示機能、および、推定結果情報を示す音を出力する音出力機能等を備える。出力部10Aは、例えば通信部10D、ディスプレイ10Eおよびスピーカ10Fの少なくとも1つを備える。以下では、出力部10Aは、通信部10D、ディスプレイ10Eおよびスピーカ10Fを備えた構成を例にして説明する。
通信部10Dは、推定結果情報を他の装置へ送信する。例えば、通信部10Dは、通信回線を介して推定結果情報を他の装置へ送信する。ディスプレイ10Eは、推定結果に関する情報を表示する。ディスプレイ10Eは、例えばLCD(Liquid Crystal Display)、投影装置およびライト等である。スピーカ10Fは、推定結果に関する情報を示す音を出力する。
カメラ10Bは、例えば単眼カメラ、ステレオカメラ、魚眼カメラおよび赤外線カメラ等である。カメラ10Bの数は限定されない。また、撮像される画像はRGBの3チャネルで構成されたカラー画像であってもよく、グレースケールで表現された1チャネルのモノクロ画像であってもよい。カメラ10Bは、移動体10周辺の時系列の画像を撮像する。カメラ10Bは、例えば移動体10の周辺を時系列に撮像することにより、時系列の画像を出力する。移動体10の周辺は、例えば当該移動体10から予め定められた範囲内の領域である。この範囲は、例えばカメラ10Bの撮像可能な範囲である。
以下では、カメラ10Bが、移動体10の前方を撮像方向として含むように設置されている場合を例にして説明する。すなわち、カメラ10Bは、移動体10の前方を時系列に撮像する。
センサ10Cは、測定情報を測定するセンサである。測定情報は、例えば移動体10の速度、および、移動体10のハンドルの舵角を含む。センサ10Cは、例えば慣性計測装置(IMU:Inertial Measurement Unit)、速度センサおよび舵角センサ等である。IMUは、移動体10の三軸加速度および三軸角速度を含む測定情報を測定する。速度センサは、タイヤの回転量から速度を測定する。舵角センサは、移動体10のハンドルの舵角を測定する。また例えば、センサ10Cは、LiDARのように物体までの距離を計測する奥行距離センサである。
次に、第1の実施形態の移動体10の機能構成の例について詳細に説明する。
図2は第1の実施形態の移動体10の機能構成の例を示す図である。
移動体10は、情報処理装置20、出力部10A、カメラ10B、センサ10C、動力制御部10Gおよび動力部10Hを備える。情報処理装置20は、処理部20Aおよび記憶部20Bを備える。出力部10Aは、通信部10D、ディスプレイ10Eおよびスピーカ10Fを備える。
処理部20A、記憶部20B、出力部10A、カメラ10B、センサ10Cおよび動力制御部10Gは、バス10Iを介して接続されている。動力部10Hは、動力制御部10Gに接続されている。
なお、出力部10A(通信部10D、ディスプレイ10Eおよびスピーカ10F)、カメラ10B、センサ10C、動力制御部10Gおよび記憶部20Bは、ネットワークを介して接続されていてもよい。接続に使用されるネットワークの通信方式は、有線方式であっても無線方式であってもよい。また、接続に使用されるネットワークは、有線方式と無線方式とを組み合わせることにより実現されていてもよい。
記憶部20Bは、例えば半導体メモリ素子、ハードディスクおよび光ディスク等である。半導体メモリ素子は、例えばRAM(Random Access Memory)およびフラッシュメモリ等である。なお、記憶部20Bは、情報処理装置20の外部に設けられた記憶装置であってもよい。また、記憶部20Bは、記憶媒体であってもよい。具体的には、記憶媒体は、プログラムおよび各種情報を、LAN(Local Area Network)またはインターネットなどを介してダウンロードして記憶または一時記憶したものであってもよい。また、記憶部20Bを、複数の記憶媒体から構成してもよい。
図3は、処理部20Aの機能構成の一例を示すブロック図である。図3に示すように、処理部20Aは、取得部101と、エンコーダ102と、アンカー生成部103と、デコーダ104と、推定部105と、を備える。
取得部101は、処理部20Aによる各種処理で用いる各種情報を取得する。例えば取得部101は、カメラ10Bで撮像された画像を検知情報として取得する。取得部101は、カメラ10Bにより時系列に撮像された複数の画像を取得してもよい。
エンコーダ102は、取得された検知情報を受け取り、受け取った検知情報から、3次元空間に含まれる複数の3次元点ごとの特徴量(第1特徴量)を示す特徴マップを生成して出力する。エンコーダ102は、例えば、検知情報を入力し、特徴マップを出力するようにパラメータ(重みなど)が学習されるニューラルネットワークにより実現することができる。後述するように、エンコーダ102は、例えばディープニューラルネットワーク(DNN)の一部を構成するニューラルネットワークとして実現されてもよい。
なおエンコーダ102は、検知情報に基づいて算出された情報(検知情報に基づく情報)から特徴マップを生成してもよい。例えば情報処理装置20内に、検知情報を入力して画像処理を実行して処理結果を出力する機能が存在する場合、エンコーダ102は、この機能が中間データとして出力する画像特徴量を、検知情報に基づいて算出された情報として用いてもよい。この場合、取得部101は、上記機能が出力する中間データを取得するように構成されてもよい。上記機能による画像処理はどのような処理であってもよいが、例えば画像認識処理、および、2次元画像上の各位置の属性を推定する画像セマンティックセグメンテーションである。
アンカー生成部103は、生成された3次元空間の特徴マップを受け取り、受け取った特徴マップを用いてアンカー情報を生成する。アンカー情報は、複数のアンカー点を含むアンカー点群の座標と、複数のアンカー点それぞれの特徴量(第2特徴量)と、を含む。アンカー点の特徴量をアンカー特徴量という場合がある。
アンカー点群に含まれる複数のアンカー点のうち少なくとも一部は、特徴マップの構成要素である複数の3次元点とは異なる点である。また、アンカー情報は、特徴マップを構成する3次元点の特徴量を復元できるように生成される。アンカー情報の生成方法の詳細は後述する。
デコーダ104は、アンカー情報と、属性を推定する対象として指定された1以上の3次元点を含む3次元点群を示す情報と、を受け取り、指定された3次元点群に含まれる各点の特徴量(第3特徴量)を推定して出力する。以下では、属性を推定する対象として指定された3次元点を対象点といい、1以上の対象点の群を対象点群という場合がある。
対象点(対象点群)は、どのように指定されてもよい。例えば属性を推定する予め定められた座標が、対象点群の座標として指定されてもよい。カメラ10Bの前方にグリッド状に等間隔に複数の対象点が配置されてもよい。複数の対象点は、複数の領域間で異なる密度となるように配置されてもよい。例えば特定の注目領域に高密度で複数の対象点が配置されてもよい。
推定部105は、デコーダ104により推定された特徴量を受け取り、受け取った特徴量から、対象点群に含まれる各対象点の属性を推定する。
処理部20Aは、例えばCPU(Central Processing Unit)等のプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現されてもよい。また例えば、処理部20Aは、専用のIC(Integrated Circuit)等の1または複数のプロセッサ、すなわちハードウェアにより実現されてもよい。また例えば、処理部20Aは、ソフトウェアおよびハードウェアを併用することにより実現されてもよい。
なお、実施形態において用いられる「プロセッサ」の文言は、例えば、CPU、GPU(Graphical Processing Unit)、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、および、プログラマブル論理デバイスを含む。プログラマブル論理デバイスは、例えば単純プログラマブル論理デバイス(Simple Programmable Logic Device:SPLD)、複合プログラマブル論理デバイス(Complex Programmable Logic Device:CPLD)、および、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA)等を含む。
プロセッサは、記憶部20Bに保存されたプログラムを読み出し実行することで、処理部20Aを実現する。なお、記憶部20Bにプログラムを保存する代わりに、プロセッサの回路内にプログラムを直接組み込むよう構成してもよい。この場合、プロセッサは回路内に組み込まれたプログラムを読み出し実行することで、処理部20Aを実現する。
なお、図3に示す移動体10の機能の一部は、他の装置に備えられていてもよい。例えば、カメラ10Bおよびセンサ10C等が移動体10に搭載され、情報処理装置20は移動体10の外部に設置されたサーバ装置として動作させてもよい。この場合、通信部10Dが、カメラ10Bおよびセンサ10C等によって観測されたデータをサーバ装置に送信する。
次に、このように構成された第1の実施形態にかかる情報処理装置20による属性推定処理の動作例について説明する。図4は、属性推定処理の動作例を示す図である。以下では、移動体10を車両とし、カメラ10Bを車両前方に向けて設置し、車両前方を撮像して得られる画像を用いる例を説明する。
図4は、画像(検知情報)に対する画像処理を実行する機能が出力する中間データを、検知情報に基づく情報として用いる例を示す。例えば図4の機能410は、撮像された画像401に対して画像セマンティックセグメンテーションを実行して推定結果402を出力する。機能410は、例えば画像セマンティックセグメンテーションを実行するCNN(Convolutional Neural Network)として構成することができる。機能410は、中間データとして画像特徴量を出力する。
画像特徴量とは、画像上の位置に紐づいた特徴量である。画像特徴量は、画像セマンティックセグメンテーションを実行するCNNの中間データに限られず、画像から抽出した特徴量であれば,どのような情報であってもよい。例えば画像特徴量は、画像認識タスク用のCNNから出力される特徴量であってもよい。この場合、画像認識タスク用のCNNは、3次元点の属性推定も可能となるように新たに抽出パラメータが学習されてもよい。またCNNに限らず古典的な画像処理で得られた特徴量が用いられてもよい。また、特徴点検出のように画像上にスパースに検出される特徴量が用いられてもよい。
エンコーダ102は、このようにして得られる画像特徴量から3次元空間の特徴マップを生成して出力する。例えばエンコーダ102は、画像から抽出された画像特徴量を3次元空間の各位置にマッピングすることにより、特徴マップを生成する。
特徴マップとは、3次元空間の位置に紐づいた特徴量である。例えばエンコーダ102は、画像の解像度に合わせて3次元空間を分割し、ピクセルに対応する観測光線上に画像特徴量を割り当てる。
特徴マップの生成方法はこれに限られず、画像特徴量を3次元空間にマッピングできれば、どのような方法であってもよい。例えば、奥行距離が推定できる場合は、物体表面の周辺にのみ画像特徴量を割り当てる方法、および、画像の観測方向と関係なく3次元空間を均一にボクセルに分割する方法が用いられてもよい。また、特徴マップは空間に緻密にマッピングされなくてもよい。例えばランダムな3次元点を生成し、生成された3次元点にのみ特徴量をマッピングする方法が用いられてもよい。
これまでは検知装置および検知情報としてカメラ10Bおよび画像を用いる構成について述べた。周辺環境の検知情報を取得できれば、検知装置はカメラ10Bなどの撮像装置に限られない。例えばLiDARのように、検知装置からの奥行距離を計測して3次元点を取得する検知装置が用いられてもよい。この場合、エンコーダ102は、例えば、観測された3次元点の座標に対する畳み込み処理によって特徴量を求めることで3次元空間の特徴マップを生成する。エンコーダ102は、3次元のボクセルを予め定義し、観測された3次元点を割り当ててボクセルに対して物体の占有確率を推定した上で、各ボクセルに対して特徴量を抽出してもよい。
以上のように、エンコーダ102は、検知情報から3次元空間の特徴マップを抽出(生成)する。
次にアンカー生成部103は、3次元空間の特徴マップを受け取り、アンカー点群の座標と、アンカー特徴量とを含むアンカー情報を生成して出力する。アンカー点群は、3次元空間内の点の集合である。アンカー情報は、例えば、アンカー点群に含まれる各アンカー点の3次元座標と、各アンカー点の特徴量(アンカー特徴量)とを含む。
アンカー生成部103は、アンカー点群の座標とアンカー特徴量とを、それぞれ3次元空間の特徴マップから推定する。アンカー生成部103は、例えば、3次元空間の特徴マップを入力し、アンカー点群の座標とアンカー特徴量とを推定して出力するようにパラメータが学習されるニューラルネットワークにより実現することができる。エンコーダ102と同様に、アンカー生成部103は、DNNの一部を構成するニューラルネットワークとして実現されてもよい。
アンカー点群は、未計測領域に対しても設定されうる。このため、アンカー点群を用いた対象点の属性の推定により、未計測領域の属性も推定可能となる。アンカー生成部103が生成するアンカー点群の個数は、特徴マップの構成要素の個数よりも少ないことが望ましい。特徴マップの構成要素は、例えば、ボクセル、または、3次元点である。また、アンカー生成部103は、デコーダ104によって特徴マップを復元できるように構成(学習)される。これにより、情報量の損失を抑えながら要素数を減らして計算量を削減することが可能となる。
デコーダ104は、アンカー情報と3次元点群(対象点群)とを受け取り、対象点群に含まれる各対象点の特徴量を推定して出力する。デコーダ104は、例えば、アンカー情報と対象点群とを入力し、対象点群に含まれる各点の特徴量を推定して出力するようにパラメータが学習されるニューラルネットワークにより実現することができる。エンコーダ102およびアンカー生成部103と同様に、デコーダ104は、DNNの一部を構成するニューラルネットワークとして実現されてもよい。
上記のように、未計測領域に対してもアンカー点群が設定されうるため、未計測領域内に対象点群が指定された場合であっても、デコーダ104は、対象点群の特徴量を推定することができる。
対象点の特徴量の推定方法はこれに限られず、アンカー情報から特徴量を推定できればどのような方法であってもよい。例えばデコーダ104は、以下のような推定方法により対象点の特徴量を推定してもよい。
(M1)複数のアンカー点に対する重みを算出し、複数のアンカー点の特徴量の重み有り補間により、対象点の特徴量を推定する。重みは、例えば、対象点から各アンカー点までの距離に応じて決定される。複数のアンカー点は、すべてのアンカー点であってもよいし、対象点の周辺に存在するアンカー点であってもよい。
(M2)対象点の周辺の複数のアンカー点の特徴量を線形補間することにより、対象点の特徴量を推定する。
(M1)複数のアンカー点に対する重みを算出し、複数のアンカー点の特徴量の重み有り補間により、対象点の特徴量を推定する。重みは、例えば、対象点から各アンカー点までの距離に応じて決定される。複数のアンカー点は、すべてのアンカー点であってもよいし、対象点の周辺に存在するアンカー点であってもよい。
(M2)対象点の周辺の複数のアンカー点の特徴量を線形補間することにより、対象点の特徴量を推定する。
このようにデコーダ104は、指定された対象点に関する特徴量を推定する。
適切にニューラルネットワーク(アンカー生成部103、デコーダ104)が学習されていれば、特徴マップを構成する3次元点群が対象点群として指定された場合、デコーダ104によりアンカー情報と対象点とから推定された特徴量と、特徴マップに含まれる特徴量とは一致することが期待される。すなわち、デコーダ104は、特徴マップを構成する3次元点群が対象点群として指定された場合、特徴マップを復元することができる。これにより、アンカー点群を用いることによる情報の損失を抑えることを保証できる。図5は、特徴マップを構成する3次元点群が対象点群として指定されたデコーダ104が、エンコーダ102により出力された特徴マップに含まれる特徴量と一致する特徴量を出力する様子を示す図である。
図4に戻り、推定部105は、デコーダ104により出力される特徴量を受け取り、対象点群の各点の属性を推定して出力する。推定部105は、例えば、特徴量を入力し、属性を推定して出力するようにパラメータが学習されるニューラルネットワークにより実現することができる。エンコーダ102、アンカー生成部103、および、デコーダ104と同様に、推定部105は、DNNの一部を構成するニューラルネットワークとして実現されてもよい。
例えば対象点が物体表面に存在する場合、推定部105は、通常のセマンティックセグメンテーションと同様に、対象点が属する物体の属性を推定する。本実施形態では、推定部105は、物体表面以外にある対象点の属性を推定することができる。例えば、空気中の対象点に対して、推定部105は、物体に占有されていないフリースペースであることを示す属性を推定してもよい。また、例えば物体の内部に存在する対象点に対して、推定部105が、遮蔽されて観測できない占有状態であることを示す属性(物体による占有属性)を推定してもよい。
上記のように、未計測領域(カメラの画角外、死角領域など)に含まれる対象点についても特徴量が推定される。従って、推定部105は、未計測領域の対象点に対して推定された特徴量を用いて、対象点の属性を推定することができる。
次に、上記の各モジュール(エンコーダ102、アンカー生成部103、デコーダ104、および、推定部105)の具体的な構成例についてさらに説明する。
エンコーダ102、アンカー生成部103、デコーダ104、および、推定部105は、例えばディープニューラルネットワーク(DNN)により構成することができる。例えば、DNNは、画像と対象点群とを入力し、対象点群に含まれる各対象点の属性を推定するように構成される。DNNは、例えば、特徴マップと、アンカー情報と、対象点の特徴量と、を中間データとして推定する。
画像を入力して特徴マップを中間データとして出力する部分が、エンコーダ102に相当する。特徴マップを入力してアンカー情報を中間データとして出力する部分が、アンカー生成部103に相当する。対象点群とアンカー情報とを入力して対象点の特徴量を中間データとして出力する部分が、デコーダ104に相当する。対象点の特徴量を入力して対象点の属性を出力する部分が、推定部105に相当する。
DNNは、推定した属性と教示データとの誤差がより小さくなるように学習するとともに、特徴マップの構成要素の3次元座標を対象点群として用いて特徴量を推定したときに、推定された特徴量と特徴マップの特徴量との差がより小さくなるように学習される。これにより、特徴マップの情報を失わないアンカー点群を推定することができる。
DNNの各モジュールのニューラルネットワークの構造は、既知のニューラルネットワークと同様に構成することができる。
推定部105は、3次元点群についての既知のセマンティックセグメンテーションと同様の手法を用いてもよいが、既知のセマンティックセグメンテーションでは、例えば物体に占有されていないフリースペースであることを推定できない場合がある。そこで、推定部105は、物体の属性に加えて、例えばフリースペースか否かの占有状態、および、遮蔽されて観測できない占有状態(物体の内部など)を推定するように構成されてもよい。
これまでは、特徴マップの構成要素を3次元点群として用いる例を述べたが、これに限られるものではない。アンカー点群を用いて推定される3次元点の特徴量が特徴マップを表現できていることが評価できればよいため、特徴マップの特徴量と推定された3次元点の特徴量とを比較できる他の構成が用いられてもよい。例えば、2つの特徴量を入力として一致度を推定するようなモジュールを追加してアンカー点群を求めてもよい。
ここでは1つのDNNが上記のすべてのモジュールを含むように構成する例を述べたが、各モジュールが別々に構成されていてもよい。例えばエンコーダ102は他のタスク向けに予め学習されたネットワークを用いてもよい。推定部105は、サポートベクタマシン(SVM)のようなニューラルネットワーク以外の属性識別手法を用いてもよい。
次に、このように構成された第1の実施形態にかかる情報処理装置20による推定処理について説明する。図6は、第1の実施形態における推定処理の一例を示すフローチャートである。
取得部101は、カメラ10Bで撮像された画像を検知情報として取得する(ステップS101)。エンコーダ102は、検知情報から特徴マップを生成する(ステップS102)。アンカー生成部103は、特徴マップから、アンカー点群とアンカー特徴量とを含むアンカー情報を生成する(ステップS103)。デコーダ104は、アンカー情報と指定された3次元点群(対象点群)とから、対象点群に含まれる各対象点の特徴量を推定する(ステップS104)。推定部105は、特徴量から対象点群に含まれる各対象点の属性を推定し(ステップS105)、推定処理を終了する。推定された属性を示す情報は、出力部10Aによって出力されてもよいし、動力制御部10Gによる動力部10Hの制御に用いられてもよい。
このように、第1の実施形態にかかる情報処理装置は、検知情報から抽出された3次元空間の特徴マップを用いて、アンカー点群の座標と特徴量とを推定し、アンカー点群を用いて、指定された3次元点の特徴量を推定し、推定された特徴量を用いて3次元点の属性を推定する。このとき、アンカー点群は、特徴マップを復元でき、かつ、個数がより少なくなるように生成される。これにより、情報量の損失を抑えながら要素数を減らして計算量を削減することができる。
(第2の実施形態)
第1の実施形態では、属性を推定する座標を示す3次元点群(対象点群)として、予め設定した3次元点を用いる構成を示した。第2の実施形態では、検知情報に対して適応的に対象点群を決定(変更)する。例えば、対象点群は、未計測領域(死角領域など)内に指定される。通常のセマンティックセグメンテーションでは、観測した3次元点の属性を推定するが、本実施形態では、動的に変化しうる未計測領域の属性を推定することが可能となる。
第1の実施形態では、属性を推定する座標を示す3次元点群(対象点群)として、予め設定した3次元点を用いる構成を示した。第2の実施形態では、検知情報に対して適応的に対象点群を決定(変更)する。例えば、対象点群は、未計測領域(死角領域など)内に指定される。通常のセマンティックセグメンテーションでは、観測した3次元点の属性を推定するが、本実施形態では、動的に変化しうる未計測領域の属性を推定することが可能となる。
第2の実施形態の移動体および情報処理装置の全体構成は、図1および図2と同様である。第2の実施形態では、処理部の機能が第1の実施形態の処理部と異なっている。図7は、第2の実施形態にかかる処理部20A-2の構成の一例を示すブロック図である。図7に示すように、処理部20A-2は、取得部101と、エンコーダ102と、アンカー生成部103と、デコーダ104と、推定部105と、決定部106-2と、を備える。
第2の実施形態では、決定部106-2を追加したことが第1の実施形態と異なっている。その他の構成および機能は、第1の実施形態にかかる処理部20Aのブロック図である図3と同様であるので、同一符号を付し、ここでの説明は省略する。
決定部106-2は、検知情報に基づいて対象点を決定する。例えば決定部106-2は、未計測領域に含まれる点群を対象点群として決定(生成)する。
まず決定部106-2は、検知情報から、3次元点が観測された領域を推定する。例えば決定部106-2は、カメラ10Bから画像内に撮像されている物体までの奥行距離を画像から推定する。決定部106-2は、カメラ10Bから物体までの間の領域は観測されたと認識する。決定部106-2は、推定された物体の奥行より奥に対象点群を生成することにより、物体に遮蔽されたカメラ10Bの死角領域に対象点群を生成することができる。死角領域に対象点群を生成する方法はこれに限られない。決定部106-2は、例えばカメラ10Bの画角外に対象点群を生成してもよい。
また対象点群を生成する領域は、未計測領域(死角領域)に限られない。対象点群は、検知情報に基づいて決定される方法であれば、どのような方法で決定されてもよい。例えば決定部106-2は、以下のような領域に対象点群を決定してもよい。
・着目する特定物体の周辺の領域
・移動体が現れやすい領域
・画像の端部のようなアプリケーションに基づく画像の着目領域
・着目する特定物体の周辺の領域
・移動体が現れやすい領域
・画像の端部のようなアプリケーションに基づく画像の着目領域
なお、デコーダ104は、このようにして決定された対象点を示す情報を受け取り、特徴量の推定を実行する。また推定部105は、決定された対象点の属性を推定する。
次に、このように構成された第2の実施形態にかかる処理部20A-2による推定処理について図8を用いて説明する。図8は、第2の実施形態における推定処理の一例を示すフローチャートである。
ステップS201からステップS202までは、第1の実施形態にかかる処理部20AにおけるステップS101からステップS102までと同様の処理なので、その説明を省略する。
決定部106-2は、検知情報から3次元点群を決定する(ステップS203)。なお、ステップS202とステップS203はこの順序で実行される必要はなく、逆の順序であってもよいし、一部または全部が並列に実行されてもよい。
ステップS204は、第1の実施形態にかかる処理部20AにおけるステップS103と同様の処理なので、その説明を省略する。
デコーダ104は、アンカー情報と、ステップS203で決定された3次元点群(対象点群)とから、対象点群の各点の特徴量を推定する(ステップS205)。
ステップS206は、第1の実施形態にかかる処理部20AにおけるステップS105と同様の処理なので、その説明を省略する。
このように、第2の実施形態では、検知情報から決定される対象点群に対して属性の推定処理を実行することができる。
(第3の実施形態)
第1の実施形態では、検知情報を1視点で取得してアンカー点群を一度生成する構成について述べた。第3の本実施形態では、複数の視点で取得された検知情報を用いて、検知情報を取得するたびにアンカー点群が更新される。検知情報の追加に合わせてアンカー点群を更新することで、アンカー点群を介して、複数視点の検知情報を効率よく記憶可能となる。
第1の実施形態では、検知情報を1視点で取得してアンカー点群を一度生成する構成について述べた。第3の本実施形態では、複数の視点で取得された検知情報を用いて、検知情報を取得するたびにアンカー点群が更新される。検知情報の追加に合わせてアンカー点群を更新することで、アンカー点群を介して、複数視点の検知情報を効率よく記憶可能となる。
第3の実施形態の移動体および情報処理装置の全体構成は、図1および図2と同様である。第3の実施形態では、処理部の機能が第1の実施形態の処理部と異なっている。図9は、第3の実施形態にかかる処理部20A-3の構成の一例を示すブロック図である。図9に示すように、処理部20A-3は、取得部101-3と、エンコーダ102と、アンカー生成部103と、デコーダ104-3と、推定部105と、更新部107-3と、を備える。
第3の実施形態では、更新部107-3を追加したこと、並びに、取得部101-3およびデコーダ104-3の機能が第1の実施形態と異なっている。その他の構成および機能は、第1の実施形態にかかる処理部20Aのブロック図である図3と同様であるので、同一符号を付し、ここでの説明は省略する。
取得部101-3は、複数の視点の検知情報を順次取得する点が、上記実施形態の取得部101と異なっている。複数の視点の検知情報は、例えば、移動体10が移動することにより相互に異なる視点からカメラ10Bにより撮像された複数の画像である。移動体10が複数のカメラ10Bを備え、取得部101-3が、複数のカメラ10Bそれぞれで撮像された画像を、複数の視点の検知情報として取得してもよい。
上記のように、情報処理装置20は移動体10に搭載されていてもよいし、移動体10とは別のサーバ装置(クラウドサーバなど)に搭載されていてもよい。後者の場合、取得部101-3は、移動体10に搭載されたカメラ10Bから検知情報(画像)を取得すればよい。
エンコーダ102は、複数の視点で取得された検知情報それぞれについて、各視点に対応する特徴マップを推定する。複数の視点に対する複数の特徴マップは、各視点の位置を基準に推定されてもよいし、複数の視点の相対的な位置関係を用いて同一の3次元座標において推定されてもよい。相対的な位置関係は、どのような方法で求められてもよいが、例えば、検知情報からSfM等によりモーションを推定する方法、および、IMUのような内界センサを用いる方法により求めることができる。
アンカー生成部103は、複数の視点に対応して生成された複数の特徴マップそれぞれについて、アンカー情報を生成する。
更新部107-3は、複数の視点に対応して生成された複数の特徴マップと複数のアンカー情報とを受け取り、アンカー情報を更新して出力する。例えば更新部107-3は、ある視点(視点PA)に対して生成されたアンカー情報を、他の視点(視点PB)に対して生成されたアンカー情報を用いて更新する。
例えば情報処理装置20が搭載される移動体10が移動中の場合、視点PAは、ある時刻TAでのカメラ10Bの視点であり、視点PBは、時刻TAより後の時刻TBでの同じカメラ10Bの視点である。視点PAおよび視点PBは、それぞれ異なるカメラ10Bに対応する、同じ時刻または異なる時刻の視点であってもよい。カメラ10Bが時系列の画像を撮像する場合、例えば異なるフレームで撮像された画像に対応する視点が、異なる時刻の視点に相当する。
更新部107-3は、例えば複数のアンカー情報に含まれるアンカー点群から、一定数のアンカー点群を抽出する。このとき更新部107-3は、抽出したアンカー点群に含まれる各アンカー特徴量を、他のアンカー点との相対的な位置関係を用いて更新する。
更新部107-3は、複数のアンカー情報を入力し、更新後のアンカー情報を出力するように学習されるニューラルネットワークにより実現することができる。入力は、前回までに得られたアンカー情報と、今回得られた特徴マップと、であってもよい。更新部107-3は、例えばディープニューラルネットワーク(DNN)の一部を構成するニューラルネットワークとして実現されてもよい。
上記例では一定数のアンカー点が抽出されたが、アンカー点の個数は更新により増加してもよい。例えば移動体10の移動に応じて計測範囲が広くなる場合などでは、更新部107-3は、複数のアンカー点群を組み合わせることによりアンカー点の個数を増加させるように、アンカー情報を更新してもよい。
また上記例では、複数の視点に対応する複数の特徴マップから複数のアンカー情報を生成し、複数のアンカー情報を用いてアンカー情報が更新された。更新部107-3は、ある視点に対応するアンカー情報を、他の視点に対して生成された特徴マップを用いて更新してもよい。例えば更新部107-3は、前フレーム(時刻TA)までに生成したアンカー情報と、現フレーム(時刻TB)の特徴マップとを用いて、特徴量が変化した3次元点に対応するアンカー点のみを更新してもよい。
デコーダ104-3は、更新部107-3から更新されたアンカー情報を受け取り、受け取ったアンカー情報を用いて、指定された3次元点群の特徴量を推定する。更新されたアンカー情報から推定する特徴量は、第1の実施形態と同様に、参照した特徴マップを復元できる。すなわち、デコーダ104-3は、更新されたアンカー情報が、前フレームまでに生成したアンカー情報が復元する特徴マップと、現フレームの特徴マップと、の両方を復元することができるように学習される。両者に矛盾が存在する場合には、デコーダ104-3は、データに基づいた学習によってパラメータを推定してもよいし、現フレームの特徴マップを優先して復元するように学習されてもよい。
第1の実施形態で述べたように、各モジュールの全体をDNNで構成する例について述べる。本実施形態のDNNは、更新部107-3に相当するモジュールとして、前フレームまでに推定したアンカー情報と、新しいフレームで推定した特徴マップ(またはアンカー情報)とを入力し、新たなアンカー情報(更新後のアンカー情報)を出力するモジュールを含む。
DNNの各モジュールは、前フレームまでに推定したアンカー情報が、前フレームまでの特徴マップを復元するように学習されている。更新部107-3に相当するモジュールは、更新したアンカー情報が、新たな特徴マップを復元できるように学習される。
ここで更新とは、アンカー点群の3次元座標および割り当てる特徴量のうち一方または両方を変更することを表す。更新部107-3は、例えば、新たに更新したアンカー情報を介して、新たな特徴マップの構成要素を3次元点群として用いたときの特徴量と、新たな特徴マップの特徴量との差が小さくなるように、学習される。このとき、更新部107-3は、前フレームまでの特徴マップとの差も小さくなる、すなわち前フレームの特徴マップも復元できるように学習されてもよい。
次に、このように構成された第3の実施形態にかかる処理部20A-3による推定処理について図10を用いて説明する。図10は、第3の実施形態における推定処理の一例を示すフローチャートである。
なお図10の推定処理は、ある視点(例えばある時刻のカメラ10Bの視点)から検知情報が取得されたときに属性を推定する処理の例を示す。異なる視点(例えば次の時刻のカメラ10Bの視点)で検知情報が取得されるごとに、図10に示すような推定処理が実行される。
ステップS301からステップS303までは、第1の実施形態にかかる処理部20AにおけるステップS101からステップS103までと同様の処理なので、その説明を省略する。
更新部107-3は、既に得られているアンカー情報(例えば前フレームまでに推定したアンカー情報)を、ステップS303で得られたアンカー情報を用いて更新する(ステップS304)。
ステップS305からステップS306までは、第1の実施形態にかかる処理部20AにおけるステップS104からステップS105までと同様の処理なので、その説明を省略する。
なおステップS305では、デコーダ104は、更新されたアンカー情報を用いて対象点群の各点の特徴量を推定する。
このように、第3の実施形態では、複数の視点の検知情報を統合したアンカー情報を生成することで、複数の視点(複数の時刻、複数のフレームなど)の情報を効率よく記憶した上で3次元点の属性を推定することができる。
以上説明したとおり、第1から第3の実施形態によれば、計算量の増大を抑制しながら、未計測領域の属性を予測することができる。
第1から第3の実施形態にかかる情報処理装置で実行されるプログラムは、ROM52等に予め組み込まれて提供される。
第1から第3の実施形態にかかる情報処理装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD-R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
さらに、第1から第3の実施形態にかかる情報処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1から第3の実施形態にかかる情報処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
第1から第3の実施形態にかかる情報処理装置で実行されるプログラムは、コンピュータを上述した情報処理装置の各部として機能させうる。このコンピュータは、CPUがコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10 移動体
10A 出力部
10B カメラ
10C センサ
10D 通信部
10E ディスプレイ
10F スピーカ
10G 動力制御部
10H 動力部
10I バス
20 情報処理装置
20A、20A-2、20A-3 処理部
101、101-3 取得部
102 エンコーダ
103 アンカー生成部
104、104-3 デコーダ
105 推定部
106-2 決定部
107-3 更新部
10A 出力部
10B カメラ
10C センサ
10D 通信部
10E ディスプレイ
10F スピーカ
10G 動力制御部
10H 動力部
10I バス
20 情報処理装置
20A、20A-2、20A-3 処理部
101、101-3 取得部
102 エンコーダ
103 アンカー生成部
104、104-3 デコーダ
105 推定部
106-2 決定部
107-3 更新部
Claims (16)
- 検知装置により検知される3次元空間の検知情報に基づく情報から、前記3次元空間に含まれる複数の3次元点ごとの第1特徴量を示す特徴マップを生成するエンコーダ部と、
複数の前記3次元点と少なくとも一部が異なる複数のアンカー点と、複数の前記アンカー点それぞれの特徴量である複数の第2特徴量と、を含み、前記特徴マップを復元可能なアンカー情報を、前記特徴マップに基づいて生成するアンカー生成部と、
前記アンカー情報から、前記3次元空間内で指定された1以上の対象点の第3特徴量を推定するデコーダ部と、
前記第3特徴量から、前記対象点の属性を推定する推定部と、
を備える情報処理装置。 - 前記検知情報に基づいて前記対象点を決定する決定部をさらに備え、
前記デコーダ部は、決定された前記対象点の前記第3特徴量を推定する、
請求項1に記載の情報処理装置。 - 第1視点から検知された第1検知情報に基づいて生成される第1アンカー情報を、第2視点から検知された第2検知情報に基づいて生成される特徴マップ、または、前記第2検知情報に基づいて生成される第2アンカー情報を用いて更新する更新部をさらに備え、
前記デコーダ部は、更新された前記第1アンカー情報から前記第3特徴量を推定する、
請求項1に記載の情報処理装置。 - 前記検知装置は移動体に搭載され、
前記第1視点は、第1時刻の前記検知装置の視点であり、
前記第2視点は、前記第1時刻から第2時刻まで前記移動体が移動した後の前記検知装置の視点である、
請求項3に記載の情報処理装置。 - 複数の前記アンカー点の個数は、複数の前記3次元点の個数より少ない、
請求項1に記載の情報処理装置。 - 検知装置により検知される3次元空間の検知情報に基づく情報から、前記3次元空間に含まれる複数の3次元点ごとの第1特徴量を示す特徴マップを生成するエンコーダステップと、
複数の前記3次元点と少なくとも一部が異なる複数のアンカー点と、複数の前記アンカー点それぞれの特徴量である複数の第2特徴量と、を含み、前記特徴マップを復元可能なアンカー情報を、前記特徴マップに基づいて生成するアンカー生成ステップと、
前記アンカー情報から、前記3次元空間内で指定された1以上の対象点の第3特徴量を推定するデコーダステップと、
前記第3特徴量から、前記対象点の属性を推定する推定ステップと、
を含む情報処理方法。 - 前記検知情報に基づいて前記対象点を決定する決定ステップをさらに含み、
前記デコーダステップは、決定された前記対象点の前記第3特徴量を推定する、
請求項6に記載の情報処理方法。 - 第1視点から検知された第1検知情報に基づいて生成される第1アンカー情報を、第2視点から検知された第2検知情報に基づいて生成される特徴マップ、または、前記第2検知情報に基づいて生成される第2アンカー情報を用いて更新する更新ステップをさらに含み、
前記デコーダステップは、更新された前記第1アンカー情報から前記第3特徴量を推定する、
請求項6に記載の情報処理方法。 - 前記検知装置は移動体に搭載され、
前記第1視点は、第1時刻の前記検知装置の視点であり、
前記第2視点は、前記第1時刻から第2時刻まで前記移動体が移動した後の前記検知装置の視点である、
請求項8に記載の情報処理方法。 - 複数の前記アンカー点の個数は、複数の前記3次元点の個数より少ない、
請求項6に記載の情報処理方法。 - コンピュータに、
検知装置により検知される3次元空間の検知情報に基づく情報から、前記3次元空間に含まれる複数の3次元点ごとの第1特徴量を示す特徴マップを生成するエンコーダステップと、
複数の前記3次元点と少なくとも一部が異なる複数のアンカー点と、複数の前記アンカー点それぞれの特徴量である複数の第2特徴量と、を含み、前記特徴マップを復元可能なアンカー情報を、前記特徴マップに基づいて生成するアンカー生成ステップと、
前記アンカー情報から、前記3次元空間内で指定された1以上の対象点の第3特徴量を推定するデコーダステップと、
前記第3特徴量から、前記対象点の属性を推定する推定ステップと、
を実行させるためのプログラム。 - 前記検知情報に基づいて前記対象点を決定する決定ステップをさらに含み、
前記デコーダステップは、決定された前記対象点の前記第3特徴量を推定する、
請求項11に記載のプログラム。 - 第1視点から検知された第1検知情報に基づいて生成される第1アンカー情報を、第2視点から検知された第2検知情報に基づいて生成される特徴マップ、または、前記第2検知情報に基づいて生成される第2アンカー情報を用いて更新する更新ステップをさらに含み、
前記デコーダステップは、更新された前記第1アンカー情報から前記第3特徴量を推定する、
請求項11に記載のプログラム。 - 前記検知装置は移動体に搭載され、
前記第1視点は、第1時刻の前記検知装置の視点であり、
前記第2視点は、前記第1時刻から第2時刻まで前記移動体が移動した後の前記検知装置の視点である、
請求項13に記載のプログラム。 - 複数の前記アンカー点の個数は、複数の前記3次元点の個数より少ない、
請求項11に記載のプログラム。 - 車両を制御する車両制御システムであって、
3次元空間内で指定された1以上の対象点の属性を推定する情報処理装置と、
前記属性に基づき車両を駆動するための駆動機構を制御する車両制御装置と、
を備え、
前記情報処理装置は、
検知装置により検知される前記3次元空間の検知情報に基づく情報から、前記3次元空間に含まれる複数の3次元点ごとの第1特徴量を示す特徴マップを生成するエンコーダ部と、
複数の前記3次元点と少なくとも一部が異なる複数のアンカー点と、複数の前記アンカー点それぞれの特徴量である複数の第2特徴量と、を含み、前記特徴マップを復元可能なアンカー情報を、前記特徴マップに基づいて生成するアンカー生成部と、
前記アンカー情報から、前記対象点の第3特徴量を推定するデコーダ部と、
前記第3特徴量から、前記対象点の属性を推定する推定部と、
を備える車両制御システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020204325A JP7423500B2 (ja) | 2020-12-09 | 2020-12-09 | 情報処理装置、情報処理方法、プログラムおよび車両制御システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020204325A JP7423500B2 (ja) | 2020-12-09 | 2020-12-09 | 情報処理装置、情報処理方法、プログラムおよび車両制御システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022091474A true JP2022091474A (ja) | 2022-06-21 |
JP7423500B2 JP7423500B2 (ja) | 2024-01-29 |
Family
ID=82067304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020204325A Active JP7423500B2 (ja) | 2020-12-09 | 2020-12-09 | 情報処理装置、情報処理方法、プログラムおよび車両制御システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7423500B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024090191A1 (ja) * | 2022-10-28 | 2024-05-02 | ソニーグループ株式会社 | 情報処理装置、および情報処理方法、並びにプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11003920B2 (en) | 2018-11-13 | 2021-05-11 | GM Global Technology Operations LLC | Detection and planar representation of three dimensional lanes in a road scene |
-
2020
- 2020-12-09 JP JP2020204325A patent/JP7423500B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024090191A1 (ja) * | 2022-10-28 | 2024-05-02 | ソニーグループ株式会社 | 情報処理装置、および情報処理方法、並びにプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP7423500B2 (ja) | 2024-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11227398B2 (en) | RGB point clouds based map generation system for autonomous vehicles | |
US11465642B2 (en) | Real-time map generation system for autonomous vehicles | |
EP3707469B1 (en) | A point clouds registration system for autonomous vehicles | |
US10991156B2 (en) | Multi-modal data fusion for enhanced 3D perception for platforms | |
US11386567B2 (en) | Systems and methods for weakly supervised training of a model for monocular depth estimation | |
US11315317B2 (en) | Point clouds ghosting effects detection system for autonomous driving vehicles | |
WO2020154967A1 (en) | Map partition system for autonomous vehicles | |
JP6595182B2 (ja) | マッピング、位置特定、及び姿勢補正のためのシステム及び方法 | |
US20210004974A1 (en) | Systems and methods for semi-supervised depth estimation according to an arbitrary camera | |
CN111918053A (zh) | 车辆图像验证 | |
EP3942794B1 (en) | Depth-guided video inpainting for autonomous driving | |
JP2020516853A (ja) | ビデオベースの位置決め及びマッピングの方法及びシステム | |
JP6678605B2 (ja) | 情報処理装置、情報処理方法、および情報処理プログラム | |
JP2019185528A (ja) | 情報処理装置、プログラム、および情報処理方法 | |
KR101864127B1 (ko) | 무인 차량을 위한 주변 환경 매핑 방법 및 장치 | |
US20200082556A1 (en) | Image processing apparatus, image processing program, and driving assistance system | |
JP7423500B2 (ja) | 情報処理装置、情報処理方法、プログラムおよび車両制御システム | |
US20230049383A1 (en) | Systems and methods for determining road traversability using real time data and a trained model | |
Ernst et al. | Large-scale 3D Roadside Modelling with Road Geometry Analysis: Digital Roads New Zealand | |
JP7383584B2 (ja) | 情報処理装置、情報処理方法、プログラムおよび車両制御システム | |
Boschi et al. | Dynamic Bird’s Eye View Reconstruction of Driving Accidents | |
CN117576199A (zh) | 一种驾驶场景视觉重建方法、装置、设备及介质 | |
CN114926485A (zh) | 图像深度标注方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7423500 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |