JP2022091474A

JP2022091474A - 情報処理装置、情報処理方法、プログラムおよび車両制御システム

Info

Publication number: JP2022091474A
Application number: JP2020204325A
Authority: JP
Inventors: 貴行杉浦; Takayuki Sugiura; 晃仁関; Akihito Seki
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2022-06-21
Anticipated expiration: 2040-12-09
Also published as: JP7423500B2

Abstract

【課題】計算量の増大を抑制しながら、未計測領域の属性を予測可能とする。【解決手段】情報処理装置は、エンコーダ部と、アンカー生成部と、デコーダ部と、推定部と、を備える。エンコーダ部は、検知装置により検知される３次元空間の検知情報に基づく情報から、３次元空間に含まれる複数の３次元点ごとの第１特徴量を示す特徴マップを生成する。アンカー生成部は、複数の３次元点と少なくとも一部が異なる複数のアンカー点と、複数のアンカー点それぞれの特徴量である複数の第２特徴量と、を含み、特徴マップを復元可能なアンカー情報を、特徴マップに基づいて生成する。デコーダ部は、アンカー情報から、３次元空間内で指定された１以上の対象点の第３特徴量を推定する。推定部は、第３特徴量から、対象点の属性を推定する。【選択図】図３

Description

本発明の実施形態は、情報処理装置、情報処理方法、プログラムおよび車両制御システムに関する。

近年の画像セマンティックセグメンテーションの発達に合わせて、３次元空間のセマンティックマップを推定する技術も発展している。このような属性推定技術は、自動運転において車道と歩道とを区別する周辺環境認識、並びに、工場および点検現場において対象を領域分割してデータベース化する際などに利用できる。

３次元空間のセマンティックマップ推定では、障害物によって遮蔽が発生し、１視点の検知情報（画像情報など）からでは３次元空間すべての座標を観測することはできない場合がある。そこで、観測された情報から、遮蔽による未計測領域のセマンティックマップを予測する技術が提案されている。

J. Behley， et al.， "SemanticKITTI: A Dataset for Semantic Scene Understanding of LiDAR Sequences", ICCV, 2019. R. Li， et al.，"PU-GAN: a Point Cloud Upsampling Adversarial Network", ICCV, 2019.

しかしながら、従来技術では、未計測領域の属性（セマンティックマップなど）を予測するための計算量が増大する場合があった。

実施形態の情報処理装置は、エンコーダ部と、アンカー生成部と、デコーダ部と、推定部と、を備える。エンコーダ部は、検知装置により検知される３次元空間の検知情報に基づく情報から、３次元空間に含まれる複数の３次元点ごとの第１特徴量を示す特徴マップを生成する。アンカー生成部は、複数の３次元点と少なくとも一部が異なる複数のアンカー点と、複数のアンカー点それぞれの特徴量である複数の第２特徴量と、を含み、特徴マップを復元可能なアンカー情報を、特徴マップに基づいて生成する。デコーダ部は、アンカー情報から、３次元空間内で指定された１以上の対象点の第３特徴量を推定する。推定部は、第３特徴量から、対象点の属性を推定する。

第１の実施形態の情報処理装置が搭載される移動体の例を示す図。第１の実施形態の移動体の機能構成の例を示す図。処理部の機能構成のブロック図。属性推定処理の動作例を示す図。特徴マップに含まれる特徴量と一致する特徴量が出力される例を示す図。第１の実施形態における推定処理のフローチャート。第２の実施形態にかかる処理部のブロック図。第２の実施形態における推定処理のフローチャート。第３の実施形態にかかる処理部のブロック図。第３の実施形態における推定処理のフローチャート。

以下に添付図面を参照して、この発明にかかる情報処理装置の好適な実施形態を詳細に説明する。

上記のように、３次元空間のマップ推定では、１視点の検知情報から空間すべての座標の情報を得ることができない場合がある。異なる位置から計測される検知情報（複数視点の検知情報）を取得するように構成すれば、遮蔽による未計測領域を減らすことができる。しかし、このような技術では、複数視点の検知情報を１つの３次元空間に一貫性を保ちながら統合する必要がある。複数視点の画像を統合する手法として、ＳｆＭ（Structure-from-Motion）、Multi-view stereo等による３次元再構成、および、ＬｉＤＡＲ（Light Detection and Ranging、Laser Imaging Detection and Ranging）－ＳＬＡＭ（Simultaneous Localization and Mapping）のように点群を重畳していく手法がある。このような手法でも、未計測領域が生じないように複数視点の検知情報を取得することは容易ではない。

そこで、観測された情報から未計測領域のセマンティックマップを予測する技術が提案されている。例えば、３次元距離センサで取得した３次元点を、３次元のボクセルに分割した３次元空間に割り当て、未計測領域を含めた各ボクセルが含む点の属性を推定することで、３次元空間全体のセマンティックマップを推定する技術が提案されている。

このような技術では、空間をボクセルに分割することで計算量が膨大になる。またこのような技術では、３次元空間が大まかに分割され、複数の領域の境界で複数視点の情報の一貫性が保持されない。また、物体表面以外の物体属性が不明な領域（例えば空中または物体の内部）にもボクセルが配置されるため、無駄な属性推定の情報を記憶する必要がある。これが、計算量が増える要因の１つとなっている。

他の技術として、疎な３次元点群を補間する技術が提案されている。この技術と、３次元点群のセマンティックセグメンテーションとを組み合わせること、例えば、３次元点群を補間した後に３次元点群のセマンティックセグメンテーションを実行することにより、未計測領域の３次元セマンティックマップを推定することができる。しかし、補間される３次元点は補間が可能な領域に限定されるため、所望の未計測領域に対してセマンティックマップを予測するように制御することは容易ではない。

以下の実施形態の情報処理装置は、検知情報から抽出した特徴量から、疎な３次元点群に相当する複数のアンカー点（アンカー点群）と、各アンカー点の特徴量と、を推定して中間データとして記憶する。そして実施形態の情報処理装置は、アンカー点群を用いて、指定された３次元点の属性を推定する。これにより、複数視点の検知情報を３次元空間で効率よく記憶した上で、着目する未計測領域（死角領域など）に関しても属性を推定することが可能となる。すなわち、計算量の増大を抑制しながら、未計測領域の属性を予測可能となる。

以下では、カメラなどの撮像装置を検知装置とし、撮像装置により撮像された画像（画像情報）を、３次元空間の検知情報として用いる例を主に説明する。

（第１の実施形態）
図１は、第１の実施形態の情報処理装置が搭載される移動体１０の例を示す図である。

移動体１０は、情報処理装置２０、出力部１０Ａ、カメラ１０Ｂ、センサ１０Ｃ、動力制御部１０Ｇおよび動力部１０Ｈを備える。

移動体１０は、例えば車両、台車、鉄道、移動ロボット、飛行体、および、人間等であるが、これらに限定されない。車両は、例えば自動二輪車、自動四輪車および自転車等である。また、移動体１０は、例えば人による運転操作を介して走行する移動体でもよいし、人による運転操作を介さずに自動的に走行（自律走行）可能な移動体でもよい。

情報処理装置２０は、例えば専用または汎用のコンピュータハードウェアにより実現される。情報処理装置２０は、カメラ１０Ｂで撮像された画像から、道路などを含む３次元空間の点の属性（セマンティックマップなど）を推定する。

なお、情報処理装置２０は、移動体１０に搭載された形態に限定されない。情報処理装置２０は、静止物に搭載されていてもよい。静止物は、例えば地面に固定された物等の移動不可能な物である。地面に固定された静止物は、例えばガードレール、ポール、駐車車両および道路標識等である。また例えば、静止物は、地面に対して静止した状態の物である。また、情報処理装置２０は、クラウドシステム上で処理を実行するクラウドサーバに搭載されていてもよい。

動力部１０Ｈは、移動体１０に搭載された駆動機構である。動力部１０Ｈは、例えば、エンジン、モータおよび車輪等である。

動力制御部１０Ｇ（車両制御装置の一例）は、動力部１０Ｈを制御する。動力制御部１０Ｇの制御によって動力部１０Ｈが駆動する。例えば動力制御部１０Ｇは、情報処理装置２０により推定された属性（セマンティックマップなど）に基づき動力部１０Ｈを制御する。

出力部１０Ａは情報を出力する。例えば、出力部１０Ａは、情報処理装置２０により推定された、３次元空間の点の属性（セマンティックマップなど）を示す推定結果情報を出力する。

出力部１０Ａは、例えば、推定結果情報を送信する通信機能、推定結果情報を表示する表示機能、および、推定結果情報を示す音を出力する音出力機能等を備える。出力部１０Ａは、例えば通信部１０Ｄ、ディスプレイ１０Ｅおよびスピーカ１０Ｆの少なくとも１つを備える。以下では、出力部１０Ａは、通信部１０Ｄ、ディスプレイ１０Ｅおよびスピーカ１０Ｆを備えた構成を例にして説明する。

通信部１０Ｄは、推定結果情報を他の装置へ送信する。例えば、通信部１０Ｄは、通信回線を介して推定結果情報を他の装置へ送信する。ディスプレイ１０Ｅは、推定結果に関する情報を表示する。ディスプレイ１０Ｅは、例えばＬＣＤ（Liquid Crystal Display）、投影装置およびライト等である。スピーカ１０Ｆは、推定結果に関する情報を示す音を出力する。

カメラ１０Ｂは、例えば単眼カメラ、ステレオカメラ、魚眼カメラおよび赤外線カメラ等である。カメラ１０Ｂの数は限定されない。また、撮像される画像はＲＧＢの３チャネルで構成されたカラー画像であってもよく、グレースケールで表現された１チャネルのモノクロ画像であってもよい。カメラ１０Ｂは、移動体１０周辺の時系列の画像を撮像する。カメラ１０Ｂは、例えば移動体１０の周辺を時系列に撮像することにより、時系列の画像を出力する。移動体１０の周辺は、例えば当該移動体１０から予め定められた範囲内の領域である。この範囲は、例えばカメラ１０Ｂの撮像可能な範囲である。

以下では、カメラ１０Ｂが、移動体１０の前方を撮像方向として含むように設置されている場合を例にして説明する。すなわち、カメラ１０Ｂは、移動体１０の前方を時系列に撮像する。

センサ１０Ｃは、測定情報を測定するセンサである。測定情報は、例えば移動体１０の速度、および、移動体１０のハンドルの舵角を含む。センサ１０Ｃは、例えば慣性計測装置（ＩＭＵ：Inertial Measurement Unit）、速度センサおよび舵角センサ等である。ＩＭＵは、移動体１０の三軸加速度および三軸角速度を含む測定情報を測定する。速度センサは、タイヤの回転量から速度を測定する。舵角センサは、移動体１０のハンドルの舵角を測定する。また例えば、センサ１０Ｃは、ＬｉＤＡＲのように物体までの距離を計測する奥行距離センサである。

次に、第１の実施形態の移動体１０の機能構成の例について詳細に説明する。

図２は第１の実施形態の移動体１０の機能構成の例を示す図である。

移動体１０は、情報処理装置２０、出力部１０Ａ、カメラ１０Ｂ、センサ１０Ｃ、動力制御部１０Ｇおよび動力部１０Ｈを備える。情報処理装置２０は、処理部２０Ａおよび記憶部２０Ｂを備える。出力部１０Ａは、通信部１０Ｄ、ディスプレイ１０Ｅおよびスピーカ１０Ｆを備える。

処理部２０Ａ、記憶部２０Ｂ、出力部１０Ａ、カメラ１０Ｂ、センサ１０Ｃおよび動力制御部１０Ｇは、バス１０Ｉを介して接続されている。動力部１０Ｈは、動力制御部１０Ｇに接続されている。

なお、出力部１０Ａ（通信部１０Ｄ、ディスプレイ１０Ｅおよびスピーカ１０Ｆ）、カメラ１０Ｂ、センサ１０Ｃ、動力制御部１０Ｇおよび記憶部２０Ｂは、ネットワークを介して接続されていてもよい。接続に使用されるネットワークの通信方式は、有線方式であっても無線方式であってもよい。また、接続に使用されるネットワークは、有線方式と無線方式とを組み合わせることにより実現されていてもよい。

記憶部２０Ｂは、例えば半導体メモリ素子、ハードディスクおよび光ディスク等である。半導体メモリ素子は、例えばＲＡＭ（Random Access Memory）およびフラッシュメモリ等である。なお、記憶部２０Ｂは、情報処理装置２０の外部に設けられた記憶装置であってもよい。また、記憶部２０Ｂは、記憶媒体であってもよい。具体的には、記憶媒体は、プログラムおよび各種情報を、ＬＡＮ（Local Area Network）またはインターネットなどを介してダウンロードして記憶または一時記憶したものであってもよい。また、記憶部２０Ｂを、複数の記憶媒体から構成してもよい。

図３は、処理部２０Ａの機能構成の一例を示すブロック図である。図３に示すように、処理部２０Ａは、取得部１０１と、エンコーダ１０２と、アンカー生成部１０３と、デコーダ１０４と、推定部１０５と、を備える。

取得部１０１は、処理部２０Ａによる各種処理で用いる各種情報を取得する。例えば取得部１０１は、カメラ１０Ｂで撮像された画像を検知情報として取得する。取得部１０１は、カメラ１０Ｂにより時系列に撮像された複数の画像を取得してもよい。

エンコーダ１０２は、取得された検知情報を受け取り、受け取った検知情報から、３次元空間に含まれる複数の３次元点ごとの特徴量（第１特徴量）を示す特徴マップを生成して出力する。エンコーダ１０２は、例えば、検知情報を入力し、特徴マップを出力するようにパラメータ（重みなど）が学習されるニューラルネットワークにより実現することができる。後述するように、エンコーダ１０２は、例えばディープニューラルネットワーク（ＤＮＮ）の一部を構成するニューラルネットワークとして実現されてもよい。

なおエンコーダ１０２は、検知情報に基づいて算出された情報（検知情報に基づく情報）から特徴マップを生成してもよい。例えば情報処理装置２０内に、検知情報を入力して画像処理を実行して処理結果を出力する機能が存在する場合、エンコーダ１０２は、この機能が中間データとして出力する画像特徴量を、検知情報に基づいて算出された情報として用いてもよい。この場合、取得部１０１は、上記機能が出力する中間データを取得するように構成されてもよい。上記機能による画像処理はどのような処理であってもよいが、例えば画像認識処理、および、２次元画像上の各位置の属性を推定する画像セマンティックセグメンテーションである。

アンカー生成部１０３は、生成された３次元空間の特徴マップを受け取り、受け取った特徴マップを用いてアンカー情報を生成する。アンカー情報は、複数のアンカー点を含むアンカー点群の座標と、複数のアンカー点それぞれの特徴量（第２特徴量）と、を含む。アンカー点の特徴量をアンカー特徴量という場合がある。

アンカー点群に含まれる複数のアンカー点のうち少なくとも一部は、特徴マップの構成要素である複数の３次元点とは異なる点である。また、アンカー情報は、特徴マップを構成する３次元点の特徴量を復元できるように生成される。アンカー情報の生成方法の詳細は後述する。

デコーダ１０４は、アンカー情報と、属性を推定する対象として指定された１以上の３次元点を含む３次元点群を示す情報と、を受け取り、指定された３次元点群に含まれる各点の特徴量（第３特徴量）を推定して出力する。以下では、属性を推定する対象として指定された３次元点を対象点といい、１以上の対象点の群を対象点群という場合がある。

対象点（対象点群）は、どのように指定されてもよい。例えば属性を推定する予め定められた座標が、対象点群の座標として指定されてもよい。カメラ１０Ｂの前方にグリッド状に等間隔に複数の対象点が配置されてもよい。複数の対象点は、複数の領域間で異なる密度となるように配置されてもよい。例えば特定の注目領域に高密度で複数の対象点が配置されてもよい。

推定部１０５は、デコーダ１０４により推定された特徴量を受け取り、受け取った特徴量から、対象点群に含まれる各対象点の属性を推定する。

処理部２０Ａは、例えばＣＰＵ（Central Processing Unit）等のプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現されてもよい。また例えば、処理部２０Ａは、専用のＩＣ（Integrated Circuit）等の１または複数のプロセッサ、すなわちハードウェアにより実現されてもよい。また例えば、処理部２０Ａは、ソフトウェアおよびハードウェアを併用することにより実現されてもよい。

なお、実施形態において用いられる「プロセッサ」の文言は、例えば、ＣＰＵ、ＧＰＵ（Graphical Processing Unit）、特定用途向け集積回路（Application Specific Integrated Circuit：ＡＳＩＣ）、および、プログラマブル論理デバイスを含む。プログラマブル論理デバイスは、例えば単純プログラマブル論理デバイス（Simple Programmable Logic Device：ＳＰＬＤ）、複合プログラマブル論理デバイス（Complex Programmable Logic Device：ＣＰＬＤ）、および、フィールドプログラマブルゲートアレイ（Field Programmable Gate Array：ＦＰＧＡ）等を含む。

プロセッサは、記憶部２０Ｂに保存されたプログラムを読み出し実行することで、処理部２０Ａを実現する。なお、記憶部２０Ｂにプログラムを保存する代わりに、プロセッサの回路内にプログラムを直接組み込むよう構成してもよい。この場合、プロセッサは回路内に組み込まれたプログラムを読み出し実行することで、処理部２０Ａを実現する。

なお、図３に示す移動体１０の機能の一部は、他の装置に備えられていてもよい。例えば、カメラ１０Ｂおよびセンサ１０Ｃ等が移動体１０に搭載され、情報処理装置２０は移動体１０の外部に設置されたサーバ装置として動作させてもよい。この場合、通信部１０Ｄが、カメラ１０Ｂおよびセンサ１０Ｃ等によって観測されたデータをサーバ装置に送信する。

次に、このように構成された第１の実施形態にかかる情報処理装置２０による属性推定処理の動作例について説明する。図４は、属性推定処理の動作例を示す図である。以下では、移動体１０を車両とし、カメラ１０Ｂを車両前方に向けて設置し、車両前方を撮像して得られる画像を用いる例を説明する。

図４は、画像（検知情報）に対する画像処理を実行する機能が出力する中間データを、検知情報に基づく情報として用いる例を示す。例えば図４の機能４１０は、撮像された画像４０１に対して画像セマンティックセグメンテーションを実行して推定結果４０２を出力する。機能４１０は、例えば画像セマンティックセグメンテーションを実行するＣＮＮ（Convolutional Neural Network）として構成することができる。機能４１０は、中間データとして画像特徴量を出力する。

画像特徴量とは、画像上の位置に紐づいた特徴量である。画像特徴量は、画像セマンティックセグメンテーションを実行するＣＮＮの中間データに限られず、画像から抽出した特徴量であれば，どのような情報であってもよい。例えば画像特徴量は、画像認識タスク用のＣＮＮから出力される特徴量であってもよい。この場合、画像認識タスク用のＣＮＮは、３次元点の属性推定も可能となるように新たに抽出パラメータが学習されてもよい。またＣＮＮに限らず古典的な画像処理で得られた特徴量が用いられてもよい。また、特徴点検出のように画像上にスパースに検出される特徴量が用いられてもよい。

エンコーダ１０２は、このようにして得られる画像特徴量から３次元空間の特徴マップを生成して出力する。例えばエンコーダ１０２は、画像から抽出された画像特徴量を３次元空間の各位置にマッピングすることにより、特徴マップを生成する。

特徴マップとは、３次元空間の位置に紐づいた特徴量である。例えばエンコーダ１０２は、画像の解像度に合わせて３次元空間を分割し、ピクセルに対応する観測光線上に画像特徴量を割り当てる。

特徴マップの生成方法はこれに限られず、画像特徴量を３次元空間にマッピングできれば、どのような方法であってもよい。例えば、奥行距離が推定できる場合は、物体表面の周辺にのみ画像特徴量を割り当てる方法、および、画像の観測方向と関係なく３次元空間を均一にボクセルに分割する方法が用いられてもよい。また、特徴マップは空間に緻密にマッピングされなくてもよい。例えばランダムな３次元点を生成し、生成された３次元点にのみ特徴量をマッピングする方法が用いられてもよい。

これまでは検知装置および検知情報としてカメラ１０Ｂおよび画像を用いる構成について述べた。周辺環境の検知情報を取得できれば、検知装置はカメラ１０Ｂなどの撮像装置に限られない。例えばＬｉＤＡＲのように、検知装置からの奥行距離を計測して３次元点を取得する検知装置が用いられてもよい。この場合、エンコーダ１０２は、例えば、観測された３次元点の座標に対する畳み込み処理によって特徴量を求めることで３次元空間の特徴マップを生成する。エンコーダ１０２は、３次元のボクセルを予め定義し、観測された３次元点を割り当ててボクセルに対して物体の占有確率を推定した上で、各ボクセルに対して特徴量を抽出してもよい。

以上のように、エンコーダ１０２は、検知情報から３次元空間の特徴マップを抽出（生成）する。

次にアンカー生成部１０３は、３次元空間の特徴マップを受け取り、アンカー点群の座標と、アンカー特徴量とを含むアンカー情報を生成して出力する。アンカー点群は、３次元空間内の点の集合である。アンカー情報は、例えば、アンカー点群に含まれる各アンカー点の３次元座標と、各アンカー点の特徴量（アンカー特徴量）とを含む。

アンカー生成部１０３は、アンカー点群の座標とアンカー特徴量とを、それぞれ３次元空間の特徴マップから推定する。アンカー生成部１０３は、例えば、３次元空間の特徴マップを入力し、アンカー点群の座標とアンカー特徴量とを推定して出力するようにパラメータが学習されるニューラルネットワークにより実現することができる。エンコーダ１０２と同様に、アンカー生成部１０３は、ＤＮＮの一部を構成するニューラルネットワークとして実現されてもよい。

アンカー点群は、未計測領域に対しても設定されうる。このため、アンカー点群を用いた対象点の属性の推定により、未計測領域の属性も推定可能となる。アンカー生成部１０３が生成するアンカー点群の個数は、特徴マップの構成要素の個数よりも少ないことが望ましい。特徴マップの構成要素は、例えば、ボクセル、または、３次元点である。また、アンカー生成部１０３は、デコーダ１０４によって特徴マップを復元できるように構成（学習）される。これにより、情報量の損失を抑えながら要素数を減らして計算量を削減することが可能となる。

デコーダ１０４は、アンカー情報と３次元点群（対象点群）とを受け取り、対象点群に含まれる各対象点の特徴量を推定して出力する。デコーダ１０４は、例えば、アンカー情報と対象点群とを入力し、対象点群に含まれる各点の特徴量を推定して出力するようにパラメータが学習されるニューラルネットワークにより実現することができる。エンコーダ１０２およびアンカー生成部１０３と同様に、デコーダ１０４は、ＤＮＮの一部を構成するニューラルネットワークとして実現されてもよい。

上記のように、未計測領域に対してもアンカー点群が設定されうるため、未計測領域内に対象点群が指定された場合であっても、デコーダ１０４は、対象点群の特徴量を推定することができる。

対象点の特徴量の推定方法はこれに限られず、アンカー情報から特徴量を推定できればどのような方法であってもよい。例えばデコーダ１０４は、以下のような推定方法により対象点の特徴量を推定してもよい。
（Ｍ１）複数のアンカー点に対する重みを算出し、複数のアンカー点の特徴量の重み有り補間により、対象点の特徴量を推定する。重みは、例えば、対象点から各アンカー点までの距離に応じて決定される。複数のアンカー点は、すべてのアンカー点であってもよいし、対象点の周辺に存在するアンカー点であってもよい。
（Ｍ２）対象点の周辺の複数のアンカー点の特徴量を線形補間することにより、対象点の特徴量を推定する。

このようにデコーダ１０４は、指定された対象点に関する特徴量を推定する。

適切にニューラルネットワーク（アンカー生成部１０３、デコーダ１０４）が学習されていれば、特徴マップを構成する３次元点群が対象点群として指定された場合、デコーダ１０４によりアンカー情報と対象点とから推定された特徴量と、特徴マップに含まれる特徴量とは一致することが期待される。すなわち、デコーダ１０４は、特徴マップを構成する３次元点群が対象点群として指定された場合、特徴マップを復元することができる。これにより、アンカー点群を用いることによる情報の損失を抑えることを保証できる。図５は、特徴マップを構成する３次元点群が対象点群として指定されたデコーダ１０４が、エンコーダ１０２により出力された特徴マップに含まれる特徴量と一致する特徴量を出力する様子を示す図である。

図４に戻り、推定部１０５は、デコーダ１０４により出力される特徴量を受け取り、対象点群の各点の属性を推定して出力する。推定部１０５は、例えば、特徴量を入力し、属性を推定して出力するようにパラメータが学習されるニューラルネットワークにより実現することができる。エンコーダ１０２、アンカー生成部１０３、および、デコーダ１０４と同様に、推定部１０５は、ＤＮＮの一部を構成するニューラルネットワークとして実現されてもよい。

例えば対象点が物体表面に存在する場合、推定部１０５は、通常のセマンティックセグメンテーションと同様に、対象点が属する物体の属性を推定する。本実施形態では、推定部１０５は、物体表面以外にある対象点の属性を推定することができる。例えば、空気中の対象点に対して、推定部１０５は、物体に占有されていないフリースペースであることを示す属性を推定してもよい。また、例えば物体の内部に存在する対象点に対して、推定部１０５が、遮蔽されて観測できない占有状態であることを示す属性（物体による占有属性）を推定してもよい。

上記のように、未計測領域（カメラの画角外、死角領域など）に含まれる対象点についても特徴量が推定される。従って、推定部１０５は、未計測領域の対象点に対して推定された特徴量を用いて、対象点の属性を推定することができる。

次に、上記の各モジュール（エンコーダ１０２、アンカー生成部１０３、デコーダ１０４、および、推定部１０５）の具体的な構成例についてさらに説明する。

エンコーダ１０２、アンカー生成部１０３、デコーダ１０４、および、推定部１０５は、例えばディープニューラルネットワーク（ＤＮＮ）により構成することができる。例えば、ＤＮＮは、画像と対象点群とを入力し、対象点群に含まれる各対象点の属性を推定するように構成される。ＤＮＮは、例えば、特徴マップと、アンカー情報と、対象点の特徴量と、を中間データとして推定する。

画像を入力して特徴マップを中間データとして出力する部分が、エンコーダ１０２に相当する。特徴マップを入力してアンカー情報を中間データとして出力する部分が、アンカー生成部１０３に相当する。対象点群とアンカー情報とを入力して対象点の特徴量を中間データとして出力する部分が、デコーダ１０４に相当する。対象点の特徴量を入力して対象点の属性を出力する部分が、推定部１０５に相当する。

ＤＮＮは、推定した属性と教示データとの誤差がより小さくなるように学習するとともに、特徴マップの構成要素の３次元座標を対象点群として用いて特徴量を推定したときに、推定された特徴量と特徴マップの特徴量との差がより小さくなるように学習される。これにより、特徴マップの情報を失わないアンカー点群を推定することができる。

ＤＮＮの各モジュールのニューラルネットワークの構造は、既知のニューラルネットワークと同様に構成することができる。

推定部１０５は、３次元点群についての既知のセマンティックセグメンテーションと同様の手法を用いてもよいが、既知のセマンティックセグメンテーションでは、例えば物体に占有されていないフリースペースであることを推定できない場合がある。そこで、推定部１０５は、物体の属性に加えて、例えばフリースペースか否かの占有状態、および、遮蔽されて観測できない占有状態（物体の内部など）を推定するように構成されてもよい。

これまでは、特徴マップの構成要素を３次元点群として用いる例を述べたが、これに限られるものではない。アンカー点群を用いて推定される３次元点の特徴量が特徴マップを表現できていることが評価できればよいため、特徴マップの特徴量と推定された３次元点の特徴量とを比較できる他の構成が用いられてもよい。例えば、２つの特徴量を入力として一致度を推定するようなモジュールを追加してアンカー点群を求めてもよい。

ここでは１つのＤＮＮが上記のすべてのモジュールを含むように構成する例を述べたが、各モジュールが別々に構成されていてもよい。例えばエンコーダ１０２は他のタスク向けに予め学習されたネットワークを用いてもよい。推定部１０５は、サポートベクタマシン（ＳＶＭ）のようなニューラルネットワーク以外の属性識別手法を用いてもよい。

次に、このように構成された第１の実施形態にかかる情報処理装置２０による推定処理について説明する。図６は、第１の実施形態における推定処理の一例を示すフローチャートである。

取得部１０１は、カメラ１０Ｂで撮像された画像を検知情報として取得する（ステップＳ１０１）。エンコーダ１０２は、検知情報から特徴マップを生成する（ステップＳ１０２）。アンカー生成部１０３は、特徴マップから、アンカー点群とアンカー特徴量とを含むアンカー情報を生成する（ステップＳ１０３）。デコーダ１０４は、アンカー情報と指定された３次元点群（対象点群）とから、対象点群に含まれる各対象点の特徴量を推定する（ステップＳ１０４）。推定部１０５は、特徴量から対象点群に含まれる各対象点の属性を推定し（ステップＳ１０５）、推定処理を終了する。推定された属性を示す情報は、出力部１０Ａによって出力されてもよいし、動力制御部１０Ｇによる動力部１０Ｈの制御に用いられてもよい。

このように、第１の実施形態にかかる情報処理装置は、検知情報から抽出された３次元空間の特徴マップを用いて、アンカー点群の座標と特徴量とを推定し、アンカー点群を用いて、指定された３次元点の特徴量を推定し、推定された特徴量を用いて３次元点の属性を推定する。このとき、アンカー点群は、特徴マップを復元でき、かつ、個数がより少なくなるように生成される。これにより、情報量の損失を抑えながら要素数を減らして計算量を削減することができる。

（第２の実施形態）
第１の実施形態では、属性を推定する座標を示す３次元点群（対象点群）として、予め設定した３次元点を用いる構成を示した。第２の実施形態では、検知情報に対して適応的に対象点群を決定（変更）する。例えば、対象点群は、未計測領域（死角領域など）内に指定される。通常のセマンティックセグメンテーションでは、観測した３次元点の属性を推定するが、本実施形態では、動的に変化しうる未計測領域の属性を推定することが可能となる。

第２の実施形態の移動体および情報処理装置の全体構成は、図１および図２と同様である。第２の実施形態では、処理部の機能が第１の実施形態の処理部と異なっている。図７は、第２の実施形態にかかる処理部２０Ａ－２の構成の一例を示すブロック図である。図７に示すように、処理部２０Ａ－２は、取得部１０１と、エンコーダ１０２と、アンカー生成部１０３と、デコーダ１０４と、推定部１０５と、決定部１０６－２と、を備える。

第２の実施形態では、決定部１０６－２を追加したことが第１の実施形態と異なっている。その他の構成および機能は、第１の実施形態にかかる処理部２０Ａのブロック図である図３と同様であるので、同一符号を付し、ここでの説明は省略する。

決定部１０６－２は、検知情報に基づいて対象点を決定する。例えば決定部１０６－２は、未計測領域に含まれる点群を対象点群として決定（生成）する。

まず決定部１０６－２は、検知情報から、３次元点が観測された領域を推定する。例えば決定部１０６－２は、カメラ１０Ｂから画像内に撮像されている物体までの奥行距離を画像から推定する。決定部１０６－２は、カメラ１０Ｂから物体までの間の領域は観測されたと認識する。決定部１０６－２は、推定された物体の奥行より奥に対象点群を生成することにより、物体に遮蔽されたカメラ１０Ｂの死角領域に対象点群を生成することができる。死角領域に対象点群を生成する方法はこれに限られない。決定部１０６－２は、例えばカメラ１０Ｂの画角外に対象点群を生成してもよい。

また対象点群を生成する領域は、未計測領域（死角領域）に限られない。対象点群は、検知情報に基づいて決定される方法であれば、どのような方法で決定されてもよい。例えば決定部１０６－２は、以下のような領域に対象点群を決定してもよい。
・着目する特定物体の周辺の領域
・移動体が現れやすい領域
・画像の端部のようなアプリケーションに基づく画像の着目領域

なお、デコーダ１０４は、このようにして決定された対象点を示す情報を受け取り、特徴量の推定を実行する。また推定部１０５は、決定された対象点の属性を推定する。

次に、このように構成された第２の実施形態にかかる処理部２０Ａ－２による推定処理について図８を用いて説明する。図８は、第２の実施形態における推定処理の一例を示すフローチャートである。

ステップＳ２０１からステップＳ２０２までは、第１の実施形態にかかる処理部２０ＡにおけるステップＳ１０１からステップＳ１０２までと同様の処理なので、その説明を省略する。

決定部１０６－２は、検知情報から３次元点群を決定する（ステップＳ２０３）。なお、ステップＳ２０２とステップＳ２０３はこの順序で実行される必要はなく、逆の順序であってもよいし、一部または全部が並列に実行されてもよい。

ステップＳ２０４は、第１の実施形態にかかる処理部２０ＡにおけるステップＳ１０３と同様の処理なので、その説明を省略する。

デコーダ１０４は、アンカー情報と、ステップＳ２０３で決定された３次元点群（対象点群）とから、対象点群の各点の特徴量を推定する（ステップＳ２０５）。

ステップＳ２０６は、第１の実施形態にかかる処理部２０ＡにおけるステップＳ１０５と同様の処理なので、その説明を省略する。

このように、第２の実施形態では、検知情報から決定される対象点群に対して属性の推定処理を実行することができる。

（第３の実施形態）
第１の実施形態では、検知情報を１視点で取得してアンカー点群を一度生成する構成について述べた。第３の本実施形態では、複数の視点で取得された検知情報を用いて、検知情報を取得するたびにアンカー点群が更新される。検知情報の追加に合わせてアンカー点群を更新することで、アンカー点群を介して、複数視点の検知情報を効率よく記憶可能となる。

第３の実施形態の移動体および情報処理装置の全体構成は、図１および図２と同様である。第３の実施形態では、処理部の機能が第１の実施形態の処理部と異なっている。図９は、第３の実施形態にかかる処理部２０Ａ－３の構成の一例を示すブロック図である。図９に示すように、処理部２０Ａ－３は、取得部１０１－３と、エンコーダ１０２と、アンカー生成部１０３と、デコーダ１０４－３と、推定部１０５と、更新部１０７－３と、を備える。

第３の実施形態では、更新部１０７－３を追加したこと、並びに、取得部１０１－３およびデコーダ１０４－３の機能が第１の実施形態と異なっている。その他の構成および機能は、第１の実施形態にかかる処理部２０Ａのブロック図である図３と同様であるので、同一符号を付し、ここでの説明は省略する。

取得部１０１－３は、複数の視点の検知情報を順次取得する点が、上記実施形態の取得部１０１と異なっている。複数の視点の検知情報は、例えば、移動体１０が移動することにより相互に異なる視点からカメラ１０Ｂにより撮像された複数の画像である。移動体１０が複数のカメラ１０Ｂを備え、取得部１０１－３が、複数のカメラ１０Ｂそれぞれで撮像された画像を、複数の視点の検知情報として取得してもよい。

上記のように、情報処理装置２０は移動体１０に搭載されていてもよいし、移動体１０とは別のサーバ装置（クラウドサーバなど）に搭載されていてもよい。後者の場合、取得部１０１－３は、移動体１０に搭載されたカメラ１０Ｂから検知情報（画像）を取得すればよい。

エンコーダ１０２は、複数の視点で取得された検知情報それぞれについて、各視点に対応する特徴マップを推定する。複数の視点に対する複数の特徴マップは、各視点の位置を基準に推定されてもよいし、複数の視点の相対的な位置関係を用いて同一の３次元座標において推定されてもよい。相対的な位置関係は、どのような方法で求められてもよいが、例えば、検知情報からＳｆＭ等によりモーションを推定する方法、および、ＩＭＵのような内界センサを用いる方法により求めることができる。

アンカー生成部１０３は、複数の視点に対応して生成された複数の特徴マップそれぞれについて、アンカー情報を生成する。

更新部１０７－３は、複数の視点に対応して生成された複数の特徴マップと複数のアンカー情報とを受け取り、アンカー情報を更新して出力する。例えば更新部１０７－３は、ある視点（視点ＰＡ）に対して生成されたアンカー情報を、他の視点（視点ＰＢ）に対して生成されたアンカー情報を用いて更新する。

例えば情報処理装置２０が搭載される移動体１０が移動中の場合、視点ＰＡは、ある時刻ＴＡでのカメラ１０Ｂの視点であり、視点ＰＢは、時刻ＴＡより後の時刻ＴＢでの同じカメラ１０Ｂの視点である。視点ＰＡおよび視点ＰＢは、それぞれ異なるカメラ１０Ｂに対応する、同じ時刻または異なる時刻の視点であってもよい。カメラ１０Ｂが時系列の画像を撮像する場合、例えば異なるフレームで撮像された画像に対応する視点が、異なる時刻の視点に相当する。

更新部１０７－３は、例えば複数のアンカー情報に含まれるアンカー点群から、一定数のアンカー点群を抽出する。このとき更新部１０７－３は、抽出したアンカー点群に含まれる各アンカー特徴量を、他のアンカー点との相対的な位置関係を用いて更新する。

更新部１０７－３は、複数のアンカー情報を入力し、更新後のアンカー情報を出力するように学習されるニューラルネットワークにより実現することができる。入力は、前回までに得られたアンカー情報と、今回得られた特徴マップと、であってもよい。更新部１０７－３は、例えばディープニューラルネットワーク（ＤＮＮ）の一部を構成するニューラルネットワークとして実現されてもよい。

上記例では一定数のアンカー点が抽出されたが、アンカー点の個数は更新により増加してもよい。例えば移動体１０の移動に応じて計測範囲が広くなる場合などでは、更新部１０７－３は、複数のアンカー点群を組み合わせることによりアンカー点の個数を増加させるように、アンカー情報を更新してもよい。

また上記例では、複数の視点に対応する複数の特徴マップから複数のアンカー情報を生成し、複数のアンカー情報を用いてアンカー情報が更新された。更新部１０７－３は、ある視点に対応するアンカー情報を、他の視点に対して生成された特徴マップを用いて更新してもよい。例えば更新部１０７－３は、前フレーム（時刻ＴＡ）までに生成したアンカー情報と、現フレーム（時刻ＴＢ）の特徴マップとを用いて、特徴量が変化した３次元点に対応するアンカー点のみを更新してもよい。

デコーダ１０４－３は、更新部１０７－３から更新されたアンカー情報を受け取り、受け取ったアンカー情報を用いて、指定された３次元点群の特徴量を推定する。更新されたアンカー情報から推定する特徴量は、第１の実施形態と同様に、参照した特徴マップを復元できる。すなわち、デコーダ１０４－３は、更新されたアンカー情報が、前フレームまでに生成したアンカー情報が復元する特徴マップと、現フレームの特徴マップと、の両方を復元することができるように学習される。両者に矛盾が存在する場合には、デコーダ１０４－３は、データに基づいた学習によってパラメータを推定してもよいし、現フレームの特徴マップを優先して復元するように学習されてもよい。

第１の実施形態で述べたように、各モジュールの全体をＤＮＮで構成する例について述べる。本実施形態のＤＮＮは、更新部１０７－３に相当するモジュールとして、前フレームまでに推定したアンカー情報と、新しいフレームで推定した特徴マップ（またはアンカー情報）とを入力し、新たなアンカー情報（更新後のアンカー情報）を出力するモジュールを含む。

ＤＮＮの各モジュールは、前フレームまでに推定したアンカー情報が、前フレームまでの特徴マップを復元するように学習されている。更新部１０７－３に相当するモジュールは、更新したアンカー情報が、新たな特徴マップを復元できるように学習される。

ここで更新とは、アンカー点群の３次元座標および割り当てる特徴量のうち一方または両方を変更することを表す。更新部１０７－３は、例えば、新たに更新したアンカー情報を介して、新たな特徴マップの構成要素を３次元点群として用いたときの特徴量と、新たな特徴マップの特徴量との差が小さくなるように、学習される。このとき、更新部１０７－３は、前フレームまでの特徴マップとの差も小さくなる、すなわち前フレームの特徴マップも復元できるように学習されてもよい。

次に、このように構成された第３の実施形態にかかる処理部２０Ａ－３による推定処理について図１０を用いて説明する。図１０は、第３の実施形態における推定処理の一例を示すフローチャートである。

なお図１０の推定処理は、ある視点（例えばある時刻のカメラ１０Ｂの視点）から検知情報が取得されたときに属性を推定する処理の例を示す。異なる視点（例えば次の時刻のカメラ１０Ｂの視点）で検知情報が取得されるごとに、図１０に示すような推定処理が実行される。

ステップＳ３０１からステップＳ３０３までは、第１の実施形態にかかる処理部２０ＡにおけるステップＳ１０１からステップＳ１０３までと同様の処理なので、その説明を省略する。

更新部１０７－３は、既に得られているアンカー情報（例えば前フレームまでに推定したアンカー情報）を、ステップＳ３０３で得られたアンカー情報を用いて更新する（ステップＳ３０４）。

ステップＳ３０５からステップＳ３０６までは、第１の実施形態にかかる処理部２０ＡにおけるステップＳ１０４からステップＳ１０５までと同様の処理なので、その説明を省略する。

なおステップＳ３０５では、デコーダ１０４は、更新されたアンカー情報を用いて対象点群の各点の特徴量を推定する。

このように、第３の実施形態では、複数の視点の検知情報を統合したアンカー情報を生成することで、複数の視点（複数の時刻、複数のフレームなど）の情報を効率よく記憶した上で３次元点の属性を推定することができる。

以上説明したとおり、第１から第３の実施形態によれば、計算量の増大を抑制しながら、未計測領域の属性を予測することができる。

第１から第３の実施形態にかかる情報処理装置で実行されるプログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

第１から第３の実施形態にかかる情報処理装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

さらに、第１から第３の実施形態にかかる情報処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１から第３の実施形態にかかる情報処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

第１から第３の実施形態にかかる情報処理装置で実行されるプログラムは、コンピュータを上述した情報処理装置の各部として機能させうる。このコンピュータは、ＣＰＵがコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０移動体
１０Ａ出力部
１０Ｂカメラ
１０Ｃセンサ
１０Ｄ通信部
１０Ｅディスプレイ
１０Ｆスピーカ
１０Ｇ動力制御部
１０Ｈ動力部
１０Ｉバス
２０情報処理装置
２０Ａ、２０Ａ－２、２０Ａ－３処理部
１０１、１０１－３取得部
１０２エンコーダ
１０３アンカー生成部
１０４、１０４－３デコーダ
１０５推定部
１０６－２決定部
１０７－３更新部

Claims

検知装置により検知される３次元空間の検知情報に基づく情報から、前記３次元空間に含まれる複数の３次元点ごとの第１特徴量を示す特徴マップを生成するエンコーダ部と、
複数の前記３次元点と少なくとも一部が異なる複数のアンカー点と、複数の前記アンカー点それぞれの特徴量である複数の第２特徴量と、を含み、前記特徴マップを復元可能なアンカー情報を、前記特徴マップに基づいて生成するアンカー生成部と、
前記アンカー情報から、前記３次元空間内で指定された１以上の対象点の第３特徴量を推定するデコーダ部と、
前記第３特徴量から、前記対象点の属性を推定する推定部と、
を備える情報処理装置。
前記検知情報に基づいて前記対象点を決定する決定部をさらに備え、
前記デコーダ部は、決定された前記対象点の前記第３特徴量を推定する、
請求項１に記載の情報処理装置。
第１視点から検知された第１検知情報に基づいて生成される第１アンカー情報を、第２視点から検知された第２検知情報に基づいて生成される特徴マップ、または、前記第２検知情報に基づいて生成される第２アンカー情報を用いて更新する更新部をさらに備え、
前記デコーダ部は、更新された前記第１アンカー情報から前記第３特徴量を推定する、
請求項１に記載の情報処理装置。
前記検知装置は移動体に搭載され、
前記第１視点は、第１時刻の前記検知装置の視点であり、
前記第２視点は、前記第１時刻から第２時刻まで前記移動体が移動した後の前記検知装置の視点である、
請求項３に記載の情報処理装置。
複数の前記アンカー点の個数は、複数の前記３次元点の個数より少ない、
請求項１に記載の情報処理装置。
検知装置により検知される３次元空間の検知情報に基づく情報から、前記３次元空間に含まれる複数の３次元点ごとの第１特徴量を示す特徴マップを生成するエンコーダステップと、
複数の前記３次元点と少なくとも一部が異なる複数のアンカー点と、複数の前記アンカー点それぞれの特徴量である複数の第２特徴量と、を含み、前記特徴マップを復元可能なアンカー情報を、前記特徴マップに基づいて生成するアンカー生成ステップと、
前記アンカー情報から、前記３次元空間内で指定された１以上の対象点の第３特徴量を推定するデコーダステップと、
前記第３特徴量から、前記対象点の属性を推定する推定ステップと、
を含む情報処理方法。
前記検知情報に基づいて前記対象点を決定する決定ステップをさらに含み、
前記デコーダステップは、決定された前記対象点の前記第３特徴量を推定する、
請求項６に記載の情報処理方法。
第１視点から検知された第１検知情報に基づいて生成される第１アンカー情報を、第２視点から検知された第２検知情報に基づいて生成される特徴マップ、または、前記第２検知情報に基づいて生成される第２アンカー情報を用いて更新する更新ステップをさらに含み、
前記デコーダステップは、更新された前記第１アンカー情報から前記第３特徴量を推定する、
請求項６に記載の情報処理方法。
前記検知装置は移動体に搭載され、
前記第１視点は、第１時刻の前記検知装置の視点であり、
前記第２視点は、前記第１時刻から第２時刻まで前記移動体が移動した後の前記検知装置の視点である、
請求項８に記載の情報処理方法。
複数の前記アンカー点の個数は、複数の前記３次元点の個数より少ない、
請求項６に記載の情報処理方法。
コンピュータに、
検知装置により検知される３次元空間の検知情報に基づく情報から、前記３次元空間に含まれる複数の３次元点ごとの第１特徴量を示す特徴マップを生成するエンコーダステップと、
複数の前記３次元点と少なくとも一部が異なる複数のアンカー点と、複数の前記アンカー点それぞれの特徴量である複数の第２特徴量と、を含み、前記特徴マップを復元可能なアンカー情報を、前記特徴マップに基づいて生成するアンカー生成ステップと、
前記アンカー情報から、前記３次元空間内で指定された１以上の対象点の第３特徴量を推定するデコーダステップと、
前記第３特徴量から、前記対象点の属性を推定する推定ステップと、
を実行させるためのプログラム。
前記検知情報に基づいて前記対象点を決定する決定ステップをさらに含み、
前記デコーダステップは、決定された前記対象点の前記第３特徴量を推定する、
請求項１１に記載のプログラム。
第１視点から検知された第１検知情報に基づいて生成される第１アンカー情報を、第２視点から検知された第２検知情報に基づいて生成される特徴マップ、または、前記第２検知情報に基づいて生成される第２アンカー情報を用いて更新する更新ステップをさらに含み、
前記デコーダステップは、更新された前記第１アンカー情報から前記第３特徴量を推定する、
請求項１１に記載のプログラム。
前記検知装置は移動体に搭載され、
前記第１視点は、第１時刻の前記検知装置の視点であり、
前記第２視点は、前記第１時刻から第２時刻まで前記移動体が移動した後の前記検知装置の視点である、
請求項１３に記載のプログラム。
複数の前記アンカー点の個数は、複数の前記３次元点の個数より少ない、
請求項１１に記載のプログラム。
車両を制御する車両制御システムであって、
３次元空間内で指定された１以上の対象点の属性を推定する情報処理装置と、
前記属性に基づき車両を駆動するための駆動機構を制御する車両制御装置と、
を備え、
前記情報処理装置は、
検知装置により検知される前記３次元空間の検知情報に基づく情報から、前記３次元空間に含まれる複数の３次元点ごとの第１特徴量を示す特徴マップを生成するエンコーダ部と、
複数の前記３次元点と少なくとも一部が異なる複数のアンカー点と、複数の前記アンカー点それぞれの特徴量である複数の第２特徴量と、を含み、前記特徴マップを復元可能なアンカー情報を、前記特徴マップに基づいて生成するアンカー生成部と、
前記アンカー情報から、前記対象点の第３特徴量を推定するデコーダ部と、
前記第３特徴量から、前記対象点の属性を推定する推定部と、
を備える車両制御システム。