JP7501481B2

JP7501481B2 - 距離推定装置、距離推定方法、および距離推定用コンピュータプログラム

Info

Publication number: JP7501481B2
Application number: JP2021156991A
Authority: JP
Inventors: ケールワディム; 大晴加藤
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2024-06-18
Anticipated expiration: 2041-09-27
Also published as: JP2023047846A; US12243262B2; CN115880215A; US20230102186A1; CN115880215B

Description

本開示は、対象物までの距離を推定する距離推定装置、距離推定方法、および距離推定用コンピュータプログラムに関する。

多視点立体視による距離推定装置は、複数のカメラにより異なる視点から対象物を撮影することで生成された画像セットを用いて対象物の３次元構造を再構成することにより、対象物までの距離を推定することができる。

特許文献１には、３次元空間中に設定された所定サイズのボクセルを用いて対象物の形状を表す３次元形状データの生成装置が記載されている。

特開２０２０－００４２１９号公報

ボクセルを用いて表される３次元形状をコンピュータで取り扱う場合のメモリ使用量は、解像度の３乗で増加する。そのため、ボクセルを用いて表される対象物の３次元構造の解像度を高くすることは困難である。そのため、複雑な形状を有する対象物までの距離を適切に推定することは容易ではない。

本開示は、比較的少ないメモリ容量でも複雑な形状を有する対象物までの距離を適切に推定することができる距離推定装置を提供することを目的とする。

本開示にかかる距離推定装置は、所定のリファレンス位置から対象物を撮影するリファレンス撮像部により生成されたリファレンス画像からリファレンス画像に含まれる各画素に対応する特徴量を表すリファレンス特徴マップを抽出するとともに、リファレンス位置とは異なる位置から対象物を撮影する１以上のソース撮像部のそれぞれにより生成されたソース画像のそれぞれから、当該ソース画像に含まれる各画素の特徴量を表すソース特徴マップを抽出する抽出部と、リファレンス特徴マップにおいてリファレンス画像に含まれる各画素に対応する特徴量を、リファレンス撮像部の像面をリファレンス撮像部の光軸方向に移動させたときの当該像面に対応する画像の各画素に対応するように変換することにより仮説的に配置される複数の仮説平面上にソース特徴マップを射影することで、複数の仮説平面上の座標に特徴量が関連づけられたコストボリュームを生成する生成部と、コストボリュームにおいて、リファレンス位置からリファレンス画像に含まれる複数の画素のうちのいずれかの対象画素に相当する方向に向かう直線の上に複数のサンプル点を設定する設定部と、複数のサンプル点のそれぞれに対応する特徴量を、コストボリュームにおいて、複数の仮説平面のうち当該サンプル点の近傍に配置された仮説平面上の、当該サンプル点の近傍の座標に関連づけられた特徴量を用いて補間する補間部と、補間された複数のサンプル点に対応する各特徴量を、複数の仮説平面のうちいずれかの仮説平面上のいずれかの座標に対応する特徴量に応じて当該座標が対象物の内部となる確率を表す占有確率を出力するよう学習された識別器に入力することで、当該サンプル点に対応する占有確率を算出する算出部と、複数のサンプル点のそれぞれに対応する占有確率と当該サンプル点のリファレンス位置からの距離との積を加算した値を、リファレンス位置から対象物の表面までの距離と推定する推定部と、を備える。

本開示にかかる距離推定装置において、算出部は、複数のサンプル点のそれぞれに対応する占有確率を、当該サンプル点に隣接する一対のサンプル点の間隔が大きいほど重みが大きくなるように重みづけすることが好ましい。

本開示にかかる距離推定装置において、識別器は、教師対象物が表された教師リファレンス画像、および、教師対象物が表され、教師リファレンス画像の視点とは異なる視点を有する教師ソース画像を含む教師データを用いて生成された教師コストボリュームにおいて、教師リファレンス画像の視点から教師リファレンス画像に含まれる複数の画素のうち表された教師対象物の深度が関連づけられた教師画素に相当する方向に向かう教師サンプリング直線の上に設定された複数の教師サンプル点について推定される占有確率と、教師画素に関連づけられた深度から算出される占有状態との差が小さくなるように学習されることが好ましい。

本開示にかかる距離推定装置において、複数の教師サンプル点は、教師画素に関連づけられた深度に近いほど間隔が密となるように設定されることが好ましい。

本開示にかかる距離推定装置において、識別器は、複数の教師サンプル点について推定される占有確率と、教師画素の前記占有状態との差が小さくなるように学習されるとともに、複数の教師サンプル点について推定される占有確率から算出される教師対象物の深度と当該教師画素に関連づけられた深度との差が小さくなるように学習されることが好ましい。

本開示にかかる距離推定装置において、識別器は、座標の値が教師画素ごとに設定される値を用いて変更された複数の教師サンプル点について推定される占有確率を用いて学習されることが好ましい。

本開示にかかる距離推定方法は、所定のリファレンス位置から対象物を撮影するリファレンス撮像部により生成されたリファレンス画像からリファレンス画像に含まれる各画素に対応する特徴量を表すリファレンス特徴マップを抽出するとともに、リファレンス位置とは異なる位置から対象物を撮影する１以上のソース撮像部のそれぞれにより生成されたソース画像のそれぞれから、当該ソース画像に含まれる各画素の特徴量を表すソース特徴マップを抽出し、リファレンス特徴マップにおいてリファレンス画像に含まれる各画素に対応する特徴量を、リファレンス撮像部の像面をリファレンス撮像部の光軸方向に移動させたときの当該像面に対応する画像の各画素に対応するように変換することにより仮説的に配置される複数の仮説平面上にソース特徴マップを射影することで、複数の仮説平面上の座標に特徴量が関連づけられたコストボリュームを生成し、コストボリュームにおいて、リファレンス位置からリファレンス画像に含まれる複数の画素のうちいずれかの対象画素に相当する方向に向かう直線の上に複数のサンプル点を設定し、複数のサンプル点のそれぞれに対応する特徴量を、コストボリュームにおいて、複数の仮説平面のうち当該サンプル点の近傍に配置された仮説平面上の、当該サンプル点の近傍の座標に関連づけられた特徴量を用いて補間し、補間された複数のサンプル点に対応する各特徴量を、複数の仮説平面のうちいずれかの仮説平面上のいずれかの座標に対応する特徴量に応じて当該座標が対象物の内部となる確率を表す占有確率を出力するよう学習された識別器に入力することで、当該サンプル点に対応する占有確率を算出し、複数のサンプル点のそれぞれに対応する占有確率と当該サンプル点のリファレンス位置からの距離との積を加算することで、リファレンス位置から対象物の表面までの距離を推定する、ことを含む。

本開示にかかる距離推定用コンピュータプログラムは、所定のリファレンス位置から対象物を撮影するリファレンス撮像部により生成されたリファレンス画像からリファレンス画像に含まれる各画素に対応する特徴量を表すリファレンス特徴マップを抽出するとともに、リファレンス位置とは異なる位置から対象物を撮影する１以上のソース撮像部のそれぞれにより生成されたソース画像のそれぞれから、当該ソース画像に含まれる各画素の特徴量を表すソース特徴マップを抽出し、リファレンス特徴マップにおいてリファレンス画像に含まれる各画素に対応する特徴量を、リファレンス撮像部の像面をリファレンス撮像部の光軸方向に移動させたときの当該像面に対応する画像の各画素に対応するように変換することにより仮説的に配置される複数の仮説平面上にソース特徴マップを射影することで、複数の仮説平面上の座標に特徴量が関連づけられたコストボリュームを生成し、コストボリュームにおいて、リファレンス位置からリファレンス画像に含まれる複数の画素のうちいずれかの対象画素に相当する方向に向かう直線の上に複数のサンプル点を設定し、複数のサンプル点のそれぞれに対応する特徴量を、コストボリュームにおいて、複数の仮説平面のうち当該サンプル点の近傍に配置された仮説平面上の、当該サンプル点の近傍の座標に関連づけられた特徴量を用いて補間し、補間された複数のサンプル点に対応する各特徴量を、複数の仮説平面のうちいずれかの仮説平面上のいずれかの座標に対応する特徴量に応じて当該座標が対象物の内部となる確率を表す占有確率を出力するよう学習された識別器に入力することで、当該サンプル点に対応する占有確率を算出し、複数のサンプル点のそれぞれに対応する占有確率と当該サンプル点のリファレンス位置からの距離との積を加算することで、リファレンス位置から対象物の表面までの距離を推定する、ことをコンピュータのプロセッサに実行させる。

本開示にかかる距離推定装置によれば、比較的少ないメモリ容量でも複雑な形状を有する対象物までの距離を適切に推定することができる。

距離推定装置が実装される車両の概略構成図である。ＥＣＵのハードウェア模式図である。ＥＣＵが有するプロセッサの機能ブロック図である。特徴マップの抽出を説明する図である。特徴マップを用いた距離の推定を説明する図である。距離推定処理のフローチャートである。

以下、図面を参照して、比較的少ないメモリ容量でも複雑な形状を有する対象物までの距離を適切に推定することができる距離推定装置について詳細に説明する。距離推定装置は、まず、所定のリファレンス位置から対象物を撮影するリファレンス撮像部により生成されたリファレンス画像からリファレンス画像に含まれる各画素に対応する特徴量を表すリファレンス特徴マップを抽出する。また、距離推定装置は、リファレンス位置とは異なる位置から対象物を撮影する１以上のソース撮像部のそれぞれにより生成されたソース画像のそれぞれから、当該ソース画像に含まれる各画素の特徴量を表すソース特徴マップを抽出する。次に、距離推定装置は、リファレンス特徴マップにおいてリファレンス画像に含まれる各画素に対応する特徴量を、リファレンス撮像部の像面をリファレンス撮像部の光軸方向に移動させたときの当該像面に対応する画像の各画素に対応するように変換することにより仮説的に配置される複数の仮説平面上にソース特徴マップを射影することで、複数の仮説平面上の座標に特徴量が関連づけられたコストボリュームを生成する。次に、距離推定装置は、コストボリュームにおいて、リファレンス位置からリファレンス画像に含まれる複数の画素のうちいずれかの対象画素に相当する方向に向かう直線の上に複数のサンプル点を設定する。次に、距離推定装置は、複数のサンプル点のそれぞれに対応する特徴量を、コストボリュームにおいて、複数の仮説平面のうち当該サンプル点の近傍に配置された仮説平面上の、当該サンプル点の近傍の座標に関連づけられた特徴量を用いて補間する。次に、距離推定装置は、補間された複数のサンプル点に対応する各特徴量を、複数の仮説平面のうちいずれかの仮説平面上のいずれかの座標に対応する特徴量に応じて当該座標が対象物の内部となる確率を表す占有確率を出力するよう学習された識別器に入力することで、当該サンプル点に対応する占有確率を算出する。そして、距離推定装置は、複数のサンプル点のそれぞれに対応する占有確率と当該サンプル点のリファレンス位置からの距離との積を加算することで、リファレンス位置から対象物の表面までの距離を推定する。

図１は、距離推定装置が実装される車両の概略構成図である。

車両１は、周辺カメラ２と、ＥＣＵ３（Electronic Control Unit）とを有する。ＥＣＵ３は、距離推定装置の一例である。周辺カメラ２とＥＣＵ３とは、コントローラエリアネットワークといった規格に準拠した車内ネットワークを介して通信可能に接続される。

周辺カメラ２は、車両１の周辺状況を表す画像を生成するための撮像部の一例である。周辺カメラ２は、ＣＣＤあるいはＣ－ＭＯＳなど、可視光に感度を有する光電変換素子のアレイで構成された２次元検出器と、その２次元検出器上の撮影対象となる領域の像を結像する結像光学系とを有する。周辺カメラ２は、左方周辺カメラ２－１および右方周辺カメラ２－２を有する。左方周辺カメラ２－１は、例えば車室内の前方左側上部に、前方を向けて配置され、右方周辺カメラ２－２は、例えば車室内の前方右側上部に、前方を向けて配置される。左方周辺カメラ２－１および右方周辺カメラ２－２は、車両１において異なる位置に配置されるため、同一の対象物を異なる視点から撮影することができる。本実施形態の周辺カメラ２は左方周辺カメラ２－１および右方周辺カメラ２－２の二つのカメラを有するが、周辺カメラ２はそれぞれ異なる位置に配置された３つ以上のカメラを有していてもよい。周辺カメラ２は、所定の撮影周期（例えば1/30秒～1/10秒）ごとにフロントガラスを介して車両１の周辺の状況を撮影し、周辺の状況が表された画像を出力する。

ＥＣＵ３は、リファレンス位置から周辺カメラ２が生成する画像に表された対象物までの距離を推定する。また、ＥＣＵ３は、推定されたリファレンス位置から対象物までの距離に基づいて将来における当該対象物の位置を予測し、将来における車両１と当該対象物との距離が所定の距離閾値を下回らないように、車両１の走行機構（不図示）を制御する。

図２は、ＥＣＵ３のハードウェア模式図である。ＥＣＵ３は、通信インタフェース３１と、メモリ３２と、プロセッサ３３とを備える。

通信インタフェース３１は、通信部の一例であり、ＥＣＵ３を車内ネットワークへ接続するための通信インタフェース回路を有する。通信インタフェース３１は、受信したデータをプロセッサ３３に供給する。また、通信インタフェース３１は、プロセッサ３３から供給されたデータを外部に出力する。

メモリ３２は、記憶部の一例であり、揮発性の半導体メモリおよび不揮発性の半導体メモリを有する。メモリ３２は、プロセッサ３３による処理に用いられる各種データ、例えば、周辺カメラ２の配置される位置、結像光学系の光軸方向および焦点距離を保存する。また、メモリ３２は、画像から特徴マップを抽出する識別器として動作するニューラルネットワークを規定するためのパラメータ群（層数、層構成、カーネル、重み係数等）を保存する。また、メモリ３２は、特徴マップを用いて生成されたコストボリュームを保存する。また、メモリ３２は、コストボリュームに含まれる座標に対応する特徴量に基づいて当該座標に対応する占有確率を出力する識別器として動作するニューラルネットワークを規定するためのパラメータ群を保存する。また、メモリ３２は、各種アプリケーションプログラム、例えば距離推定処理を実行する距離推定用プログラム等を保存する。

プロセッサ３３は、制御部の一例であり、１以上のプロセッサおよびその周辺回路を有する。プロセッサ３３は、論理演算ユニット、数値演算ユニット、またはグラフィック処理ユニットといった他の演算回路をさらに有していてもよい。

図３は、ＥＣＵ３が有するプロセッサ３３の機能ブロック図である。

ＥＣＵ３のプロセッサ３３は、機能ブロックとして、抽出部３３１と、生成部３３２と、設定部３３３と、補間部３３４と、算出部３３５と、推定部３３６とを有する。プロセッサ３３が有するこれらの各部は、メモリ３２に記憶されプロセッサ３３上で実行されるプコンピュータログラムによって実装される機能モジュールである。プロセッサ３３の各部の機能を実現するコンピュータプログラムは、半導体メモリ、磁気記録媒体または光記録媒体といった、コンピュータ読取可能な可搬性の記録媒体に記録された形で提供されてもよい。あるいは、プロセッサ３３が有するこれらの各部は、独立した集積回路、マイクロプロセッサ、またはファームウェアとしてＥＣＵ３に実装されてもよい。

抽出部３３１は、リファレンス撮像部により生成されたリファレンス画像から、リファレンス画像に含まれる各画素に対応する特徴量を表すリファレンス特徴マップを抽出する。また、抽出部３３１は、と１以上のソース撮像部のそれぞれにより生成されたソース画像のそれぞれから、当該ソース画像に含まれる各画素の特徴量を表す複数のソース特徴マップを抽出する。

図４は、特徴マップの抽出を説明する図である。

車両１に搭載された左方周辺カメラ２－１および右方周辺カメラ２－２は対象物ＯＢＪを撮影し、対象物ＯＢＪが表されたリファレンス画像Ｐ_Rおよびソース画像Ｐ_Sを出力する。本実施形態では、左方周辺カメラ２－１がリファレンス画像Ｐ_Rを生成するリファレンス撮像部とし、右方周辺カメラ２－２がソース画像Ｐ_Sを生成するソース撮像部として説明するが、この逆であってもよい。また、周辺カメラ２が３以上のカメラを有する場合、そのうち一のカメラをリファレンス撮像部とし、他のカメラを第１、第２、…のソース撮像部とすればよい。左方周辺カメラ２－１の配置される位置はリファレンス位置に相当し、右方周辺カメラ２－２はリファレンス位置とは異なる位置に配置される。

抽出部３３１は、リファレンス画像Ｐ_Rおよびソース画像Ｐ_Sのそれぞれを識別器Ｃ１に入力することで、リファレンス画像Ｐ_Rに含まれる各画素に対応する特徴量を表すリファレンス特徴マップＦＭ_Rおよびソース画像Ｐ_Sに含まれる各画素に対応する特徴量を表すソース特徴マップＦＭ_Sを抽出する。リファレンス特徴マップＦＭ_Rおよびソース特徴マップＦＭ_Sは、縦方向および横方向にリファレンス画像Ｐ_Rおよびソース画像Ｐ_Sと同一のサイズを有し、画素ごとに、リファレンス画像Ｐ_Rおよびソース画像Ｐ_Sのそれぞれの画素に表わされた物体までの推定距離を表す深度マップである。識別器Ｃ１は、例えば、Multi-Scale Deep Networkといった入力側から出力側に向けて直列に接続された複数の畳み込み層を有する畳み込みニューラルネットワーク（ＣＮＮ）とすることができる。画素ごとに深度が対応づけられた画像を教師データとして用いて、誤差逆伝搬法といった所定の学習手法に従って予めＣＮＮの学習を行うことにより、ＣＮＮは画像から画素ごとの特徴量を抽出する識別器Ｃ１として動作する。

リファレンス特徴マップＦＭ_Rおよびソース特徴マップＦＭ_Sは、リファレンス画像Ｐ_Rおよびソース画像Ｐ_Sのそれぞれの画素を、「道路」「人」「車両」といったクラスに分類するセグメンテーションマップであってもよい。このような特徴マップを出力するために、識別器Ｃ１は、例えばSegNetといったＣＮＮとすることができる。

図５は、特徴マップを用いた距離の推定を説明する図である。

生成部３３２は、リファレンス特徴マップＦＭ_Rにおいてリファレンス画像Ｐ_Rに含まれる各画素に対応する特徴量を、左方周辺カメラ２－１の像面を左方周辺カメラ２－１の光軸方向に移動させたときの当該像面に対応する画像の各画素に対応するように変換することにより、リファレンス画像Ｐ_Rの視点となる左方周辺カメラ２－１の配置される位置と対象物ＯＢＪとの間に複数の仮説平面ＨＰ１－ＨＰ４を仮説的に配置する。複数の仮説平面ＨＰ１－ＨＰ４は、左方周辺カメラ２－１の光軸と直交し、かつ、左方周辺カメラ２－１の配置される位置からの距離がそれぞれ異なる平面である。複数の仮説平面ＨＰ１－ＨＰ４において、リファレンス特徴マップＦＭ_Rに含まれるリファレンス画像Ｐ_Rに含まれる各画素に対応する特徴量が、左方周辺カメラ２－１の配置される位置からの距離に応じて縮小または拡大された範囲に配置される。

生成部３３２は、複数の仮説平面のそれぞれに対してソース特徴マップＦＭ_Sを射影することにより、コストボリュームを生成する。コストボリュームは、複数の仮説平面上の座標を含み、それぞれの座標には、リファレンス特徴マップＦＭ_Rにおける特徴量とソース特徴マップＦＭ_Sにおける特徴量との差異に応じた特徴量が関連づけられる。なお、本実施形態は４つの仮説平面が配置される例を示しているが、仮説平面の数はこれに限られない。

生成部３３２は、仮説平面ＨＰ１－ＨＰ４のそれぞれの位置に対しソース特徴マップＦＭ_Sをホモグラフィー変換することで、仮説平面ＨＰ１－ＨＰ４上にソース特徴マップＦＭ_Sを射影する。生成部３３２は、仮説平面ＨＰ１－ＨＰ４のそれぞれに射影されたソース特徴マップＦＭ_Sの特徴量に応じた特徴量を有するコストボリュームＣＶを生成する。なお、ソース画像および対応するソース特徴マップが複数ある場合、コストボリュームＣＶに含まれる各座標には、それぞれのソース特徴マップに応じた特徴量が関連づけられる。

設定部３３３は、コストボリュームＣＶにおいて、左方周辺カメラ２－１の配置される位置からリファレンス画像Ｐ_Rに含まれる複数の画素のうちのいずれかの対象画素Ｔに相当する方向に向かう直線（サンプリング直線ＳＲ）の上に複数のサンプル点ｐ₁、ｐ₂、ｐ₃を設定する。

設定部３３３は、複数の仮説平面のうち当該仮説平面が配置された深度と当該仮説平面においてサンプリング直線ＳＲの近傍の座標に関連づけられた特徴量に表される深度とが最も近い仮説平面に近いサンプル点において隣接するサンプル点までの間隔が密となるように、複数のサンプル点を設定する。

設定部３３３は、サンプリング直線ＳＲ上に複数のサンプル点を等間隔で設定してもよい。また、設定部３３３は、サンプリング直線ＳＲ上に複数のサンプル点をランダムな間隔で設定してもよい。

補間部３３４は、複数のサンプル点ｐ₁、ｐ₂、ｐ₃のそれぞれに対応する特徴量を、コストボリュームＣＶに配置された複数の仮説平面のうち当該サンプル点の近傍に配置された仮説平面上の、当該サンプル点の近傍の座標に関連づけられた特徴量を用いて補間する。

ここでは、一例として、サンプル点ｐ₁に対応する特徴量の補間について説明するが、他のサンプル点についても同様に補間することができる。補間部３３４は、まず、サンプル点ｐ₁に近接する仮説平面を特定する。サンプル点ｐ₁は、深度k₁に位置するリファレンス特徴マップＦＭ_Rと平行な平面上の、左右方向がi₁、上下方向がj₁の位置に設定され、これをサンプル点ｐ₁（i₁,j₁,k₁）と記載する。補間部３３４は、深度がk₁以下かつ最大の仮説平面と、深度がk₁以上かつ最小の仮説平面を特定する。

補間部３３４は、特定された仮説平面においてサンプル点ｐ₁（i₁,j₁,k₁）に近接する座標を特定する。特定される座標は、左右方向がi₁以下かつ最大であるとともに上下方向がj₁以下かつ最大である座標、左右方向がi₁以下かつ最大であるとともに上下方向がj₁以上かつ最小である座標などである。

補間部３３４は、例えば３軸線形補間（trilinear interpolation）により、仮説平面においてサンプル点ｐ₁（i₁,j₁,k₁）に近接する座標に関連づけられた特徴量を用いてサンプル点ｐ₁（i₁,j₁,k₁）に対応する特徴量を補間する。

算出部３３５は、補間された複数のサンプル点に対応する各特徴量を識別器Ｃ２に入力することで、当該サンプル点に対応する占有確率を算出する。占有確率は、コストボリュームＣＶの範囲に含まれる座標が対象物ＯＢＪの内部となる確率である。識別器Ｃ２は、コストボリュームＣＶに配置された複数の仮説平面のうちいずれかの仮説平面上のいずれかの座標に対応する特徴量に応じて占有確率を出力するよう学習されている。識別器Ｃ２の学習については後述する。

識別器Ｃ２は、例えば多層パーセプトロンのような、すべての入力値がすべての出力値に結合された全結合層を有する全結合型ニューラルネットワークにより構成することができる。

算出部３３５は、複数のサンプル点のそれぞれに対応する占有確率を、当該サンプル点に隣接する一対のサンプル点の間隔（ビンサイズ）が大きいほど重みが大きくなるように重みづけしてもよい。このように重みづけすることで、ＥＣＵ３は、等間隔で設定されていないサンプル点に対応する占有確率を適切に取り扱うことができる。

算出部３３５は、左方周辺カメラ２－１の位置からの距離が昇順となるように設定された複数のサンプル点のうちサンプル点p_iに対応する占有確率を、以下の式（１）により求められるビンサイズb_iを用いて、以下の式（２）により重みづけする。

式（１）において、diは左方周辺カメラ２－１の配置される位置からサンプル点piまでの距離を表す。式（２）において、f(pi)はサンプル点piに対応して識別器Ｃ２により出力される占有確率を表す。

複数のサンプル点が等間隔に設定されている場合、識別器Ｃ２により出力される占有確率にソフトマックス関数を適用することで、サンプル点の占有確率の合計が１となるように調整してもよい。

推定部３３６は、複数のサンプル点のそれぞれに対応する占有確率と当該サンプル点の左方周辺カメラ２－１の配置される位置からの距離との積を加算した値を、左方周辺カメラ２－１の配置される位置から対象画素Ｔに表された対象物ＯＢＪの表面までの推定距離として出力する。

識別器Ｃ２の学習は、表わされた対象物の深度の真値が関連づけられた教師画素を有する教師リファレンス画像と、教師リファレンス画像とは異なる視点から当該対象物を撮影することにより生成された教師ソース画像とを教師データとして用いて、誤差逆伝搬法といった所定の手法に従って行われる。

教師リファレンス画像に平行に配置された仮説平面に、教師ソース画像から抽出された教師ソース特徴マップを射影することで、教師コストボリュームが生成される。

教師リファレンス画像の視点と教師リファレンス画像に含まれる教師画素とを通る教師サンプリング直線上に、複数の教師サンプル点が設定される。

複数の教師サンプル点は、教師サンプリング直線において教師画素に関連づけられた深度に近いほど間隔が密となるように設定されることが好ましい。例えば、まず、教師画素に関連づけられた深度に対応する点、および、予め定められた最近傍面および最遠隔面の間に均一に、教師サンプル点として所定数の初期教師サンプル点が設定される。そして、隣接する初期教師サンプル点により区画されたビンのそれぞれに、教師サンプル点として、所定の階層教師サンプル点数に当該ビンが対象物の表面を含む可能性を乗じた数の階層教師サンプル点が設定される。

学習段階において、識別器Ｃ２は、教師サンプリング直線上に設定された各教師サンプル点についての占有確率を求める。また、学習段階において、識別器Ｃ２は、教師リファレンス画像の視点から各教師サンプル点までのそれぞれの距離を当該教師サンプル点に対応する占有確率に乗じてそれぞれを加算することで、教師リファレンス画像の視点から教師画素までの距離（深度）を推定する。

識別器Ｃ２は、教師サンプル点における特徴量の入力に応じた占有確率（０から１）と、教師画素に関連づけられた深度（真値）と教師サンプル点の座標から算出される占有状態との差が小さくなるように学習される。占有状態は、０の場合教師サンプル点の座標が深度により表される対象物の表面よりも視点に近い（すなわち対象物の外側にある）ことを表し、１の場合教師サンプル点の座標が対象物の表面よりも視点から遠い（すなわち対象物の外側にある）ことを表す。識別器Ｃ２の学習には、以下の式（３）に示す誤差関数を用いることが好ましい。

式（３）において、Ｌ_depthは推定された深度と教師画素に関連づけられた深度（真値）との誤差を表す。また、式（１）において、Ｌ_occは以下の式（４）に示すように推定された占有確率と教師サンプル点における占有確率（真値）との誤差を表す。式（３）によると、識別器は、推定された深度と教師画素に関連づけられた深度（真値）との差が小さく、かつ、推定された占有確率と教師サンプル点における占有状態（真値）との差が小さくなるように学習される。λ_depthおよびλ_occは学習効果を適切に制御するためのハイパーパラメータであり、例えば（λ_depth, λ_occ）を（1e^-3, 1）のように設定した上でＬを1e⁵倍することで数的安定性を得ることができる。

式（４）において、Ｎ_sは教師サンプル点の数であり、ＣＥは交差エントロピー関数である。s(p_i)は教師サンプル点p_iにおける占有状態を示し、１から、それぞれの教師サンプル点の深度と教師画素に関連づけられた深度（真値）との差の絶対値を、占有状態の範囲を制御するためのハイパーパラメータで除した値を減じた値（最小値は０）である。s(p_i)は、教師サンプル点p_iの深度が真値の深度に近いときに１に近づき、遠いときに０に近づく。

式（４）において、f(pi)は教師サンプル点p_iについて識別器Ｃ２が出力する占有確率を表す。また、式（４）において、σ()はシグモイド関数であり、γはＬ_occ（占有損失）とＬ_depth（深度損失）との間のスケール差異を調整するための学習可能なスカラー値である。

識別器Ｃ２の学習においては、教師画素における教師対象物の深度の推定にあたり、教師画素ごとに設定された値を用いて、複数の教師サンプル点の座標の値が変更されていてもよい。例えば、教師画素（x, y, z）の深度の推論にあたり、当該教師画素を通る教師サンプリング直線上に設定された教師サンプル点の座標（x_i, y_i, z_i）は、教師画素（x, y, z）について設定された値（x_a, y_a, z_a）を用いて（x_i+x_a, y_i+y_a, z_i+z_a）のように変更される。識別器Ｃ２に入力される教師サンプル点の座標の値を変更することで、識別器Ｃ２における過学習を防止することができる。

図５は距離推定処理のフローチャートである。ＥＣＵ３は、リファレンス画像Ｐ_Rおよびソース画像Ｐ_Sの入力に応じて距離推定処理を実行する。

ＥＣＵ３の抽出部３３１は、リファレンス画像Ｐ_Rからリファレンス特徴マップＦＭ_Rを抽出するとともに、１以上のソース画像Ｐ_Sのそれぞれからソース特徴マップＦＭ_Sを抽出する（ステップＳ１）。

次に、ＥＣＵ３の生成部３３２は、仮説的に配置される複数の仮説平面上にソース特徴マップＦＭ_Sを射影することによりコストボリュームＣＶを生成する（ステップＳ２）。

次に、ＥＣＵ３の設定部３３３は、左方周辺カメラ２－１の配置される位置からリファレンス画像Ｐ_Rに含まれる複数の画素のうちいずれかの対象画素に相当する方向に向かう直線の上に、複数のサンプル点を設定する（ステップＳ３）。

次に、ＥＣＵ３の補間部３３４は、複数のサンプル点のそれぞれに対応する特徴量を、コストボリュームＣＶにおいて、複数の仮説平面のうち当該サンプル点の近傍に配置された仮説平面上の、当該サンプル点の近傍の座標に関連づけられた特徴量を用いて補間する（ステップＳ４）

次に、ＥＣＵ３の算出部３３５は、補間された複数のサンプル点に対応する各特徴量を識別器Ｃ２に入力することで、当該サンプル点に対応する占有確率を算出する（ステップＳ５）。

そして、ＥＣＵ３の推定部３３６は、複数のサンプル点のそれぞれに対応する占有確率と当該サンプル点の左方周辺カメラ２－１の配置される位置からの距離との積を加算することで、左方周辺カメラ２－１の配置される位置から対象物の表面までの距離を推定し（ステップＳ６）、距離推定処理を終了する。

このように距離推定処理を実行することにより、ＥＣＵ３は、対象物を含む空間を、対象物に対応するボクセルによらず、ニューラルネットワークとして取り扱う。そのため、ＥＣＵ３は、比較的少ないメモリ容量でも複雑な形状を有する対象物までの距離を適切に推定することができる。

ＥＣＵ３は、異なる時刻に距離推定処理を実行し、それぞれの時刻における対象物の表面までの距離を推定する。ＥＣＵ３は、車両１に搭載されたＧＮＳＳ（Global Navigation Satellite System）受信機（不図示）により複数の時刻に受信された測位信号に基づいて、それぞれの時刻における車両１の位置を特定する。ＥＣＵ３は、特定された車両１の位置と、推定された対象物の表面までの距離と、周辺カメラ２の設置される位置と、周辺カメラ２の結像光学系の方向および焦点距離とに基づいて、それぞれの時刻における対象物の位置を推定する。ＥＣＵ３は、複数の時刻における対象物の位置から当該複数の時刻の間隔における対象物の移動速度を算出し、複数の時刻のうち後の時刻よりも将来における対象物の位置を予測する。ＥＣＵ３は、将来における車両１と対象物との距離が所定の距離閾値を下回らないように車両１の走行経路を作成し、車両１の走行機構（不図示）に制御信号を出力する。走行機構には、例えば車両１を加速させるエンジンまたはモータ、車両１を減速させるブレーキ、および車両１を操舵するステアリング機構が含まれる。

上述した車両１の走行制御は、本開示の距離推定処理により推定された対象物までの距離の利用の一例であり、その他の処理にも利用することができる。また、距離推定装置は車両に搭載されていなくてもよく、車両の周辺に存在する物体以外の対象物までの距離の推定に用いられてもよい。

当業者は、本発明の精神および範囲から外れることなく、種々の変更、置換および修正をこれに加えることが可能であることを理解されたい。

１車両
３ＥＣＵ
３３１抽出部
３３２生成部
３３３設定部
３３４補間部
３３５算出部
３３６推定部

Claims

所定のリファレンス位置から対象物を撮影するリファレンス撮像部により生成されたリファレンス画像から前記リファレンス画像に含まれる各画素に対応する特徴量を表すリファレンス特徴マップを抽出するとともに、前記リファレンス位置とは異なる位置から前記対象物を撮影する１以上のソース撮像部のそれぞれにより生成されたソース画像のそれぞれから、当該ソース画像に含まれる各画素の特徴量を表すソース特徴マップを抽出する抽出部と、
前記リファレンス特徴マップにおいて前記リファレンス画像に含まれる各画素に対応する特徴量を、前記リファレンス撮像部の像面を前記リファレンス撮像部の光軸方向に移動させたときの当該像面に対応する画像の各画素に対応するように変換することにより仮説的に配置される複数の仮説平面上に前記ソース特徴マップを射影することで、前記複数の仮説平面上の座標に特徴量が関連づけられたコストボリュームを生成する生成部と、
前記コストボリュームにおいて、前記リファレンス位置から前記リファレンス画像に含まれる複数の画素のうちいずれかの対象画素に相当する方向に向かう直線の上に複数のサンプル点を設定する設定部と、
前記複数のサンプル点のそれぞれに対応する特徴量を、前記コストボリュームにおいて、前記複数の仮説平面のうち当該サンプル点の近傍に配置された仮説平面上の、当該サンプル点の近傍の座標に関連づけられた特徴量を用いて補間する補間部と、
補間された前記複数のサンプル点に対応する各特徴量を、前記複数の仮説平面のうちいずれかの仮説平面上のいずれかの座標に対応する特徴量に応じて当該座標が前記対象物の内部となる確率を表す占有確率を出力するよう学習された識別器に入力することで、当該サンプル点に対応する前記占有確率を算出する算出部と、
前記複数のサンプル点のそれぞれに対応する前記占有確率と当該サンプル点の前記リファレンス位置からの距離との積を加算することで、前記リファレンス位置から前記対象物の表面までの距離を推定する推定部と、
を備える距離推定装置。
前記算出部は、複数のサンプル点のそれぞれに対応する占有確率を、当該サンプル点に隣接する一対のサンプル点の間隔が大きいほど重みが大きくなるように重みづけする、請求項１に記載の距離推定装置。
前記識別器は、教師対象物が表された教師リファレンス画像、および、前記教師対象物が表され、前記教師リファレンス画像の視点とは異なる視点を有する教師ソース画像を含む教師データを用いて生成された教師コストボリュームにおいて、前記教師リファレンス画像の視点から前記教師リファレンス画像に含まれる複数の画素のうち表された前記教師対象物の深度が関連づけられた教師画素に相当する方向に向かう教師サンプリング直線の上に設定された複数の教師サンプル点について推定される占有確率と、前記教師画素に関連づけられた深度から算出される占有状態との差が小さくなるように学習される、請求項１または２に記載の距離推定装置。
前記複数の教師サンプル点は、前記教師画素に関連づけられた深度に近いほど間隔が密となるように設定される、請求項３に記載の距離推定装置。
前記識別器は、前記複数の教師サンプル点について推定される前記占有確率と、前記教師画素の前記占有状態との差が小さくなるように学習されるとともに、前記複数の教師サンプル点について推定される占有確率から算出される前記教師対象物の深度と当該教師画素に関連づけられた深度との差が小さくなるように学習される、請求項３または４に記載の距離推定装置。
前記識別器は、座標の値が前記教師画素ごとに設定される値を用いて変更された前記複数の教師サンプル点について推定される前記占有確率を用いて学習される、請求項３－５のいずれか一項に記載の距離推定装置。
所定のリファレンス位置から対象物を撮影するリファレンス撮像部により生成されたリファレンス画像から前記リファレンス画像に含まれる各画素に対応する特徴量を表すリファレンス特徴マップを抽出するとともに、前記リファレンス位置とは異なる位置から前記対象物を撮影する１以上のソース撮像部のそれぞれにより生成されたソース画像のそれぞれから、当該ソース画像に含まれる各画素の特徴量を表すソース特徴マップを抽出し、
前記リファレンス特徴マップにおいて前記リファレンス画像に含まれる各画素に対応する特徴量を、前記リファレンス撮像部の像面を前記リファレンス撮像部の光軸方向に移動させたときの当該像面に対応する画像の各画素に対応するように変換することにより仮説的に配置される複数の仮説平面上に前記ソース特徴マップを射影することで、前記複数の仮説平面上の座標に特徴量が関連づけられたコストボリュームを生成し、
前記コストボリュームにおいて、前記リファレンス位置から前記リファレンス画像に含まれる複数の画素のうちいずれかの対象画素に相当する方向に向かう直線の上に複数のサンプル点を設定し、
前記複数のサンプル点のそれぞれに対応する特徴量を、前記コストボリュームにおいて、前記複数の仮説平面のうち当該サンプル点の近傍に配置された仮説平面上の、当該サンプル点の近傍の座標に関連づけられた特徴量を用いて補間し、
補間された前記複数のサンプル点に対応する各特徴量を、前記複数の仮説平面のうちいずれかの仮説平面上のいずれかの座標に対応する特徴量に応じて当該座標が前記対象物の内部となる確率を表す占有確率を出力するよう学習された識別器に入力することで、当該サンプル点に対応する前記占有確率を算出し、
前記複数のサンプル点のそれぞれに対応する前記占有確率と当該サンプル点の前記リファレンス位置からの距離との積を加算することで、前記リファレンス位置から前記対象物の表面までの距離を推定する、
ことを含む距離推定方法。
所定のリファレンス位置から対象物を撮影するリファレンス撮像部により生成されたリファレンス画像から前記リファレンス画像に含まれる各画素に対応する特徴量を表すリファレンス特徴マップを抽出するとともに、前記リファレンス位置とは異なる位置から前記対象物を撮影する１以上のソース撮像部のそれぞれにより生成されたソース画像のそれぞれから、当該ソース画像に含まれる各画素の特徴量を表すソース特徴マップを抽出し、
前記リファレンス特徴マップにおいて前記リファレンス画像に含まれる各画素に対応する特徴量を、前記リファレンス撮像部の像面を前記リファレンス撮像部の光軸方向に移動させたときの当該像面に対応する画像の各画素に対応するように変換することにより仮説的に配置される複数の仮説平面上に前記ソース特徴マップを射影することで、前記複数の仮説平面上の座標に特徴量が関連づけられたコストボリュームを生成し、
前記コストボリュームにおいて、前記リファレンス位置から前記リファレンス画像に含まれる複数の画素のうちいずれかの対象画素に相当する方向に向かう直線の上に複数のサンプル点を設定し、
前記複数のサンプル点のそれぞれに対応する特徴量を、前記コストボリュームにおいて、前記複数の仮説平面のうち当該サンプル点の近傍に配置された仮説平面上の、当該サンプル点の近傍の座標に関連づけられた特徴量を用いて補間し、
補間された前記複数のサンプル点に対応する各特徴量を、前記複数の仮説平面のうちいずれかの仮説平面上のいずれかの座標に対応する特徴量に応じて当該座標が前記対象物の内部となる確率を表す占有確率を出力するよう学習された識別器に入力することで、当該サンプル点に対応する前記占有確率を算出し、
前記複数のサンプル点のそれぞれに対応する前記占有確率と当該サンプル点の前記リファレンス位置からの距離との積を加算することで、前記リファレンス位置から前記対象物の表面までの距離を推定する、
ことをコンピュータのプロセッサに実行させる距離推定用コンピュータプログラム。