JP2022136544A

JP2022136544A - 学習処理装置及び学習処理プログラム

Info

Publication number: JP2022136544A
Application number: JP2021036211A
Authority: JP
Inventors: 峻田口; Shun Taguchi
Original assignee: Toyota Central R&D Labs Inc
Current assignee: Toyota Central R&D Labs Inc
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2022-09-21
Anticipated expiration: 2041-03-08
Also published as: JP7272381B2

Abstract

【課題】画像の各画素について、画素が示す対象物の実空間の所定位置を原点とするワールド座標が示されたシーン座標画像を出力する位置推定ネットワークを、教師データを用意する必要なく学習可能とする。【解決手段】学習処理部３０は、入力画像Ｉｔに基づくシーン座標画像Ｓｃｏｏｒｄ，ｔと、入力画像Ｉｔが示す対象物のカメラの位置を原点とするワールド座標が示されたポイントクラウドＱｔとの間のワールド座標の誤差に関する第１目的関数ＬＳｃｏｏｒｄ，ｔを取得し、シーン座標画像Ｓｃｏｏｒｄ，ｔから得られた推定姿勢ｐｔと、シーン座標画像Ｓｃｏｏｒｄ，ｔ＋１から得られた推定姿勢ｐｔ＋１との差分と、時刻ｔから時刻ｔ＋１へのカメラの姿勢移動量Ｔｔ→ｔ＋１との間の誤差に関する第２目的関数Ｌｐを取得する。学習処理部３０は、第１目的関数ＬＳｃｏｏｒｄ，ｔ及び第２目的関数Ｌｐが小さくなるように位置推定ネットワーク１６を学習させる。【選択図】図２

Description

本発明は、学習処理装置及び学習処理プログラムに関する。

従来、カメラで取得した画像に基づいて、当該画像を取得したときの当該カメラの位置に関する情報を出力可能な学習ネットワークが提案されている。

例えば、非特許文献１には、カメラで取得した画像と、教師データとしての、当該画像を取得したときの当該カメラの位置を示す情報とに基づいて、入力画像から、当該入力画像を取得したカメラの姿勢（位置及び向き）を推定する学習ネットワークを学習させることが記載されている。非特許文献２には、カメラで取得した画像と、教師データとしての、当該カメラから当該画像の各画素が示す対象物までの実空間における距離である深度が示された深度データとに基づいて、カメラで取得した入力画像から、当該入力画像の各画素の深度を推定する学習ネットワークを学習させることが記載されている。

Eric Brachmann and Carsten Rother, "Visual Camera Re-Localization, from RGB and RGB-D Images Using DSAC", CVPR 2020 Clement Godard et al., "Digging Into Self-Supervised Monocular Depth Estimation", ICCV 2009

ところで、従来、画像の各画素について、画素が示す対象物の実空間の所定位置を原点とするワールド座標が示されたシーン座標画像を出力する位置推定ネットワークが提案されている。位置推定ネットワークは学習器であり、学習処理を繰り返すことで、高精度にシーン座標画像を出力することができる。

位置推定ネットワークを学習させるためには、画像と、当該画像が示す対象物のワールド座標（すなわち教師データ）を用いて学習処理を行なえばよい。しかしながら、学習処理には、多数の画像と教師データとの組である学習データが必要となるが、多数の学習データ（特に多数の教師データ）を用意するのは非常に困難であるという問題がある。

本発明の目的は、画像の各画素について、画素が示す対象物の実空間の所定位置を原点とするワールド座標が示されたシーン座標画像を出力する位置推定ネットワークを、教師データを用意する必要なく学習可能とすることにある。

本発明は、画像の各画素について、画素が示す対象物の実空間の所定位置を原点とするワールド座標が示されたシーン座標画像を出力する位置推定ネットワークを学習させるための学習処理装置であって、カメラにより取得された第１入力画像を入力とする前記位置推定ネットワークが出力した前記シーン座標画像に基づいて、前記第１入力画像を取得したときの前記カメラの姿勢である第１推定姿勢を演算し、前記第１入力画像の直後に前記カメラにより取得された第２入力画像を入力とする前記位置推定ネットワークが出力した前記シーン座標画像に基づいて、前記第２入力画像を取得したときの前記カメラの姿勢である第２推定姿勢を演算する姿勢演算部と、前記第１入力画像に基づいて、前記第１入力画像の各画素について、前記カメラから画素が示す対象物までの実空間における距離である深度が示された深度画像を出力する深度推定ネットワークと、前記第１入力画像から得られた前記深度画像の各画素の前記深度を前記カメラの位置を原点とするワールド座標に変換してポイントクラウドを取得するポイントクラウド取得部と、前記第１入力画像及び前記第２入力画像に基づいて、前記第１入力画像を取得したときの前記カメラの姿勢から、前記第２入力画像を取得したときの前記カメラの姿勢までの移動量である姿勢移動量を出力する移動量推定ネットワークと、前記位置推定ネットワークが前記第１入力画像に基づいて出力した前記シーン座標画像と、前記ポイントクラウドとの間の、原点を合わせる処理を行った上での各画素のワールド座標の誤差に関する第１目的関数、及び、前記第１推定姿勢と前記第２推定姿勢との差分と、前記姿勢移動量との間の誤差に関する第２目的関数を小さくするように、前記位置推定ネットワークを学習させる学習処理部と、を備えることを特徴とする学習処理装置である。

望ましくは、前記学習処理部は、前記第１入力画像から得られた前記深度画像を変換した前記ポイントクラウド、及び、前記移動量推定ネットワークにより取得された前記姿勢移動量に基づいて、前記第２入力画像に対応する予測された前記ポイントクラウドを取得し、前記第１入力画像に対応する前記ポイントクラウド、前記第２入力画像に対応する前記ポイントクラウド、及び、前記第２入力画像に基づいて取得された予測第１入力画像と、前記第１入力画像との誤差に関する第３目的関数が小さくなるように、前記深度推定ネットワーク及び前記移動量推定ネットワークを学習させる、ことを特徴とする。

また、本発明は、コンピュータを、画像の各画素について、画素が示す対象物の実空間の所定位置を原点とするワールド座標が示されたシーン座標画像を出力する位置推定ネットワークを学習させるための学習処理装置として動作させ、カメラにより取得された第１入力画像を入力とする前記位置推定ネットワークが出力した前記シーン座標画像に基づいて、前記第１入力画像を取得したときの前記カメラの姿勢である第１推定姿勢を演算し、前記第１入力画像の直後に前記カメラにより取得された第２入力画像を入力とする前記位置推定ネットワークが出力した前記シーン座標画像に基づいて、前記第２入力画像を取得したときの前記カメラの姿勢である第２推定姿勢を演算する姿勢演算部と、前記第１入力画像に基づいて、前記第１入力画像の各画素について、前記カメラから画素が示す対象物までの実空間における距離である深度が示された深度画像を出力する深度推定ネットワークと、前記第１入力画像から得られた前記深度画像の各画素の前記深度を前記カメラの位置を原点とするワールド座標に変換してポイントクラウドを取得するポイントクラウド取得部と、前記第１入力画像及び前記第２入力画像に基づいて、前記第１入力画像を取得したときの前記カメラの姿勢から、前記第２入力画像を取得したときの前記カメラの姿勢までの移動量である姿勢移動量を出力する移動量推定ネットワークと、前記位置推定ネットワークが前記第１入力画像に基づいて出力した前記シーン座標画像と、前記ポイントクラウドとの間の、原点を合わせる処理を行った上での各画素のワールド座標の誤差に関する第１目的関数、及び、前記第１推定姿勢と前記第２推定姿勢との差分と、前記姿勢移動量との間の誤差に関する第２目的関数を小さくするように、前記位置推定ネットワークを学習させる学習処理部と、として機能させることを特徴とする学習処理プログラムである。

本発明によれば、画像の各画素について、画素が示す対象物の実空間の所定位置を原点とするワールド座標が示されたシーン座標画像を出力する位置推定ネットワークを、教師データを用意する必要なく学習させることができる。

本実施形態に係る学習処理装置の構成概略図である。位置推定ネットワークの学習処理の流れを示す概念図である。深度推定ネットワーク及び移動量推定ネットワークの学習処理の流れを示す概念図である。

図１は、本実施形態に係る学習処理装置１０の構成概略図である。本実施形態では、学習処理装置１０はサーバコンピュータであるが、学習処理装置１０としては、以下に説明する機能を発揮する限りにおいてどのようなコンピュータであってもよい。なお、以下に説明する学習処理装置１０が発揮する機能は、複数のコンピュータにおける分散処理によって実現されてもよい。すなわち、学習処理装置１０は、複数のコンピュータ（例えば複数のサーバ）により実現されてもよい。

通信インターフェース１２は、例えばネットワークアダプタなどを含んで構成される。通信インターフェース１２は、インターネットやＬＡＮ（Local Area Network）などの通信回線を介して、他の装置（例えば画像を取得するカメラや、当該画像を取り込んだ他のコンピュータなど）と通信する機能を発揮する。

メモリ１４は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、ｅＭＭＣ（embedded Multi Media Card）、ＲＯＭ（Read Only Memory）あるいはＲＡＭ（Random Access Memory）などを含んで構成される。メモリ１４には、学習処理装置１０の各部を機能させるための学習処理プログラムが記憶される。また、図１に示す通り、メモリ１４には、位置推定ネットワーク１６、深度推定ネットワーク１８、及び移動量推定ネットワーク２０が記憶される。

位置推定ネットワーク１６、深度推定ネットワーク１８、及び移動量推定ネットワーク２０は、それぞれ学習ネットワーク（学習器）であり、それぞれ学習処理されることによって高精度な出力データを出力することができる。位置推定ネットワーク１６、深度推定ネットワーク１８、及び移動量推定ネットワーク２０は、種々のネットワーク、例えばＲｅｓＮｅｔ（Residual Network）などで構成することができる。

位置推定ネットワーク１６は、画像を入力とし、入力された画像の各画素について、画素が示す対象物の実空間の所定位置を原点とするワールド座標が示されたシーン座標画像を出力するネットワークである。当該ワールド座標の原点は予めユーザなどによって設定されてよい。なお、位置推定ネットワーク１６は、入力された画像の画素１つ１つについてワールド座標を出力してもよいが、入力された画像の隣接する複数の画素をまとめて画素グループを形成し、当該画素グループ毎にワールド座標を出力するようにしてもよい。なお、シーン座標画像とは、上述のように各画素に対応するワールド座標の集合体であって厳密には「画像」ではないが、本明細書では、位置推定ネットワーク１６が出力するものをシーン座標画像と呼ぶ。

本実施形態に係る学習処理装置１０の学習処理の対象は位置推定ネットワーク１６である。位置推定ネットワーク１６は、画像と、当該画像が示す対象物のワールド座標が示された教師データとを含む学習データを用いて学習させることが可能である。しかしながら、上述の通り、多数の当該学習データ（特に当該教師データ）を用意するのは非常に困難である。したがって、学習処理装置１０は、後述するように、教師データを用いずに位置推定ネットワーク１６を学習させる。

深度推定ネットワーク１８は、カメラにより取得（撮影）された画像を入力として、当該画像の各画素について、当該カメラから画素が示す対象物までの実空間における距離である深度を推定し、各画素について推定された深度が示された深度画像を出力するネットワークである。

深度推定ネットワーク１８は、カメラで取得された画像と、当該画像の各画素の深度が示された教師データとを含む学習データを用いて学習させることが可能である。本実施形態では、学習済みの深度推定ネットワーク１８を用いるものとする。ただし、後述する変形実施形態のように、学習処理装置１０は、位置推定ネットワーク１６のみならず、深度推定ネットワーク１８も学習処理の対象とすることができる。

移動量推定ネットワーク２０は、カメラで取得された先行画像と、当該先行画像の直後に当該カメラにより取得された後続画像とに基づいて、先行画像を取得したときの当該カメラの姿勢から、後続画像を取得したときの当該カメラの姿勢までの移動量である姿勢移動量を出力するネットワークである。

先行画像及び後続画像は、それぞれ、（ビデオ）カメラが取得した動画像の１つのフレームであってよい。先行画像の直後に取得された後続画像とは、代表的には、動画像において先行画像の次のフレームの画像である。しかしながら、後続画像は必ずしも先行画像の次のフレームである必要は無く、先行画像から数フレーム後の画像であってもよい。また、先行画像及び後続画像は、カメラが異なるタイミングで取得した静止画であってもよい。

また、本明細書におけるカメラの姿勢とは、カメラの位置及び向きの少なくとも一方を含む概念である。カメラの位置は、３次元のワールド座標で示され、カメラの向きはワールド座標系における３次元のベクトルで表現される。

移動量推定ネットワーク２０は、カメラで取得された先行画像及び後続画像と、先行画像及び後続画像がそれぞれ取得されたときのカメラの姿勢が示された教師データとを含む学習データを用いて学習させることが可能である。本実施形態では、深度推定ネットワーク１８同様、学習済みの移動量推定ネットワーク２０を用いるものとする。ただし、後述する変形実施形態のように、学習処理装置１０は、位置推定ネットワーク１６のみならず、移動量推定ネットワーク２０も学習処理の対象とすることができる。

プロセッサ２２は、例えばＣＰＵ（Central Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、あるいは、プログラマブル論理デバイスなどを含んで構成される。プロセッサ２２は、メモリ１４に記憶された学習処理プログラムに従って、ネットワーク処理部２４、姿勢演算部２６、ポイントクラウド取得部２８、及び学習処理部３０としての機能を発揮する。

図２は、位置推定ネットワーク１６の学習処理の流れを示す概念図である。以下、図２を参照しながら、プロセッサ２２（すなわちネットワーク処理部２４、姿勢演算部２６、ポイントクラウド取得部２８、及び学習処理部３０）による位置推定ネットワーク１６の学習処理を説明する。プロセッサ２２による位置推定ネットワーク１６の学習処理の概要としては、時刻ｔにおいてカメラにより取得された第１入力画像（あるいは上述の先行画像）としての入力画像Ｉ_ｔ、及び、時刻ｔの直後である時刻ｔ＋１においてカメラにより取得された第２入力画像（あるいは上述の後続画像）としての入力画像Ｉ_ｔ＋１を学習データとし、深度推定ネットワーク１８及び移動量推定ネットワーク２０を用いつつ、位置推定ネットワーク１６を学習させる。なお、以下における「カメラ」とは、入力画像Ｉ_ｔ及び入力画像Ｉ_ｔ＋１を取得したカメラを意味するものである。

まず、ネットワーク処理部２４は、入力画像Ｉ_ｔを位置推定ネットワーク１６に入力する。これにより、入力画像Ｉ_ｔを入力とする位置推定ネットワーク１６の出力であるシーン座標画像Ｓ_{ｃｏｏｒｄ，ｔ}を取得する。ここでは、位置推定ネットワーク１６はまだ十分に学習されたものでないため、シーン座標画像Ｓ_{ｃｏｏｒｄ，ｔ}は必ずしも高精度なものではない。同様に、ネットワーク処理部２４は、入力画像Ｉ_ｔ＋１を位置推定ネットワーク１６に入力する。これにより、入力画像Ｉ_ｔ＋１を入力とする位置推定ネットワーク１６の出力であるシーン座標画像Ｓ_{ｃｏｏｒｄ，ｔ＋１}を取得する。シーン座標画像Ｓ_{ｃｏｏｒｄ，ｔ＋１}も必ずしも高精度なものではない。

ここで、シーン座標画像Ｓ_{ｃｏｏｒｄ，ｔ}が示すワールド座標は、実空間の所定位置を原点とする座標であることに留意されたい。

姿勢演算部２６は、位置推定ネットワーク１６が出力したシーン座標画像Ｓ_{ｃｏｏｒｄ，ｔ}に基づいて、入力画像Ｉ_ｔを取得したときの（すなわち時刻ｔにおける）カメラの姿勢である第１推定姿勢としての推定姿勢ｐ_ｔを演算する。シーン座標画像Ｓ_{ｃｏｏｒｄ，ｔ}から推定姿勢ｐ_ｔを推定する処理はＰｎＰ問題としてよく知られており、その推定方法としては、例えば、ＲＡＮＳＡＣ（Random Sample Consensus）などの既知のアルゴリズムを用いることができるため、ここではその推定方法の詳細な説明は省略する。なお、上述のように、シーン座標画像Ｓ_{ｃｏｏｒｄ，ｔ}が必ずしも高精度なものではないため、推定姿勢ｐ_ｔも必ずしも高精度なものではない。同様に、姿勢演算部２６は、位置推定ネットワーク１６が出力したシーン座標画像Ｓ_{ｃｏｏｒｄ，ｔ＋１}に基づいて、入力画像Ｉ_ｔ＋１を取得したときの（すなわち時刻ｔ＋１における）カメラの姿勢である第２推定姿勢としての推定姿勢ｐ_ｔ＋１を演算する。推定姿勢ｐ_ｔ＋１も必ずしも高精度なものではない。

次いで、ネットワーク処理部２４は、入力画像Ｉ_ｔを学習済みの深度推定ネットワーク１８に入力する。これにより、入力画像Ｉ_ｔを入力とする深度推定ネットワーク１８の出力である深度画像Ｄ_ｔを取得する。

ポイントクラウド取得部２８は、深度推定ネットワーク１８が出力した深度画像Ｄ_ｔの各画素の深度を、カメラの位置を原点とするワールド座標に変換して、各画素に対応する、カメラの位置を原点とするワールド座標の集合体であるポイントクラウドＱ_ｔを取得する。具体的には、ポイントクラウドＱ_ｔは以下の式１で演算される。

式１において、ｕは、深度画像Ｄ_ｔ（スクリーン座標系）におけるｘ軸（横軸）の座標を示し、ｖは、深度画像Ｄ_ｔ（スクリーン座標系）におけるｙ軸（縦軸）の座標を示す。したがって、Ｑ_ｔ（ｕ，ｖ）は、るポイントクラウドＱ_ｔの座標（ｕ，ｖ）における３次元ワールド座標を示し、Ｄ_ｔ（ｕ，ｖ）は、深度画像Ｄ_ｔの座標（ｕ，ｖ）における深度を示す。また、式１において、Ｋはカメラ行列を表す。カメラ行列は、カメラの座標系とワールド座標系を変換するための行列である。

ここで、Ｑ_ｔ（ｕ，ｖ）が示すワールド座標は、時刻ｔにおけるカメラの位置を原点とする座標であることに留意されたい。ポイントクラウドＱ_ｔは、入力画像Ｉ_ｔが示す対象物の、カメラの位置を原点とするワールド座標が示されたものであると言える。また、本実施形態では、ポイントクラウドＱ_ｔは、学習済みの深度推定ネットワーク１８の出力に基づくものであるため、一定の精度を持ったデータである。

次いで、ネットワーク処理部２４は、入力画像Ｉ_ｔ及び入力画像Ｉ_ｔ＋１を学習済みの移動量推定ネットワーク２０に入力する。これにより、入力画像Ｉ_ｔを入力したときの（時刻ｔにおける）カメラの姿勢から、入力画像Ｉ_ｔ＋１を入力したときの（時刻ｔ＋１における）カメラの姿勢までの姿勢移動量Ｔ_{ｔ→ｔ＋１}を取得する。

姿勢移動量Ｔ_{ｔ→ｔ＋１}は、４×４の姿勢変換行列であり、以下の式２で表すことができる。

式２において、Ｒは回転行列を表し、τは並進移動ベクトルを表す。本実施形態では、姿勢移動量Ｔ_{ｔ→ｔ＋１}は、学習済みの移動量推定ネットワーク２０の出力に基づくものであるため、一定の精度を持ったデータである。

学習処理部３０は、位置推定ネットワーク１６が入力画像Ｉ_ｔに基づいて出力したシーン座標画像Ｓ_{ｃｏｏｒｄ，ｔ}と、ポイントクラウド取得部２８が取得したポイントクラウドＱ_ｔのワールド座標の原点を合わせる処理を行う。当該処理は、シーン座標画像Ｓ_{ｃｏｏｒｄ，ｔ}又はポイントクラウドＱ_ｔのいずれか一方のワールド座標を平行移動させることで実現される。具体的には、シーン座標画像Ｓ_{ｃｏｏｒｄ，ｔ}のワールド座標の原点を時刻ｔにおけるカメラの位置に合わせるように、シーン座標画像Ｓ_{ｃｏｏｒｄ，ｔ}のワールド座標を平行移動させるか、ポイントクラウドＱ_ｔのワールド座標の原点を、シーン座標画像Ｓ_{ｃｏｏｒｄ，ｔ}のワールド座標の原点である所定位置に合わせるように、ポイントクラウドＱ_ｔのワールド座標を平行移動させる。ただし、カメラの位置は、シーン座標画像Ｓ_{ｃｏｏｒｄ，ｔ}により推定された推定姿勢ｐ_ｔが示すものであるため、シーン座標画像Ｓ_{ｃｏｏｒｄ，ｔ}が精度を欠く以上、シーン座標画像Ｓ_{ｃｏｏｒｄ，ｔ}とポイントクラウドＱ_ｔの原点の位置合わせは、必ずしも正しく行われない。シーン座標画像Ｓ_{ｃｏｏｒｄ，ｔ}とポイントクラウドＱ_ｔのワールド座標の原点を合わせる処理とは、シーン座標画像Ｓ_{ｃｏｏｒｄ，ｔ}とポイントクラウドＱ_ｔの原点を合わせようとする処理も含むものである。

学習処理部３０は、シーン座標画像Ｓ_{ｃｏｏｒｄ，ｔ}とポイントクラウドＱ_ｔの座標原点を合わせる処理を行った上での、シーン座標画像Ｓ_{ｃｏｏｒｄ，ｔ}とポイントクラウドＱ_ｔとの間の各画素のワールド座標の誤差に関する第１目的関数Ｌ_{Ｓｃｏｏｒｄ，ｔ}を取得する。第１目的関数Ｌ_{Ｓｃｏｏｒｄ，ｔ}は、以下の式３で表される。

式３において、Ｔ_ｐｔは、時刻ｔにおける推定姿勢ｐ_ｔ（すなわち、ポイントクラウドＱ_ｔのワールド座標の推定された原点）から、シーン座標画像Ｓ_{ｃｏｏｒｄ，ｔ}のワールド座標の原点時刻への姿勢変換行列である。

また、学習処理部３０は、姿勢演算部２６が演算した、推定姿勢ｐ_ｔ（入力画像Ｉ_ｔを取得したときのカメラの推定姿勢）と推定姿勢ｐ_ｔ＋１（入力画像Ｉ_ｔ＋１を取得したときのカメラの推定姿勢）との差分と、移動量推定ネットワーク２０が出力した姿勢移動量Ｔ_{ｔ→ｔ＋１}との間の誤差に関する第２目的関数Ｌ_ｐを取得する。第２目的関数Ｌ_ｐは、以下の式４で表される。

式４において、ｄｉｓｔ（）は任意の距離関数であり、例えばＬ２ノルムなどを用いることができる。また、式４において、Ｔ_{ｔ→ｔ＋１}（ｐ_ｔ）は、推定姿勢ｐ_ｔを姿勢移動量Ｔ_{ｔ→ｔ＋１}で移動した姿勢である。すなわち、第２目的関数Ｌｐは、推定姿勢ｐ_ｔ＋１と、推定姿勢ｐ_ｔを姿勢移動量Ｔ_{ｔ→ｔ＋１}で移動した姿勢との間の誤差に関する関数であるとも言える。

学習処理部３０は、第１目的関数Ｌ_{Ｓｃｏｏｒｄ，ｔ}及び第２目的関数Ｌ_ｐが小さくなるように、位置推定ネットワーク１６のパラメータを調整することで、位置推定ネットワーク１６を学習させる。最終的な目的関数Ｌは、以下の式５で表される。

式５において、ｗは各目的関数の重みであり、チューニングパラメータである。なお、目的関数Ｌには、深度画像Ｄ_ｔの滑らかさに対応する項を追加するなど、幾つかの正則化項を導入することもできる。

第１目的関数Ｌ_{Ｓｃｏｏｒｄ，ｔ}は、シーン座標画像Ｓ_{ｃｏｏｒｄ，ｔ}とポイントクラウドＱ_ｔとの誤差に基づくものであるところ、学習処理部３０は、両画像のワールド座標の原点を正しく位置合わせできれば、シーン座標画像Ｓ_{ｃｏｏｒｄ，ｔ}とポイントクラウドＱ_ｔとの対応する画素のワールド座標の誤差を小さくするように、位置推定ネットワーク１６を学習させることができる。しかしながら、第１目的関数Ｌ_{Ｓｃｏｏｒｄ，ｔ}は、十分に学習されていない位置推定ネットワーク１６の出力から得られた推定姿勢ｐ_ｔに基づく姿勢変換行列Ｔ_ｐｔを含む。つまり、位置推定ネットワーク１６が十分に学習されていない状態においては、シーン座標画像Ｓ_{ｃｏｏｒｄ，ｔ}とポイントクラウドＱ_ｔとのワールド座標の原点は、必ずしも正しく位置合わせされない。そこで、学習処理部３０は、さらに第２目的関数Ｌ_ｐを小さくするように位置推定ネットワーク１６を学習させることで推定姿勢ｐ_ｔを高精度化させている。

このように、学習処理部３０は、第１目的関数Ｌ_{Ｓｃｏｏｒｄ，ｔ}と第２目的関数Ｌ_ｐとの組み合わせによって、位置推定ネットワーク１６を学習させることを可能としている。上述の通り、位置推定ネットワーク１６の学習処理においては、学習データとして、入力画像Ｉ_ｔ及び入力画像Ｉ_ｔ＋１しか用いていない。すなわち、本実施形態によれば、学習処理部３０は、教師データを用いることなく、位置推定ネットワーク１６を学習させることができる。これにより、位置推定ネットワーク１６を学習させるための教師データを取得する手間が省略される。

位置推定ネットワーク１６が十分に学習されることで、位置推定ネットワーク１６は、画像に基づいてシーン座標画像を高精度に出力することができる。また、高精度なシーン座標画像に基づいて、上述のＲＡＮＳＡＣなどの既知のアルゴリズムにより、当該画像を取得したときのカメラの姿勢を高精度に推定することができるようになる。

以下、学習処理装置１０の変形実施形態について説明する。上述の基本実施形態においては、位置推定ネットワーク１６の学習処理において、学習済みの深度推定ネットワーク１８及び移動量推定ネットワーク２０を用いていたが、変形実施形態では、入力画像Ｉ_ｔ及び入力画像Ｉ_ｔ＋１を学習データとして、位置推定ネットワーク１６のみならず、深度推定ネットワーク１８及び移動量推定ネットワーク２０も学習させるものである。

変形実施形態における学習処理装置１０の構成概要は、図１に示した基本実施形態と同様であるため、その説明は省略する。

図３は、深度推定ネットワーク１８及び移動量推定ネットワーク２０の学習処理の流れを示す概念図である。変形実施形態では、基本実施形態と同様の処理（図２参照）にて位置推定ネットワーク１６を学習させると共に、図３に示す学習処理の流れで深度推定ネットワーク１８及び移動量推定ネットワーク２０も学習させる。

まず、ポイントクラウド取得部２８は、は、時刻ｔで取得された入力画像Ｉ_ｔを入力とする深度推定ネットワーク１８の出力である深度画像Ｄ_ｔから得られたポイントクラウドＱ_ｔ、及び、移動量推定ネットワーク２０の出力である姿勢移動量Ｔ_{ｔ→ｔ＋１}とに基づいて、入力画像Ｉ_ｔ＋１に対応する（換言すれば時刻ｔ＋１における）、予測されたポイントクラウドＱ’_ｔを取得する。

学習処理部３０は、入力画像Ｉ_ｔに対応するポイントクラウドＱ_ｔ、入力画像Ｉ_ｔ＋１に対応するポイントクラウドＱ’_ｔ、及び、時刻ｔ＋１で取得された入力画像Ｉ_ｔ＋１に基づいて、入力画像Ｉ_ｔを予測した画像である、予測第１入力画像としての予測画像Ｉ’_ｔを取得する。具体的には、学習処理部３０は、ポイントクラウドＱ_ｔとポイントクラウドＱ’_ｔとの対応関係に基づいて、入力画像Ｉ_ｔ＋１の各画素をサンプリング（図３におけるピクセルサンプリング）することで、入力画像Ｉ_ｔを予測した画像である予測画像Ｉ’_ｔを取得する。

予測画像Ｉ’_ｔは、以下の式６で表すことができる。

式６において、ｐｒｏｊ（）は、各画素の深度、時刻ｔから時刻ｔ＋１までのカメラの姿勢移動量、及びカメラ行列から画像間の対応関係を計算する関数である。

学習処理部３０は、予測画像Ｉ’_ｔと、入力画像Ｉ_ｔとの誤差、具体的には対応する画素毎の誤差に関する第３目的関数Ｌ_Ｉを取得する。第３目的関数Ｌ_Ｉは、以下の式７で表される。

式７において、ｐｅ（）は、ピクセル誤差（画素毎の誤差）を表す関数である。

学習処理部３０は、第３目的関数Ｌ_Ｉが小さくなるように、深度推定ネットワーク１８及び移動量推定ネットワーク２０のパラメータを調整することで、深度推定ネットワーク１８及び移動量推定ネットワーク２０を学習させる。

変形実施形態における、位置推定ネットワーク１６、深度推定ネットワーク１８、及び移動量推定ネットワーク２０を学習させるための最終的な目的関するＬは以下の式８で表される。

式８においては、基本実施形態の目的関数Ｌ（式５参照）に比して、第３項ｗ_ＩＬ_Ｉが付加されている。

なお、上記基本実施形態及び変形実施形態においては、教師データを用いずに、位置推定ネットワーク１６を学習させていたが、上記基本実施形態及び変形実施形態の手法を用いつつ、教師データを含む学習データを用いて位置推定ネットワーク１６を学習させることで、単純に教師データを含む学習データを用いて位置推定ネットワーク１６を学習させる場合に比して、学習後の位置推定ネットワーク１６の精度をより向上させること、あるいは、位置推定ネットワーク１６の学習効率を向上させることも可能である。

以上、本発明に係る実施形態を説明したが、本発明は上記実施形態に限られるものではなく、本発明の趣旨を逸脱しない限りにおいて種々の変更が可能である。

例えば、本実施形態では、位置推定ネットワーク１６、深度推定ネットワーク１８、及び移動量推定ネットワーク２０は、学習処理装置１０のメモリ１４に記憶されていたが、位置推定ネットワーク１６、深度推定ネットワーク１８、及び移動量推定ネットワーク２０は、学習処理装置１０からアクセス可能な他の装置のメモリに記憶されていてもよい。

１０学習処理装置、１２通信インターフェース、１４メモリ、１６位置推定ネットワーク、１８深度推定ネットワーク、２０移動量推定ネットワーク、２２プロセッサ、２４ネットワーク処理部、２６姿勢演算部、２８ポイントクラウド取得部、３０学習処理部。

Claims

画像の各画素について、画素が示す対象物の実空間の所定位置を原点とするワールド座標が示されたシーン座標画像を出力する位置推定ネットワークを学習させるための学習処理装置であって、
カメラにより取得された第１入力画像を入力とする前記位置推定ネットワークが出力した前記シーン座標画像に基づいて、前記第１入力画像を取得したときの前記カメラの姿勢である第１推定姿勢を演算し、前記第１入力画像の直後に前記カメラにより取得された第２入力画像を入力とする前記位置推定ネットワークが出力した前記シーン座標画像に基づいて、前記第２入力画像を取得したときの前記カメラの姿勢である第２推定姿勢を演算する姿勢演算部と、
前記第１入力画像に基づいて、前記第１入力画像の各画素について、前記カメラから画素が示す対象物までの実空間における距離である深度が示された深度画像を出力する深度推定ネットワークと、
前記第１入力画像から得られた前記深度画像の各画素の前記深度を前記カメラの位置を原点とするワールド座標に変換してポイントクラウドを取得するポイントクラウド取得部と、
前記第１入力画像及び前記第２入力画像に基づいて、前記第１入力画像を取得したときの前記カメラの姿勢から、前記第２入力画像を取得したときの前記カメラの姿勢までの移動量である姿勢移動量を出力する移動量推定ネットワークと、
前記位置推定ネットワークが前記第１入力画像に基づいて出力した前記シーン座標画像と、前記ポイントクラウドとの間の、原点を合わせる処理を行った上での各画素のワールド座標の誤差に関する第１目的関数、及び、前記第１推定姿勢と前記第２推定姿勢との差分と、前記姿勢移動量との間の誤差に関する第２目的関数を小さくするように、前記位置推定ネットワークを学習させる学習処理部と、
を備えることを特徴とする学習処理装置。
前記学習処理部は、前記第１入力画像から得られた前記深度画像を変換した前記ポイントクラウド、及び、前記移動量推定ネットワークにより取得された前記姿勢移動量に基づいて、前記第２入力画像に対応する予測された前記ポイントクラウドを取得し、前記第１入力画像に対応する前記ポイントクラウド、前記第２入力画像に対応する前記ポイントクラウド、及び、前記第２入力画像に基づいて取得された予測第１入力画像と、前記第１入力画像との誤差に関する第３目的関数が小さくなるように、前記深度推定ネットワーク及び前記移動量推定ネットワークを学習させる、
ことを特徴とする請求項１に記載の学習処理装置。
コンピュータを、
画像の各画素について、画素が示す対象物の実空間の所定位置を原点とするワールド座標が示されたシーン座標画像を出力する位置推定ネットワークを学習させるための学習処理装置として動作させ、
カメラにより取得された第１入力画像を入力とする前記位置推定ネットワークが出力した前記シーン座標画像に基づいて、前記第１入力画像を取得したときの前記カメラの姿勢である第１推定姿勢を演算し、前記第１入力画像の直後に前記カメラにより取得された第２入力画像を入力とする前記位置推定ネットワークが出力した前記シーン座標画像に基づいて、前記第２入力画像を取得したときの前記カメラの姿勢である第２推定姿勢を演算する姿勢演算部と、
前記第１入力画像に基づいて、前記第１入力画像の各画素について、前記カメラから画素が示す対象物までの実空間における距離である深度が示された深度画像を出力する深度推定ネットワークと、
前記第１入力画像から得られた前記深度画像の各画素の前記深度を前記カメラの位置を原点とするワールド座標に変換してポイントクラウドを取得するポイントクラウド取得部と、
前記第１入力画像及び前記第２入力画像に基づいて、前記第１入力画像を取得したときの前記カメラの姿勢から、前記第２入力画像を取得したときの前記カメラの姿勢までの移動量である姿勢移動量を出力する移動量推定ネットワークと、
前記位置推定ネットワークが前記第１入力画像に基づいて出力した前記シーン座標画像と、前記ポイントクラウドとの間の、原点を合わせる処理を行った上での各画素のワールド座標の誤差に関する第１目的関数、及び、前記第１推定姿勢と前記第２推定姿勢との差分と、前記姿勢移動量との間の誤差に関する第２目的関数を小さくするように、前記位置推定ネットワークを学習させる学習処理部と、
として機能させることを特徴とする学習処理プログラム。