JP7178514B2

JP7178514B2 - 場面深度とカメラ運動を予測する方法及び装置、機器、媒体並びにプログラム

Info

Publication number: JP7178514B2
Application number: JP2021565990A
Authority: JP
Inventors: タオハン; ジャンポンジャン; フイチョン
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2020-04-28
Filing date: 2021-02-08
Publication date: 2022-11-25
Anticipated expiration: 2041-02-08
Also published as: WO2021218282A1; KR102397268B1; CN111540000B; CN113822918B; CN111540000A; CN113822918A; TW202141428A; TWI767596B; JP2022528012A; KR20210138788A

Description

（関連出願の相互参照）
本願は、出願番号が２０２０１０３４８８７２．２であり、出願日が２０２０年４月２８日である中国特許出願に基づいて提出するものであり、この中国特許出願の優先権を主張し、この中国特許出願の全てが参照によって本願に組み込まれる。

本開示は、コンピュータの技術分野に関し、場面深度とカメラ運動を予測する方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラムに関するが、それらに限定されない。

単眼画像収集装置（例えば、単眼カメラ）が収集した画像を入力として場面深度及びカメラ運動を予測することは、この２０年以来コンピュータビジョン分野で活発且つ重要な研究方向であり、拡張現実、無人運転及び移動ロボットの位置決定と走行誘導等の多くの分野に広く利用されている。

本開示の実施例は、場面深度とカメラ運動を予測する方法及び装置、電子機器、媒体並びにプログラムの技術的解決手段を提供する。

本開示の実施例は、時刻ｔの目標画像フレームを取得するステップと、場面深度予測ネットワークによって時刻ｔ－１の第１隠れ状態情報を用いて前記目標画像フレームに対して場面深度予測を行って、前記目標画像フレームに対応する予測深度マップを決定するステップであって、前記第１隠れ状態情報は場面深度に関連する特徴情報を含み、前記場面深度予測ネットワークは、カメラ運動予測ネットワークの補助でトレーニングして得られるステップとを含む場面深度予測方法を提供する。

本開示のいくつかの実施例で、場面深度予測ネットワークによって時刻ｔ－１の第１隠れ状態情報を用いて前記目標画像フレームに対して場面深度予測を行って、前記目標画像フレームに対応する予測深度マップを決定するステップは、前記目標画像フレームに対して特徴抽出を行って、前記目標画像フレームに対応する第１特徴マップを決定するステップであって、前記第１特徴マップは場面深度に関連する特徴マップであるステップと、前記第１特徴マップと時刻ｔ－１の前記第１隠れ状態情報に基づいて、時刻ｔの前記第１隠れ状態情報を決定するステップと、時刻ｔの前記第１隠れ状態情報に基づいて、前記予測深度マップを決定するステップとを含む。

本開示のいくつかの実施例で、時刻ｔ－１の前記第１隠れ状態情報は時刻ｔ－１の異なるスケールにおける前記第１隠れ状態情報を含み、前記目標画像フレームに対して特徴抽出を行って、前記目標画像フレームに対応する第１特徴マップを決定するステップは、前記目標画像フレームに対してマルチスケールダウンサンプリングを行って、前記目標画像フレームに対応する、異なるスケールにおける前記第１特徴マップを決定するステップを含み、前記第１特徴マップと時刻ｔ－１の前記第１隠れ状態情報に基づいて、時刻ｔの前記第１隠れ状態情報を決定するステップは、いずれか１つのスケールに対して、当該スケールにおける前記第１特徴マップと時刻ｔ－１の当該スケールにおける前記第１隠れ状態情報に基づいて、時刻ｔの当該スケールにおける前記第１隠れ状態情報を決定するステップを含み、時刻ｔの前記第１隠れ状態情報に基づいて、前記予測深度マップを決定するステップは、時刻ｔの異なるスケールにおける前記第１隠れ状態情報に対して特徴融合を行って、前記予測深度マップを決定するステップを含む。

本開示のいくつかの実施例で、前記方法は、時刻ｔに対応するサンプル画像フレーム系列を取得するステップであって、前記サンプル画像フレーム系列は、時刻ｔの第１サンプル画像フレームと前記第１サンプル画像フレームの隣接サンプル画像フレームを含むステップと、カメラ運動予測ネットワークによって時刻ｔ－１の第２隠れ状態情報を用いて前記サンプル画像フレーム系列に対してカメラ位置姿勢予測を行って、前記サンプル画像フレーム系列に対応するサンプル予測カメラ運動を決定するステップであって、前記第２隠れ状態情報はカメラ運動に関連する特徴情報を含むステップと、トレーニング対象である場面深度予測ネットワークによって、時刻ｔ－１の第１隠れ状態情報を用いて、前記第１サンプル画像フレームに対して場面深度予測を行って、前記第１サンプル画像フレームに対応するサンプル予測深度マップを決定するステップであって、前記第１隠れ状態情報は場面深度に関連する特徴情報を含むステップと、前記サンプル予測深度マップと前記サンプル予測カメラ運動に基づいて損失関数を構築するステップと、前記損失関数により、前記トレーニング対象である場面深度予測ネットワークをトレーニングして、前記場面深度予測ネットワークを得るステップと、を更に含む。

本開示のいくつかの実施例で、前記サンプル予測深度マップと前記サンプル予測カメラ運動に基づいて損失関数を構築するステップは、前記サンプル予測カメラ運動に基づいて前記サンプル画像フレーム系列のうちの前記第１サンプル画像フレームの隣接サンプル画像フレームの前記第１サンプル画像フレームに対する再投影誤差項を決定するステップと、前記サンプル予測深度マップの分布連続性に基づいて、ペナルティ関数項を決定するステップと、前記再投影誤差項と前記ペナルティ関数項により、前記損失関数を構築するステップとを含む。

本開示の実施例は、時刻ｔに対応する画像フレーム系列を取得するステップであって、前記画像フレーム系列は、時刻ｔの目標画像フレームと前記目標画像フレームの隣接画像フレームを含むステップと、カメラ運動予測ネットワークによって、時刻ｔ－１の第２隠れ状態情報を用いて前記画像フレーム系列に対してカメラ位置姿勢予測を行って、前記画像フレーム系列に対応する予測カメラ運動を決定するステップであって、前記第２隠れ状態情報はカメラ運動に関連する特徴情報を含み、前記カメラ運動予測ネットワークは、場面深度予測ネットワークの補助でトレーニングして得られるステップとを含むカメラ運動予測方法を更に提供する。

本開示のいくつかの実施例で、カメラ運動予測ネットワークによって、時刻ｔ－１の第２隠れ状態情報を用いて前記画像フレーム系列に対してカメラ位置姿勢予測を行って、前記画像フレーム系列に対応する予測カメラ運動を決定するステップは、前記画像フレーム系列に対して特徴抽出を行って、前記画像フレーム系列に対応する第２特徴マップを決定するステップであって、前記第２特徴マップはカメラ運動に関連する特徴マップであるステップと、前記第２特徴マップと時刻ｔ－１の前記第２隠れ状態情報に基づいて、時刻ｔの前記第２隠れ状態情報を決定するステップと、時刻ｔの前記第２隠れ状態情報に基づいて、前記予測カメラ運動を決定するステップとを含む。

本開示のいくつかの実施例で、前記予測カメラ運動は、前記画像フレーム系列のうちの隣接画像フレーム間の相対的位置姿勢を含む。

本開示のいくつかの実施例で、前記方法は、時刻ｔに対応するサンプル画像フレーム系列を取得するステップであって、前記サンプル画像フレーム系列は、時刻ｔの第１サンプル画像フレームと前記第１サンプル画像フレームの隣接サンプル画像フレームを含むステップと、場面深度予測ネットワークによって時刻ｔ－１の第１隠れ状態情報を用いて前記第１サンプル画像フレームに対して場面深度予測を行って、前記第１サンプル画像フレームに対応するサンプル予測深度マップを決定するステップであって、前記第１隠れ状態情報は場面深度に関連する特徴情報を含むステップと、トレーニング対象であるカメラ運動予測ネットワークによって時刻ｔ－１の第２隠れ状態情報を用いて前記サンプル画像フレーム系列に対してカメラ位置姿勢予測を行って、前記サンプル画像フレーム系列に対応するサンプル予測カメラ運動を決定するステップであって、前記第２隠れ状態情報はカメラ運動に関連する特徴情報を含むステップと、前記サンプル予測深度マップと前記サンプル予測カメラ運動に基づいて損失関数を構築するステップと、前記損失関数により、前記トレーニング対象であるカメラ運動予測ネットワークをトレーニングして、前記カメラ運動予測ネットワークを得るステップと、を更に含む。

本開示のいくつかの実施例で、前記サンプル予測深度マップと前記サンプル予測カメラ運動に基づいて損失関数を構築するステップは、前記サンプル予測カメラ運動に基づいて前記サンプル画像フレーム系列のうちの前記第１サンプル画像フレームの隣接サンプル画像フレームの前記第１サンプル画像フレームに対する再投影誤差項を決定するステップと、前記サンプル予測深度マップの分布連続性に基づいて、ペナルティ関数項を決定するステップと、前記再投影誤差項と前記ペナルティ関数項により、前記損失関数を構築するステップと、を含む。

本開示の実施例は、時刻ｔの目標画像フレームを取得するように構成される第１取得モジュールと、場面深度予測ネットワークによって時刻ｔ－１の第１隠れ状態情報を用いて前記目標画像フレームに対して場面深度予測を行って、前記目標画像フレームに対応する予測深度マップを決定するように構成される第１場面深度予測モジュールであって、前記第１隠れ状態情報は場面深度に関連する特徴情報を含み、前記場面深度予測ネットワークは、カメラ運動予測ネットワークの補助でトレーニングして得られる第１場面深度予測モジュールとを備える場面深度予測装置を更に提供する。

本開示のいくつかの実施例で、前記第１場面深度予測モジュールは、前記目標画像フレームに対して特徴抽出を行って、前記目標画像フレームに対応する第１特徴マップを決定するように構成される第１決定サブモジュールであって、前記第１特徴マップは場面深度に関連する特徴マップである第１決定サブモジュールと、前記第１特徴マップと時刻ｔ－１の前記第１隠れ状態情報に基づいて、時刻ｔの前記第１隠れ状態情報を決定するように構成される第２決定サブモジュールと、時刻ｔの前記第１隠れ状態情報に基づいて、前記予測深度マップを決定するように構成される第３決定サブモジュールと、を備える。

本開示のいくつかの実施例で、時刻ｔ－１の前記第１隠れ状態情報は時刻ｔ－１の異なるスケールにおける前記第１隠れ状態情報を含み、前記第１決定サブモジュールは、具体的に、前記目標画像フレームに対してマルチスケールダウンサンプリングを行って、前記目標画像フレームに対応する、異なるスケールにおける前記第１特徴マップを決定するように構成され、前記第２決定サブモジュールは、具体的に、いずれか１つのスケールに対して、当該スケールにおける前記第１特徴マップと時刻ｔ－１の当該スケールにおける前記第１隠れ状態情報に基づいて、時刻ｔの当該スケールにおける前記第１隠れ状態情報を決定するように構成され、前記第３決定サブモジュールは、具体的に、時刻ｔの異なるスケールにおける前記第１隠れ状態情報に対して特徴融合を行って、前記予測深度マップを決定するように構成される。

本開示のいくつかの実施例で、前記装置は、
時刻ｔに対応するサンプル画像フレーム系列を取得するステップであって、前記サンプル画像フレーム系列は、時刻ｔの第１サンプル画像フレームと前記第１サンプル画像フレームの隣接サンプル画像フレームを含むステップと、
カメラ運動予測ネットワークによって時刻ｔ－１の第２隠れ状態情報を用いて前記サンプル画像フレーム系列に対してカメラ位置姿勢予測を行って、前記サンプル画像フレーム系列に対応するサンプル予測カメラ運動を決定するステップであって、前記第２隠れ状態情報はカメラ運動に関連する特徴情報を含むステップと、
トレーニング対象である場面深度予測ネットワークによって、時刻ｔ－１の第１隠れ状態情報を用いて、前記第１サンプル画像フレームに対して場面深度予測を行って、前記第１サンプル画像フレームに対応するサンプル予測深度マップを決定するステップであって、前記第１隠れ状態情報は場面深度に関連する特徴情報を含むステップと、
前記サンプル予測深度マップと前記サンプル予測カメラ運動に基づいて損失関数を構築するステップと、
前記損失関数により、前記トレーニング対象である場面深度予測ネットワークをトレーニングして、前記場面深度予測ネットワークを得るステップと、を実行するように構成される第１トレーニングモジュールを更に備える。

本開示のいくつかの実施例で、前記第１トレーニングモジュールは、具体的に、前記サンプル予測カメラ運動に基づいて前記サンプル画像フレーム系列のうちの前記第１サンプル画像フレームの隣接サンプル画像フレームの前記第１サンプル画像フレームに対する再投影誤差項を決定するステップと、前記サンプル予測深度マップの分布連続性に基づいて、ペナルティ関数項を決定するステップと、前記再投影誤差項と前記ペナルティ関数項により、前記損失関数を構築するステップと、を実行するように構成される。

本開示の実施例は、時刻ｔに対応する画像フレーム系列を取得するように構成される第２取得モジュールであって、前記画像フレーム系列は、時刻ｔの目標画像フレームと前記目標画像フレームの隣接画像フレームを含む第２取得モジュールと、カメラ運動予測ネットワークによって、時刻ｔ－１の第２隠れ状態情報を用いて前記画像フレーム系列に対してカメラ位置姿勢予測を行って、前記画像フレーム系列に対応する予測カメラ運動を決定するように構成される第１カメラ運動予測モジュールであって、前記第２隠れ状態情報はカメラ運動に関連する特徴情報を含み、前記カメラ運動予測ネットワークは、場面深度予測ネットワークの補助でトレーニングして得られる第１カメラ運動予測モジュールと、を備えるカメラ運動予測装置を更に提供する。

本開示のいくつかの実施例で、前記第１カメラ運動予測モジュールは、前記画像フレーム系列に対して特徴抽出を行って、前記画像フレーム系列に対応する第２特徴マップを決定するように構成される第６決定サブモジュールであって、前記第２特徴マップはカメラ運動に関連する特徴マップである第６決定サブモジュールと、前記第２特徴マップと時刻ｔ－１の前記第２隠れ状態情報に基づいて、時刻ｔの前記第２隠れ状態情報を決定するように構成される第７決定サブモジュールと、時刻ｔの前記第２隠れ状態情報に基づいて、前記予測カメラ運動を決定するように構成される第８決定サブモジュールと、を備える。

本開示のいくつかの実施例で、前記装置は、
時刻ｔに対応するサンプル画像フレーム系列を取得するステップであって、前記サンプル画像フレーム系列は、時刻ｔの第１サンプル画像フレームと前記第１サンプル画像フレームの隣接サンプル画像フレームを含むステップと、
場面深度予測ネットワークによって時刻ｔ－１の第１隠れ状態情報を用いて前記第１サンプル画像フレームに対して場面深度予測を行って、前記第１サンプル画像フレームに対応するサンプル予測深度マップを決定するステップであって、前記第１隠れ状態情報は場面深度に関連する特徴情報を含むステップと、
トレーニング対象であるカメラ運動予測ネットワークによって時刻ｔ－１の第２隠れ状態情報を用いて前記サンプル画像フレーム系列に対してカメラ位置姿勢予測を行って、前記サンプル画像フレーム系列に対応するサンプル予測カメラ運動を決定するステップであって、前記第２隠れ状態情報はカメラ運動に関連する特徴情報を含むステップと、
前記サンプル予測深度マップと前記サンプル予測カメラ運動に基づいて損失関数を構築するステップと、
前記損失関数により、前記トレーニング対象であるカメラ運動予測ネットワークをトレーニングして、前記カメラ運動予測ネットワークを得るステップと、を実行するように構成される第２トレーニングモジュールを更に備える。

本開示のいくつかの実施例で、前記第２トレーニングモジュールは、具体的に、前記サンプル予測カメラ運動に基づいて前記サンプル画像フレーム系列のうちの前記第１サンプル画像フレームの隣接サンプル画像フレームの前記第１サンプル画像フレームに対する再投影誤差項を決定するステップと、前記サンプル予測深度マップの分布連続性に基づいて、ペナルティ関数項を決定するステップと、前記再投影誤差項と前記ペナルティ関数項により、前記損失関数を構築するステップと、を実行するように構成される。

本開示の実施例は、プロセッサと、プロセッサ実行可能指令を記憶するように構成されるメモリと、を備え、前記プロセッサは前記メモリに記憶された指令を呼び出して上記のいずれか１種の方法を実行するように構成される電子機器を更に提供する。

本開示の実施例は、コンピュータプログラム指令が記憶されており、前記コンピュータプログラム指令がプロセッサに実行される時に、上記のいずれか１種の方法を実現するコンピュータ可読記憶媒体を更に提供する。

本開示の実施例は、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される時に、前記電子機器内のプロセッサが上記のいずれか１種の方法を実現するための指令を実行するコンピュータプログラムを更に提供する。

本開示の実施例で、時刻ｔに対応する目標画像フレームを取得し、隣接時刻の間で、場面深度は時系列的な関連関係があるので、時刻ｔ－１の場面深度に関連する第１隠れ状態情報を用いて、場面深度予測ネットワークによって目標画像フレームに対して場面深度予測を行うことで、目標画像フレームに対応する予測精度の高い予測深度マップを得ることができる。

本開示の実施例で、時刻ｔに対応する、時刻ｔの目標画像フレームと目標画像フレームの隣接画像フレームを含む画像フレーム系列を取得し、隣接時刻の間で、カメラ位置姿勢は時系列的な関連関係があるので、時刻ｔ－１のカメラ運動に関連する第２隠れ状態情報を用いて、カメラ運動予測ネットワークによって画像フレーム系列に対してカメラ位置姿勢予測を行うことで、予測精度の高い予測カメラ運動を得ることができる。

以上の一般説明と以下の詳細説明は解釈するための例示的なものに過ぎず、本開示を制限しないこと、を理解すべきである。以下の図面を参照した例示的な実施例に対する詳細な説明によれば、本開示の他の特徴及び態様は明確になる。

本開示の実施例の場面深度予測方法のフローチャートである。本開示の実施例の場面深度予測ネットワークのブロック図である。本開示の実施例の教師なしのネットワークトレーニングのブロック図である。本開示の実施例のカメラ運動予測方法のフローチャートである。本開示の実施例の場面深度予測装置の構成の模式図である。本開示の実施例のカメラ運動予測装置の構成の模式図である。本開示の実施例の電子機器の構成の模式図である。本開示の実施例の電子機器の構成の模式図である。

ここの図面は明細書に組み込まれて明細書の一部を構成し、これらの図面は本開示に合致する実施例を示し、明細書と共に本開示の技術的解決手段を説明するために用いられる。

以下に図面を参照しながら本開示の様々な例示的実施例、特徴及び態様を詳細に説明する。図面における同じ符号は同じ又は類似する機能の要素を表す。図面において実施例の様々な態様を示したが、特に断らない限り、比例に従って図面を作る必要がない。

ここの用語「例示的」とは、「例、実施例として用いられること又は説明的なもの」を意味する。ここで「例示的」に説明したいかなる実施例も必ずしも他の実施例より好ましい又は有利であると解釈されるべきではない。

本明細書の用語の「及び／又は」は、関連対象の関連関係を記述するためのものに過ぎず、３種の関係が存在可能であることを示し、例えば、Ａ及び／又はＤは、Ａが単独して存在し、ＡとＤが同時に存在し、Ｄが単独して存在するという３種の場合を示してもよい。また、本明細書の用語の「少なくとも１種」は多種のうちのいずれか１種又は多種のうちの少なくとも２種の任意の組み合わせを示し、例えば、Ａ、Ｃ、Ｄのうちの少なくとも１種を含むということは、Ａ、Ｃ及びＤから構成される集合から選択されるいずれか１つ又は複数の要素を含むことを示してもよい。

また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的詳細を示す。当業者であれば、何らかの具体的詳細がなくなるにも関わらず、本開示は同様に実施できるということを理解すべきである。いくつかの実施例では、本開示の趣旨を強調するよう、当業者に既知の方法、手段、要素及び回路に対する詳細な説明を省略する。

図１は本開示の実施例に係る場面深度予測方法のフローチャートを示す。図１に示す場面深度予測方法は、ユーザ側装置（ＵｓｅｒＥｑｕｉｐｍｅｎｔ：ＵＥと略称）、携帯機器、ユーザ端末、端末、セルラー電話、コードレス電話機、携帯情報端末（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ：ＰＤＡと略称）、携帯型デバイス、計算装置、車載装置、ウェアラブル装置等の端末装置又は他の処理装置により実行してもよい。他の処理装置はサーバ又はクラウドサーバ等であってもよい。いくつかの実施例では、この場面深度予測方法はプロセッサによりメモリに記憶されたコンピュータ可読命令を呼び出すことで実現してもよい。図１に示すように、当該方法は、以下のステップを含んでもよい。

ステップＳ１１で、時刻ｔの目標画像フレームを取得する。

ステップＳ１２で、場面深度予測ネットワークによって時刻ｔ－１の第１隠れ状態情報を用いて目標画像フレームに対して場面深度予測を行って、目標画像フレームに対応する予測深度マップを決定し、第１隠れ状態情報は場面深度に関連する特徴情報を含み、場面深度予測ネットワークは、カメラ運動予測ネットワークの補助でトレーニングして得られる。

本開示の実施例で、時刻ｔの目標画像フレームを取得し、隣接時刻の間で、場面深度は時系列的な関連関係があるので、時刻ｔ－１の場面深度に関連する第１隠れ状態情報を用いて、場面深度予測ネットワークによって目標画像フレームに対して場面深度予測を行うことで、目標画像フレームに対応する予測精度の高い予測深度マップを得ることができる。

いくつかの実施例では、場面深度予測ネットワークによって時刻ｔ－１の第１隠れ状態情報を用いて目標画像フレームに対して場面深度予測を行って、目標画像フレームに対応する予測深度マップを決定するステップは、目標画像フレームに対して特徴抽出を行って、目標画像フレームに対応する第１特徴マップを決定するステップであって、第１特徴マップは場面深度に関連する特徴マップであるステップと、第１特徴マップと時刻ｔ－１の第１隠れ状態情報に基づいて、時刻ｔの第１隠れ状態情報を決定するステップと、時刻ｔの第１隠れ状態情報に基づいて、予測深度マップを決定するステップと、を含んでもよい。

隣接時刻の間で、場面深度は時系列的な関連関係があるので、場面深度予測ネットワークは現在時刻（例えば、時刻ｔ）の目標画像フレームに対応する、場面深度に関連する第１特徴マップ、及び直前時刻（例えば、時刻ｔ－１）の場面深度に関連する第１隠れ状態情報を用いて、現在時刻の場面深度に関連する第１隠れ状態情報を決定でき、更に現在時刻の場面深度に関連する第１隠れ状態情報に基づいて目標画像フレームに対して場面深度予測を行って、現在時刻の目標画像フレームに対応する予測精度の高い予測深度マップを得ることができる。

例えば、場面深度予測ネットワークを用いて画像フレーム系列（第１時刻～第ｔ時刻の画像フレームを含む）のうちの各画像フレームに対応する予測深度マップを予測する時に、場面深度予測ネットワークの初期化段階で、場面深度に関連する第１隠れ状態情報の事前設定初期値を設定する。第１隠れ状態情報の事前設定初期値及び第１時刻の画像フレームに対応する、場面深度に関連する第１特徴マップに基づいて、第１時刻の第１隠れ状態を決定し、更に第１時刻の第１隠れ状態に基づいて第１時刻の画像フレームに対して場面深度予測を行って、第１時刻の画像フレームに対応する予測深度マップを得、また、第１時刻の第１隠れ状態及び第２時刻の画像フレームに対応する、場面深度に関連する第１特徴マップに基づいて、第２時刻の第１隠れ状態を決定し、更に第２時刻の第１隠れ状態に基づいて第２時刻の画像フレームに対して場面深度予測を行って、第２時刻の画像フレームに対応する予測深度マップを得、また、第２時刻の第１隠れ状態及び第３時刻の画像フレームに対応する、場面深度に関連する第１特徴マップに基づいて、第３時刻の第１隠れ状態を決定し、更に第３時刻の第１隠れ状態に基づいて第３時刻の画像フレームに対して場面深度予測を行って、第３時刻の画像フレームに対応する予測深度マップを得、これによって類推して、最終的に画像フレーム系列（第１時刻～第ｔ時刻の画像フレームを含む）のうちの各画像フレームに対応する予測深度マップを得る。

いくつかの実施例では、時刻ｔ－１の第１隠れ状態情報は時刻ｔ－１の異なるスケールにおける第１隠れ状態情報を含み、目標画像フレームに対して特徴抽出を行って、目標画像フレームに対応する第１特徴マップを決定するステップは、目標画像フレームに対してマルチスケールダウンサンプリングを行って、目標画像フレームに対応する、異なるスケールにおける第１特徴マップを決定するステップを含んでもよく、第１特徴マップと時刻ｔ－１の第１隠れ状態情報に基づいて、時刻ｔの第１隠れ状態情報を決定するステップは、いずれか１つのスケールに対して、当該スケールにおける第１特徴マップと時刻ｔ－１の当該スケールにおける第１隠れ状態情報に基づいて、時刻ｔの当該スケールにおける第１隠れ状態情報を決定するステップを含んでもよく、時刻ｔの第１隠れ状態情報に基づいて、予測深度マップを決定するステップは、時刻ｔの異なるスケールにおける第１隠れ状態情報に対して特徴融合を行って、予測深度マップを決定するステップを含んでもよい。

時刻ｔの目標画像フレームに対応する予測深度マップをより好適に決定するために、場面深度予測ネットワークはマルチスケール特徴融合メカニズムを採用してもよい。図２は本開示の実施例に係る場面深度予測ネットワークのブロック図を示し、図２に示すように、場面深度予測ネットワークは、深度エンコーダ２０２、マルチスケール畳み込みゲート付き回帰型ユニット（ＣｏｎｖｏｌｕｔｉｏｎａｌＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ：ＣｏｎｖＧＲＵ）及び深度デコーダ２０５を含む。時刻ｔの目標画像フレーム２０１を深度エンコーダ２０２に入力してマルチスケールダウンサンプリングを行って、目標画像フレームに対応する、異なるスケールにおける第１特徴マップ２０３、即ち、第１スケールにおける第１特徴マップ

、第２スケールにおける第１特徴マップ

及び第３スケールにおける第１特徴マップ

を得る。ここで、マルチスケールＣｏｎｖＧＲＵはマルチスケールの第１特徴マップのスケールに対応し、即ち、マルチスケールＣｏｎｖＧＲＵは第１スケールでのＣｏｎｖＧＲＵ^０、第２スケールでのＣｏｎｖＧＲＵ^１及び第３スケールでのＣｏｎｖＧＲＵ^２を含む。

依然として上記図２を例とし、第１特徴マップ

をＣｏｎｖＧＲＵ^０に入力し、第１特徴マップ

をＣｏｎｖＧＲＵ^１に入力し、第１特徴マップ

をＣｏｎｖＧＲＵ^２に入力する。ＣｏｎｖＧＲＵ^０は第１特徴マップ

とＣｏｎｖＧＲＵ^０に記憶された時刻ｔ－１の第１スケールにおける第１隠れ状態情報

に対して特徴融合を行って、時刻ｔの第１スケールでの第１隠れ状態

を得、ＣｏｎｖＧＲＵ^０は時刻ｔの第１スケールでの第１隠れ状態

を記憶し、時刻ｔの第１スケールでの第１隠れ状態

を深度デコーダに出力し、また、ＣｏｎｖＧＲＵ^１は第１特徴マップ

とＣｏｎｖＧＲＵ^１に記憶された時刻ｔ－１の第２スケールにおける第１隠れ状態情報

に対して特徴融合を行って、時刻ｔの第２スケールでの第１隠れ状態

を得、ＣｏｎｖＧＲＵ^１は時刻ｔの第２スケールでの第１隠れ状態

を記憶し、時刻ｔの第２スケールでの第１隠れ状態

を深度デコーダに出力し、また、ＣｏｎｖＧＲＵ^２は第１特徴マップ

とＣｏｎｖＧＲＵ^２に記憶された時刻ｔ－１の第３スケールにおける第１隠れ状態情報

に対して特徴融合を行って、時刻ｔの第３スケールでの第１隠れ状態

を得、ＣｏｎｖＧＲＵ^２は時刻ｔの第３スケールでの第１隠れ状態

を記憶し、時刻ｔの第３スケールでの第１隠れ状態

を深度デコーダに出力する。図２において、マルチスケール隠れ状態２０４は時刻ｔの第１スケールでの第１隠れ状態

、第２スケールでの第１隠れ状態

及び第３スケールでの第１隠れ状態

を含む。

深度デコーダ２０５は時刻ｔの第１スケールでの第１隠れ状態

、第２スケールでの第１隠れ状態

及び第３スケールでの第１隠れ状態

のスケールを目標画像フレーム２０１のスケール（以下、目標画像フレームのスケールを目標スケールと略称）と同じになるようにそれぞれ回復し、時刻ｔの目標スケールでの３つの第１隠れ状態を得る。第１隠れ状態情報は場面深度に関連する特徴情報を含み、場面深度予測ネットワークにおいても特徴マップとして存在するので、時刻ｔの目標スケールでの３つの第１隠れ状態に対して特徴マップ融合を行って、時刻ｔの目標画像フレームに対応する予測深度マップ

を得る。

いくつかの実施例では、当該場面深度予測方法は、時刻ｔに対応するサンプル画像フレーム系列を取得するステップであって、サンプル画像フレーム系列は時刻ｔの第１サンプル画像フレームと第１サンプル画像フレームの隣接サンプル画像フレームを含むステップと、カメラ運動予測ネットワークによって時刻ｔ－１の第２隠れ状態情報を用いてサンプル画像フレーム系列に対してカメラ位置姿勢予測を行って、サンプル画像フレーム系列に対応するサンプル予測カメラ運動を決定するステップであって、第２隠れ状態情報はカメラ運動に関連する特徴情報を含むステップと、トレーニング対象である場面深度予測ネットワークによって時刻ｔ－１の第１隠れ状態情報を用いて第１サンプル画像フレームに対して場面深度予測を行って、第１サンプル画像フレームに対応するサンプル予測深度マップを決定するステップであって、第１隠れ状態情報は場面深度に関連する特徴情報を含むステップと、サンプル予測深度マップとサンプル予測カメラ運動に基づいて損失関数を構築するステップと、損失関数により、トレーニング対象である場面深度予測ネットワークをトレーニングして、場面深度予測ネットワークを得るステップと、を更に含んでもよい。

本開示の実施例で、場面深度予測ネットワークは、カメラ運動予測ネットワークの補助でトレーニングして得られたものであり、又は、場面深度予測ネットワークとカメラ運動予測ネットワークは共同訓練して得られたものである。場面深度とカメラ位置姿勢の隣接時刻の間における時系列的な関連関係によって、スライドウィンドウデータ融合メカニズムを導入し、スライドウィンドウの系列における目標時刻（時刻ｔ）の場面深度とカメラ運動に関連する隠れ状態情報を抽出、記憶し、更に場面深度予測ネットワーク及び／又はカメラ運動予測ネットワークに対して教師なしのネットワークトレーニングを行う。

本開示の実施例で、時系列的に連続して収集したサンプル画像フレーム系列を含むトレーニングセットを予め作成し、更に当該トレーニングセットに基づいてトレーニング対象である場面深度予測ネットワークをトレーニングしてもよい。図３は本開示の実施例の教師なしのネットワークトレーニングのブロック図を示す。図３に示すように、目標時刻が時刻ｔであり、目標時刻に対応するサンプル画像フレーム系列３０１（即ち、目標時刻に対応するスライドウィンドウに含まれるサンプル画像フレーム系列）が時刻ｔの第１サンプル画像フレームＩ_ｔ、時刻ｔ－１の隣接サンプル画像フレームＩ_ｔ－１及び時刻ｔ＋１の隣接サンプル画像フレームＩ_ｔ＋１を含む。サンプル画像フレーム系列における第１サンプル画像フレームの隣接サンプル画像フレームの数量は実際状況に応じて決定可能であり、本開示はこれを具体的に限定するものでない。

図３に示すトレーニング対象である場面深度予測ネットワークに採用されたのは単一スケール特徴融合メカニズムである。ネットワークトのレーニング過程で、トレーニング対象である場面深度予測ネットワークは図３に示す単一スケール特徴融合メカニズムを採用してもよいし、図２に示すマルチスケール特徴融合メカニズムを採用してもよく、本開示はこれを具体的に限定するものでない。図３に示すように、トレーニング対象である場面深度予測ネットワークは、深度エンコーダ２０２、ＣｏｎｖＧＲＵ及び深度デコーダ２０５を含む。時刻ｔの第１サンプル画像フレームＩ_ｔを深度エンコーダ２０２に入力して特徴抽出を行って、第１サンプル画像フレームＩ_ｔに対応する第１特徴マップ

を得、更に第１特徴マップ

をＣｏｎｖＧＲＵに入力して、第１特徴マップ

とＣｏｎｖＧＲＵに記憶された時刻ｔ－１の第１隠れ状態情報

に対して特徴融合を行って、時刻ｔの第１隠れ状態

を得、ＣｏｎｖＧＲＵは時刻ｔの第１隠れ状態

を記憶し、時刻ｔの第１隠れ状態

を深度デコーダ２０５に出力して、時刻ｔの第１サンプル画像フレームに対応するサンプル予測深度マップ

を得る。

依然として上記図３を例とし、図３に示すように、カメラ運動予測ネットワークは、位置姿勢エンコーダ３０２、ＣｏｎｖＧＲＵ及び位置姿勢デコーダ３０３を含む。時刻ｔに対応するサンプル画像フレーム系列［Ｉ_ｔ,Ｉ_ｔ－１,Ｉ_ｔ＋１］を位置姿勢エンコーダ３０２に入力して特徴抽出を行って、サンプル画像フレーム系列に対応する第２特徴マップ

を得、更に第２特徴マップ

をＣｏｎｖＧＲＵに入力して、第２特徴マップ

とＣｏｎｖＧＲＵに記憶された時刻ｔ－１の第２隠れ状態情報

に対して特徴融合を行って、時刻ｔの第２隠れ状態

を得、ＣｏｎｖＧＲＵは時刻ｔの第２隠れ状態

を記憶し、時刻ｔの第２隠れ状態

を位置姿勢デコーダに出力して、時刻ｔのサンプル画像フレーム系列に対応するサンプル予測カメラ運動［

,

］を得る。

依然として上記図３を例とし、サンプル予測深度マップ

とサンプル予測カメラ運動［

,

］により、損失関数

を構築できる。具体的には、サンプル予測カメラ運動［

,

］により、サンプル画像フレーム系列のうちの隣接サンプル画像フレームＩ_ｔ－１とＩ_ｔ＋１の第１サンプル画像フレームＩ_ｔに対する再投影誤差項

を決定し、また、サンプル予測深度マップ

の分布連続性に基づいて、ペナルティ関数項

を決定する。更に、下式（１）によって損失関数

を構築し、

（１）
ここで、

は重み係数であり、実際状況に応じて

の値の大きさを決定でき、本開示はこれを具体的に限定するものでない。

いくつかの実施例では、サンプル予測深度マップ

の分布連続性に基づいてペナルティ関数項

を決定する具体的な過程は以下のとおりである。第１サンプル画像フレームＩ_ｔにおける各画素点の勾配値を決定し、各画素点の勾配値が第１サンプル画像フレームＩ_ｔの分布連続性（平滑性と呼んでもよい）を表すことができるので、各画素点の勾配値により第１サンプル画像フレームＩ_ｔにおける縁領域（勾配値が閾値以上の画素点が構成した領域）と非縁領域（勾配値が閾値より小さい画素点が構成した領域）を決定でき、更に第１サンプル画像フレームＩ_ｔに対応するサンプル予測深度マップ

における縁領域と非縁領域を決定できる。サンプル予測深度マップ

における各画素点の勾配値を決定し、サンプル予測深度マップ

における非縁領域の分布連続性及び縁領域の分布非連続性を確保するために、サンプル予測深度マップ

における非縁領域中の各画素点に対して、勾配値に正比例するペナルティ要素を設定する。サンプル予測深度マップ

における縁領域中の各画素点に対して、勾配値に反比例するペナルティ要素を設定する。更にサンプル予測深度マップ

における各画素点のペナルティ要素に基づいて、ペナルティ関数項

を構築する。

サンプル予測深度マップとサンプル予測カメラ運動は、場面深度とカメラ運動の隣接時刻の間における時系列的な関連関係によって得られたものであるので、カメラ運動予測ネットワークで得られた予測カメラ運動により決定された再投影誤差項、及び場面深度予測ネットワークで得られた予測深度マップにより決定されたペナルティ関数項によって構築された損失関数を総合的に利用して、トレーニング対象である場面深度予測ネットワークをトレーニングすることで、トレーニングされた場面深度予測ネットワークは場面深度予測の予測精度を高くすることができる。

いくつかの実施例では、図３におけるカメラ運動予測ネットワークはトレーニング対象であるカメラ運動予測ネットワークであってもよく、上記損失関数によりトレーニング待ちカメラ運動ネットワークをトレーニングして、トレーニング対象である場面深度予測ネットワークとトレーニング待ちカメラ運動ネットワークの共同訓練を実現して、トレーニング済みの場面深度予測ネットワークとカメラ運動予測ネットワークを得ることができる。

予測深度マップと予測カメラ運動が場面深度とカメラ運動の隣接時刻の間における時系列的な関連関係で得られたものであるので、カメラ運動予測ネットワークで得られた予測カメラ運動により決定された再投影誤差項、及び場面深度予測ネットワークで得られた予測深度マップにより決定されたペナルティ関数項によって構築された損失関数を総合的に利用して、場面深度予測ネットワークとカメラ運動予測ネットワークを共同訓練することで、トレーニングされた場面深度予測ネットワークとカメラ運動予測ネットワークは場面深度予測とカメラ運動予測の予測精度を高くすることができる。

いくつかの実施例では、深度エンコーダと位置姿勢エンコーダはＲｅｓＮｅｔ１８構造を共用してもよく、ＲｅｓＮｅｔ５４構造を共用してもよく、他の構造を共用してもよく、本開示はこれを具体的に限定するものでない。深度デコーダと位置姿勢デコーダはＵｎｅｔネットワーク構造を採用してもよく、他のデコーダネットワーク構造を採用してもよく、本開示はこれを具体的に限定するものでない。

いくつかの実施例では、ＣｏｎｖＧＲＵは畳み込み操作を含み、また、ＣｏｎｖＧＲＵ中の活性化関数がＥＬＵ活性化関数である。

例えば、１次元データに対してしかデータ処理できない畳み込みゲート付き回帰型ユニットＣｏｎｖＧＲＵを改良し、ＣｏｎｖＧＲＵ中の線形操作を畳み込み操作に換え、ＣｏｎｖＧＲＵ中のｔａｎｈ活性化関数をＥＬＵ活性化関数に換えることで、２次元画像データに対してデータ処理できるＣｏｎｖＧＲＵを得ることができる。

場面深度及び／又はカメラ運動が時系列的な関連関係を利用して、ＣｏｎｖＧＲＵによって、異なる時刻の対応する画像フレーム系列に対して時系列で畳み込み処理を繰り返すことができ、これによって、異なる時刻の対応する第１隠れ状態及び／又は第２隠れ状態を得ることができる。

スライドウィンドウデータ融合メカニズムを実現するために、上記ＣｏｎｖＧＲＵを採用することに加えて、畳み込み長期短期記憶ユニット（ＣｏｎｖｏｌｕｔｉｏｎａｌＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ：ＣｏｎｖＬＳＴＭ）を採用してもよく、スライドウィンドウデータ融合を実現可能な他の構造を採用してもよく、本開示はこれを具体的に限定するものでない。

図４は本開示の実施例に係るカメラ運動予測方法のフローチャートを示す。図４に示すカメラ運動予測方法は、ユーザ側装置（ＵｓｅｒＥｑｕｉｐｍｅｎｔ：ＵＥ）、携帯機器、ユーザ端末、端末、セルラー電話、コードレス電話機、携帯情報端末（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ：ＰＤＡ）、携帯型デバイス、計算装置、車載装置、ウェアラブル装置等の端末機器又は他の処理装置により実行してもよい。他の処理装置はサーバ又はクラウドサーバ等であってもよい。いくつかの可能な実現形態において、このカメラ運動予測方法はプロセッサによりメモリに記憶されたコンピュータ可読命令を呼び出すことで実現してもよい。図４に示すように、当該方法は、以下のステップを含んでもよい。

ステップＳ４１で、時刻ｔに対応する画像フレーム系列を取得し、画像フレーム系列は時刻ｔの目標画像フレームと目標画像フレームの隣接画像フレームを含む。

ステップＳ４２で、カメラ運動予測ネットワークによって時刻ｔ－１の第２隠れ状態情報を用いて画像フレーム系列に対してカメラ位置姿勢予測を行って、画像フレーム系列に対応する予測カメラ運動を決定し、第２隠れ状態情報はカメラ運動に関連する特徴情報を含み、カメラ運動予測ネットワークは、場面深度予測ネットワークの補助でトレーニングして得られる。

本開示の実施例で、時刻ｔの目標画像フレームと目標画像フレームの隣接画像フレームを含む画像フレーム系列を取得し、隣接時刻の間でカメラ運動は時系列的な関連関係があるので、時刻ｔ－１のカメラ運動に関連する第２隠れ状態情報を用いて、カメラ運動予測ネットワークによって画像フレーム系列に対してカメラ位置姿勢予測を行うことで、画像フレーム系列に対応する予測精度の高い予測カメラ運動を得ることができる。

いくつかの実施例では、カメラ運動予測ネットワークによって時刻ｔ－１の第２隠れ状態情報を用いて画像フレーム系列に対してカメラ位置姿勢予測を行って、画像フレーム系列に対応する予測カメラ運動を決定するステップは、画像フレーム系列に対して特徴抽出を行って、画像フレーム系列に対応する第２特徴マップを決定するステップであって、第２特徴マップはカメラ運動に関連する特徴マップであるステップと、第２特徴マップと時刻ｔ－１の第２隠れ状態情報に基づいて、時刻ｔの第２隠れ状態情報を決定するステップと、時刻ｔの第２隠れ状態情報に基づいて、予測カメラ運動を決定するステップと、を含んでもよい。

隣接時刻の間でカメラ運動は時系列的な関連関係があるので、カメラ運動予測ネットワークは、時刻ｔの画像フレーム系列に対応する場面深度に関連する第２特徴マップ、及び時刻ｔ－１のカメラ運動に関連する第２隠れ状態情報を用いて、時刻ｔのカメラ運動に関連する第２隠れ状態情報を決定でき、更に時刻ｔのカメラ運動に関連する第２隠れ状態情報に基づいて時刻ｔの画像フレーム系列に対してカメラ運動予測を行って、時刻ｔの画像フレーム系列に対応する予測精度の高い予測深度マップを得ることができる。

いくつかの実施例では、予測カメラ運動は画像フレーム系列のうちの隣接画像フレーム間の相対的位置姿勢を含んでもよい。ここで、相対的位置姿勢は６次元パラメータであり、３次元回転情報と３次元平行移動情報を含む。

例えば、予測カメラ運動［

,

］は、隣接画像フレームＩ_ｔ－１～目標画像フレームＩ_ｔの間の相対的位置姿勢

、及び目標画像フレームＩ_ｔ～隣接画像フレームＩ_ｔ＋１の間の相対的位置姿勢

を含む。

上記図３を例とし、図３に示すように、カメラ運動予測ネットワークは、位置姿勢エンコーダ、ＣｏｎｖＧＲＵ及び位置姿勢デコーダを含む。時刻ｔに対応する画像フレーム系列［Ｉ_ｔ,Ｉ_ｔ－１,Ｉ_ｔ＋１］を位置姿勢エンコーダ３０２に入力して特徴抽出を行って、画像フレーム系列に対応する第２特徴マップ

を得、更に第２特徴マップ

をＣｏｎｖＧＲＵに入力して、第２特徴マップ

に対して特徴融合を行い、時刻ｔの第２隠れ状態

を得、ＣｏｎｖＧＲＵは時刻ｔの第２隠れ状態

を記憶し、時刻ｔの第２隠れ状態

を位置姿勢デコーダに出力して、時刻ｔの画像フレーム系列に対応する予測カメラ運動［

,

］を得る。

例えば、カメラ運動予測ネットワークを用いて画像フレーム系列に対応する予測カメラ運動を予測する時に、カメラ運動予測ネットワークの初期化段階で、カメラ運動に関連する第２隠れ状態情報の事前設定初期値を設定する。第２隠れ状態情報の事前設定初期値及び第１時刻の画像フレーム系列に対応する、カメラ運動に関連する第２特徴マップに基づいて、第１時刻の第２隠れ状態を決定し、更に第１時刻の第２隠れ状態に基づいて第１時刻の画像フレーム系列に対してカメラ運動予測を行って、第１時刻の画像フレーム系列に対応する予測カメラ運動を得、また、第１時刻の第２隠れ状態及び第２時刻の画像フレーム系列に対応する、カメラ運動に関連する第２特徴マップに基づいて、第２時刻の第２隠れ状態を決定し、更に第２時刻の第２隠れ状態に基づいて第２時刻の画像フレーム系列に対してカメラ運動予測を行って、第２時刻の画像フレーム系列に対応する予測カメラ運動を得、また、第２時刻の第２隠れ状態及び第３時刻の画像フレーム系列に対応する、カメラ運動に関連する第２特徴マップに基づいて、第３時刻の第２隠れ状態を決定し、更に第３時刻の第２隠れ状態に基づいて第３時刻の画像フレーム系列に対してカメラ運動予測を行って、第３時刻の画像フレーム系列に対応する予測カメラ運動を得、これによって類推して、最終的に異なる時刻の画像フレーム系列に対応する予測カメラ運動を得る。

いくつかの実施例では、当該カメラ運動予測方法は、時刻ｔに対応するサンプル画像フレーム系列を取得するステップであって、サンプル画像フレーム系列は時刻ｔの第１サンプル画像フレームと第１サンプル画像フレームの隣接サンプル画像フレームを含むステップと、場面深度予測ネットワークによって時刻ｔ－１の第１隠れ状態情報を用いて目標画像フレームに対して場面深度予測を行って、第１サンプル画像フレームに対応する予測深度マップを決定するステップであって、第１隠れ状態情報は場面深度に関連する特徴情報を含むステップと、トレーニング対象であるカメラ運動予測ネットワークによって時刻ｔ－１の第２隠れ状態情報を用いてサンプル画像フレーム系列に対してカメラ位置姿勢予測を行って、サンプル画像フレーム系列に対応するサンプル予測カメラ運動を決定するステップであって、第２隠れ状態情報はカメラ運動に関連する特徴情報を含むステップと、サンプル予測深度マップとサンプル予測カメラ運動に基づいて損失関数を構築するステップと、損失関数により、トレーニング対象であるカメラ運動予測ネットワークをトレーニングして、カメラ運動予測ネットワークを得るステップと、を更に含んでもよい。

いくつかの実施例では、サンプル予測深度マップとサンプル予測カメラ運動に基づいて損失関数を構築するステップは、サンプル予測カメラ運動に基づいてサンプル画像フレーム系列のうちの第１サンプル画像フレームの隣接サンプル画像フレームの第１サンプル画像フレームに対する再投影誤差項を決定するステップと、サンプル予測深度マップの分布連続性に基づいて、ペナルティ関数項を決定するステップと、再投影誤差項とペナルティ関数項により、損失関数を構築するステップと、を含んでもよい。

本開示の実施例で、カメラ運動予測ネットワークは、場面深度予測ネットワークの補助でトレーニングして得られたものであり、又は、場面深度予測ネットワークとカメラ運動予測ネットワークは共同訓練して得られたものである。いくつかの実施例では、上記図３に基づいてトレーニング対象であるカメラ運動予測ネットワークをトレーニングしてもよく、このトレーニング過程で、図３におけるカメラ運動予測ネットワークはトレーニング対象であるカメラ運動予測ネットワークであり、図３における場面深度予測ネットワークはトレーニング対象である場面深度予測ネットワークであってもよく（トレーニング対象である場面深度予測ネットワークとトレーニング対象であるカメラ運動予測ネットワークを共同訓練）、トレーニング済みの場面深度予測ネットワークであってもよく（トレーニング対象であるカメラ運動予測ネットワークを単独トレーニング）、具体的なトレーニング過程は上記図３と同じであり、本開示の実施例はここで詳細に説明しない。

予測深度マップと予測カメラ運動は、場面深度とカメラ運動の隣接時刻の間における時系列的な関連関係によって得られたものであるので、カメラ運動予測ネットワークで得られた予測カメラ運動により決定された再投影誤差項、及び場面深度予測ネットワークで得られた予測深度マップにより決定されたペナルティ関数項に基づいて構築された損失関数を総合的に利用して、場面深度予測ネットワークとカメラ運動予測ネットワークを共同訓練することで、トレーニングされた場面深度予測ネットワークとカメラ運動予測ネットワークは場面深度予測とカメラ運動予測の予測精度を高くすることができる。

本開示の実施例で、上記図３に示すネットワークトレーニング方法によってトレーニングされた場面深度予測ネットワークとカメラ運動予測ネットワークは環境の深度予測と３次元シーンの構築に利用可能である。例えば、場面深度予測ネットワークを清掃ロボット、草刈り機等の室内外の移動ロボットの走行誘導シーンに適用し、赤緑青（ＲｅｄＧｒｅｅｎＢｌｕｅ：ＲＧＢ）カメラによってＲＧＢ画像を得、更に場面深度予測ネットワークを用いてＲＧＢ画像に対応する予測深度マップを決定し、カメラ予測ネットワークを用いてＲＧＢカメラのカメラ運動を決定することで、障害物の距離測定と３次元シーンの構築を可能にして、障害物回避と走行誘導タスクを遂行する。

本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて、組み合わせ後の実施例を形成することができることが理解され、紙数に限りがあるので、本開示では詳細な説明を省略する。具体的な実施形態の上記方法において、各ステップの具体的な実行順序はその機能と可能な内在的論理に依存することが当業者に理解される。

また、本開示は場面深度／カメラ運動予測装置、電子機器、コンピュータ可読記憶媒体並びにプログラムを更に提供し、それらはいずれも本開示で提供されるいずれか一種の場面深度／カメラ運動予測方法を実現するために利用可能であり、それらに対応する技術手段及び説明については方法部分に対応する記載を参照してもよく、ここで省略する。

図５は本開示の実施例に係る場面深度予測装置のブロック図を示す。図５に示すように、場面深度予測装置５０は、
時刻ｔの目標画像フレームを取得するように構成される第１取得モジュール５１と、
場面深度予測ネットワークによって時刻ｔ－１の第１隠れ状態情報を用いて目標画像フレームに対して場面深度予測を行って、目標画像フレームに対応する予測深度マップを決定するように構成される第１場面深度予測モジュール５２であって、第１隠れ状態情報は場面深度に関連する特徴情報を含み、場面深度予測ネットワークは、カメラ運動予測ネットワークの補助でトレーニングして得られる第１場面深度予測モジュール５２と、を備える。

いくつかの実施例では、第１場面深度予測モジュール５２は、
目標画像フレームに対して特徴抽出を行って、目標画像フレームに対応する第１特徴マップを決定するように構成される第１決定サブモジュールであって、第１特徴マップは場面深度に関連する特徴マップである第１決定サブモジュールと、
第１特徴マップと時刻ｔ－１の第１隠れ状態情報に基づいて、時刻ｔの第１隠れ状態情報を決定するように構成される第２決定サブモジュールと、
時刻ｔの第１隠れ状態情報に基づいて、予測深度マップを決定するように構成される第３決定サブモジュールと、を備える。

いくつかの実施例では、時刻ｔ－１の第１隠れ状態情報は時刻ｔ－１の異なるスケールにおける第１隠れ状態情報を含み、
第１決定サブモジュールは、具体的に、目標画像フレームに対してマルチスケールダウンサンプリングを行って、目標画像フレームに対応する、異なるスケールにおける第１特徴マップを決定するように構成され、
第２決定サブモジュールは、具体的に、いずれか１つのスケールに対して、当該スケールにおける第１特徴マップと時刻ｔ－１の当該スケールにおける第１隠れ状態情報に基づいて、時刻ｔの当該スケールにおける第１隠れ状態情報を決定するように構成され、
第３決定サブモジュールは、具体的に、時刻ｔの異なるスケールにおける第１隠れ状態情報に対して特徴融合を行って、予測深度マップを決定するように構成される。

いくつかの実施例では、場面深度予測装置５０は、
時刻ｔに対応するサンプル画像フレーム系列を取得するステップであって、前記サンプル画像フレーム系列は、時刻ｔの第１サンプル画像フレームと前記第１サンプル画像フレームの隣接サンプル画像フレームを含むステップと、
カメラ運動予測ネットワークによって時刻ｔ－１の第２隠れ状態情報を用いて前記サンプル画像フレーム系列に対してカメラ位置姿勢予測を行って、前記サンプル画像フレーム系列に対応するサンプル予測カメラ運動を決定するステップであって、前記第２隠れ状態情報はカメラ運動に関連する特徴情報を含むステップと、
トレーニング対象である場面深度予測ネットワークによって、時刻ｔ－１の第１隠れ状態情報を用いて、前記第１サンプル画像フレームに対して場面深度予測を行って、前記第１サンプル画像フレームに対応するサンプル予測深度マップを決定するステップであって、前記第１隠れ状態情報は場面深度に関連する特徴情報を含むステップと、
前記サンプル予測深度マップと前記サンプル予測カメラ運動に基づいて損失関数を構築するステップと、
前記損失関数により、前記トレーニング対象である場面深度予測ネットワークをトレーニングして、前記場面深度予測ネットワークを得るステップと、を実行するように構成される第１トレーニングモジュールを更に備える。

いくつかの実施例では、第１トレーニングモジュールは、具体的に、前記サンプル予測カメラ運動に基づいて前記サンプル画像フレーム系列のうちの前記第１サンプル画像フレームの隣接サンプル画像フレームの前記第１サンプル画像フレームに対する再投影誤差項を決定するステップと、前記サンプル予測深度マップの分布連続性に基づいて、ペナルティ関数項を決定するステップと、前記再投影誤差項と前記ペナルティ関数項により、前記損失関数を構築するステップと、を実行するように構成される。

図６は本開示の実施例に係るカメラ運動予測装置のブロック図を示す。図６に示すように、カメラ運動予測装置６０は、
時刻ｔに対応する画像フレーム系列を取得するように構成される第２取得モジュール６１であって、画像フレーム系列は時刻ｔの目標画像フレームと目標画像フレームの隣接画像フレームを含む第２取得モジュール６１と、
カメラ運動予測ネットワークによって時刻ｔ－１の第２隠れ状態情報を用いて画像フレーム系列に対してカメラ位置姿勢予測を行って、画像フレーム系列に対応する予測カメラ運動を決定するように構成される第１カメラ運動予測モジュール６２であって、第２隠れ状態情報はカメラ運動に関連する特徴情報を含み、カメラ運動予測ネットワークは、場面深度予測ネットワークの補助でトレーニングして得られる第１カメラ運動予測モジュール６２と、を備える。

いくつかの実施例では、第１カメラ運動予測モジュール６２は、
画像フレーム系列に対して特徴抽出を行って、画像フレーム系列に対応する第２特徴マップを決定するように構成される第６決定サブモジュールであって、第２特徴マップはカメラ運動に関連する特徴マップである第６決定サブモジュールと、
第２特徴マップと時刻ｔ－１の第２隠れ状態情報に基づいて、時刻ｔの第２隠れ状態情報を決定するように構成される第７決定サブモジュールと、
時刻ｔの第２隠れ状態情報に基づいて、予測カメラ運動を決定するように構成される第８決定サブモジュールと、を備える。

いくつかの実施例では、予測カメラ運動は画像フレーム系列のうちの隣接画像フレーム間の相対的位置姿勢を含む。

いくつかの実施例では、カメラ運動予測装置６０は、
時刻ｔに対応するサンプル画像フレーム系列を取得するステップであって、前記サンプル画像フレーム系列は、時刻ｔの第１サンプル画像フレームと前記第１サンプル画像フレームの隣接サンプル画像フレームを含むステップと、
場面深度予測ネットワークによって時刻ｔ－１の第１隠れ状態情報を用いて前記第１サンプル画像フレームに対して場面深度予測を行って、前記第１サンプル画像フレームに対応するサンプル予測深度マップを決定するステップであって、前記第１隠れ状態情報は場面深度に関連する特徴情報を含むステップと、
トレーニング対象であるカメラ運動予測ネットワークによって時刻ｔ－１の第２隠れ状態情報を用いて前記サンプル画像フレーム系列に対してカメラ位置姿勢予測を行って、前記サンプル画像フレーム系列に対応するサンプル予測カメラ運動を決定するステップであって、前記第２隠れ状態情報はカメラ運動に関連する特徴情報を含むステップと、
前記サンプル予測深度マップと前記サンプル予測カメラ運動に基づいて損失関数を構築するステップと、
前記損失関数により、前記トレーニング対象であるカメラ運動予測ネットワークをトレーニングして、前記カメラ運動予測ネットワークを得るステップと、を実行するように構成される第２トレーニングモジュールを更に備える。

いくつかの実施例では、第２トレーニングモジュールは、具体的に、前記サンプル予測カメラ運動に基づいて前記サンプル画像フレーム系列のうちの前記第１サンプル画像フレームの隣接サンプル画像フレームの前記第１サンプル画像フレームに対する再投影誤差項を決定するステップと、前記サンプル予測深度マップの分布連続性に基づいて、ペナルティ関数項を決定するステップと、前記再投影誤差項と前記ペナルティ関数項により、前記損失関数を構築するステップと、を実行するように構成される。

いくつかの実施例では、本開示の実施例で提供された装置に備えた機能又はモジュールは、上記方法実施例に記載の方法を実行するために用いられ、その具体的な実施形態については上記方法実施例の説明を参照してよく、簡単化するために、ここで重複説明は割愛する。

本開示の実施例は、コンピュータプログラム指令が記憶されており、前記コンピュータプログラム指令がプロセッサに実行される時に、上記方法を実現するコンピュータ可読記憶媒体を更に提供する。コンピュータ可読記憶媒体は揮発性又は非揮発性コンピュータ可読記憶媒体であってもよい。

本開示の実施例は、プロセッサと、プロセッサ実行可能指令を記憶するように構成されるメモリと、を備え、前記プロセッサは前記メモリに記憶された指令を呼び出して上記のいずれか１種の場面深度予測方法又は上記のいずれか１種のカメラ運動予測方法を実行するように構成される電子機器を更に提供する。

本開示の実施例は、コンピュータ可読コードを含み、コンピュータ可読コードが機器で実行される時に、機器中のプロセッサが上記のいずれか１つの実施例で提供された場面深度及び／又はカメラ運動予測方法を実現するための指令を実行するコンピュータプログラム製品を更に提供する。

本開示の実施例は、コンピュータ可読指令を記憶するように構成され、指令が実行される時にコンピュータが上記のいずれか１つの実施例で提供された場面深度及び／又はカメラ運動予測方法の操作を実行する別のコンピュータプログラム製品を更に提供する。

電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。

図７は本開示の実施例に係る電子機器８００のブロック図を示す。図７に示すように、電子機器８００は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末等の端末であってもよい。

図７を参照すると、電子機器８００は第１処理コンポーネント８０２、第１メモリ８０４、第１電源コンポーネント８０６、マルチメディアコンポーネント８０８、オーディオコンポーネント８１０、第１入力／出力（ＩｎｐｕｔＯｕｔｐｕｔ：Ｉ／Ｏ）インタフェース８１２、センサコンポーネント８１４、及び通信コンポーネント８１６の一つ又は複数を含むことができる。

第１処理コンポーネント８０２は通常、電子機器８００の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作及び記録動作に関連する動作を制御する。第１処理コンポーネント８０２は、上記方法の全て又は一部のステップを完了するために、一つ又は複数のプロセッサ８２０を含んで命令を実行することができる。また、第１処理コンポーネント８０２は、他のコンポーネントとの対話のために、一つ又は複数のモジュールを含むことができる。例えば、第１処理コンポーネント８０２は、マルチメディアコンポーネント８０８との対話のために、マルチメディアモジュールを含むことができる。

第１メモリ８０４は電子機器８００での動作をサポートするために様々なタイプのデータを記憶するように構成される。これらのデータの例は電子機器８００において運用するためのあらゆるアプリケーションプログラム又は方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオ等を含む。第１メモリ８０４は、例えば静的ランダムアクセスメモリ（ＳｔａｔｉｃＲａｎｄｏｍ－ＡｃｃｅｓｓＭｅｍｏｒｙ：ＳＲＡＭ）、電気的消去可能プログラマブル読み取り専用メモリ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ：ＥＥＰＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥｌｅｃｔｒｉｃａｌＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ：ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（ＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ：ＰＲＯＭ）、読み取り専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ：ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスク等の様々なタイプの揮発性又は非揮発性記憶機器又はそれらの組み合わせによって実現できる。

第１電源コンポーネント８０６は電子機器８００の各コンポーネントに電力を供給する。第１電源コンポーネント８０６は電源管理システム、一つ又は複数の電源、及び電子機器８００のための電力生成、管理及び配分に関連する他のコンポーネントを含むことができる。

マルチメディアコンポーネント８０８は前記電子機器８００とユーザとの間で出力インタフェースを提供する画面を含む。いくつかの実施例では、画面は液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ：ＬＣＤ）及びタッチパネル（ＴｏｕｃｈＰａｄ：ＴＰ）を含むことができる。画面は、タッチパネルを含む場合、ユーザからの入力信号を受信するために、タッチ画面として実現してもよい。タッチパネルは、タッチ、スライド及びタッチパネルでのジェスチャを検知するために、一つ又は複数のタッチセンサを含む。前記タッチセンサはタッチ又はスライド動きの境界を検知するのみならず、前記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。いくつかの実施例では、マルチメディアコンポーネント８０８は前面カメラ及び／又は後面カメラを含む。電子機器８００が動作モード、例えば撮影モード又は撮像モードになる場合、前面カメラ及び／又は後面カメラは外部のマルチメディアデータを受信することができる。各前面カメラ及び後面カメラは固定された光学レンズ系又は焦点距離及び光学ズーム能力を有するものであってもよい。

オーディオコンポーネント８１０はオーディオ信号を出力及び／又は入力するように構成される。例えば、オーディオコンポーネント８１０は、電子機器８００が動作モード、例えば呼び出しモード、記録モード及び音声認識モードになる場合、外部のオーディオ信号を受信するように構成されたマイク（ＭＩＣ）を含む。受信されたオーディオ信号はさらに第１メモリ８０４に記憶されるか、又は通信コンポーネント８１６によって送信されてもよい。いくつかの実施例では、オーディオコンポーネント８１０はさらに、オーディオ信号を出力するためのスピーカーを含む。

第１入力／出力インタフェース８１２は第１処理コンポーネント８０２と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタン等であってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタン及びロックボタンを含むことができるが、これらに限定されない。

センサコンポーネント８１４は電子機器８００に各面での状態評価を提供するための一つ又は複数のセンサを含む。例えば、センサコンポーネント８１４は電子機器８００のオン／オフ状態、及び、例えば電子機器８００の表示装置やキーパッドであるコンポーネントの相対的位置決めを検出でき、センサコンポーネント８１４はさらに、電子機器８００又は電子機器８００のあるコンポーネントの位置の変化、ユーザと電子機器８００との接触の有無、電子機器８００の方位又は加減速及び電子機器８００の温度変化を検出できる。センサコンポーネント８１４は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成された近接センサを含む。センサコンポーネント８１４はさらに、相補型金属酸化物半導体（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ：ＣＭＯＳ）又は電荷結合素子（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ：ＣＣＤ）イメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含むことができる。いくつかの実施例では、該センサコンポーネント８１４はさらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサ又は温度センサを含むことができる。

通信コンポーネント８１６は電子機器８００と他の機器との間の有線又は無線通信を実現するように構成される。電子機器８００は通信規格に基づく無線ネットワーク、例えばＷｉＦｉ、２Ｇ又は３Ｇ、又はそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント８１６は放送チャネルによって外部の放送管理システムの放送信号又は放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント８１６はさらに、近距離通信を促進させるために、近距離無線通信（ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎ：ＮＦＣ）モジュールを含む。例えば、ＮＦＣモジュールでは無線周波数識別（ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩｄｅｎｔｉｆｉｃａｔｉｏｎ：ＲＦＩＤ）技術、赤外線データ協会（ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ：ＩｒＤＡ）技術、超広帯域（ＵｌｔｒａＷｉｄｅＢａｎｄ：ＵＷＢ）技術、ブルートゥース（Ｂｌｕｅｔｏｏｔｈ：ＢＴ）技術及び他の技術によって実現できる。

例示的な実施例では、電子機器８００は一つ又は複数の特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ：ＤＳＰ）、デジタル信号処理装置（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓ：ＤＳＰＤ）、プログラマブルロジックデバイス（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ：ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ：ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子要素によって実現し、上記のいずれか１種の場面深度予測方法又は上記のいずれか１種のカメラ運動予測方法を実行するために用いることができる。

例示的な実施例では、さらに、非揮発性コンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含む第１メモリ８０４が提供され、上記コンピュータプログラム命令は電子機器８００のプロセッサ８２０によって実行して上記のいずれか１種の場面深度予測方法又は上記のいずれか１種のカメラ運動予測方法を完了することができる。

図８は本開示の実施例に係る電子機器のブロック図を示す。図８に示すように、電子機器９００はサーバとして提供できる。図８を参照すると、電子機器９００は、さらに一つ又は複数のプロセッサを含む第２処理コンポーネント９２２、及び、第２処理コンポーネント９２２によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、第２メモリ９３２を代表とするメモリ資源を含む。第２メモリ９３２に記憶されたアプリケーションプログラムはそれぞれが１グループの命令に対応する一つ又は複数のモジュールを含むことができる。また、第２処理コンポーネント９２２は命令を実行し、それによって上記のいずれか１種の場面深度予測方法又は上記のいずれか１種のカメラ運動予測方法を実行するように構成される。

電子機器９００はさらに、電子機器９００の電源管理を実行するように構成された第２電源コンポーネント９２６、電子機器９００をネットワークにアクセスするように構成された有線又は無線ネットワークインタフェース９５０、及び第２入出力（Ｉ／Ｏ）インタフェース９５８を含むことができる。電子機器９００は第２メモリ９３２に記憶されたオペレーティングシステム、例えばＷｉｎｄｏｗｓＳｅｒｖｅｒ^ＴＭ、ＭａｃＯＳＸ^ＴＭ、Ｕｎｉｘ^ＴＭ、Ｌｉｎｕｘ^ＴＭ、ＦｒｅｅＢＳＤ^ＴＭ又は類似するものに基づいて動作できる。

例示的な実施例では、さらに、非揮発性コンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含む第２メモリ９３２が提供され、上記コンピュータプログラム命令は電子機器９００の第２処理コンポーネント９２２によって実行して上記のいずれか１種の場面深度予測方法又は上記のいずれか１種のカメラ運動予測方法を完了することができる。

本開示はシステム、方法及び／又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品はプロセッサに本開示の各態様を実現させるためのコンピュータ可読プログラム命令がロードされているコンピュータ可読記憶媒体を含むことができる。

コンピュータ可読記憶媒体は命令実行機器により使用される命令を保存及び記憶可能な有形機器であってもよい。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置又は上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例（非包括的リスト）としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（Ｒａｎｄｏｍ－ＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、及び機械的符号化装置、例えば命令が記憶されているせん孔カード又はスロット内突起構造、並びに上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は瞬時信号自体、例えば無線電波又は他の自由に伝播される電磁波、導波路又は他の伝送媒体を経由して伝播される電磁波（例えば、光ファイバーケーブルを通過するパルス光）、又は電線を経由して伝送される電気信号と解釈されるものではない。

ここで記述したコンピュータ可読プログラム命令はコンピュータ可読記憶媒体から各計算／処理機器にダウンロードされてもよいし、又はネットワーク、例えばインタネット、ローカルエリアネットワーク、広域ネットワーク及び／又は無線ネットワークによって外部のコンピュータ又は外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータ及び／又はエッジサーバを含むことができる。各計算／処理機器内のネットワークアダプタカード又はネットワークインタフェースはネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各計算／処理機器内のコンピュータ可読記憶媒体に記憶する。

本開示の動作を実行するためのコンピュータプログラム命令はアセンブラ命令、命令セットアーキテクチャ（ＩｎｓｔｒｕｃｔｉｏｎＳｅｔＡｒｃｈｉｔｅｃｔｕｒｅ：ＩＳＡ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又はＳｍａｌｌｔａｌｋ、Ｃ＋＋等のオブジェクト指向プログラミング言語、及び「Ｃ」言語又は類似するプログラミング言語等の一般的な手続き型プログラミング言語を含む一つ又は複数のプログラミング言語の任意の組み合わせで書かれたソースコード又は目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいて且つ部分的にリモートコンピュータにおいて実行されてもよく、又は完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ：ＬＡＮ）又は広域ネットワーク（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ：ＷＡＮ）を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、又は、外部コンピュータに接続されてもよい（例えばインタネットサービスプロバイダを用いてインタネット経由で接続する）。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又はプログラマブル論理アレイ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＡｒｒａｙ：ＰＬＡ）等の電子回路をパーソナライズすることで、該電子回路はコンピュータ可読プログラム命令を実行し、それにより本開示の各態様を実現できるようになる。

なお、ここで本開示の実施例に係る方法、装置（システム）及びコンピュータプログラム製品のフローチャート及び／又はブロック図を参照しながら本開示の各態様を説明しが、フローチャート及び／又はブロック図の各ブロック及びフローチャート及び／又はブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。

これらのコンピュータ可読プログラム命令は、機械を製造するために、共通コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、これらの命令はコンピュータ又は他のプログラマブルデータ処理装置のプロセッサによって実行され、フローチャート及び／又はブロック図の一つ又は複数のブロックにおいて指定された機能／動作を実現する手段を創出する。また、これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶し、それによってコンピュータ、プログラマブルデータ処理装置及び／又は他の機器を特定の方式で動作させるようにしてもよく、それにより、中に保存された命令を有するコンピュータ可読記憶媒体は、フローチャート及び／又はブロック図の一つ又は複数のブロックにおいて指定された機能／動作の各態様を実現する命令を含む製品を備える。

コンピュータ可読プログラムはコンピュータ、他のプログラマブルデータ処理装置、又は他の機器にロードすることにより、コンピュータ実施プロセスを生成するように、コンピュータ、他のプログラマブルデータ処理装置又は他の機器において一連の動作ステップを実行させるようにしてもよく、それにより、コンピュータ、他のプログラマブルデータ処理装置、又は他の機器において実行される命令はフローチャート及び／又はブロック図の一つ又は複数のブロックにおいて指定された機能／動作を実現する。

図面のうちフローチャート及びブロック図は本開示の複数の実施例に係るシステム、方法及びコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能及び動作を示す。この点では、フローチャート又はブロック図における各ブロックは一つのモジュール、プログラムセグメント又は命令の一部分を代表することができ、前記モジュール、プログラムセグメント又は命令の一部分は指定された論理機能を実現するための一つ又は複数の実行可能命令を含む。いくつかの置換としての実現形態では、ブロックに表記される機能は図面に付したものと異なる順序で実現してもよい。例えば、二つの連続的なブロックは実質的に同時に実行してもよく、また、係る機能によって、それらは逆な順序で実行してもよい場合がある。なお、ブロック図及び／又はフローチャートにおける各ブロック、及びブロック図及び／又はフローチャートにおけるブロックの組み合わせは、指定される機能又は動作を実行するハードウェアに基づく専用システムによって実現してもよいし、又は専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことに注意すべきである。

該コンピュータプログラム製品は具体的にはハードウェア、ソフトウェア又はそれらの組み合わせにより実現可能である。選択可能な一実施例において、前記コンピュータプログラム製品は具体的にはコンピュータ記憶媒体として実現され、別の選択可能な一実施例において、コンピュータプログラム製品は具体的には、例えばソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ：ＳＤＫ）等のソフトウェア製品として実現される。

以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、且つ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲及び精神から逸脱することなく、様々な修正及び変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用又は市場における技術への技術的改善を好適に解釈するか、又は他の当業者に本文に披露された各実施例を理解させるためのものである。

本開示の実施例は、時刻ｔの目標画像フレームを取得するステップと、場面深度予測ネットワークによって時刻ｔ－１の第１隠れ状態情報を用いて前記目標画像フレームに対して場面深度予測を行って、前記目標画像フレームに対応する予測深度マップを決定するステップであって、前記第１隠れ状態情報は場面深度に関連する特徴情報を含み、前記場面深度予測ネットワークは、カメラ運動予測ネットワークの補助でトレーニングして得られるステップと、を含む場面深度とカメラ運動を予測する方法及び装置、電子機器、媒体並びにプログラムを提供する。本開示の実施例は目標画像フレームに対応する予測精度の高い予測深度マップを得ることができる。

Claims

時刻ｔの目標画像フレームを取得するステップと、
場面深度予測ネットワークによって、時刻ｔ－１の場面深度に関連する第１隠れ状態情報を用いて前記目標画像フレームに対して場面深度予測を行って、前記目標画像フレームに対応する予測深度マップを決定するステップであって、前記場面深度予測ネットワークは、サンプル画像フレーム系列に基づいて、カメラ運動予測ネットワークにより得られた前記サンプル画像フレーム系列に対応するサンプル予測カメラ運動を利用して損失関数を構築し、前記損失関数によりトレーニングして得られるステップと、を含み、
場面深度予測ネットワークによって、時刻ｔ－１の場面深度に関連する第１隠れ状態情報を用いて前記目標画像フレームに対して場面深度予測を行って、前記目標画像フレームに対応する予測深度マップを決定するステップは、
前記目標画像フレームに対して特徴抽出を行って、前記目標画像フレームに対応する第１特徴マップを決定するステップであって、前記第１特徴マップは場面深度に関連する特徴マップであるステップと、
前記第１特徴マップと時刻ｔ－１の前記第１隠れ状態情報に基づいて、時刻ｔの前記第１隠れ状態情報を決定するステップと、
時刻ｔの前記第１隠れ状態情報に基づいて、前記予測深度マップを決定するステップと、を含む
場面深度予測方法。
前記時刻ｔ－１の前記第１隠れ状態情報は時刻ｔ－１の異なるスケールにおける前記第１隠れ状態情報を含み、
前記目標画像フレームに対して特徴抽出を行って、前記目標画像フレームに対応する第１特徴マップを決定するステップは、
前記目標画像フレームに対してマルチスケールダウンサンプリングを行って、前記目標画像フレームに対応する、異なるスケールにおける前記第１特徴マップを決定するステップを含み、
前記第１特徴マップと時刻ｔ－１の前記第１隠れ状態情報に基づいて、時刻ｔの前記第１隠れ状態情報を決定するステップは、
いずれか１つのスケールに対して、当該スケールにおける前記第１特徴マップと時刻ｔ－１の当該スケールにおける前記第１隠れ状態情報に基づいて、時刻ｔの当該スケールにおける前記第１隠れ状態情報を決定するステップを含み、
時刻ｔの前記第１隠れ状態情報に基づいて、前記予測深度マップを決定するステップは、
時刻ｔの異なるスケールにおける前記第１隠れ状態情報に対して特徴融合を行って、前記予測深度マップを決定するステップを含む
請求項１に記載の方法。
時刻ｔに対応する前記サンプル画像フレーム系列を取得するステップであって、前記サンプル画像フレーム系列は、時刻ｔの第１サンプル画像フレームと前記第１サンプル画像フレームの隣接サンプル画像フレームを含むステップと、
カメラ運動予測ネットワークによって、時刻ｔ－１のカメラ運動に関連する第２隠れ状態情報を用いて前記サンプル画像フレーム系列に対してカメラ位置姿勢予測を行って、前記サンプル画像フレーム系列に対応するサンプル予測カメラ運動を決定するステップと、
トレーニング対象である場面深度予測ネットワークによって、時刻ｔ－１の前記第１隠れ状態情報を用いて、前記第１サンプル画像フレームに対して場面深度予測を行って、前記第１サンプル画像フレームに対応するサンプル予測深度マップを決定するステップと、
前記サンプル予測深度マップと前記サンプル予測カメラ運動に基づいて損失関数を構築するステップと、
前記損失関数により、前記トレーニング対象である場面深度予測ネットワークをトレーニングして、前記場面深度予測ネットワークを得るステップと、を更に含む
請求項１又は２に記載の方法。
前記サンプル予測深度マップと前記サンプル予測カメラ運動に基づいて損失関数を構築するステップは、
前記サンプル予測カメラ運動に基づいて前記サンプル画像フレーム系列のうちの前記第１サンプル画像フレームの隣接サンプル画像フレームの前記第１サンプル画像フレームに対する再投影誤差項を決定するステップと、
前記サンプル予測深度マップの分布連続性に基づいて、ペナルティ関数項を決定するステップと、
前記再投影誤差項と前記ペナルティ関数項により、前記損失関数を構築するステップと、を含む
請求項３に記載の方法。
時刻ｔに対応する画像フレーム系列を取得するステップであって、前記画像フレーム系列は、時刻ｔの目標画像フレームと前記目標画像フレームの隣接画像フレームを含むステップと、
カメラ運動予測ネットワークによって、時刻ｔ－１のカメラ運動に関連する第２隠れ状態情報を用いて、前記画像フレーム系列に対してカメラ位置姿勢予測を行って、前記画像フレーム系列に対応する予測カメラ運動を決定するステップであって、前記カメラ運動予測ネットワークは、サンプル画像フレーム系列に基づいて、場面深度予測ネットワークにより得られたサンプル予測深度マップを利用して損失関数を構築し、前記損失関数によりトレーニングして得られるステップと、を含み、
カメラ運動予測ネットワークによって、時刻ｔ－１のカメラ運動に関連する第２隠れ状態情報を用いて前記画像フレーム系列に対してカメラ位置姿勢予測を行って、前記画像フレーム系列に対応する予測カメラ運動を決定するステップは、
前記画像フレーム系列に対して特徴抽出を行って、前記画像フレーム系列に対応する第２特徴マップを決定するステップであって、前記第２特徴マップはカメラ運動に関連する特徴マップであるステップと、
前記第２特徴マップと時刻ｔ－１の前記第２隠れ状態情報に基づいて、時刻ｔの前記第２隠れ状態情報を決定するステップと、
時刻ｔの前記第２隠れ状態情報に基づいて、前記予測カメラ運動を決定するステップと、を含む
カメラ運動予測方法。
前記予測カメラ運動は、前記画像フレーム系列のうちの隣接画像フレーム間の相対的位置姿勢を含む
請求項５に記載の方法。
時刻ｔに対応する前記サンプル画像フレーム系列を取得するステップであって、前記サンプル画像フレーム系列は、時刻ｔの第１サンプル画像フレームと前記第１サンプル画像フレームの隣接サンプル画像フレームを含むステップと、
場面深度予測ネットワークによって、時刻ｔ－１の場面深度に関連する第１隠れ状態情報を用いて、前記第１サンプル画像フレームに対して場面深度予測を行って、前記第１サンプル画像フレームに対応するサンプル予測深度マップを決定するステップと、
トレーニング対象であるカメラ運動予測ネットワークによって、時刻ｔ－１の前記第２隠れ状態情報を用いて、前記サンプル画像フレーム系列に対してカメラ位置姿勢予測を行って、前記サンプル画像フレーム系列に対応するサンプル予測カメラ運動を決定するステップと、
前記サンプル予測深度マップと前記サンプル予測カメラ運動に基づいて損失関数を構築するステップと、
前記損失関数により、前記トレーニング対象であるカメラ運動予測ネットワークをトレーニングして、前記カメラ運動予測ネットワークを得るステップと、を更に含み、
場面深度予測ネットワークによって、時刻ｔ－１の場面深度に関連する第１隠れ状態情報を用いて、前記第１サンプル画像フレームに対して場面深度予測を行って、前記第１サンプル画像フレームに対応するサンプル予測深度マップを決定するステップは、
前記第１サンプル画像フレームに対して特徴抽出を行い、前記第１サンプル画像フレームに対応する第１特徴マップを決定するステップであって、前記第１特徴マップは、場面深度に関連する特徴マップである、ステップと、
前記第１特徴マップと時刻ｔ－１の前記第１隠れ状態情報に基づいて、時刻ｔの前記第１隠れ状態情報を決定するステップと、
時刻ｔの前記第１隠れ状態情報に基づいて、前記サンプル予測深度マップを決定するステップと、を含む、
請求項５又は６に記載の方法。
前記サンプル予測深度マップと前記サンプル予測カメラ運動に基づいて損失関数を構築するステップは、
前記サンプル予測カメラ運動に基づいて前記サンプル画像フレーム系列のうちの前記第１サンプル画像フレームの隣接サンプル画像フレームの前記第１サンプル画像フレームに対する再投影誤差項を決定するステップと、
前記サンプル予測深度マップの分布連続性に基づいて、ペナルティ関数項を決定するステップと、
前記再投影誤差項と前記ペナルティ関数項により、前記損失関数を構築するステップと、を含む
請求項７に記載の方法。
時刻ｔの目標画像フレームを取得するように構成される第１取得モジュールと、
場面深度予測ネットワークによって、時刻ｔ－１の場面深度に関連する第１隠れ状態情報を用いて、前記目標画像フレームに対して場面深度予測を行って、前記目標画像フレームに対応する予測深度マップを決定するように構成される第１場面深度予測モジュールであって、前記場面深度予測ネットワークは、サンプル画像フレーム系列に基づいて、カメラ運動予測ネットワークにより得られた前記サンプル画像フレーム系列に対応するサンプル予測カメラ運動を利用して損失関数を構築し、前記損失関数によりトレーニングして得られる第１場面深度予測モジュールと、を備え、
前記第１場面深度予測モジュールは、
前記目標画像フレームに対して特徴抽出を行って、前記目標画像フレームに対応する第１特徴マップを決定するように構成される第１決定サブモジュールであって、前記第１特徴マップは場面深度に関連する特徴マップである第１決定サブモジュールと、
前記第１特徴マップと時刻ｔ－１の前記第１隠れ状態情報に基づいて、時刻ｔの前記第１隠れ状態情報を決定するように構成される第２決定サブモジュールと、
時刻ｔの前記第１隠れ状態情報に基づいて、前記予測深度マップを決定するように構成される第３決定サブモジュールと、を備える
場面深度予測装置。
時刻ｔに対応する画像フレーム系列を取得するように構成される第２取得モジュールであって、前記画像フレーム系列は、時刻ｔの目標画像フレームと前記目標画像フレームの隣接画像フレームを含む第１取得モジュールと、
カメラ運動予測ネットワークによって、時刻ｔ－１のカメラ運動に関連する第２隠れ状態情報を用いて、前記画像フレーム系列に対してカメラ位置姿勢予測を行って、前記画像フレーム系列に対応する予測カメラ運動を決定するように構成される第１カメラ運動予測モジュールであって、前記カメラ運動予測ネットワークは、サンプル画像フレーム系列に基づいて、場面深度予測ネットワークにより得られたサンプル予測深度マップを利用して損失関数を構築し、前記損失関数によりトレーニングして得られる第１カメラ運動予測モジュールと、を備え、
前記第１カメラ運動予測モジュールは、
前記画像フレーム系列に対して特徴抽出を行って、前記画像フレーム系列に対応する第２特徴マップを決定するように構成される第１決定サブモジュールであって、前記第２特徴マップはカメラ運動に関連する特徴マップである第１決定サブモジュールと、
前記第２特徴マップと時刻ｔ－１の前記第２隠れ状態情報に基づいて、時刻ｔの前記第２隠れ状態情報を決定するように構成される第２決定サブモジュールと、
時刻ｔの前記第２隠れ状態情報に基づいて、前記予測カメラ運動を決定するように構成される第３決定サブモジュールと、を備える
カメラ運動予測装置。
プロセッサと、
プロセッサ実行可能指令を記憶するように構成されるメモリと、を備え、
前記プロセッサは前記メモリに記憶された指令を呼び出して請求項１～８のいずれか一項に記載の方法を実行するように構成される電子機器。
コンピュータプログラム指令が記憶されており、前記コンピュータプログラム指令がプロセッサに、請求項１～８のいずれか一項に記載の方法を実行させるコンピュータ可読記憶媒体。