JP7177062B2 - 統計モデルを用いた画像データからの深度予測 - Google Patents

統計モデルを用いた画像データからの深度予測 Download PDF

Info

Publication number
JP7177062B2
JP7177062B2 JP2019535986A JP2019535986A JP7177062B2 JP 7177062 B2 JP7177062 B2 JP 7177062B2 JP 2019535986 A JP2019535986 A JP 2019535986A JP 2019535986 A JP2019535986 A JP 2019535986A JP 7177062 B2 JP7177062 B2 JP 7177062B2
Authority
JP
Japan
Prior art keywords
image
predicted
disparity
model
disparity value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019535986A
Other languages
English (en)
Other versions
JP2019526878A (ja
JP2019526878A5 (ja
Inventor
クレメント ゴダール
エイダ オシン マック
ガブリエル ブロストウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Niantic Inc
Original Assignee
Niantic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Niantic Inc filed Critical Niantic Inc
Publication of JP2019526878A publication Critical patent/JP2019526878A/ja
Publication of JP2019526878A5 publication Critical patent/JP2019526878A5/ja
Application granted granted Critical
Publication of JP7177062B2 publication Critical patent/JP7177062B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4007Interpolation-based scaling, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Description

本発明は、全体として、画像データ処理システムに関し、より具体的には、訓練された統計モデルを用いた画像データからの深度データの予測に関する。
画像からの奥行き推定は、コンピュータビジョン分野において長い歴史を有する。SFM(structure from motion)、shape from X、両眼式、及びMVS(multi-view stereo)に依拠して有益なアプローチがあった。しかし、これらの技術のほとんどは、注目シーンの複数の観察が可能であるという仮定に依存している。これらの観察は、複数の視点、または異なる照明の条件下におけるシーンの観察といった形で得ることができる。この制限を克服するために、例えば、L. Ladicky, J. Shi 及び M. Pollefeys による「Pulling Things Out Of Perspective」(CVPR 2014)と、D. Eigen, C. Puhrsch 及び R. Fergusによる「Depth Map Prediction From A Single Image Using A Multi-Scale Deep Network」(NIPS 2014)と、F. Liu, C. Shen, G. Lin 及び I. Reid による「Learning Depth From Single Monocular Images Using Deep Convolutional Neural Fields」(PAMI 2015)などにおいて論議されているように、最近、教師あり学習の問題として、単一の入力画像しかない単眼深度推定の課題を提示する研究の数が急増している。しかしながら、このような研究に記述された方法では、オフラインで大量のグラウンドトゥルース深度データを用いてモデルが訓練され、そのモデルを用いて画像内の各ピクセルの深度を直接予測することを試みている。したがって、このような方法は、大量の画像群及びそれらの対応するピクセル深度が利用できるシーンに制限される。
他には、訓練中において、自動深度推定を画像再構築問題として扱うアプローチが進められている。人は、様々な手がかりのうち、遠近、既知の物体の既知のサイズに対するスケーリング、明暗の形態、オクルージョンなどの手がかりを生かし、単眼深度推定をうまく行う。この手がかりのトップダウン及びボトムアップの組み合わせは、全体シーンへの理解、及び深度を正確に推定する我らの能力を結び付けている。最近公表されたいくつかの研究により、訓練時にグラウンドトゥルース深度を必要としない新規のビュー合成及び深度推定のための、深層ネットワークベースの方法が提案されている。
J. Flynn, I. Neulander, J. Philbin及びN. Snavelyによる「DeepStereo: Learning To Predict New Views From The World's Imagery」(CVPR 2016)には、近くの隣接画像からピクセルを選択することにより新しいビューを生成する、DeepStereoと呼ばれる新規の画像合成ネットワークについて論議されている。訓練中において、彼らは画像のセットを選択し、彼らのそれぞれのカメラポーズを(動作からオドメトリ及び標準構造の組み合わせを用いて)計算し、その後、提供された近くの画像のアピアランスを予測するために畳み込みニューラルネットワーク(CNN)を訓練する。プレーンスイープ量に基づいて、隣接画像からカラーをサンプリングするために最も適した深度が選択される。テストのときに画像合成は小さい重ね合わせパッチで行われる。しかしながら、DeepStereoは、テストのときにいくつかの近くに位置する画像を必要とするので、単眼深度推定には適していない。
J. Xie, R. Girshick 及び A. Farhadiによる「Deep3d: Fully Automatic 2D-To-3D Video Conversion With Deep Convolutional Neural Networks」(ECCV 2016)で論議されるDeep3D CNNも、訓練段階における新規のビュー合成問題を扱っており、彼らの目的は、両眼ステレオ画像ペアのコンテキストにおいて、左側入力画像(例えば、ソース画像)から対応する右側ビューを生成することである。コンピュータビジョンにおいてよく知られているように、両眼視差は、二つのステレオ画像内の同一特徴の座標の差、例えば、左右のカメラから見た物体の画像位置の差を指し、カメラ間の水平隔離(parallax)に起因するものである。Deep3Dは、立体視の二次元画像から深度情報を抽出するために両眼視差を用いる。画像再構築ロスを再度用いて、彼らの方法は、左側入力画像の各ピクセルに対して、可能性のある全ての視差にわたる分布を生成する。結果として生じる右側画像の合成されたピクセル値は、各視差の確率で重み付けされた、左側画像からの同じ走査線上のピクセルの組み合わせである。彼らの画像形成モデルの欠点は、候補視差値の数の増加がアルゴリズムのメモリ消費を非常に増加させて、彼らのアプローチを高出力解像度へスケーリングすることが難しいという点にある。
Deep 3Dと同様に、R. Garg, V. Kumar BG及びI. Reidによる「Unsupervised CNN For Single View Depth Estimation: Geometry To The Rescue」(ECCV 2016)には、訓練段階における両眼ステレオ画像ペアに基づいて、画像再構築ロスを用いる単眼深度推定のためにCNNを訓練することについて論議されている。しかし、Garg らによる画像形成モデルの記述は、完全微分可能なものではなく、訓練を最適なものにはできない。それを補うため、彼らは、ロスを線形化するテイラー近似を行い、最終結果の質を大きく増加させた。
望まれるのは、深度推定のための上記の深層CNNベースシステムの全ての制約に対処し、かつ最終結果の品質を著しく向上させる、改善されたネットワークアーキテクチャである。
本発明の態様は、添付の特許請求の範囲に述べられている。
一態様によれば、本発明は、カラー画像データから深度データを予測するための統計モデルを定義するデータを記憶し、入力された両眼ステレオペアの画像の少なくとも1つによってそのモデルを訓練し、その訓練は、入力された両眼ステレオペアの各画像について、その画像に適用されたときに他の画像の再構築を可能にする対応する視差値を予測すること、かつステレオペアの各画像に対して前記予測視差値間の整合性を高めるコスト関数に基づいてモデルを更新することにより行われる、コンピュータで実現される方法を提供する。
モデルの訓練は、ステレオペアの各画像に対して、対応する視差値に基づいて投影視差値を計算することをさらに含んでもよい。投影視差値は、ステレオペアの一方の画像に対して、第1画像の予測視差値をサンプリングし、かつサンプリングされたデータに他方の画像の予測視差値を適用することで計算されてもよい。コスト関数は、ステレオペアの各画像について計算された予測視差値と投影視差値との間の整合性を高めるための視差整合性構成要素を含んでもよい。
モデルの再構築モジュールは、ステレオペアの第1画像のサンプリングされた画像ピクセルをずらすために、対応する予測視差値を適用することで、ステレオペアの第2画像を再構築してもよい。コスト関数は、再構築画像と対応する入力画像との間の画像再構築誤差を最小にするための再構築アピアランスマッチング構成要素をさらに含んでもよい。サンプリングは、バイリニア補間を含んでもよい。
コスト関数は、対応する予測視差値における局所的な平滑化を促進するための平滑化構成要素をさらに含んでもよい。コスト関数は、視差整合性構成要素、平滑化構成要素、及び再構築アピアランスマッチング構成要素の重み付き和を実現してもよい。
統計モデルは、各処理ノードが少なくとも一つのパラメータ値を有する処理ノードの構造化配置を含む畳み込みニューラルネットワーク、すなわち CNN を含んでもよい。畳み込みニューラルネットワークは、コスト関数の逆伝播構成要素により訓練されてもよい。
モデルの訓練は、複数の空間解像度で入力画像データをアップサンプリング及びアップコンボリューションすること、及び各空間解像度で対応する視差値を予測することをさらに含んでもよく、モデルは、ステレオペアの各画像に対する各空間解像度で予測視差値間の整合性を高めるコスト関数に基づいて更新される。コスト関数は、空間解像度に応じて予測視差値間の整合性の重み付き強化を含んでもよい。
訓練画像の両眼ステレオペアは、既知のカメラ焦点長を有しかつ既知の基線距離だけ離れているそれぞれのカメラによって同時に撮像されてもよい。訓練画像の両眼ステレオペアは、修正されかつ時間的に整列されたステレオペアであってもよい。デジタル画像は、画像を撮像したそれぞれのカメラの属性を定義するメタデータで注釈付けされてもよい。
他の態様によれば、深度画像は、訓練されたモデルの視差予測モジュールを用いて、入力されたカラー画像から予測視差マップを生成すること、及び予測視差マップから対応する推定深度データを計算することにより、入力された単一カラー画像から生成されてもよい。カラー画像データは、カメラによって撮像されてもよい。モデルは、高解像度の画像を受信するように構成されてもよい。
有利なこととして、本発明は、深度データを必要としない代わりに深度を中間として合成するように訓練された全層畳み込みモデルを提供する。そのモデルは、既知のカメラ基線を有する、修正されたステレオ画像ペア間のピクセルレベルの対応関係を予測するように学習する。
さらに、実施形態は、
ネットワーク内に左右視差整合性制約を組み入れた新規の訓練ロスを用いてエンドツーエンド教師なし単眼深度推定を行うネットワークアーキテクチャ、
前述のアプローチの有効性を強調する、いくつかの異なる訓練ロス及び画像形成モデルの評価、及び
他の異なるデータセットによって一般化されるモデル
を提供する。
別の態様によれば、本発明は、シーン形状または存在するオブジェクトの種類の仮定がない単一入力画像のみの単眼深度推定のための教師なし深層ニューラルネットワークを提供する。特定の実施状況で利用できないかまたは得るのにコストがかかる可能性がある整列されたグラウンドトゥルース深度データの代わりに、本発明は、両眼ステレオデータを撮像できる簡易さを活用する。さらなる別の態様によれば、学習モジュールは、訓練中において各カメラビューから予測深度マップ間の整合性を高めるロス関数を実施して、予測を改善する。結果として生じる出力深度データは、訓練段階でグラウンドトゥルース深度情報を省略したにもかかわらず、完全に監督された基線より優れる。さらに、訓練されたモデルは、訓練中には見られなかったデータセットによって一般化されることができ、依然として視覚的に妥当な深度マップを生成することができる。
他の態様において、上述の方法を実行するように構成された装置及びシステムが提供される。さらなる態様において、プログラム可能なデバイスに上述の方法を実行させる機械読取可能な命令を含むコンピュータプログラムが提供される。
ここより、単なる例示として、以下に特定される図面を参照しながら本発明の実施形態について詳しく説明する。
本発明の一実施形態に係る画像処理システムの主要構成要素を示すブロック図である。 例示的なCNNの一部分を示す概略図である。 一実施形態に係る、単一画像深度予測CNNを訓練するための訓練モジュールにより実行される主要処理ステップを示すフロー図である。 一実施形態に係る、単一画像深度予測CNNを訓練するための訓練モジュールにより実行される主要処理ステップを示すフロー図である。 一実施形態に係る、訓練の反復における例示的なCNNの処理及びデータ構成要素を概略的に示すブロックフロー図である。 一実施形態に係る、訓練されたCNNを用いて単一ソース画像から深度データを生成しかつ処理する例示的な処理を示すフロー図である。 一実施形態の機能のうち一つ以上を実施することができるコンピュータシステムの例を示す図である。
図1は、カラー画像データから深度データを予測しかつ処理するための例示的なシステム1を示すブロック図である。図に示すように、システム1は、画像処理システム3を含み、画像処理システム3は、カメラ7から撮像されたカラー画像データ(撮像されたビューでオブジェクトを形成するピクセルに対して RGB 値を表す RGB 画像など)を受信することができる深度データ生成器モジュール5を有する。デジタル画像は、画像を撮像したそれぞれのカメラの属性を定義するメタデータで注釈付けされることができる。深度データ生成器モジュール5は、受信された単一ソース画像のカラー画像データから予測両眼視差マップを直接生成するために、訓練された畳み込みニューラルネットワーク(CNN)モジュール11の視差予測器9を用いる。生成された両眼視差値は、ソース画像がキャリブレーションされた両眼ステレオカメラペアによって撮像されたステレオ画像ペアのうちの一つであるとみなした場合における、撮像されたソース画像内の検出されたオブジェクトまたは特徴の画像位置と、対応する概念的な両眼立体視におけるオブジェクトまたは特徴の予測画像位置との差を表す。深度データ生成器モジュール5は、視差予測器9により出力された両眼視差マップから深度情報を計算する。
CNN11は、処理ノードの動的構造化配置を含み、各ノードは対応する重みパラメータを有する。CNN11を定義する構造及び重みは、訓練段階において訓練モジュール13により更新される。この実施形態では、CNN11の処理ノードは、以下の3つの主要構成要素で構成される。
-以下のことを行うノード及び層を含むエンコーダ12:入力画像データを処理し、かつ入力画像内のオブジェクトまたは特徴を示す符号化されたデータを出力する。
-以下のことを行うノード及び層を含むデコーダ14:エンコーダ12からの符号化されたデータを処理し、アップコンボリューション及びアップサンプリングすることで、より大きな空間解像度のスケールされたデータを出力し、予測視差マップ(例えば、符号化されたデータの入力によって、視差予測器9により出力された視差マップ)を出力し、予測視差マップを入力画像データに適用することにより投影ビューを出力する。
-以下のことを行うノード及び層を持つロスモジュール19:CNN11を更新するために用いられる訓練ロスを計算する。訓練ロスは、デコーダ14によって出力された視差マップから計算される視差平滑性項及び左右視差整合性コスト項、並びに投影ビューと対応する入力ビューとの比較から計算されたアピアランスマッチングコスト項を含む。
以下に詳しく説明されるように、訓練モジュール13は、訓練画像のデータベース17などから検索された両眼ステレオ画像ペア15に基づいて畳み込みニューラルネットワーク(CNN)モジュール11を訓練する。両眼ステレオ画像ペア15は、既知のカメラ焦点長及び既知の基線距離を有するそれぞれの両眼ステレオカメラにより同時に撮像された左側ビュー15a及び右側ビュー15bを含む。それによって、視差予測器9により出力された予測両眼視差値から深度データを計算することができる。訓練モジュール13は、CNN11モジュールのロスモジュール19によって実現されるロス関数を最適化し、結果として、単一ソース画像のカラーピクセル値から直接的に予測両眼視差マップを正確かつ効果的に生成するために視差予測器9を訓練する。
CNNモジュール11、訓練モジュール13及び深度データ生成器モジュール5は、単一モジュールに結合されるか、またはさらに複数のモジュールに分割されてもよく、画像処理モジュール3は、訓練されたCNNモジュール11のモデルデータを記憶するためのメモリ21などの追加的な構成要素を含んでもよいことを理解されたい。システム1は、計算システム/デバイスで一般的に見られる他の構成要素、副構成要素、モジュール及びデバイスといった、明確な説明のために図1に示していないものを含むことができる。
画像処理システム3により出力された深度情報は、さらなるデータ処理のために、一つ以上の深度データ処理モジュール23に提供されてもよい。深度データ処理モジュール23は、処理された深度データに基づいて、データ及び/または制御信号を出力デバイス25に出力するように構成されてもよい。深度データ処理モジュールの性質及び配置は、システム1の実施状況によって異なる。純粋に例示的な具体的実施形態としては、以下の通りである:コンピュータグラフィックスにおける合成オブジェクトの挿入に関連した、撮像された画像データからの深度マップの予測;コンピュータ写真における合成被写界深度の特定;ロボット把持のための制御命令の生成;人体ポーズ推定における手がかりとしての深度の出力;ヒューマンコンピュータインタラクションにおける手のポーズに対する強力な手がかりの特定;フィルムビデオデータの2Dから3Dへの自動変換;自律走行自動車の低コスト障害物回避センサ;手術のためのスモールフォームファクタ、シングルカメラ、深度感知、内視鏡;シングルカメラ3D再構築;VRヘッドセットのための改善されたポーズ推定;視覚障碍者のための障害物回避及び経路マッピング;物体計測のためのサイズ及び体積推定。訓練データ17は、特定の実施状況によって異なるビューのステレオ画像ペア15を含むことができることを理解されたい。
図2は、本実施形態による例示的なCN のデコーダ14及び訓練ロスモジュール19の部分を示す概略図である。CNN11の例示的な層は、以下の表1に示す通りであり、N. Mayer, E. Ilg, P. Hausser, P. Fischer, D. Cremers, A. Dosovitskiy及びT. Broxによる「A Large Dataset To Train Convolutional Networks For Disparity, OpticalFlow, And Scene Flow Estimation」(CVPR 2016)からの全層畳み込みアーキテクチャに基づいているが、グラウンドトゥルース深度データを必要とせずにネットワークを訓練することを可能にするいくつかの変更を含むように対応されている。図示の例示では、CNNは、訓練段階でシステムにより学習された3100万個のパラメータで構成されており、ここで、「k」はカーネルサイズであり、「s」はストライドであり、「チャンネル」は各層の入力及び出力チャンネルの数であり、「in」及び「out」はそれぞれの入力画像に対する各層の入力及び出力縮小率であり、「入力」は各層の入力に対応し、ここで「+」は連続を意味し、「*」は対応する層の2倍アップサンプリングに対応する。
Figure 0007177062000001
上記のように、CNN11は、エンコーダ12(conv1層~conv7b層を含む)及びデコーダ14(upconv7層~disp1層を含む)を含む。当技術分野で知られているように、デコーダ14は、より高解像度を扱うために、エンコーダの活性化ブロックからスキップ接続を実装することができる。図2では、Cは畳み込み接続、UCはアップコンボリューション接続、Sはバイリニアサンプリング接続、USはアップサンプリング接続を指す。本例示的実施形態では、視差予測は異なる4つのスケール(disp4~disp1とラベル付け)で出力され、それらは後続の各スケールよりも空間解像度が増加している。ネットワークを訓練するとき、下付きsで表されるように、各出力スケールで各入力画像ビュー(例えば、左側及び右側ビュー)に対して2つの視差マップが予測される。一方の視差マップは、層への入力に基づいてアラインされており(例えば、左から右への視差マップdrは、左側ビューの符号化されたデータに基づいてアラインされている)、他方の視差マップは、その対応するステレオパートナについてアラインされる(例えば、右から左への投影視差マップdl(dr)は、対応する投影右側ビューに基づいてアラインされる)。デコーダ14及びロスモジュール19による処理は、異なる4つの出力スケールのそれぞれで繰り返される。
重要な利点は、訓練されたシステム3が、両眼カメラの両方から視差を予測し、かつそれらを互いにより整合するようにすることで、優れた深度マップを生成することである。左側ビューからのピクセルを用いて右側ビューを生成することで、右側ビューとアラインされた視差マップが得られる。(逆もまた同様)。訓練モジュール13は、予測視差マップのソース入力画像(本実施形態では左側ビュー15a)へのアラインメントを最適化することを目的とする。訓練中において、訓練モジュール13は、左右のステレオ画像15a、15bの両方にアクセスして、左から右への及び右から左への視差マップを推定し、かつそれぞれの推定視差マップから左から右への及び右から左への対応する投影視差マップを特定し、かつ視差マップ間の整合性を高めるようにCNN11を訓練する。訓練モジュール13のさらなる最適化の目標は、画像再構築誤差を最小にするためにピクセルをずらすことができる視差マップを学習することによって、対応する左側及び右側ビューを再構築するように、CNN11を訓練することである。このようにして、校正された両眼カメラペアから訓練画像が与えられると、画像処理システム3は、他のビューが与えられた画像を再構築できる関数を学習し、そのようにすることで、画像となるシーンの形状の予測または推定を可能にする訓練されたモデル(例えば、CNN11)を生成する。単一訓練画像I(例えば、訓練ステレオ画像ペア15の左側ビュー15a)が与えられると、画像処理システム3は、ピクセル毎のシーン深度を予測できる関数である d^=f(I) を学習し、深度推定を訓練中における画像再構築問題として扱う。
以上、実施形態の画像処理システム3の構成要素を形成する部分について概要説明を行った。対応するグラウンドトゥルース深度情報形式などの教師を必要とせずにステレオ画像ペアでのみCNN11を訓練できるようにする、一実施形態による、単一画像深度予測CNN11を訓練する処理について、図3のフロー図を参照しながら、これら構成要素の動作のより詳しい説明を行う。このフローチャートの様々なステップを順に示し説明するが、ステップの一部または全部は、異なる順で実行されてもよく、結合または省略されてもよく、ステップの一部または全部は並列して実行されてもよいことを理解されたい。さらに、一つ以上の例示的な実施形態において、以下の一つ以上のステップは省略されるか、繰り返されるか、及び/または異なる順で実行されてもよい。
本発明の実施形態による、CNN11の処理ノード及び層の例示的な構造化配置を概略的に示すブロックフロー図である図4も参照することができる。図2に示すアップコンボリューション(UC)及びアップサンプリング(US)層は、簡潔にするため図4からは省略されているが、UC及びUS層からのスケーリング済み出力は、各予測視差及びそれぞれの計算されたコスト要素に下付きsで表されることを理解されたい。
図3に示すように、単一ペアの訓練画像15に対する訓練処理の反復は、CNN11が入力ステレオペアのうち一方のビュー(この実施形態では左側ビュー)のカラー画像データを受信するステップS3-1(L)で始まる。この実施形態では、CNN11は、ステップS3-1(R)で右側ビューのカラー画像データも受信する。訓練モジュール13は、メモリ17に記憶された訓練データから、校正されたステレオペアの対応する左右のカラー画像でありかつ同時に撮像された二つの画像Il及びIrを検索することができ、CNN11の一つ以上の入力ノード(図示せず)に画像データを渡すことができる。CNN11は、複数の訓練画像ペアを、好適に同時に受け取って処理するように構成されてもよいことを理解されたい。必ずしも必要ではないが、好ましくは、当技術分野で知られているように、ステレオ画像ペア15は修正され、それによって、定義された変換処理で画像が共通画像平面に投影される。
ステップS3-3で、左側ビューの入力画像データは、例えば、入力画像内の識別されたオブジェクトまたは特徴の複素特徴ベクトルを表す符号化された入力データを生成するために、エンコーダ12の畳み込み層を通過する。左側ビュー画像15aから深度を直接予測しようとする代わりに、CNN11は、対応するフィールドを探索するように訓練される。この実施形態において該フィールドは、左側ビュー画像15aに適用されたときに、CNN11の右側ビュープロジェクタ415aが投影右側ビュー画像を再構築できるようにする左から右への予測視差マップ(dr)である(逆もまた同様)。したがって、ステップS3-5で、ステップS3-3において出力された符号化されたデータは、現在の構造及び重みに基づいて左から右への予測視差マップ(dr s)のデータ値を出力する左側ビュー視差予測器307aの処理ノードを通過する。後述するように、CNN11は、入力された両眼ステレオペアの各画像に対して対応する視差値を予測し、かつステレオペアの各画像に対して予測視差値間の整合性を高くするコスト関数に基づいてCNN11を更新することによって、入力データから視差マップを予測するように訓練される。したがってステップS3-5で、符号化されたデータはまた、現在の構造及び重みに基づいて右から左への予測視差マップ(dl s)のデータ値を出力する右側ビュー視差予測器307bの処理ノードを通過する。
任意で、ステップS3-7で、ロスモジュール13のL->R視差平滑化ノード413aにより、左から右への予測視差マップ(dr)から、左から右への視差平滑化コスト(Cr ds)sが計算されてもよい。同様に、ステップS3-7で、ロスモジュール13のR->L視差平滑化ノード413bにより、右から左への予測視差マップ(dl)から右から左への視差平滑化コスト(Cl ds)sが計算されてもよい。訓練ロス関数の計算された平滑化コスト要素は、ぞれぞれの予測視差マップを、視差勾配∂dについてのL1ペナルティで局所的に平滑化する。例えば、左の予測視差マップdlから計算された平滑化コストは、以下のように式化される。
Figure 0007177062000002
ここで、ηは1.0と設定することができる。画像勾配で奥行不連続性がたびたび発生するので、この平滑化コストは、対応する画像勾配∂Iを用いてエッジを意識した項で重み付けされうる。
ステップS3-9(L)で、R->L視差プロジェクタ409aは、左から右への予測視差マップ(dr s)のデータ値をサンプリングし、右から左への投影視差マップ(dl(dr)s)を生成するために、右から左への予測視差マップ(dl s)をサンプリングされたデータに適用する。明確にするために、左から右への予測視差値の処理は、(L)と示すステップを参照しながら説明される。対応する番号の処理ステップは、(R)と示すように、右から左への視差値に同様に反映されたものであることを理解されたい。この実施形態では、視差プロジェクタ409は、M. Jaderberg, K. Simonyan, A. Zisserman及びK. Kavukcuogluによる「Spatial Transformer Networks」(NIPS 2015)などから当分野で知られているように、STN(spatial transformer network)からの画像サンプラに基づいて、視差マップを用いて入力データをサンプリングするために、画像サンプリング機能を実装する。STNは、出力ピクセルが4入力ピクセルの加重和であるバイリニアサンプリングを用いる。前述のXieら及びGargらによるアプローチとは対照的に、この実施形態で用いられるバイリニアサンプラは、局所的に完全微分可能であり、CNN11の全層畳み込みアーキテクチャにシームレスに統合される。これは、CNN11が最適化コスト関数の如何なる単純化または近似値も必要としないことを意味する。
より確実な結果を生むために、CNN11は、ネットワークの畳み込みロスモジュール13部分への入力として左側ビュー画像データ15aのみに基づいて、左右の画像視差の両方を予測するように訓練される。したがって、ステップS3-9(L)で、CNN11の投影された右視差予測器ノード409aは、ステップS3-5(L)で左側ビュー視差予測器ノード407aにより出力された左の予測視差マップ(dl)に基づいて、投影された右視差マップ(dl(dr))を出力する。一貫性を確実にするため、ロスモジュール13は、モデル11の一部としてL1左右視差整合性ペナルティを含む。このコストは、予測された左側ビュー視差マップ(dl)を、投影された右側ビュー視差マップ(dr(dl))と等しくするために提供される。したがって、ステップS3-11(L)で、L-R視差整合性ロスノード411aは、以下のように左整合性コストを計算する。
Figure 0007177062000003
ステップS3-13(L)において、CNN11の粗密スケーラ405aは、スケールs1~snで左側ビューのスケーリング済み画像データを生成しかつ出力する。本例示的実施形態ではn=4である。各スケールsに対して、左側ビューの対応するスケーリング済み画像データ(Il s)は、処理のためにデコーダ14の右側ビュープロジェクタ415aに渡される。ステップS3-15(L)で、右側ビュープロジェクタ415aは、スケーリング済み左側ビュー画像(Il s)からピクセルをサンプリングすることによって投影隣接ステレオ画像を生成する。この実施形態では、ビュープロジェクタ415は、入力視差マップを用いて入力データをサンプリングするために、上述のようなSTN(spatial transformer network)からの画像サンプラをさらに実装する。
任意で、ステップS3-15(L)で、CNN11の右側ビュープロジェクタ415aは、左から右への予測視差(dr)を入力されたスケーリング済み左側ビュー画像データ(Il s)に適用することにより、左側ビュー投影画像を再構築することができる。この処理は、以下のように式化することができる。
Figure 0007177062000004
ここで、dは、モデル11が予測するように訓練されたピクセルごとのスケーラ値である画像視差に対応する。再構築画像Il(dr)は、簡潔にするために、I~rと呼ぶ。左側ビュー投影画像は、ステップS3-13(R)及びS3-15(R)において、右から左への予測視差マップ(dl)を入力されたスケーリング済み右側ビュー画像データ(Ir s)に適用することにより、同様に生成されることができる。
ステップS3-17(L)で、アピアランスマッチングコストは、Rアピアランスマッチングロスノード417aにより、L1項及びSSIM(single scale Structured Similarity)項の組み合わせとして計算することができ、側光の入力画像Il ijとその再構築I~l ijとの間の画像再構築コストは、
Figure 0007177062000005
ここで、Nは画像のピクセル数である。例示的な実施形態では、ガウシアンフィルタの代わりに3x3ブロックフィルタを有する単純化SSIMが用いられ、αは0.85と設定される。SSIM項の計算法は、Z. Wang, A. C. Bovik, H. R. Sheikh及びE. P. Simoncelliによる「Image Quality Assessment: From Error Visibility To Structural Similarity」(Transactions on Image Processing 2004)などから分かるように、それ自体が知られているので、さらなる説明を必要としない。左アピアランスマッチングコスト(Cl ap)は、ステップS3-17(R)において、左側ビュープロジェクタ415bにより出力された投影左側ビュー、及び、スケーラ405により出力された対応するスケーリング済み左側ビュー画像から、同様に計算されることができる。
左側ビューカラー画像15a及び右側ビューカラー画像15bがCNN11を通過すると、ステップS3-19において、ロスモジュール13の訓練ロスノード419は、現在のスケールで訓練画像のステレオペアに対する訓練ロスを計算する。本実施形態において、スケーリング済み訓練ロスは、ステップS3-7(L)及び(R)で出力された視差平滑化コスト、ステップS3-11(L)及び(R)で出力された視差整合性コスト、及びステップS3-17(L)及び(R)で出力されたアピアランスマッチングコストの重み付き組み合わせとして計算される。この計算された3つのコスト項の重み付き組み合わせは、以下のように式化することができる。
Figure 0007177062000006
ここで、Capは、再構築画像が対応する訓練入力に類似するようにし、Cdsは、視差を平滑化させ、Clrは、左右の画像からの予測視差が整合するように試みる。各主要項は、左右両方の画像の変形を含む。3つの訓練コスト要素を全て含むこの例示的な実施形態では、左側ビュー画像15aは、常にCNN11を通過する。訓練中において、訓練モジュール13が対応する右側ビュー画像15bへのアクセスを有するので、CNN11はその参照フレームにおける視差マップを予測することもできる。アピアランスマッチングコスト要素が実装されていない場合、右側ビュー画像データはCNN11を通過する必要がないことを理解されたい。
ステップS3-21において、CNN11のデコーダ14は、前述のステップS3-3で論議されたように、次のスケールのためのスケール済み訓練ロスを計算するための後続の構造化された処理ノードのセットへの入力として、現在のスケールでエンコーダ12により出力されたデータのアップコンボリューション、及び視差予測器407により出力された予測視差マップのアップサンプリングを実行する。スケーリング済み訓練ロスが各所定スケールに対して計算された後、ステップ3-23において最終的な総ロスが、ロスモジュール13の合計ノード421により個々のスケーリング済みロスCsの重み付き和として、以下のように計算される。
Figure 0007177062000007
ここで、λsは、訓練モジュール13が訓練中において異なる出力スケールの相対的な重要度で重み付けされるするようにする。
例示的な実施形態では、異なるロス構成要素の重み付けは、αap=1及びαlr=1と設定される。可能性のある出力視差は、スケール済みのシグモイド非線形性を用いて、0~dmaxの間に制限される。ここで、dmaxは所与の出力スケールにおける画像幅の0.3倍である。マルチスケール出力の結果として、隣接ピクセルの一般的な視差は、(CNN11が出力を2倍アップサンプリングしているため)各スケール間で2倍異なる。これを修正するために、訓練モジュール13は、各レベルで同等の平滑化を得るために、各スケールに対して視差平滑化項αdsをrでスケーリングすることができる。したがって、αds=0.1/rである。ここで、rはCNN11に渡される入力画像の解像度に対する、対応する層の縮小率である(表1より)。
ステップS3-25で、訓練モジュール13は、ステップS3-21において合計ノード421により計算された最終的な総訓練ロスの重み付き構成要素を逆伝播することにより、CNN11を更新する。CNN11における非線形性に対して、一般的に用いられる正規化線形ユニット(ReLU)の代わりに指数線形ユニットを用いることもでき、両方とも当技術分野で知られている。例示的な実施形態において、CNN11は、D. Kingma及びJ. Baによる「Adam: A method for stochastic optimization」(arXiv preprint, arXiv: 1412.6980, 2014)に記載の技術に基づいて、最初から50エポック訓練される。ここで、β1=0:9、β2=0:999、及びε=10-8である。初期学習速度はλ=10-4であり、最初の30エポックでは一定に保たれ、その後は終了するまで10エポックごとに半分になる。訓練モジュール13は、低解像度画像スケールから最初に最適化される段階的更新スケジュールを用いてCNN11を更新するように構成されてもよいことを理解されたい。しかし、発明者らは、4つのスケールを全て一度に最適化することが、さらに有利により安定した収束をもたらすことに想到した。同様に、異なる重み付けが不安定な収束をもたらす場合は、各スケールロスの同一の重み付けを用いることができる。
図6は、一実施形態に係る、訓練されたCNN11を用いて単一ソース画像から深度データを生成しかつ処理する例示的な処理を示すフロー図である。ステップS6-1で、単一ソース画像のカラー画像データが、例えばカメラ7から深度データ生成器5に受信される。ステップS6-3で、訓練されたCNN11を通過するシングルフォワードを用い、左画像に対する最も微細なスケールレベルでの視差drが、訓練されたL-Rビュー視差予測器407aにより、予測視差マップとして出力される(表1のdisp1に対応する)。CNN11内の粗密スケーラ405によるアップサンプリングの結果として、出力予測視差マップは、入力画像と同じ解像度である。右から左への視差dlは、深度データ生成段階では用いられないことを理解されたい。
ステップS6-5において、深度データ生成器5は、ステップS6-3において出力された予測視差マップから計算された、ソース画像の各ピクセルに対する予測深度データからなる深度画像を作成する。訓練データ15を撮像するためのステレオカメラ間の基線距離b、及び関連するカメラ焦点長fが与えられると、深度データ生成器5は、以下のように、予測視差から推定深度値を復元することができる。
Figure 0007177062000008
ステップS6-7で、深度画像は、システム1の具体的な実施状況に応じて処理されるように、深度データ処理モジュール23に渡される。

コンピュータシステム
画像処理システム3、及び/または画像処理システム3の個々のモジュールなど、本明細書に記載されるエンティティは、図6に示すようなコンピュータシステム1000などのコンピュータシステムにより実施されることができる。本発明の実施形態は、そのようなコンピュータ1000による実行のためのプログラム可能なコードとして実施されることができる。この説明を読んだ後、当業者であれば、他のコンピュータシステム及び/またはコンピュータアーキテクチャを用いての本発明の実施方法が明確になるであろう。
コンピュータシステム1000は、パーソナルコンピュータ、ラップトップ、コンピューティング端末、スマートフォン、タブレットコンピュータなどであってもよく、プロセッサ1004などの一つ以上のプロセッサを含む。プロセッサ1004は、任意のタイプのプロセッサであってもよく、特殊な目的または汎用のデジタルシグナルプロセッサを含むが、これに限定されない。プロセッサ1004は、通信基盤1006(例えば、バスまたはネットワーク)に接続される。この例示的なコンピュータシステムに関して、様々なソフトウェア実施が説明される。この説明を読んだ後、当業者であれば、例えば集積された入力及び表示構成要素を有する携帯電子装置を用いるなど、他のコンピュータシステム及び/またはコンピュータアーキテクチャを用いての本発明の実施方法が明確になるであろう。
コンピュータシステム1000は、一つ以上の入力装置1005に接続されたユーザ入力インタフェース1003、及び一つ以上の表示装置1009に接続された表示インタフェース1007も含む。入力装置1005は、例えば、マウスまたはタッチパッドのようなポインティング装置、キーボード、抵抗膜方式または容量方式タッチスクリーンのようなタッチスクリーンなどを含むことができる。この説明を読んだ後、当業者であれば、他のコンピュータシステム及び/またはコンピュータアーキテクチャを用いての本発明の実施方法が明確になるであろう。
コンピュータシステム1000は、主記憶装置1008、好ましくはRAM(random access memory)も含み、二次記憶装置も含むことができる。二次記憶装置1010は、例えば、ハードディスクドライブ1012、及び/または、フロッピーディスクドライブ、磁気テープドライブ、光ディスクドライブで表されるリムーバブルストレージドライブ1014などを含むことができる。リムーバブルストレージドライブ1014は、周知の方法により、リムーバブル記憶部1018から読み取るか、またはリムーバブル記憶部1018に書き込む。リムーバブル記憶部1018は、リムーバブルストレージドライブ1014に読み取られ、かつ書き込まれる、フロッピーディスク、磁気テープ、光ディスクなどで表される。リムーバブル記憶部1018は、コンピュータソフトウェア及び/またはデータを記憶しているコンピュータ使用可能な記憶媒体を含むことが理解されるであろう。
代替的な実施形態では、二次記憶装置1010は、コンピュータプログラムまたは他の命令をコンピュータシステム1000にロードさせる他の同様の手段を含むことができる。そのような手段は、例えば、リムーバブル記憶部1022及びインタフェース1020を含むことができる。そのような手段の例示は、プログラムカートリッジ及びカートリッジインタフェース(以前はビデオゲーム機で見られたものなど)、リムーバブルメモリチップ(EPROM、またはPROM、またはフラッシュメモリなど)、関連するソケット、及び、ソフトウェア及びデータをリムーバブル記憶部1022からコンピュータシステム1000に転送させる他のリムーバブル記憶部1022及びインタフェース1020を含むことができる。または、コンピュータシステム1000のプロセッサ1004を用いて、プログラムを実行し、及び/またはリムーバブル記憶部1022からデータをアクセスすることができる。
コンピュータシステム1000は、通信インタフェース1024も含むことができる。通信インタフェース1024は、コンピュータシステム1000と外部装置との間でソフトウェア及びデータを転送させる。通信インタフェース1024の例示は、モデム、ネットワークインターフェース(イーサネット(登録商標)カードなど)、通信ポート、PCMCIA(Personal Computer Memory Card International Association)スロット及びカードなどを含む。通信インタフェース1024を介して転送されるソフトウェア及びデータは、信号1028の形態であり、通信インタフェース1024により受信されることが可能である電子、電磁、光、または他の信号であり得る。これらの信号1028は、通信経路1026を介して、通信インタフェース1024に提供される。通信経路1026は、信号1028を運び、ワイヤまたはケーブル、光ファイバ、電話線、ワイヤレスリンク、携帯電話リンク、無線周波数リンク、または任意の他の適切な通信チャンネルを用いて実施されることができる。例えば、通信経路1026は、チャンネルの組み合わせを用いて実施されることができる。
「コンピュータプログラム媒体」及び「コンピュータ使用可能媒体」という用語は、一般的に、リムーバブルストレージドライブ1014、ハードディスクドライブ1012にインストールされたハードディスク、及び信号1028などの媒体を示すことに用いられる。これらのコンピュータプログラム製品は、コンピュータシステム1000にソフトウェアを提供するための手段である。しかし、これらの用語は、本明細書に開示されたコンピュータプログラムを具現する信号(電気信号、光信号、電磁気信号など)も含むことができる。
コンピュータプログラム(コンピュータ制御ロジックとも呼ぶ)は、主記憶装置1008及び/または二次記憶装置1010に記憶される。また、コンピュータプログラムは、通信インタフェース1024を介して受信されることができる。このようなコンピュータプログラムが実行されると、コンピュータシステム1000が、本明細書に説明されるように本発明の実施形態を実施することができるようにする。したがって、このようなコンピュータプログラムは、コンピュータシステム1000の制御装置を表す。この実施形態がソフトウェアを用いて実施された場合、いくつかの例示を提供するためにソフトウェアは、コンピュータプログラム製品1030に記憶され、リムーバブルストレージドライブ1014、ハードディスクドライブ1012、または通信インタフェース1024を用いてコンピュータシステム1000にロードされることができる。
代替的実施形態は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの任意の組み合わせにおける制御ロジックとして実施されることができる。例えば、訓練されたCNNモジュール11は、画像処理システムにおける構成要素としてインストールするための単独エンティティとしてハードウェア及び/またはソフトウェアで実施されることができ、さらに、訓練モジュール及び/または深度データ生成器機能を含むことができる。
本発明の実施形態は、単に例示として本明細書に記載されたものであり、かつ本発明の範囲から逸脱することなく、様々な変更及び修正が可能であることが理解されるであろう。例えば、上述の実施形態は、訓練された統計モデルを深層畳み込みニューラルネットワークとして実施する。当業者に理解されるように、訓練処理の根本的な態様は、ランダムフォレスト及びその派生など、予測された深度マップを生成するために、画像データの処理に適した他の形態の統計モデルに適用可能であり得る。
本明細書の「一実施形態」という言及は、必ずしも全て同じ実施形態を示すものではなく、他の実施形態の相互排他的な別のまたは代替の実施形態も含む。特に、上述の実施形態の態様を結合して、さらなる実施形態を形成することもできることを理解されたい。同様に、他の実施形態ではなく、いくつかの実施形態により示されることができる様々な特徴が説明される。それでもなお特許請求の範囲の範疇に含まれる、よりさらなる別の実施形態が考えられ得る。

Claims (20)

  1. コンピュータによって実現される方法であって、
    単一入力カラー画像から視差値を予測するためのモデルであって、左画像と右画像とを含む少なくとも1つの入力された両眼ステレオ画像ペアを用いて、
    前記右画像および前記左画像のいずれか一方を用いて、前記左画像に適用されたときに予測される右画像の再構築を可能にする左から右への視差値と、前記右画像に適用されたときに予測される左画像の再構築を可能にする右から左への視差値と、を予測すること、及び
    前記左から右への予測視差値と前記右から左への予測視差値との間の整合性を高めるコスト関数に基づいて前記モデルを更新すること、
    によって訓練された前記モデルを提供するステップと、
    前記モデルを用いて前記単一入力カラー画像から前記視差値を生成するステップと、
    前記単一入力カラー画像から生成される前記視差値を用いて、前記単一入力カラー画像に対応する推定深度データを算出するステップと、を含む方法。
  2. 前記モデルは、前記左から右への予測視差値を用いて、右から左への投影視差値を計算すること、および、
    前記右から左への予測視差値を用いて、左から右への投影視差値を計算すること、によってさらに訓練される、請求項1に記載の方法。
  3. 前記右から左への投影視差値は、前記左から右への予測視差値をサンプリングし、かつ前記サンプリングされたデータに前記右から左への予測視差値を適用することで計算され、
    前記左から右への投影視差値は、前記右から左への予測視差値をサンプリングし、かつ前記サンプリングされたデータに前記左から右への予測視差値を適用することで計算される、請求項2に記載の方法。
  4. 前記コスト関数は、前記左から右および右から左への予測視差値と前記左から右および右から左への投影視差値との間の整合性を高めるための視差整合性構成要素を含む、請求項2に記載の方法。
  5. 前記モデルは、前記左画像のサンプリングされたピクセルをずらすために前記左から右への予測視差値を適用することで、前記ステレオペアの前記右画像を再構築すること、および、
    前記右画像のサンプリングされたピクセルをずらすために前記右から左への予測視差値を適用することで、前記ステレオペアの前記左画像を再構築すること、によってさらに訓練される、請求項1に記載の方法。
  6. 前記サンプリングは、バイリニア補間を含む、請求項3に記載の方法。
  7. 前記コスト関数は、再構築された前記予測される左画像及び前記予測される右画像と、前記ステレオペアの前記左画像および前記右画像との間の画像再構築誤差を最小にするための再構築アピアランスマッチング構成要素をさらに含む、請求項5に記載の方法。
  8. 前記コスト関数は、前記左から右および右から左への予測視差値を局所的に平滑化するための平滑化構成要素をさらに含む、請求項7に記載の方法。
  9. 前記コスト関数は、前記左から右および右から左への予測視差値と前記左から右および右から左への投影視差値との間の整合性を高めるための視差整合性構成要素、前記平滑化構成要素、及び前記再構築アピアランスマッチング構成要素の重み付き和を実現する、請求項8に記載の方法。
  10. 前記モデルは、各処理ノードが少なくとも一つの重み値を有する処理ノードの構造化された配置を含む畳み込みニューラルネットワーク(convolutional neural network: CNN)を含む、請求項1に記載の方法。
  11. 前記畳み込みニューラルネットワークは、前記コスト関数の逆伝播構成要素により訓練される、請求項10に記載の方法。
  12. 前記モデルは、
    前記入力された両眼ステレオ画像ペアの前記左画像および前記右画像を複数の空間解像度でアップサンプリング及びアップコンボリューションし、
    左から右の視差値および右から左の視差値のそれぞれを各空間解像度で予測することによってさらに訓練され、
    前記モデルは、前記左から右への予測視差値と前記右から左への予測視差値との間の整合性を各空間解像度で高めるコスト関数に基づいて更新される、請求項1に記載の方法。
  13. 前記コスト関数は、前記空間解像度に応じて前記左から右への予測視差値と前記右から左への予測視差値との間の整合性の重み付き強化を含む、請求項12に記載の方法。
  14. 前記両眼ステレオ画像ペアは、既知のカメラ焦点長を有しかつ既知の基線距離だけ離れているそれぞれのカメラによって同時に撮像され、それによって前記左から右および右から左への予測視差値から対応する深度データが計算される、請求項1に記載の方法。
  15. 前記両眼ステレオ画像ペアは、修正されかつ時間的にアラインされたステレオペアである請求項14に記載の方法。
  16. デジタル画像は、前記画像を撮像した前記それぞれのカメラの属性を定義するメタデータで注釈付けされる、請求項15に記載の方法。
  17. コンピュータによって実現される方法であって、
    単一入力カラー画像から視差値を予測するためのモデルを定義するデータを記憶するステップと、
    左画像と右画像とを含む少なくとも1つの入力された両眼ステレオ画像ペアを用いた前記モデルの訓練を、
    前記右画像および前記左画像のいずれか一方を用いて、前記左画像に適用されたときに予測される右画像の再構築を可能にする左から右への視差値、および、前記右画像に適用されたときに予測される左画像の再構築を可能にする右から左への視差値を予測すること、及び
    前記左から右への予測視差値と前記右から左への予測視差値との間の整合性を高めるコスト関数に基づいて前記モデルを更新すること、
    によって行うステップと、を含み、
    前記訓練されたモデルは、
    前記訓練されたモデルを用いて前記単一入力カラー画像から前記視差値を生成すること、および、
    前記単一入力カラー画像から生成された前記視差値を用いて、前記単一入力カラー画像に対応する推定深度データを算出すること、
    によって前記単一入力カラー画像から深度画像を生成するために使用される、方法。
  18. 前記単一入力カラー画像はカメラによって撮影される、請求項17に記載の方法。
  19. 演算装置によって実行されると、
    単一入力カラー画像から視差値を予測するためのモデルであって、左画像と右画像とを含む少なくとも1つの入力された両眼ステレオ画像ペアを用いて、
    前記右画像および前記左画像のいずれか一方を用いて、前記左画像に適用されたときに予測される右画像の再構築を可能にする左から右への視差値と、前記右画像に適用されたときに予測される左画像の再構築を可能にする右から左への視差値と、を予測すること、及び
    前記左から右への予測視差値と前記右から左への予測視差値との間の整合性を高めるコスト関数に基づいて前記モデルを更新すること、
    によって訓練された前記モデルを提供するステップと、
    前記モデルを用いて前記単一入力カラー画像から前記視差値を生成するステップと、
    前記単一入力カラー画像から生成される前記視差値を用いて、前記単一入力カラー画像に対応する推定深度データを算出するステップと、
    を含む動作を前記演算装置に行わせる命令を記憶する非一時的なコンピュータ可読媒体。
  20. 前記動作は、
    前記入力された両眼ステレオ画像ペアの前記左画像および前記右画像を複数の空間解像度でアップサンプリング及びアップコンボリューションし、
    左から右の視差値および右から左の視差値のそれぞれを各空間解像度で予測すること、
    を更に含み、
    前記モデルは、前記左から右への予測視差値と前記右から左への予測視差値との間の整合性を各空間解像度で高めるコスト関数に基づいて更新される、請求項19に記載の非一時的なコンピュータ可読媒体。
JP2019535986A 2016-09-12 2017-09-12 統計モデルを用いた画像データからの深度予測 Active JP7177062B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1615470.0 2016-09-12
GB1615470.0A GB2553782B (en) 2016-09-12 2016-09-12 Predicting depth from image data using a statistical model
PCT/GB2017/052671 WO2018046964A1 (en) 2016-09-12 2017-09-12 Predicting depth from image data using a statistical model

Publications (3)

Publication Number Publication Date
JP2019526878A JP2019526878A (ja) 2019-09-19
JP2019526878A5 JP2019526878A5 (ja) 2020-10-22
JP7177062B2 true JP7177062B2 (ja) 2022-11-22

Family

ID=57234660

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019535986A Active JP7177062B2 (ja) 2016-09-12 2017-09-12 統計モデルを用いた画像データからの深度予測

Country Status (10)

Country Link
US (1) US11100401B2 (ja)
EP (1) EP3510561B1 (ja)
JP (1) JP7177062B2 (ja)
KR (1) KR102487270B1 (ja)
CN (1) CN109791697B (ja)
AU (1) AU2017324923B2 (ja)
BR (1) BR112019004798A8 (ja)
CA (1) CA3035298C (ja)
GB (1) GB2553782B (ja)
WO (1) WO2018046964A1 (ja)

Families Citing this family (92)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017017963A1 (ja) * 2015-07-29 2017-02-02 京セラ株式会社 視差算出装置、ステレオカメラ装置、車両及び視差算出方法
US10834406B2 (en) 2016-12-12 2020-11-10 Netflix, Inc. Device-consistent techniques for predicting absolute perceptual video quality
US10803546B2 (en) * 2017-11-03 2020-10-13 Baidu Usa Llc Systems and methods for unsupervised learning of geometry from images using depth-normal consistency
CN109785376B (zh) * 2017-11-15 2023-02-28 富士通株式会社 深度估计装置的训练方法、深度估计设备及存储介质
US10643383B2 (en) * 2017-11-27 2020-05-05 Fotonation Limited Systems and methods for 3D facial modeling
US11042163B2 (en) 2018-01-07 2021-06-22 Nvidia Corporation Guiding vehicles through vehicle maneuvers using machine learning models
US10740876B1 (en) * 2018-01-23 2020-08-11 Facebook Technologies, Llc Systems and methods for generating defocus blur effects
CN108335322B (zh) * 2018-02-01 2021-02-12 深圳市商汤科技有限公司 深度估计方法和装置、电子设备、程序和介质
CN110352153A (zh) 2018-02-02 2019-10-18 辉达公司 自主车辆中用于障碍物躲避的安全程序分析
WO2019168869A1 (en) 2018-02-27 2019-09-06 Nvidia Corporation Real-time detection of lanes and boundaries by autonomous vehicles
WO2019178548A1 (en) 2018-03-15 2019-09-19 Nvidia Corporation Determining drivable free-space for autonomous vehicles
WO2019182974A2 (en) 2018-03-21 2019-09-26 Nvidia Corporation Stereo depth estimation using deep neural networks
DE112019001605T5 (de) 2018-03-27 2020-12-17 Nvidia Corporation Trainieren, testen und verifizieren von autonomen maschinen unter verwendung simulierter umgebungen
CN108734693B (zh) * 2018-03-30 2019-10-25 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN108537837B (zh) * 2018-04-04 2023-05-05 腾讯科技(深圳)有限公司 一种深度信息确定的方法及相关装置
EP3781366A1 (en) * 2018-04-17 2021-02-24 ETH Zürich Robotic camera software and controller
WO2019222467A1 (en) * 2018-05-17 2019-11-21 Niantic, Inc. Self-supervised training of a depth estimation system
CN108961327B (zh) * 2018-05-22 2021-03-30 深圳市商汤科技有限公司 一种单目深度估计方法及其装置、设备和存储介质
JP2020525809A (ja) * 2018-06-14 2020-08-27 ベイジン ディディ インフィニティ テクノロジー アンド ディベロップメント カンパニー リミティッド 両眼画像に基づき高解像度地図を更新するためのシステムおよび方法
US11966838B2 (en) 2018-06-19 2024-04-23 Nvidia Corporation Behavior-guided path planning in autonomous machine applications
TW202006738A (zh) * 2018-07-12 2020-02-01 國立臺灣科技大學 應用機器學習的醫學影像分析方法及其系統
CN109166144B (zh) * 2018-07-20 2021-08-24 中国海洋大学 一种基于生成对抗网络的图像深度估计方法
CN109213147A (zh) * 2018-08-01 2019-01-15 上海交通大学 一种基于深度学习的机器人避障轨迹规划方法及系统
RU2698402C1 (ru) * 2018-08-30 2019-08-26 Самсунг Электроникс Ко., Лтд. Способ обучения сверточной нейронной сети для восстановления изображения и система для формирования карты глубины изображения (варианты)
US10986325B2 (en) * 2018-09-12 2021-04-20 Nvidia Corporation Scene flow estimation using shared features
CN113168541A (zh) * 2018-10-15 2021-07-23 菲力尔商业系统公司 用于成像系统的深度学习推理系统和方法
US11507822B2 (en) * 2018-10-31 2022-11-22 General Electric Company Scalable artificial intelligence model generation systems and methods for healthcare
JP6946255B2 (ja) * 2018-11-13 2021-10-06 株式会社東芝 学習装置、推定装置、学習方法およびプログラム
US11610115B2 (en) 2018-11-16 2023-03-21 Nvidia Corporation Learning to generate synthetic datasets for training neural networks
CN109712228B (zh) * 2018-11-19 2023-02-24 中国科学院深圳先进技术研究院 建立三维重建模型的方法、装置、电子设备及存储介质
US11182916B2 (en) 2018-12-28 2021-11-23 Nvidia Corporation Distance to obstacle detection in autonomous machine applications
US11170299B2 (en) 2018-12-28 2021-11-09 Nvidia Corporation Distance estimation to objects and free-space boundaries in autonomous machine applications
CN113454636A (zh) 2018-12-28 2021-09-28 辉达公司 自主机器应用中障碍物检测的距离
WO2020134229A1 (zh) * 2018-12-29 2020-07-02 北京市商汤科技开发有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
DE102019100303A1 (de) 2019-01-08 2020-07-09 HELLA GmbH & Co. KGaA Verfahren und Vorrichtung zum Ermitteln einer Krümmung einer Fahrbahn
WO2020163390A1 (en) 2019-02-05 2020-08-13 Nvidia Corporation Driving lane perception diversity and redundancy in autonomous driving applications
US10839543B2 (en) * 2019-02-26 2020-11-17 Baidu Usa Llc Systems and methods for depth estimation using convolutional spatial propagation networks
CN113811886B (zh) 2019-03-11 2024-03-19 辉达公司 自主机器应用中的路口检测和分类
CN109919993B (zh) * 2019-03-12 2023-11-07 腾讯科技(深圳)有限公司 视差图获取方法、装置和设备及控制系统
US11044462B2 (en) 2019-05-02 2021-06-22 Niantic, Inc. Self-supervised training of a depth estimation model using depth hints
CN110113595B (zh) * 2019-05-08 2021-04-30 北京奇艺世纪科技有限公司 一种2d视频转3d视频的方法、装置及电子设备
CN109996056B (zh) * 2019-05-08 2021-03-26 北京奇艺世纪科技有限公司 一种2d视频转3d视频的方法、装置及电子设备
CN110111244B (zh) * 2019-05-08 2024-01-26 北京奇艺世纪科技有限公司 图像转换、深度图预测和模型训练方法、装置及电子设备
CN110490919B (zh) * 2019-07-05 2023-04-18 天津大学 一种基于深度神经网络的单目视觉的深度估计方法
US11138751B2 (en) * 2019-07-06 2021-10-05 Toyota Research Institute, Inc. Systems and methods for semi-supervised training using reprojected distance loss
CN110443843A (zh) * 2019-07-29 2019-11-12 东北大学 一种基于生成对抗网络的无监督单目深度估计方法
CN110415284B (zh) * 2019-07-31 2022-04-19 中国科学技术大学 一种单视彩色图像深度图获得方法及装置
US11468585B2 (en) * 2019-08-27 2022-10-11 Nec Corporation Pseudo RGB-D for self-improving monocular slam and depth prediction
CN110610486B (zh) * 2019-08-28 2022-07-19 清华大学 单目图像深度估计方法及装置
US11788861B2 (en) 2019-08-31 2023-10-17 Nvidia Corporation Map creation and localization for autonomous driving applications
US11911903B2 (en) 2019-09-07 2024-02-27 Embodied Intelligence, Inc. Systems and methods for robotic picking and perturbation
WO2021046530A1 (en) * 2019-09-07 2021-03-11 Embodied Intelligence, Inc. Three-dimensional computer vision system for robotic devices
WO2021046531A1 (en) 2019-09-07 2021-03-11 Embodied Intelligence, Inc. Training artificial networks for robotic picking
CN110738697B (zh) * 2019-10-10 2023-04-07 福州大学 基于深度学习的单目深度估计方法
CN111047634B (zh) * 2019-11-13 2023-08-08 杭州飞步科技有限公司 场景深度的确定方法、装置、设备及存储介质
CN111047630B (zh) * 2019-11-13 2023-06-13 芯启源(上海)半导体科技有限公司 神经网络和基于神经网络的目标检测及深度预测方法
US11157774B2 (en) * 2019-11-14 2021-10-26 Zoox, Inc. Depth data model training with upsampling, losses, and loss balancing
WO2021096806A1 (en) * 2019-11-14 2021-05-20 Zoox, Inc Depth data model training with upsampling, losses, and loss balancing
CN114761998A (zh) * 2019-12-02 2022-07-15 大学之母博洛尼亚大学 通过神经网络的自适应学习从图像确定深度的方法及其系统
CN111192238B (zh) * 2019-12-17 2022-09-20 南京理工大学 基于自监督深度网络的无损血管三维测量方法
CN111027508B (zh) * 2019-12-23 2022-09-06 电子科技大学 一种基于深层神经网络的遥感图像覆被变化检测方法
US11288522B2 (en) 2019-12-31 2022-03-29 Woven Planet North America, Inc. Generating training data from overhead view images
US11037328B1 (en) 2019-12-31 2021-06-15 Lyft, Inc. Overhead view image generation
US11244500B2 (en) 2019-12-31 2022-02-08 Woven Planet North America, Inc. Map feature extraction using overhead view images
CN111242999B (zh) * 2020-01-10 2022-09-20 大连理工大学 基于上采样及精确重匹配的视差估计优化方法
CN111310916B (zh) * 2020-01-22 2022-10-25 浙江省北大信息技术高等研究院 一种区分左右眼图片的深度系统训练方法及系统
CN111523409B (zh) * 2020-04-09 2023-08-29 北京百度网讯科技有限公司 用于生成位置信息的方法和装置
CN113724311B (zh) * 2020-05-25 2024-04-02 北京四维图新科技股份有限公司 深度图获取方法、设备及存储介质
US20220051372A1 (en) * 2020-08-12 2022-02-17 Niantic, Inc. Feature matching using features extracted from perspective corrected image
JP7389729B2 (ja) * 2020-09-10 2023-11-30 株式会社日立製作所 障害物検知装置、障害物検知システム及び障害物検知方法
US11747468B2 (en) 2020-09-24 2023-09-05 Eagle Technology, Llc System using a priori terrain height data for interferometric synthetic aperture radar (IFSAR) phase disambiguation and related methods
US11587249B2 (en) 2020-09-24 2023-02-21 Eagle Technology, Llc Artificial intelligence (AI) system and methods for generating estimated height maps from electro-optic imagery
US11238307B1 (en) 2020-09-24 2022-02-01 Eagle Technology, Llc System for performing change detection within a 3D geospatial model based upon semantic change detection using deep learning and related methods
US11302071B1 (en) 2020-09-24 2022-04-12 Eagle Technology, Llc Artificial intelligence (AI) system using height seed initialization for extraction of digital elevation models (DEMs) and related methods
CN112330795B (zh) * 2020-10-10 2022-10-28 清华大学 基于单张rgbd图像的人体三维重建方法及系统
US11978266B2 (en) 2020-10-21 2024-05-07 Nvidia Corporation Occupant attentiveness and cognitive load monitoring for autonomous and semi-autonomous driving applications
DE102020006971A1 (de) * 2020-11-13 2022-05-19 Alexander Bayer Kamerabasiertes Assistenzsystem mit Künstlicher Intelligenz für blinde Personen
CN112465888A (zh) * 2020-11-16 2021-03-09 电子科技大学 一种基于单目视觉的无监督深度估计方法
TWI784349B (zh) * 2020-11-16 2022-11-21 國立政治大學 顯著圖產生方法及使用該方法的影像處理系統
US20220189049A1 (en) * 2020-12-12 2022-06-16 Niantic, Inc. Self-Supervised Multi-Frame Monocular Depth Estimation Model
CN112330675B (zh) * 2020-12-15 2022-08-23 南昌工程学院 基于AOD-Net的交通道路图像大气能见度检测方法
CN112802079A (zh) * 2021-01-19 2021-05-14 奥比中光科技集团股份有限公司 一种视差图获取方法、装置、终端和存储介质
KR102319237B1 (ko) * 2021-03-02 2021-10-29 인하대학교 산학협력단 핸드크래프트 비용 기반의 다중 뷰 스테레오 정합 방법
TWI790560B (zh) * 2021-03-03 2023-01-21 宏碁股份有限公司 並排影像偵測方法與使用該方法的電子裝置
JP7447042B2 (ja) 2021-03-17 2024-03-11 株式会社東芝 画像処理装置、方法及びプログラム
KR102489890B1 (ko) * 2021-05-28 2023-01-17 한국항공대학교산학협력단 깊이 추정 시스템 및 깊이 추정 방법
CN113762278B (zh) * 2021-09-13 2023-11-17 中冶路桥建设有限公司 一种基于目标检测的沥青路面损坏识别方法
CN114401391B (zh) * 2021-12-09 2023-01-06 北京邮电大学 虚拟视点生成方法及装置
KR102559936B1 (ko) * 2022-01-28 2023-07-27 포티투닷 주식회사 단안 카메라를 이용하여 깊이 정보를 추정하는 방법 및 장치
KR102531286B1 (ko) * 2022-03-29 2023-05-12 포티투닷 주식회사 깊이 정보 추정 모델 학습을 위한 데이터 처리 방법 및 장치
CN114782911B (zh) * 2022-06-20 2022-09-16 小米汽车科技有限公司 图像处理的方法、装置、设备、介质、芯片及车辆
CN116258756B (zh) * 2023-02-23 2024-03-08 齐鲁工业大学(山东省科学院) 一种自监督单目深度估计方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005165614A (ja) 2003-12-02 2005-06-23 Canon Inc 画像合成装置および画像合成方法

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5577130A (en) * 1991-08-05 1996-11-19 Philips Electronics North America Method and apparatus for determining the distance between an image and an object
US20100220932A1 (en) * 2007-06-20 2010-09-02 Dong-Qing Zhang System and method for stereo matching of images
WO2009157895A1 (en) * 2008-06-24 2009-12-30 Thomson Licensing System and method for depth extraction of images with motion compensation
CN101605270B (zh) * 2009-07-16 2011-02-16 清华大学 生成深度图的方法和装置
GB2473282B (en) * 2009-09-08 2011-10-12 Nds Ltd Recommended depth value
WO2011081646A1 (en) * 2009-12-15 2011-07-07 Thomson Licensing Stereo-image quality and disparity/depth indications
CN101840574B (zh) * 2010-04-16 2012-05-23 西安电子科技大学 基于边缘象素特征的深度估计方法
US20110304618A1 (en) * 2010-06-14 2011-12-15 Qualcomm Incorporated Calculating disparity for three-dimensional images
TR201010438A2 (tr) * 2010-12-14 2012-07-23 Vestel Elektroni̇k Sanayi̇ Ve Ti̇caret A.Ş. Stereo video için enformasyon geçirgenliği temelinde disparite tahmini.
CN102523464A (zh) * 2011-12-12 2012-06-27 上海大学 一种双目立体视频的深度图像估计方法
US9117295B2 (en) * 2011-12-20 2015-08-25 Adobe Systems Incorporated Refinement of depth maps by fusion of multiple estimates
US9571810B2 (en) * 2011-12-23 2017-02-14 Mediatek Inc. Method and apparatus of determining perspective model for depth map generation by utilizing region-based analysis and/or temporal smoothing
CN103106651B (zh) * 2012-07-16 2015-06-24 清华大学深圳研究生院 一种基于三维hough变换的获取视差平面的方法
CN102831601A (zh) * 2012-07-26 2012-12-19 中北大学 基于联合相似性测度和自适应支持权重的立体匹配方法
EP3869797B1 (en) * 2012-08-21 2023-07-19 Adeia Imaging LLC Method for depth detection in images captured using array cameras
NL2009616C2 (en) * 2012-10-11 2014-04-14 Ultra D Co Peratief U A Adjusting depth in a three-dimensional image signal.
CN103295229B (zh) * 2013-05-13 2016-01-20 清华大学深圳研究生院 视频深度信息恢复的全局立体匹配方法
US9373171B2 (en) * 2013-07-22 2016-06-21 Stmicroelectronics S.R.L. Method for generating a depth map, related system and computer program product
EP2887312A1 (en) * 2013-12-18 2015-06-24 Nokia Corporation Method, apparatus and computer program product for depth estimation of stereo images
EP2887311B1 (en) * 2013-12-20 2016-09-14 Thomson Licensing Method and apparatus for performing depth estimation
CN103955954B (zh) * 2014-04-21 2017-02-08 杭州电子科技大学 一种结合同场景立体图对的高分辨率深度图像重建方法
EP2950269A1 (en) * 2014-05-27 2015-12-02 Thomson Licensing Method and apparatus for improving estimation of disparity in a stereo image pair using a hybrid recursive matching processing
CN104065947B (zh) * 2014-06-18 2016-06-01 长春理工大学 一种集成成像系统的深度图获取方法
CN104408710B (zh) * 2014-10-30 2017-05-24 北京大学深圳研究生院 一种全局视差估计方法和系统
KR20160056132A (ko) * 2014-11-11 2016-05-19 삼성전자주식회사 영상 변환 장치 및 그 영상 변환 방법
US10200666B2 (en) * 2015-03-04 2019-02-05 Dolby Laboratories Licensing Corporation Coherent motion estimation for stereoscopic video

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005165614A (ja) 2003-12-02 2005-06-23 Canon Inc 画像合成装置および画像合成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Ravi Garg, Vijay Kumar B G, Gustavo Carneiro, Ian Reid,Unsupervised CNN for Single View Depth Estimation: Geometry to the Rescue,arxiv.org,米国,CORNELL UNIVERSITY,2016年03月16日,https://arxiv.org/pdf/1603.04992v1

Also Published As

Publication number Publication date
US20190213481A1 (en) 2019-07-11
US11100401B2 (en) 2021-08-24
GB2553782A (en) 2018-03-21
KR20190065287A (ko) 2019-06-11
EP3510561A1 (en) 2019-07-17
KR102487270B1 (ko) 2023-01-11
AU2017324923A1 (en) 2019-04-11
WO2018046964A1 (en) 2018-03-15
CN109791697B (zh) 2023-10-13
BR112019004798A8 (pt) 2023-04-04
AU2017324923B2 (en) 2022-01-27
CA3035298C (en) 2023-03-21
JP2019526878A (ja) 2019-09-19
CN109791697A (zh) 2019-05-21
GB201615470D0 (en) 2016-10-26
BR112019004798A2 (pt) 2019-06-04
GB2553782B (en) 2021-10-20
EP3510561B1 (en) 2022-03-02
CA3035298A1 (en) 2018-03-15

Similar Documents

Publication Publication Date Title
JP7177062B2 (ja) 統計モデルを用いた画像データからの深度予測
Bhoi Monocular depth estimation: A survey
Poggi et al. Towards real-time unsupervised monocular depth estimation on cpu
Zou et al. Df-net: Unsupervised joint learning of depth and flow using cross-task consistency
Kuznietsov et al. Semi-supervised deep learning for monocular depth map prediction
CN111325794A (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
US9626766B2 (en) Depth sensing using an RGB camera
WO2019180414A1 (en) Localisation, mapping and network training
CN111783582A (zh) 一种基于深度学习的无监督单目深度估计算法
Zhou et al. Unsupervised learning of monocular depth estimation with bundle adjustment, super-resolution and clip loss
Wan et al. Learning dense and continuous optical flow from an event camera
CN114996814A (zh) 一种基于深度学习与三维重建的家具设计系统
Yang et al. Unsupervised framework for depth estimation and camera motion prediction from video
Zhou et al. PADENet: An efficient and robust panoramic monocular depth estimation network for outdoor scenes
Hosseinzadeh et al. Unsupervised learning of camera pose with compositional re-estimation
Yusiong et al. AsiANet: Autoencoders in autoencoder for unsupervised monocular depth estimation
Lee et al. Automatic 2d-to-3d conversion using multi-scale deep neural network
Zhang et al. Unsupervised detail-preserving network for high quality monocular depth estimation
Lu et al. Self-supervised depth estimation from spectral consistency and novel view synthesis
Peng et al. Self-supervised correlational monocular depth estimation using resvgg network
Yusiong et al. Unsupervised monocular depth estimation of driving scenes using siamese convolutional LSTM networks
Lin et al. Bridging local and global representations for self-supervised monocular depth estimation
Feng et al. Unsupervised Monocular Depth Prediction for Indoor Continuous Video Streams
Zhou et al. Unsupervised video depth estimation based on ego-motion and disparity consensus
US20240005581A1 (en) Generating 3d facial models & animations using computer vision architectures

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200909

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200909

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220603

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221011

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221110

R150 Certificate of patent or registration of utility model

Ref document number: 7177062

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150