JP2021503134A - 画像深度とエゴモーション予測ニューラルネットワークの教師なし学習 - Google Patents

画像深度とエゴモーション予測ニューラルネットワークの教師なし学習 Download PDF

Info

Publication number
JP2021503134A
JP2021503134A JP2020526495A JP2020526495A JP2021503134A JP 2021503134 A JP2021503134 A JP 2021503134A JP 2020526495 A JP2020526495 A JP 2020526495A JP 2020526495 A JP2020526495 A JP 2020526495A JP 2021503134 A JP2021503134 A JP 2021503134A
Authority
JP
Japan
Prior art keywords
image
depth
neural network
images
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020526495A
Other languages
English (en)
Inventor
アネリア・アンジェロヴァ
マーティン・ウィッキー
レザ・マフジョウリアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2021503134A publication Critical patent/JP2021503134A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/285Analysis of motion using a sequence of stereo image pairs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

システムは、1つまたは複数のコンピュータによって実装されるニューラルネットワークを備え、ニューラルネットワークは、画像深度予測ニューラルネットワークとカメラモーション推定ニューラルネットワークを含む。ニューラルネットワークは、画像のシーケンスを受信するように構成される。ニューラルネットワークは、画像ごとに、画像の深度を特徴付けるそれぞれの深度出力を生成するために、画像深度予測ニューラルネットワークを使用して画像のシーケンス内の各画像を処理することと、サブセット内の画像間のカメラのモーションを特徴付けるカメラモーション出力を生成するために、カメラモーション推定ニューラルネットワークを使用して画像のシーケンス内の画像のサブセットを処理することとを行うように構成される。画像深度予測ニューラルネットワークとカメラモーション推定ニューラルネットワークは、教師なし学習技法を使用して共同でトレーニングされている。

Description

関連出願の相互参照
本出願は、2017年11月15日に提出された米国仮出願第62/586,611号の優先権を主張する。先行出願の開示は、本出願の開示の一部と見なされ、参照により組み込まれる。
本出願は、ニューラルネットワークを使用した画像の処理に関する。
機械学習モデルは入力を受信し、受信した入力に基づいて、予測された出力などの出力を生成する。一部の機械学習モデルはパラメトリックモデルであり、受信した入力とモデルのパラメータの値に基づいて出力を生成する。
一部の機械学習モデルは、受信した入力の出力を生成するために複数のモデル層を使用するディープモデルである。たとえば、ディープニューラルネットワークは、出力を生成するために、出力層と、受信した入力に非線形変換をそれぞれが適用する1つまたは複数の非表示層とを含むディープ機械学習モデルである。
一般に、本明細書で説明する主題の1つの革新的な態様は、1つまたは複数のコンピュータによって実装されるニューラルネットワークを含むシステムにおいて具現化することができる。ニューラルネットワークは、画像深度予測ニューラルネットワークとカメラモーション推定ニューラルネットワークを含む。ニューラルネットワークは、画像のシーケンスを受信するように構成される。ニューラルネットワークは、画像ごとに、(i)画像の深度を特徴付けるそれぞれの深度出力を生成するために、画像深度予測ニューラルネットワークを使用して画像のシーケンス内の各画像を処理するように構成される。ニューラルネットワークは、サブセット内の画像間のカメラのモーションを特徴付けるカメラモーション出力を生成するために、カメラモーション推定ニューラルネットワークを使用して画像のシーケンス内の画像のサブセットを処理するように構成される。画像深度予測ニューラルネットワークとカメラモーション推定ニューラルネットワークは、教師なし学習技法を使用して共同でトレーニングされている。
前述および他の実施形態はそれぞれ、任意選択で、以下の特徴のうちの1つまたは複数を、単独でまたは組み合わせて含むことができる。画像のシーケンスは、カメラによってキャプチャされたビデオのフレームであり得る。深度出力は、画像の焦点面からピクセルに描かれたシーンのそれぞれの距離を表す、画像内の複数のピクセルのピクセルごとの推定深度値を含み得る。カメラモーション出力は、カメラの姿勢および向きを、サブセット内の第1の画像を撮影する間のその視点から、サブセット内の第2の画像を撮影する間のその視点に変換する変換行列であり得る。画像深度予測ニューラルネットワークは、畳み込みニューラルネットワーク層を含み得る。カメラモーション推定ニューラルネットワークは、畳み込みニューラルネットワーク層を含み得る。画像のサブセットは、画像のシーケンス内に2つの画像を含み得る。画像のサブセットは、画像のシーケンス内に3つ以上の画像を含み得る。教師なし学習技法は、ニューラルネットワークをトレーニングする方法に関して以下で説明する動作を備え得る。
本明細書で説明する主題の別の革新的な態様は、1つまたは複数のコンピュータによって遂行されると、1つまたは複数のコンピュータに、上記のシステムを実装させる命令で符号化された1つまたは複数のコンピュータストレージ媒体において具現化することができる。
本明細書で説明する主題の別の革新的な態様は、上記のシステムのニューラルネットワークをトレーニングする方法において具現化することができる。本方法は、画像のシーケンスを含むトレーニングデータを取得するステップと、画像のシーケンス内の特定の画像ごとに以下の動作を実行するステップとを含む。
シーケンス内の特定の画像ごとに、本方法は、特定の画像の第1の深度を特徴付ける第1の深度推定値を生成するために、画像深度予測ニューラルネットワークを使用して特定の画像を処理するステップと、第2の画像の第2の深度を特徴付ける第2の深度推定値を生成するために、深度予測ニューラルネットワークを使用してシーケンス内の特定の画像に続く第2の画像を処理するステップと、カメラの姿勢および向きを、特定の画像を撮影する間のその視点から、第2の画像を撮影する間のその視点に変換する第1の変換行列を生成するために、カメラモーション推定ニューラルネットワークを使用して特定の画像と第2の画像を処理するステップと、第1の深度推定値、第2の深度推定値、および第1の変換行列に基づいて、深度予測ニューラルネットワークとカメラモーション推定ニューラルネットワークのパラメータの現在の値を共同で調整するために、損失関数の勾配の推定値を逆伝播するステップとを含む。
前述および他の実施形態はそれぞれ、任意選択で、以下の特徴のうちの1つまたは複数を、単独でまたは組み合わせて含むことができる
損失関数は、特定の画像と第2の画像から生成された2つの点群間のポイントツーポイント距離を最小化する3Dベースの点群アライメント損失成分を含み得る。
損失関数は、(i)特定の画像、および第2の画像から生成された対応する再構成画像と、(ii)第2の画像、および第1の画像から生成された対応する第2の再構成画像との測光整合性(photometric consistency)を維持する画像再構成損失成分を含み得る。
損失関数は、(i)特定の画像および再構成画像におけるパッチの類似性と、(ii)第2の画像および第2の再構成画像におけるパッチの類似性とを維持する構造化類似性損失成分を含み得る。
損失関数は、(i)特定の画像内に急激な変化があるピクセル座標における第1の深度推定値における急激な変化と、(ii)第2の画像内に急激な変化があるピクセル座標における第2の深度推定値における急激な変化とを可能にする深度平滑性損失成分をさらに含み得る。
損失関数は、損失関数のそれぞれの成分の重み付き組合せであり得る。損失関数は、次の成分(i)3Dベースの点群アライメント損失成分、(ii)画像再構成損失成分、(iii)構造化類似性損失成分、および(iv)深度平滑性損失成分のうちの1つまたは複数の重み付き組合せであり得る。たとえば、損失関数は、(i)3Dベースの点群アライメント損失成分、(ii)画像再構成損失成分、(iii)構造化類似性損失成分、および(iv)深度平滑性損失成分の重み付き組合せであり得る。
損失関数の勾配の推定値を逆伝播するステップは、第1の点群における点と第2の点群におけるそれらに対応する点との間のポイントツーポイント距離を最小化するベストフィット変換を繰り返し推定することによって、3Dベースの点群アライメント損失成分を計算するステップを含み得る。
損失関数の勾配の推定値を逆伝播するステップは、(i)第1の深度推定値および第1の変換行列に基づいて、第1の再構成画像における有効なピクセル座標を示す有効性マスクを分析的に計算することによって、および(ii)第2の深度推定値および第1の変換行列の逆に基づいて、第2の再構成画像における有効なピクセル座標を示す第2の有効性マスクを分析的に計算することによって、再構成損失成分を計算するステップを含み得る。
場合によっては、本方法は、ミニバッチ確率的最適化を使用して、画像深度予測ニューラルネットワークとカメラモーション推定ニューラルネットワークのパラメータの現在の値を調整するステップを含み得る。場合によっては、本方法は、確率的勾配最適化を使用して、画像深度予測ニューラルネットワークおよびカメラモーション推定ニューラルネットワークのパラメータの現在の値を調整するステップを含み得る。
トレーニング画像のシーケンスは、カメラによってキャプチャされたビデオのフレームであり得る。第2の画像は、画像のシーケンス内の特定の画像の直後に続く場合がある。第1の深度推定値は、特定の画像の焦点面からピクセルに描かれたシーンのそれぞれの距離を表す、特定の画像内の複数のピクセルのピクセルごとの推定深度値を含み得る。第2の深度推定値は、第2の画像の焦点面からピクセルに描かれたシーンのそれぞれの距離を表す、第2の画像内の複数のピクセルのピクセルごとの推定深度値を含み得る。
本明細書で説明する主題は、以下の利点のうちの1つまたは複数を実現するように特定の実施形態において実装することができる。本明細書で説明する主題は、一般に、画像のシーケンス、たとえばロボットエージェントのカメラ(すなわち、単眼ビデオ)によってキャプチャされたビデオのフレームからの深度およびカメラモーション(または、エゴモーション)の教師なし学習のためのトレーニングスキームを対象とする。トレーニングスキームは、トレーニングに非常に少ない情報源(たとえば、カメラによって撮影された単眼ビデオ)しか必要としないため、大規模で多様なデータセットにおける画像深度とカメラモーション推定ニューラルネットワークのトレーニングが可能になる。カメラは利用可能な最もユビキタスなセンサであり、高品質のカメラは安価で展開が簡単であるという事実を考慮すると、教師なし方法で、すなわち、単眼ビデオのいかなる外部ラベリングも必要とせずに、カメラによって撮影された任意の単眼ビデオでニューラルネットワークをトレーニングするトレーニングスキームの能力は、事実上無限の量のトレーニングデータを開き、したがって、アーティファクトの検知(たとえば、ラベル付きデータに存在するノイズ/エラーの検知)またはセンサ間のキャリブレーションの問題を排除する。言い換えれば、トレーニング方法は、より多くのデータをトレーニングデータとして使用できるようにし、量が制限される可能性のある特別にラベル付けされた深度データを必要としない。
従来の手法は、ピクセル単位または勾配ベースの損失を使用し、これは局所的な小さな近傍のピクセルのみを考慮して品質の低下を予測するが、本明細書で説明するトレーニングスキームは、3Dベースの点群アライメント損失をトレーニング損失関数に組み込むことによってシーン全体の3Dジオメトリを考慮する。3Dベースの損失は、ビデオの連続するフレーム全体で推定される3D点群とエゴモーションの整合性を強化する。
加えて、トレーニングスキームは、推定深度と隣接するフレームからのエゴモーションを使用して、フレーム再構成の測光品質に基づいて、新規3Dベースの損失と構造化類似性損失を組み合わせる。
トレーニングスキームはさらに、有用な情報が存在しない領域にペナルティを課すことを回避するために、画像再構成損失に有効性マスクを組み込む。以前の手法は、損失にそのような領域を含むため、ニューラルネットワークのパフォーマンスが低下する(たとえば、画像の深度出力にエッジアーティファクトが発生する)。有効性マスクを分析的に計算し、マスクを画像再構成損失に組み込むことによって、トレーニングスキームは、深度およびカメラモーションニューラルネットワークのパフォーマンスを向上させる。
加えて、トレーニングスキームは、入力画像の勾配を考慮に入れることによって、入力画像の深度推定値を正規化するために、深度平滑性損失を使用する。入力画像の勾配を考慮することによって、深度平滑性損失により、入力画像に急激な変化があるピクセル座標において深度の急激な変化が可能になり、それによって、トレーニングされた深度予測ニューラルネットワークがより現実的で正確な深度推定値を生成できるようになる。
上記のトレーニングスキームを使用してトレーニングされた深度予測ニューラルネットワークおよびカメラモーション推定ニューラルネットワークは、従来の方法を使用することによってトレーニングされた他のニューラルネットワークと比較して、より高い品質(たとえば、より高い精度、より高い忠実度、およびより現実的)で深度推定値およびカメラエゴモーション推定値を生成することができる。そのような推定値は、たとえばナビゲーションを支援するために、ロボットエージェントまたは自律車両の制御に使用され得る。トレーニングされたニューラルネットワークによって生成された推定値は、入力データを提供するために深度センサを較正するために高価で困難である必要はなく、安価で展開が容易な単眼ビデオカメラを使用して取得され得る。
本明細書の主題の1つまたは複数の実施形態の詳細は、添付の図面および以下の説明に記載されている。主題の他の特徴、態様、および利点は、説明、図面、および特許請求の範囲から明らかになるであろう。
例示的なニューラルネットワークシステムのアーキテクチャを示す図である。 画像深度予測ニューラルネットワークとカメラモーション推定ニューラルネットワークを共同でトレーニングするための例示的なプロセスの流れ図である。 3Dベースの点群アライメント損失を生成するための流れ図である。 変換行列および深度推定値におけるエラーにペナルティを課すためにICPプロセスが使用される方法を示す図である。
様々な図面における同様の参照番号および名称は、同様の要素を示す。
本明細書は、画像深度予測ニューラルネットワークとカメラモーション推定ニューラルネットワークを使用して、入力画像のシーケンスから画像深度とエゴモーション推定値を生成するように構成された、1つまたは複数の場所にある1つまたは複数のコンピュータ上のコンピュータプログラムとして実装されたニューラルネットワークシステムについて説明する。
図1は、ニューラルネットワークシステム100の例示的なアーキテクチャを示す図である。ニューラルネットワークシステム100は、1つまたは複数の場所にある1つまたは複数のコンピュータ上にコンピュータプログラムとして実装されるシステムの例であり、以下で説明されるシステム、コンポーネント、および技法を実装することができる。
一般に、ニューラルネットワークシステム100は、画像のシーケンス106を受信することと、画像の深度を特徴付ける深度出力を生成するためにシーケンス内の各画像を処理することと、サブセット内の画像間のカメラのモーションを特徴付けるカメラモーション出力を生成するために、シーケンス内の画像のサブセットを処理することとを行うように構成される。たとえば、画像のシーケンス106は、ロボットエージェントのカメラによってキャプチャされている単眼ビデオのフレームを含み得る。別の例として、画像のシーケンス106は、モバイルデバイスのカメラを使用して(たとえば、電話のユーザが自転車に乗っている間、手持ち型の商用電話のカメラによって)キャプチャされた単眼ビデオのフレームを含み得る。シーケンス106は、必ずしもビデオからのフレームのすべてを含む必要はない。たとえば、シーケンス106は、ビデオの1つおきのフレームを含み得る。
深度出力およびカメラモーション出力を生成するために、ニューラルネットワークシステム100は、画像深度予測ニューラルネットワーク102(以下、簡単にするために「深度ネットワーク102」と呼ぶ)およびカメラモーション推定ニューラルネットワーク104(以下、「カメラモーションネットワーク104」と呼ぶ)を含む。深度ネットワーク102およびカメラモーションネットワーク104の各々は、1つまたは複数の畳み込みニューラルネットワーク層を含む。いくつかの実装形態では、深度ネットワーク102およびカメラモーションネットワーク104は、完全に畳み込みニューラルネットワークである。
深度ネットワーク102は、深度ネットワーク102の深度パラメータの現在の値に従って、画像ごとに、画像の深度を特徴付けるそれぞれの深度出力を生成するために、画像のシーケンス106内の各画像を処理するように構成される。所与の画像に対して生成された深度出力は、所与の画像の複数のピクセルのピクセルごとの予測深度値を含む。ピクセルの深度値は、(i)所与の画像が記録される平面と、(ii)ピクセルに描かれたシーン(たとえば、オブジェクトの実際の位置または仮想位置、あるいはピクセルが描くオブジェクトの一部)との間の垂直距離の表現である。画像が記録される平面は、焦点面、たとえば、カメラまたは仮想カメラの焦点面であり得る。
図1の例では、深度ネットワーク102は、画像110の深度出力114を生成するために、画像のシーケンス106内の画像110を処理する。画像110は、Xtとして表すことができ、ここで、tは画像がカメラによってキャプチャされた時間である。深度出力114は、シーケンス106内の他の画像とは無関係に、現在の画像110から生成される。
カメラモーションネットワーク104は、カメラモーションネットワーク104のモーションパラメータの現在の値に従って、サブセット内の画像間のカメラのモーションを特徴付けるカメラモーション出力を生成するために、画像のシーケンス106内の画像のサブセットを処理するように構成される。
いくつかの実装形態では、画像のサブセットは、画像のシーケンス106からの2つの画像を含む。たとえば、図1に示されるように、画像のサブセットは2つの連続する画像Xt-1(108)およびXt(110)を含み、これらは、それぞれ時間t-1およびtにおいてカメラによって撮影される。カメラモーションネットワーク104は、カメラの姿勢および向きを、画像Xt-1を撮影する間のその視点から、画像Xtを撮影する間のその視点に変換する変換行列であるカメラモーション出力116を生成するために、画像Xt-1およびXtを処理する。言い換えると、カメラモーション出力116は、時間t-1から時間tまでのカメラのモーション(姿勢および向き)を表す。
いくつかの他の実装形態では、画像のサブセットは、画像のシーケンス106からの3つ以上の画像を含む。たとえば、画像のサブセットは、画像Xt-2、Xt-1、およびXtを含み得る。この例では、画像のサブセットを考えると、カメラモーションネットワーク104は、時間t-2から時間tまでのカメラのモーションを表すカメラモーション出力を生成する。
画像のシーケンスの深度出力とカメラモーション出力を効率的に生成するために、ニューラルネットワークシステム100は、教師なし学習技法を使用してトレーニングデータについて深度ネットワーク102およびカメラモーションネットワーク104を共同でトレーニングするようにプログラムされたソフトウェアベースのシステム、サブシステム、またはプロセスであるトレーニングエンジン118を含む。一般に、トレーニングエンジン118は、1つまたは複数の場所にある1つまたは複数のコンピュータにインストールされた1つまたは複数のソフトウェアモジュールあるいはコンポーネントとして実装される。場合によっては、1つまたは複数のコンピュータが特定のエンジン専用になり、他の場合では、複数のエンジンを同じコンピュータにインストールして、実行することができる。
特に、トレーニング中、トレーニングエンジン118は、トレーニング画像のシーケンスを含むトレーニングデータを取得する。トレーニング画像は、ロボットエージェントのカメラによってキャプチャされているビデオのフレームであり得る。
トレーニング画像のシーケンス内の特定の画像ごとに、トレーニングエンジン118は、以下の動作を繰り返し実行する。
特定の画像ごとに、トレーニングエンジン118は、深度ネットワーク102の深度パラメータの現在の値に従って、特定の画像の第1の深度を特徴付ける第1の深度推定値を生成するために、深度ネットワーク102を使用して特定の画像を処理する。トレーニングエンジン118は、第2の画像の第2の深度を特徴付ける第2の深度推定値を生成するために、深度ネットワーク102の深度パラメータの現在の値に従って、深度ネットワーク102を使用してシーケンス内の特定の画像に続く第2の画像を処理する。トレーニングエンジン118は、カメラの姿勢および向きを、特定の画像を撮影する間のその視点から、第2の画像を撮影する間のその視点に変換する第1の変換行列を生成するために、カメラモーションネットワーク104を使用して特定の画像と第2の画像を処理する。次いで、トレーニングエンジン118は、深度ネットワーク102とカメラモーションネットワーク104のパラメータの現在の値を共同で調整するために、損失関数の勾配の推定値を逆伝播する。損失関数は、第1の深度推定値、第2の深度推定値、および第1の変換行列に基づいて計算される。
一般に、損失関数は、(i)特定の画像から生成された第1の点群における点と、(i)第2の画像から生成された第2の点群におけるそれらの対応する点との間のポイントツーポイント距離を最小化する3Dベースの点群アライメント損失成分を含む。3Dベースの点群アライメント損失成分を生成するための処理は、図3を参照して以下で詳細に説明される。
損失関数は、画像再構成損失成分、構造化類似性損失成分、および深度平滑性損失成分のうちの1つまたは複数の損失成分をさらに含むことができる。画像再構成損失成分は、(i)特定の画像、および第2の画像から生成された第1の再構成画像と、(ii)第2の画像、および特定の画像から生成された第2の再構成画像との測光整合性を維持する。構造化類似性損失成分は、(i)特定の画像および第1の再構成画像におけるパッチの類似性と、(ii)第2の画像および第2の再構成画像におけるパッチの類似性とを維持する。深度平滑性損失成分は、(i)特定の画像内に急激な変化があるピクセル座標における第1の深度推定値における急激な変化と、(ii)第2の画像内に急激な変化があるピクセル座標における第2の深度推定値における急激な変化とを可能にする。
トレーニング中、トレーニングエンジン118は、ミニバッチ確率的最適化または確率的勾配最適化方法を使用することによって、損失関数を最小限に抑えるために、深度ネットワーク102およびカメラモーションニューラルネットワーク104のパラメータの値を調整するために上記の動作を繰り返し実行することができる。
深度ネットワーク102およびカメラモーションネットワーク104を共同でトレーニングするための、および損失関数内の各コンポーネントを計算するためのプロセスは、図2に関して以下でより詳細に説明される。
トレーニング後、ニューラルネットワークシステム100は、深度ネットワーク102の深度パラメータのトレーニングされた値に従って所与の入力画像の深度出力を生成するために、深度ネットワーク102を使用することと、カメラモーションネットワーク104のモーションパラメータのトレーニングされた値に従って、複数の入力画像のカメラモーション出力を生成するために、カメラモーションネットワーク104を使用することとを行うことができる。
場合によっては、ニューラルネットワークシステム100は、トレーニングされた深度ネットワーク102およびトレーニングされたカメラモーションネットワーク104、またはネットワークのパラメータのトレーニングされた値を外部システムに提供することができる。外部システムは、上述の方法で入力画像のシーケンスの深度出力およびカメラモーション出力を生成するために、トレーニングされた深度ネットワーク102およびトレーニングされたカメラモーション104を使用することができる。
特定の例として、トレーニング後、システム100または外部システムは、ロボットが環境と対話している間にロボットを制御するために、深度出力およびカメラモーション出力を使用することができる。深度出力とカメラモーション出力をロボットの制御ポリシまたはプランナへの入力として利用可能にすることによって、環境内において指定されたタスクを完了するためにロボットをより効果的に制御することができる。
図2は、画像深度予測ニューラルネットワークとカメラモーション推定ニューラルネットワーク(たとえば、図1の深度ネットワーク102およびカメラモーションネットワーク104)を共同でトレーニングするための例示的なプロセス200の流れ図である。便宜上、プロセス200は、1つまたは複数の場所に配置された1つまたは複数のコンピュータのシステムによって実行されるものとして説明される。たとえば、適切にプログラムされた、図1のニューラルネットワークシステム100などのニューラルネットワークシステムは、プロセス200を実行することができる。
本システムは、画像深度予測ニューラルネットワークおよびカメラモーション推定ニューラルネットワークのパラメータ値を繰り返し更新するために、トレーニングデータに含まれるトレーニング画像の異なるシーケンスに対してプロセス200を繰り返し実行することができる。
本システムはトレーニング画像のシーケンスを取得する(ステップ201)。たとえば、トレーニング画像は、ロボットエージェントのカメラまたはモバイルデバイスのカメラによってキャプチャされているビデオのフレームであり得る。トレーニング画像のシーケンスは、ビデオのすべての連続フレームが含まれているとは限らない。たとえば、トレーニング画像のシーケンスは、ビデオの1つおきのフレームを含み得る。
トレーニング画像のシーケンス内の特定の画像Xt-1ごとに、本システムは次の動作を繰り返し実行する(ステップ202〜218)。
本システムは、深度ネットワークの深度パラメータの現在の値に従って、時間t-1における特定の画像Xt-1の第1の深度を特徴付ける第1の深度推定値Dt-1を生成するために、深度ネットワークを使用して特定の画像Xt-1を処理する(ステップ202)。
本システムは、時間tにおける第2の画像Xtの第2の深度を特徴付ける第2の深度推定値Dtを生成するために、深度ネットワークの深度パラメータの現在の値に従って、深度ネットワークを使用してシーケンス内の特定の画像Xt-1に続く第2の画像Xtを処理する(ステップ204)。
本システムは、第1の変換行列Ttを生成するために、カメラモーションネットワークを使用して特定の画像Xt-1および第2の画像Xtを処理する(ステップ206)。エゴモーションとも呼ばれる第1の変換行列Ttは、時間t-1から時間tまでのカメラのモーション(姿勢および向き)を表す。すなわち、第1の変換行列Ttは、カメラの姿勢および向きを、特定の画像Xt-1を撮影する間のその視点から第2の画像Xtを撮影する間のその視点に変換する。
深度ネットワークとカメラモーションネットワークを共同でトレーニングするための損失関数を構成するために、本システムは第1に、特定の画像Xt-1と第2の画像Xtから生成された2つの点群間のポイントツーポイント距離を最小化する3Dベースの点群アライメント損失成分を構成する(ステップ208)。
特に、本システムは、第2の画像Xtの第2の深度推定値Dtに基づいて、第2の画像Xtの3D点群Qtを生成する。対応する推定深度値
Figure 2021503134
を有する座標(i、j)における各画像ピクセルは、次のように構造化3D点群Qtに投影することができる。
Figure 2021503134
上式で、Kはカメラ固有の行列であり、座標は同次である。
t-1からtへのカメラのモーションを表す第1の変換行列Ttを考えると、前の画像(特定の画像Xt-1)の点群
Figure 2021503134
の推定値を取得するために、本システムは次のように3D点群Qtを変換する。
Figure 2021503134
上式で、
Figure 2021503134
は、tからt-1へのカメラのモーションの逆を表す。
同様に、本システムは、特定の画像Xt-1の第1の深度推定値Dt-1に基づいて、特定の画像Xt-1の3D点群Qt-1を生成する。対応する推定深度値
Figure 2021503134
を有する座標(i、j)における各画像ピクセルは、次のように構造化3D点群Qt-1に投影することができる。
Figure 2021503134
上式で、Kはカメラ固有の行列であり、座標は同次である。
次いで、本システムは、第2の画像Xtの点群
Figure 2021503134
の推定値を取得するために、次のように3D点群Qt-1を変換する。
Figure 2021503134
上式で、Ttは、t-1からtまでのカメラのモーションを表す。
3Dベースの点群アライメント損失成分は、2つの3D点群
Figure 2021503134
からQt-1、または
Figure 2021503134
からQtを直接比較する。すなわち、場合によっては、3Dベースの点群アライメント損失成分は、(i)第2の画像の点群Qtから生成された特定の画像の点群
Figure 2021503134
の推定値を(ii)特定の画像の点群Qt-1と比較することができる。場合によっては、3Dベースの点群アライメント損失成分は、(i)特定の画像の点群Qt-1から生成された第2の画像の点群
Figure 2021503134
の推定値を(ii)第2の画像の点群Qtと比較することができる。
3Dベースの点群のアライメント損失成分を構成するために、本システムは、(i)2つの点群の対応する点間のポイントツーポイント距離を最小化するベストフィット変換T'と、(ii)ポイントツーポイント距離を最小化するためのICPのベストフィット変換T'が適用された後の、対応する点間の残差距離を表す残差位置合わせエラーrを計算するために、厳密な位置合わせ方法、たとえば反復最接近点(ICP)プロセスを使用する。ICPプロセスは、図3および図4を参照して以下で詳細に説明される。
本システムは、3Dベースの点群アライメント損失成分L3Dを次のように構成する。
Figure 2021503134
上式で、
Figure 2021503134
はL1ノルムを示し、Iは単位行列であり、rは残差位置合わせエラーである。
次に、本システムは、損失関数は、(i)特定の画像Xt-1、および第2の画像Xtから生成された第1の再構成画像
Figure 2021503134
と、(ii)第2の画像Xt、および特定の画像Xt-1から生成された対応する第2の再構成画像
Figure 2021503134
との測光整合性を維持する画像再構成損失成分を構成する(ステップ210)。
特に、本システムは推定された点群
Figure 2021503134
を画像t-1においてカメラに
Figure 2021503134
として投影し、上式で、Kはカメラの固有行列である。次いで、本システムは、時間tにおける画像座標から時間t-1における画像座標へのマッピングを確立するために、この変換と射影を式(1)と組み合わせる。このマッピングに基づいて、本システムは深度出力Dtと第1の変換行列Ttに基づいてXt-1をワーピングすることによって画像
Figure 2021503134
を再構成する。
Figure 2021503134
同様に、本システムは、深度出力Dt-1および
Figure 2021503134
に基づいてXtをワーピングすることによって、画像
Figure 2021503134
を再構成し、これは第1の変換行列Ttの逆である。
Figure 2021503134
の計算は、Xtにおける画像座標からXt-1へのマッピングの作成を含む。しかしながら、カメラのモーションにより、Xtにおける一部のピクセル座標は、Xt-1の画像境界の外側にある座標にマッピングされ得る。フォワードエゴモーションでは、この問題は通常、Xtから
Figure 2021503134
を計算するときに顕著になる。そのようなピクセルを損失関数に含めると、深度およびカメラモーションネットワークのパフォーマンスが低下する。以前の手法では、この問題を無視するか、ネットワークに汎用マスクを追加することによって問題に取り組もうとし、これは、何らかの理由で説明できない領域が除外されることが予想される。しかしながら、この手法は効果的ではなく、深度画像にエッジアーティファクトが生じることがしばしばある。
上記の問題を解決するために、ここでは、本システムが深度出力と第1の変換行列(エゴモーション)から有効性マスクを分析的に計算する。トレーニング画像のシーケンス内の画像Xt-1とXtのペアごとに、本システムは有効性マスクのペアMt-1とMtを作成することができる。Mt-1は、Xtから
Figure 2021503134
を再構成するときに有効なピクセル座標を示す。Mtは、Xt-1から
Figure 2021503134
を再構成するときに有効なピクセル座標を示す。
より具体的には、本システムは、第1の深度推定値Dt-1と第1の変換行列Ttに基づいて、第1の再構成画像
Figure 2021503134
における有効なピクセル座標を示す第1の有効性マスクMt-1を分析的に計算する。本システムは、第2の深度推定値Dtおよび第1の変換行列
Figure 2021503134
の逆に基づいて、第2の再構成画像
Figure 2021503134
における有効なピクセル座標を示す第2の有効性マスクMt-2を分析的にさらに計算する。
有効性マスクを計算した後、本システムは、次いで測光の整合性に基づく画像再構成損失成分を生成するために、再構成画像
Figure 2021503134
および
Figure 2021503134
を特定の画像Xtおよび第2の画像Xt-1とそれぞれ次のように比較する。
Figure 2021503134
上式で、
Figure 2021503134
は、第2の画像Xtの座標(i、j)における画像ピクセルを示し、
Figure 2021503134
は、再構成画像
Figure 2021503134
の座標(i、j)における画像ピクセルを示し、
Figure 2021503134
は、有効性マスクMtの座標(i、j)における画像ピクセルを示す。有効性マスクを使用することによって、本システムは画像の表示領域外での偽の損失を回避できるため、有用な情報が存在しない領域にペナルティを課すことを回避することができる。その結果、本システムは、深度およびカメラモーションネットワークの予測/推定品質を向上させることができる。
続いて、本システムは構造化類似性損失成分を構成する(ステップ212)。一般に、構造化類似性損失成分は、(i)特定の画像および第1の再構成画像におけるパッチの類似性と、(ii)第2の画像および第2の再構成画像におけるパッチの類似性とを維持する。
特に、本システムは、次のように定義された構造化類似性損失成分LSSIMを最小化することを目的としている。
Figure 2021503134
上式で、SSIM(x、y)は、2つの画像パッチxとyの間の類似性を測定し、次のように定義される。
Figure 2021503134
上式で、μx、σxは局所的な平均と分散である。
次いで、本システムは、深度推定値を正規化するために、深度平滑性損失成分を構成する(ステップ214)。深度平滑性損失成分は、(i)特定の画像Xt-1内に急激な変化があるピクセル座標における第1の深度推定値Dt-1における急激な変化と、(ii)第2の画像Xt内に急激な変化があるピクセル座標における第2の深度推定値Dtにおける急激な変化とを可能にする。深度平滑性損失は、所与の画像Xの勾配を考慮に入れ、次のように提示することができる。
Figure 2021503134
上式で、Xijは所与の画像Xの座標(i、j)における画像ピクセルを示し、DijはXijに対応する推定深度値であり、δx、δyは勾配である。画像Xの勾配を考慮することによって、深度平滑性損失により、画像に急激な変化があるピクセル座標における深度の急激な変化が可能になる。
本システムは損失関数を構成する(ステップ216)。いくつかの実装形態では、損失関数は、3Dベースの点群アライメント損失成分のみを含む。いくつかの実装形態では、損失関数は、3Dベースの点群アライメント損失成分と、(i)画像再構成損失成分、(ii)構造化類似性損失成分、または(iii)深度平滑性損失成分の1つまたは複数との重み付き組合せである。たとえば、損失関数は次の形式を有することができる。
Figure 2021503134
上式で、すべての損失成分は、取得されたトレーニングデータにおける入力画像の入力解像度から、より低い解像度の画像(たとえば、入力画像の幅と高さが
Figure 2021503134
Figure 2021503134
または
Figure 2021503134
の画像)に及ぶ4つの異なるスケールsにおいて適用される。α、β、γ、ωはあらかじめ決定されたハイパーパラメータである。たとえば、α=0.85、β=0.1、γ=0.05、ω=0.15である。別の例として、α=0.5、β=0.3、γ=0.2、およびω=0である。別の例として、α=0.1、β=0.2、γ=0.3、およびω=0.4である。
次いで、本システムは、深度ネットワークの深度パラメータの現在の値とカメラモーションネットワークのモーションパラメータの現在の値を共同で調整するために、損失関数の勾配の推定値を生成し、勾配の推定値を逆伝播する(ステップ218)。本システムは、ミニバッチ確率的最適化または確率的勾配最適化方法を使用することによって、損失関数を最小限に抑えるために、深度とモーションのパラメータの現在の値を共同で調整することができる。
本システムは、深度ネットワークの深度パラメータのトレーニングされた値とカメラモーションネットワークのモーションパラメータのトレーニングされた値を決定するために、トレーニング画像のシーケンス内の他の画像について上記のステップ202〜218を繰り返す。
図3は、3Dベースの点群アライメント損失成分を生成するための例示的なプロセス300流れ図である。便宜上、プロセス300は、1つまたは複数の場所に配置された1つまたは複数のコンピュータのシステムによって実行されるものとして説明される。たとえば、ニューラルネットワークシステムまたはニューラルネットワークシステムのコンポーネント、たとえば、適切にプログラムされた図1のニューラルネットワークシステム100のトレーニングエンジン118は、プロセス300を実行することができる。
図2を参照して上述したように、3Dベースの点群アライメント損失成分(以下、3Dベース損失とも呼ばれる)を生成するために、本システムはまず、第2の画像Xtの第2の深度推定値Dtに基づいて、第2の画像Xtの3D点群Qtを生成する(ステップ304)。対応する推定深度値
Figure 2021503134
を有する座標(i、j)における各画像ピクセルは、式1を使用して構造化3D点群Qtに投影することができる。
第1の変換行列の逆
Figure 2021503134
を考えると、本システムは、式2を使用して前の画像(特定の画像Xt-1)の点群
Figure 2021503134
を推定するために、3D点群Qtを変換する(ステップ306)。
同様に、本システムは、特定の画像Xt-1の第1の深度推定値Dt-1に基づいて、特定の画像Xt-1の3D点群Qt-1を生成する(ステップ308)。対応する推定深度値
Figure 2021503134
を有する座標(i、j)における各画像ピクセルは、式3に基づいて構造化3D点群Qt-1に投影することができる。
次いで、本システムは、式4に基づいて第2の画像Xtの点群
Figure 2021503134
の推定値を取得するために、第1の変換行列Ttを使用して3D点群Qt-1を変換する(ステップ310)。
3Dベースの点群アライメント損失成分を構成するために、本システムは、2つの点群間のポイントツーポイント距離を最小化するベストフィット変換T'を取得するために、反復最近傍点(ICP)プロセス302を使用する。
特に、ICPプロセス302は、入力として、2つの点群AおよびB、たとえば、点群
Figure 2021503134
およびQt-1、または点群
Figure 2021503134
およびQtを使用する。便宜上、以下の説明では、2つの点群
Figure 2021503134
およびQt-1を入力として使用する場合のICPプロセス302について説明するが、ICPプロセス302は両方の点群のペアにとって同じであることが理解されるべきである。
2つの点群
Figure 2021503134
およびQt-1を考えると、ICPプロセス302は、Aにおける変換された点とBにおける対応する点の間の距離を最小化するベストフィット変換T'を出力する(ステップ312)。
Figure 2021503134
上式で、c(.)は、ICP方法によって(たとえば、単純な最近接ポイントヒューリスティックを使用することによって)検出されたポイントツーポイント対応を示す。本システムは、ピクセル座標(i、j)ごとに、残差rij=Aij-T'-1.Bc(ij)を出力するために、ICPプロセス302をさらに使用する(ステップ314)。残差は、ポイントツーポイント距離を最小化するためのICPのベストフィット変換T'が適用された後の、対応する点間の残差距離を反映する。
本システムは、3Dベースの点群アライメント損失成分L3Dを次のように構成する。
Figure 2021503134
上式で、
Figure 2021503134
はL1ノルムを示し、Iは単位行列であり、rは残差位置合わせエラーである(ステップ316)。
図4は、第1の変換行列(エゴモーション)Ttおよび第2の深度推定値Dtにおけるエラーにペナルティを課すために、システムがICPプロセスを使用する方法を示している。この図は、サイドミラーを備えた車の前部の上面図を示している。時間tの深度推定値Dtを考えると、本システムは点群Qtを作成し、次いでこの点群は第1の変換行列Ttによって前の画像の点群の予測
Figure 2021503134
に変換される。深度ネットワークとカメラモーションネットワークからの第1の変換行列TtとDtが完全な場合、
Figure 2021503134
はQt-1と完全に整列する。完全ではない場合、本システムは、ベストフィット変換行列Tt'および残差rtを生成するために、ICPで
Figure 2021503134
をQt-1に調整する。次いで、本システムは、TtとDtをより適切な初期アライメントに調整するために、T'tおよびrtを使用する。より具体的には、本システムはエゴモーションTtに関する3Dベースの損失の負の勾配の近似としてT'tを使用し、深度推定値Dtに関する3Dベースの損失の負の勾配の近似としてrtを使用する。
本明細書では、システムおよびコンピュータプログラムコンポーネントに関連して「構成された」という用語を使用する。特定の動作またはアクションを実行するように構成された1つまたは複数のコンピュータのシステムは、システムにソフトウェア、ファームウェア、ハードウェア、またはそれらの組合せがインストールされており、動作時に、システムに動作またはアクションを実行させることを意味する。特定の動作またはアクションを実行するように構成された1つまたは複数のコンピュータプログラムの場合、1つまたは複数のプログラムは、データ処理装置によって遂行されると、装置に動作またはアクションを実行させる命令を含むことを意味する。
本明細書で説明する主題および機能動作の実施形態は、デジタル電子回路、有形に具現化されたコンピュータソフトウェアまたはファームウェア、本明細書で開示される構造を含むコンピュータハードウェア、およびそれらの構造的等価物、またはそれらの1つまたは複数の組合せにおいて実装することができる。本明細書で説明される主題の実施形態は、1つまたは複数のコンピュータプログラム、すなわち、データ処理装置による遂行、またはデータ処理装置の動作を制御するための有形の非一時的ストレージ媒体に符号化されたコンピュータプログラム命令の1つまたは複数のモジュールとして実装することができる。コンピュータストレージ媒体は、機械可読ストレージデバイス、機械可読ストレージ基板、ランダムまたはシリアルアクセスメモリデバイス、あるいはそれらの1つまたは複数の組合せであり得る。あるいは、またはさらに、プログラム命令は、人工的に生成された伝播信号、たとえば、データ処理装置による遂行のために適切な受信装置への送信のための情報を符号化するために生成される機械生成電気信号、光信号、または電磁信号に符号化され得る。
「データ処理装置」という用語は、データ処理ハードウェアを指し、例として、プログラム可能なプロセッサ、コンピュータ、あるいは複数のプロセッサまたはコンピュータを含む、データを処理するためのあらゆる種類の装置、デバイス、および機械を包含する。装置はまた、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)などの特殊用途の論理回路であってもよく、またはそれをさらに含んでもよい。装置は、ハードウェアに加えて、コンピュータプログラムの遂行環境を作成するコード、たとえば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、あるいはそれらの1つまたは複数の組合せを構成するコードを任意で含むことができる。
プログラム、ソフトウェア、ソフトウェアアプリケーション、アプリ、モジュール、ソフトウェアモジュール、スクリプト、またはコードとも呼ばれ、は記述されるコンピュータプログラムは、コンパイラ型またはインタープリタ型言語、あるいは宣言型または手続き型言語を含む任意の形式のプログラミング言語で記述することができ、また、スタンドアロンプログラムとして、あるいはモジュール、コンポーネント、サブルーチン、またはコンピューティング環境における使用に適した他のユニットとしてなどを含む、任意の形式で展開することができる。プログラムは、必ずしもそうである必要はないが、ファイルシステム内のファイルに対応する。プログラムは、他のプログラムまたはデータを保持するファイルの一部、たとえば、マークアップ言語文書に記憶された1つまたは複数のスクリプト、問題のプログラム専用の単一ファイル、または複数の調整ファイル、たとえば1つまたは複数のモジュール、サブプログラム、あるいはコードの一部を記憶するファイルに記憶することができる。コンピュータプログラムは、1つのコンピュータ上で、または1つのサイトに配置されているか、複数のサイトに分散され、データ通信ネットワークによって相互接続されている複数のコンピュータ上で遂行されるように展開することができる。
本明細書で説明するプロセスおよび論理フローは、入力データを動作して出力を生成することによって機能を実行するために1つまたは複数のコンピュータプログラムを遂行する1つまたは複数のプログラム可能なコンピュータによって実行することができる。プロセスおよび論理フローはまた、FPGAまたはASICなどの専用論理回路によって、あるいは専用論理回路と1つまたは複数のプログラムされたコンピュータとの組合せによって実行することができる。
コンピュータプログラムの遂行に適したコンピュータは、汎用または専用マイクロプロセッサまたはその両方、あるいは任意の他の種類の中央処理装置に基づくことができる。一般に、中央処理装置は、読取り専用メモリまたはランダムアクセスメモリ、あるいはその両方から命令とデータを受け取る。コンピュータの本質的な要素は、命令を実行または遂行するための中央処理装置と、命令およびデータを記憶するための1つまたは複数のメモリデバイスである。中央処理装置とメモリは、特殊用途のロジック回路によって補完または組み込むことができる。一般に、コンピュータはまた、データを記憶するための1つまたは複数の大容量ストレージデバイス、たとえば、磁気-光磁気ディスク、または光ディスクを含むか、それらからデータを受信するか、それらにデータを転送するように動作可能に結合される。しかしながら、コンピュータはそのようなデバイスを有する必要はない。さらに、コンピュータは別のデバイス、たとえばモバイル電話、携帯情報端末(PDA)、モバイルオーディオまたはビデオプレーヤ、ゲーム機、全地球測位システム(GPS)受信機、またはポータブルストレージデバイス、たとえば例を挙げると、ユニバーサルシリアルバス(USB)フラッシュドライブなどに組み込むことができる。
コンピュータプログラム命令およびデータを記憶するために適したコンピュータ可読媒体は、例として、EPROM、EEPROM、およびフラッシュメモリデバイスなどの半導体メモリデバイス、内蔵ハードディスクまたはリムーバブルディスクなどの磁気ディスク、光磁気ディスク、ならびにCD-ROMおよびDVD-ROMディスクを含む、あらゆる形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。
ユーザとの対話を提供するために、本明細書に記載される主題の実施形態は、情報をユーザに表示するためのディスプレイデバイス、たとえば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ、ならびにユーザがコンピュータに入力を提供することができるキーボードおよびマウスやトラックボールなどのポインティングデバイを有するコンピュータ上に実装することができる。ユーザとの対話を提供するために、他の種類のデバイスも使用することができる。たとえば、ユーザに提供されるフィードバックは、たとえば視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバックなどの、あらゆる形態の感覚的フィードバックであり得、ユーザからの入力は、音響、音声、または触覚入力を含む任意の形式で受信することができる。加えて、コンピュータは、ユーザが使用するデバイスとの間で文書を送受信することによって、たとえば、ウェブブラウザから受信した要求に応答して、ユーザのデバイスのウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。また、コンピュータは、テキストメッセージまたは他の形式のメッセージをパーソナルデバイス、たとえば、メッセージングアプリケーションを実行しているスマートフォンなどに送信し、代わりにユーザから応答メッセージを受信することによって、ユーザと対話することができる。
機械学習モデルを実装するためのデータ処理装置はまた、たとえば、機械学習のトレーニングまたはプロダクションの一般的で計算集約的な部分、すなわち推論、ワークロードを処理するための専用ハードウェアアクセラレータユニットを含むことができる。
機械学習モデルは、TensorFlowフレームワーク、Microsoft Cognitive Toolkitフレームワーク、Apache Singaフレームワーク、またはApache MXNetフレームワークなどの機械学習フレームワークを使用して実装および展開することができる。
本明細書で説明する主題の実施形態は、たとえばデータサーバとしてのバックエンドコンポーネントを含むか、またはアプリケーションサーバなどのミドルウェアコンポーネントを含むか、または、たとえば、ユーザが本明細書で説明する主題の実装形態と対話することができるグラフィカルユーザインターフェース、ウェブブラウザ、またはアプリを備えたクライアントコンピュータなどのフロントエンドコンポーネント、あるいは1つまたは複数のそのようなバックエンド、ミドルウェア、またはフロントエンドコンポーネントの任意の組合せを含むコンピューティングシステムにおいて実装することができる。システムのコンポーネントは、任意の形式または媒体のデジタルデータ通信、たとえば通信ネットワークによって相互接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)およびワイドエリアネットワーク(WAN)、たとえばインターネットを含む。
コンピューティングシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、通常、互いにリモートであり、通常、通信ネットワークを通じて対話する。クライアントとサーバの関係は、それぞれのコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。いくつかの実施形態では、サーバは、たとえば、クライアントとして機能するデバイスと対話するユーザにデータを表示し、ユーザからユーザ入力を受信する目的で、データ、たとえば、HTMLページをユーザデバイスに送信する。ユーザデバイスにおいて生成されたデータ、たとえば、ユーザ対話の結果は、デバイスからサーバにおいて受信され得る。
本明細書は多くの具体的な実装形態の詳細が含むが、これらは任意の発明の範囲や特許請求される範囲の限定として解釈されるべきではなく、むしろ特定の発明の特定の実施形態に固有であり得る機能の説明として解釈されるべきである。別個の実施形態の文脈において本明細書に記載されている特定の機能は、単一の実施形態において組み合わせて実装することもできる。逆に、単一の実施形態の文脈において説明される様々な機能は、複数の実施形態において別々に、または任意の適切なサブコンビネーションにおいて実装することもできる。さらに、機能は特定の組合せにおいて動作するものとして上記で説明され、最初はそのように特許請求されている場合でも、特許請求された組合せからの1つまたは複数の機能は、場合によっては組合せから削除され、特許請求された組合せはサブコンビネーションまたはサブコンビネーションのバリエーションを対象とする場合がある。
同様に、動作は特定の順序で図面に示され、特許請求の範囲に記載されているが、これは、望ましい結果を達成するために、そのような動作が示される特定の順序または連続した順序で実行されること、またはすべての図示された動作が実行されることを必要とするものとして理解されるべきではない。特定の状況では、マルチタスクと並列処理が有利な場合がある。さらに、上記の実施形態における様々なシステムモジュールおよびコンポーネントの分離は、すべての実施形態においてそのような分離を必要とすると理解されるべきではなく、説明されているプログラムコンポーネントおよびシステムは、一般に、単一のソフトウェア製品に一緒に統合するか、または複数のソフトウェア製品にパッケージ化できることを理解されたい。
主題の特定の実施形態が説明されてきた。他の実施形態は、以下の特許請求の範囲内にある。たとえば、特許請求の範囲に記載されたアクションは、異なる順序で実行されても、依然として望ましい結果を達成することができる。一例として、添付の図面に示されているプロセスは、望ましい結果を達成するために、必ずしも示された特定の順序または連続した順序を必要としない。場合によっては、マルチタスクと並列処理が有利な場合がある。
100 ニューラルネットワークシステム
102 深度ネットワーク
102 画像深度予測ニューラルネットワーク
104 カメラモーションネットワーク
104 カメラモーション推定ニューラルネットワーク
106 画像のシーケンス
110 画像
114 深度出力
116 カメラモーション出力
118 トレーニングエンジン
200 プロセス
300 プロセス

Claims (25)

1つまたは複数のコンピュータによって実装されるニューラルネットワークを備えるシステムであって、前記ニューラルネットワークが画像深度予測ニューラルネットワークとカメラモーション推定ニューラルネットワークを備え、前記ニューラルネットワークが、
画像のシーケンスを受信することと、
画像ごとに、前記画像の深度を特徴付けるそれぞれの深度出力を生成するために、前記画像深度予測ニューラルネットワークを使用して画像の前記シーケンス内の各画像を処理することと、
サブセット内の前記画像間のカメラのモーションを特徴付けるカメラモーション出力を生成するために、前記カメラモーション推定ニューラルネットワークを使用して画像の前記シーケンス内の画像の前記サブセットを処理することと
を行うように構成され、
前記画像深度予測ニューラルネットワークと前記カメラモーション推定ニューラルネットワークが、教師なし学習技法を使用して共同でトレーニングされている、システム。
画像の前記シーケンスが、前記カメラによってキャプチャされたビデオのフレームである、請求項1に記載のシステム。
前記深度出力が、前記画像内の複数のピクセルのピクセルごとに、前記画像の焦点面から前記ピクセルに描かれたシーンのそれぞれの距離を表す推定深度値を備える、請求項1または2に記載のシステム。
前記カメラモーション出力が、前記カメラの姿勢および向きを、前記サブセット内の第1の画像を撮影する間のその視点から、前記サブセット内の第2の画像を撮影する間のその視点に変換する変換行列である、請求項1から3のいずれか一項に記載のシステム。
前記画像深度予測ニューラルネットワークが、畳み込みニューラルネットワーク層を含む、請求項1から4のいずれか一項に記載のシステム。
前記カメラモーション推定ニューラルネットワークが、畳み込みニューラルネットワーク層を含む、請求項1から5のいずれか一項に記載のシステム。
画像の前記サブセットが、画像の前記シーケンス内に2つの画像を含む、請求項1から6のいずれか一項に記載のシステム。
画像の前記サブセットが、画像の前記シーケンス内に3つ以上の画像を含む、請求項1から6のいずれか一項に記載のシステム。
1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに、請求項1から8のいずれか一項に記載の前記システムを実装させる命令を記憶した1つまたは複数のコンピュータストレージ媒体。
請求項1から8のいずれか一項に記載の前記ニューラルネットワークをトレーニングする方法であって、
画像のシーケンスを備えるトレーニングデータを取得するステップと、
画像の前記シーケンス内の特定の画像ごとに、
前記特定の画像の第1の深度を特徴付ける第1の深度推定値を生成するために、前記画像深度予測ニューラルネットワークを使用して前記特定の画像を処理するステップと、
第2の画像の第2の深度を特徴付ける第2の深度推定値を生成するために、前記画像深度予測ニューラルネットワークを使用して前記シーケンス内の前記特定の画像に続く前記第2の画像を処理するステップと、
カメラの姿勢および向きを、前記特定の画像を撮影する間のその視点から、前記第2の画像を撮影する間のその視点に変換する第1の変換行列を生成するために、前記カメラモーション推定ニューラルネットワークを使用して前記特定の画像と前記第2の画像を処理するステップと、
前記第1の深度推定値、前記第2の深度推定値、および前記第1の変換行列に基づいて、前記画像深度予測ニューラルネットワークと前記カメラモーション推定ニューラルネットワークのパラメータの現在の値を共同で調整するために、損失関数の勾配の推定値を逆伝播するステップと
を備える、方法。
前記損失関数が、前記特定の画像と前記第2の画像とから生成された2つの点群間のポイントツーポイント距離を最小化する3Dベースの点群アライメント損失成分を備える、請求項10に記載の方法。
前記損失関数の前記勾配の前記推定値を逆伝播するステップが、
第1の点群における点と第2の点群におけるそれらに対応する点との間の前記ポイントツーポイント距離を最小化するベストフィット変換を繰り返し推定することによって、前記3Dベースの点群アライメント損失成分を計算するステップを備える、請求項11に記載の方法。
前記損失関数が、(i)前記特定の画像、および前記第2の画像から生成された第1の再構成画像と、(ii)前記第2の画像、および前記特定の画像から生成された第2の再構成画像との測光整合性を維持する画像再構成損失成分を備える、請求項10から12のいずれか一項に記載の方法。
前記損失関数の前記勾配の前記推定値を逆伝播するステップが、
(i)前記第1の深度推定値および前記第1の変換行列に基づいて、前記第1の再構成画像における有効なピクセル座標を示す有効性マスクを分析的に計算することによって、および(ii)前記第2の深度推定値および前記第1の変換行列の逆に基づいて、前記第2の再構成画像における有効なピクセル座標を示す第2の有効性マスクを分析的に計算することによって、前記画像再構成損失成分を計算するステップを備える、請求項13に記載の方法。
前記損失関数が、(i)前記特定の画像および前記第1の再構成画像におけるパッチの類似性と、(ii)前記第2の画像および前記第2の再構成画像におけるパッチの類似性とを維持する構造化類似性損失成分を備える、請求項13または14に記載の方法。
前記損失関数が、(i)前記特定の画像内に急激な変化があるピクセル座標における前記第1の深度推定値における急激な変化と、(ii)前記第2の画像内に急激な変化があるピクセル座標における前記第2の深度推定値における急激な変化とを可能にする深度平滑性損失成分をさらに備える、請求項10から15のいずれか一項に記載の方法。
前記損失関数が、前記損失関数のそれぞれの成分の重み付き組合せである、請求項10から16のいずれか一項に記載の方法。
ミニバッチ確率的最適化を使用して、前記画像深度予測ニューラルネットワークと前記カメラモーション推定ニューラルネットワークの前記パラメータの前記現在の値を調整するステップをさらに備える、請求項10から17のいずれか一項に記載の方法。
確率的勾配最適化を使用して、前記画像深度予測ニューラルネットワークおよび前記カメラモーション推定ニューラルネットワークの前記パラメータの前記現在の値を調整するステップをさらに備える、請求項10から17のいずれか一項に記載の方法。
画像の前記シーケンスが、前記カメラによってキャプチャされたビデオのフレームである、請求項10から19のいずれか一項に記載の方法。
前記第2の画像が、画像の前記シーケンス内の前記特定の画像の直後に続く、請求項10から20のいずれか一項に記載の方法。
前記第1の深度推定値が、前記特定の画像内の複数のピクセルのピクセルごとに、前記特定の画像の焦点面から前記ピクセルに描かれたシーンのそれぞれの距離を表す推定深度値を備える、請求項10から21のいずれか一項に記載の方法。
前記第2の深度推定値が、前記第2の画像内の複数のピクセルのピクセルごとに、前記第2の画像の焦点面から前記ピクセルに描かれたシーンのそれぞれの距離を表す推定深度値を備える、請求項10から22のいずれか一項に記載の方法。
1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに、請求項10から23のいずれか一項に記載のそれぞれの方法の動作を実行させる命令を記憶した1つまたは複数のコンピュータストレージ媒体。
1つまたは複数のコンピュータ、および、前記1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに、請求項10から23のいずれか一項に記載のそれぞれの方法の動作を実行させる命令を記憶した、1つまたは複数のストレージデバイス。
JP2020526495A 2017-11-15 2018-11-15 画像深度とエゴモーション予測ニューラルネットワークの教師なし学習 Pending JP2021503134A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762586611P 2017-11-15 2017-11-15
US62/586,611 2017-11-15
PCT/US2018/061300 WO2019099684A1 (en) 2017-11-15 2018-11-15 Unsupervised learning of image depth and ego-motion prediction neural networks

Publications (1)

Publication Number Publication Date
JP2021503134A true JP2021503134A (ja) 2021-02-04

Family

ID=64572602

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020526495A Pending JP2021503134A (ja) 2017-11-15 2018-11-15 画像深度とエゴモーション予測ニューラルネットワークの教師なし学習

Country Status (5)

Country Link
US (3) US10810752B2 (ja)
EP (1) EP3688718A1 (ja)
JP (1) JP2021503134A (ja)
CN (1) CN111386550A (ja)
WO (1) WO2019099684A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022136544A (ja) * 2021-03-08 2022-09-21 株式会社豊田中央研究所 学習処理装置及び学習処理プログラム

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018102717A1 (en) * 2016-12-02 2018-06-07 Google Llc Determining structure and motion in images using neural networks
JP2021503134A (ja) * 2017-11-15 2021-02-04 グーグル エルエルシーGoogle LLC 画像深度とエゴモーション予測ニューラルネットワークの教師なし学習
WO2019182974A2 (en) * 2018-03-21 2019-09-26 Nvidia Corporation Stereo depth estimation using deep neural networks
CN112534475B (zh) * 2018-05-17 2023-01-10 奈安蒂克公司 深度估计系统的自我监督训练
US20200167650A1 (en) * 2018-11-23 2020-05-28 Element Ai Inc. Hinted neural network
US11044462B2 (en) 2019-05-02 2021-06-22 Niantic, Inc. Self-supervised training of a depth estimation model using depth hints
JP7383870B2 (ja) * 2019-05-30 2023-11-21 モービルアイ ビジョン テクノロジーズ リミテッド デバイス、方法、システムおよびコンピュータプログラム
US11176709B2 (en) 2019-10-17 2021-11-16 Toyota Research Institute, Inc. Systems and methods for self-supervised scale-aware training of a model for monocular depth estimation
CN111080671B (zh) * 2019-12-27 2023-06-23 深圳大学 一种基于深度神经网络的运动预测方法和智能终端
WO2021150016A1 (en) 2020-01-20 2021-07-29 Samsung Electronics Co., Ltd. Methods and systems for performing tasks on media using attribute specific joint learning
US11727588B2 (en) 2020-04-14 2023-08-15 Toyota Research Institute, Inc. Depth estimation based on ego-motion estimation and residual flow estimation
CN111540000B (zh) * 2020-04-28 2021-11-05 深圳市商汤科技有限公司 场景深度和相机运动预测方法及装置、电子设备和介质
US11531842B2 (en) * 2020-05-20 2022-12-20 Toyota Research Institute, Inc. Invertible depth network for image reconstruction and domain transfers
CN111753961B (zh) 2020-06-26 2023-07-28 北京百度网讯科技有限公司 模型训练方法和装置、预测方法和装置
US11960294B2 (en) * 2020-07-13 2024-04-16 Naver Corporation Self-supervised attention learning for depth and motion estimation
US11615544B2 (en) * 2020-09-15 2023-03-28 Toyota Research Institute, Inc. Systems and methods for end-to-end map building from a video sequence using neural camera models
US11494927B2 (en) 2020-09-15 2022-11-08 Toyota Research Institute, Inc. Systems and methods for self-supervised depth estimation
US11734837B2 (en) * 2020-09-30 2023-08-22 Shanghai United Imaging Intelligence Co., Ltd. Systems and methods for motion estimation
CN112381868A (zh) * 2020-11-13 2021-02-19 北京地平线信息技术有限公司 图像深度估计方法和装置、可读存储介质、电子设备
CN114663503A (zh) * 2020-12-08 2022-06-24 伟摩有限责任公司 从图像进行三维位置预测
CN112561947A (zh) * 2020-12-10 2021-03-26 中国科学院深圳先进技术研究院 一种图像自适应运动估计方法及应用
CN112561978B (zh) * 2020-12-18 2023-11-17 北京百度网讯科技有限公司 深度估计网络的训练方法、图像的深度估计方法、设备
CN112651453B (zh) * 2020-12-30 2023-10-13 北京百度网讯科技有限公司 损失函数的自适应方法、装置、设备和存储介质
CN112802185B (zh) * 2021-01-26 2022-08-02 合肥工业大学 面向微创手术空间感知的内窥镜图像三维重构方法和系统
US11688090B2 (en) * 2021-03-16 2023-06-27 Toyota Research Institute, Inc. Shared median-scaling metric for multi-camera self-supervised depth evaluation
GB2605621A (en) * 2021-04-07 2022-10-12 Robok Ltd Monocular depth estimation
CN113468955B (zh) * 2021-05-21 2024-02-02 香港生产力促进局 用于估计交通场景中两点间距离的方法、设备及存储介质
CN113269820A (zh) * 2021-05-26 2021-08-17 北京地平线信息技术有限公司 空间几何信息估计模型的生成方法和装置
CN113468364B (zh) * 2021-07-21 2024-04-09 京东科技信息技术有限公司 一种图像处理方法及装置
WO2023155043A1 (zh) * 2022-02-15 2023-08-24 中国科学院深圳先进技术研究院 一种基于历史信息的场景深度推理方法、装置及电子设备
CN114612510B (zh) * 2022-03-01 2024-03-29 腾讯科技(深圳)有限公司 图像处理方法、装置、设备、存储介质及计算机程序产品
TWI832302B (zh) * 2022-06-22 2024-02-11 鴻海精密工業股份有限公司 深度圖像獲取方法、電子設備及電腦可讀存儲媒體
TWI823491B (zh) * 2022-07-22 2023-11-21 鴻海精密工業股份有限公司 深度估計模型的優化方法、裝置、電子設備及存儲介質
CN115841151B (zh) * 2023-02-22 2023-05-23 禾多科技(北京)有限公司 模型训练方法、装置、电子设备和计算机可读介质

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005020798A2 (en) * 2003-08-27 2005-03-10 Datex-Ohmeda, Inc. Multi-domain motion estimation and plethysmographic recognition using fuzzy neural-nets
ATE500570T1 (de) * 2007-08-22 2011-03-15 Honda Res Inst Europe Gmbh Schätzung der ordnungsgemässen bewegung von objekten mithilfe optischer fluss-, kinematik- und tiefeninformationen
US9405975B2 (en) * 2010-03-26 2016-08-02 Brain Corporation Apparatus and methods for pulse-code invariant object recognition
US11282287B2 (en) * 2012-02-24 2022-03-22 Matterport, Inc. Employing three-dimensional (3D) data predicted from two-dimensional (2D) images using neural networks for 3D modeling applications and other applications
SG10201608883SA (en) * 2012-04-25 2016-12-29 Elta Systems Ltd Estimating a source location of a projectile
US9436909B2 (en) * 2013-06-19 2016-09-06 Brain Corporation Increased dynamic range artificial neuron network apparatus and methods
US9881349B1 (en) * 2014-10-24 2018-01-30 Gopro, Inc. Apparatus and methods for computerized object identification
US10402700B2 (en) * 2016-01-25 2019-09-03 Deepmind Technologies Limited Generating images using neural networks
US10839573B2 (en) * 2016-03-22 2020-11-17 Adobe Inc. Apparatus, systems, and methods for integrating digital media content into other digital media content
US10529137B1 (en) * 2016-11-29 2020-01-07 MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. Machine learning systems and methods for augmenting images
WO2018102717A1 (en) * 2016-12-02 2018-06-07 Google Llc Determining structure and motion in images using neural networks
US10474988B2 (en) * 2017-08-07 2019-11-12 Standard Cognition, Corp. Predicting inventory events using foreground/background processing
US10572072B2 (en) * 2017-09-29 2020-02-25 Apple Inc. Depth-based touch detection
US10628961B2 (en) * 2017-10-13 2020-04-21 Qualcomm Incorporated Object tracking for neural network systems
EP3707572B1 (en) * 2017-11-10 2023-08-23 Nvidia Corporation Systems and methods for safe and reliable autonomous vehicles
JP2021503134A (ja) * 2017-11-15 2021-02-04 グーグル エルエルシーGoogle LLC 画像深度とエゴモーション予測ニューラルネットワークの教師なし学習
US10795364B1 (en) * 2017-12-29 2020-10-06 Apex Artificial Intelligence Industries, Inc. Apparatus and method for monitoring and controlling of a neural network using another neural network implemented on one or more solid-state chips
US10795360B2 (en) * 2018-04-06 2020-10-06 Honda Motor Co., Ltd. Utility decomposition with deep corrections
US10671855B2 (en) * 2018-04-10 2020-06-02 Adobe Inc. Video object segmentation by reference-guided mask propagation
US11615208B2 (en) * 2018-07-06 2023-03-28 Capital One Services, Llc Systems and methods for synthetic data generation
US10678252B2 (en) * 2018-08-09 2020-06-09 GM Global Technology Operations LLC Systems, apparatus, and methods for embedded encodings of contextual information using a neural network with vector space modeling
US11256263B2 (en) * 2018-11-02 2022-02-22 Aurora Operations, Inc. Generating targeted training instances for autonomous vehicles
US11086319B2 (en) * 2018-11-02 2021-08-10 Aurora Operations, Inc. Generating testing instances for autonomous vehicles
US11209821B2 (en) * 2018-11-02 2021-12-28 Aurora Operations, Inc. Labeling autonomous vehicle data
US11024041B2 (en) * 2018-12-10 2021-06-01 Intel Corporation Depth and motion estimations in machine learning environments
US11562254B2 (en) * 2019-07-30 2023-01-24 Mcafee, Llc Distribution of neural networks with blockchains
US11449709B2 (en) * 2019-08-08 2022-09-20 Nvidia Corporation Domain restriction of neural networks through synthetic data pre-training

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CLEMENT GODARD ET AL.: ""Unsupervised Monocular Depth Estimation with Left-Right Consistency"", COMPUTER SCIENCE, JPN7021003686, 13 September 2016 (2016-09-13), US, pages 1 - 9, ISSN: 0004665482 *
SEBASTIAN RUDER: ""An overview of gradient descent optimization algorithms"", COMPUTER SCIENCE, JPN7021003685, 15 September 2016 (2016-09-15), US, pages 1 - 12, ISSN: 0004665483 *
SUDHEENDRA VIJAYANARASIMHAN ET AL.: ""SfM-Net: Learning of Structure and Motion from Video"", COMPUTER SCIENCE, JPN7021003688, 25 April 2017 (2017-04-25), US, pages 1 - 9, ISSN: 0004665480 *
TINGHUI ZHOU ET AL: ""Unsupervised Learning of Depth and Ego-Motion from Video"", 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, JPN6021035221, 21 July 2017 (2017-07-21), US, pages 6612 - 6621, ISSN: 0004665481 *
橋岡 佳輝、外4名: ""DNNを用いたカメラの6自由度相対運動推定"", 情報処理学会研究報告, vol. Vol.2017-CVIM-206, No.13, JPN6021035219, 2 March 2017 (2017-03-02), JP, pages 1 - 8, ISSN: 0004586774 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022136544A (ja) * 2021-03-08 2022-09-21 株式会社豊田中央研究所 学習処理装置及び学習処理プログラム
JP7272381B2 (ja) 2021-03-08 2023-05-12 株式会社豊田中央研究所 学習処理装置及び学習処理プログラム

Also Published As

Publication number Publication date
WO2019099684A1 (en) 2019-05-23
US20200258249A1 (en) 2020-08-13
US20200402250A1 (en) 2020-12-24
US20220292701A1 (en) 2022-09-15
US10810752B2 (en) 2020-10-20
US11348268B2 (en) 2022-05-31
CN111386550A (zh) 2020-07-07
EP3688718A1 (en) 2020-08-05
US11790549B2 (en) 2023-10-17

Similar Documents

Publication Publication Date Title
JP2021503134A (ja) 画像深度とエゴモーション予測ニューラルネットワークの教師なし学習
JP7050888B2 (ja) イメージ深度予測ニューラルネットワーク
EP3549102B1 (en) Determining structure and motion in images using neural networks
KR102330744B1 (ko) 신경망을 이용한 장면 이해 및 생성
US8675049B2 (en) Navigation model to render centered objects using images
CN113811920A (zh) 分布式姿势估计
EP3847619B1 (en) Unsupervised depth prediction neural networks
US9253415B2 (en) Simulating tracking shots from image sequences
US11443481B1 (en) Reconstructing three-dimensional scenes portrayed in digital images utilizing point cloud machine-learning models
US11010948B2 (en) Agent navigation using visual inputs
US20220215580A1 (en) Unsupervised learning of object keypoint locations in images through temporal transport or spatio-temporal transport
US11238604B1 (en) Densifying sparse depth maps
CN115272565A (zh) 一种头部三维模型的重建方法及电子设备
JP6359985B2 (ja) デプス推定モデル生成装置及びデプス推定装置
US10721419B2 (en) Ortho-selfie distortion correction using multiple image sensors to synthesize a virtual image
JP7488846B2 (ja) 連合学習機構を利用した画像IoTプラットフォーム
CN117152021A (zh) 一种运动模糊图像的去模糊方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200708

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211206

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211220