JP7174139B2 - 深度ヒントを使用した深度推定モデルの自己教師ありトレーニング - Google Patents
深度ヒントを使用した深度推定モデルの自己教師ありトレーニング Download PDFInfo
- Publication number
- JP7174139B2 JP7174139B2 JP2021203338A JP2021203338A JP7174139B2 JP 7174139 B2 JP7174139 B2 JP 7174139B2 JP 2021203338 A JP2021203338 A JP 2021203338A JP 2021203338 A JP2021203338 A JP 2021203338A JP 7174139 B2 JP7174139 B2 JP 7174139B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- depth
- pixel
- hinted
- loss value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/261—Image signal generators with monoscopic-to-stereoscopic image conversion
- H04N13/268—Image signal generators with monoscopic-to-stereoscopic image conversion based on depth image-based rendering [DIBR]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/128—Adjusting depth or disparity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
- G06T7/85—Stereo camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
- G06T2207/10021—Stereoscopic video; Stereoscopic image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N2013/0074—Stereoscopic image analysis
- H04N2013/0081—Depth or disparity estimation from stereoscopic image signals
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
Description
本出願は、2019年5月2日に出願された米国仮出願第62/842,531号の利益を主張するものであり、あらゆる目的のためにその全体が参照により組み込まれる。
現実世界におけるプレーヤーの動き及び行動が仮想世界における行動に影響を及ぼし、逆もまた同様であるように、現実世界の地理の少なくとも一部分に並行する仮想世界の地理における拡張現実コンテンツを含む、並行現実ゲームのコンテキストにおいて、様々な実施形態が説明される。本明細書で提供される開示を使用する当業者は、記載された主題が、画像データから深度情報を決定することが望ましい他の状況に適用可能であることを理解するであろう。更に、コンピュータベースのシステムに固有の柔軟性は、システムの構成要素間で、非常に様々な構成、組み合わせ、及びタスクと機能の分割を可能にする。例えば、本開示の態様によるシステム及び方法は、単一のコンピューティングデバイスを使用して、又は複数のコンピューティングデバイスにわたって(例えば、コンピュータネットワークに接続されて)実装することができる。
図3は、プレーヤーと仮想世界210との間のインターフェースの一部としてクライアント120のディスプレイ上に提示され得るゲームインターフェース300の一実施形態を示す。ゲームインターフェース300は、仮想世界210と、例えば、当該仮想世界210における、プレーヤーの位置222、仮想要素230の位置、仮想アイテム232の位置、及び仮想エネルギー250の位置といった、ゲームのその他の様々な側面とを表示するために使用され得る、ディスプレイウィンドウ310を含む。ユーザインターフェース300は、更に、ゲームデータ情報、ゲーム通信、プレーヤー情報、クライアント位置確認命令、及びゲームに関連付けられた他の情報といった、その他の情報を表示することができる。例えば、ユーザインターフェースは、プレーヤー名、経験レベル、及び他の情報などのプレーヤー情報315を表示することができる。ユーザインターフェース300は、様々なゲーム設定及びゲームに関連付けられた他の情報にアクセスするためのメニュー320を含むことができる。ユーザインターフェース300は、更に、ゲームシステムとプレーヤーとの間、及び並行現実ゲームの1人以上のプレーヤーとの間の通信を可能にする通信インターフェース330を含むことができる。
深度推定トレーニングシステム170は、クライアントデバイス110によって使用される深度ヒントの助けを借りて、深度推定モデル130をトレーニングする。次の段落では、立体画像データ、単眼ビデオデータ、深度ヒント、ポーズヒント、又はそれらのいくつかの組み合わせに依存する様々なトレーニング方法について説明する。深度ヒントは、深度推定モデル130とは異なるアプローチによって生成された深度マップである。そのようなアプローチの1つは、深度推定モデル130とは異なる方法でトレーニングされた代替深度推定モデルから深度マップを生成することである。例えば、代替深度推定モデルは、立体画像ペアを受信し、その立体画像ペアに基づいて深度マップを生成するように構成された双眼深度推定モデルとして、サードパーティのシステムによってトレーニングされ得る。別のアプローチは、デバイス(例えば、電話、自動運転車両など)において、simultaneous-localization-and-mapping(SLAM)モジュールを使用して深度マップを生成することである。深度ヒントがどのように生成されるかに関係なく、トレーニングフェーズでは、入力画像を受信し、その入力画像に基づいて深度マップを出力するように構成された、トレーニングされた単眼深度推定モデル130が生成される。
L1距離preL1(di)としてのピクセルiにおける深度diに対する測光再構成誤差は、第1の画像Iのピクセルiと第2の画像I(チルダ)のピクセルiとの間の絶対差である。
L2距離preL2(di)としてのピクセルiにおける深度diに対する測光再構成誤差は、第1の画像Iのピクセルiと第2の画像I(チルダ)のピクセルiとの間の二乗距離である。
構造的非類似度preDSSIM(di)として計算されたピクセルiにおける深度diの測光再構成誤差は、ピクセルiを中心とする2つの画像I及びI(チルダ)の対応するウィンドウ間の構造的類似度SSIM(Ii,I(チルダ)i)の計算値を1から引いたものの半分である。SSIM(x,y)は、ともにピクセルiを中心とする、第1の画像からのウィンドウxと、第2の画像の対応するウィンドウyとの構造的類似度の算出値である。μxはウィンドウxの平均であり、μyはウィンドウyの平均である。σxはウィンドウxの分散であり、σyはウィンドウyの分散である。また、σxyはウィンドウxとyの間の共分散である。c1及びc2は、例えば、ピクセル値のダイナミックレンジに基づいて計算される、分割の平滑化係数である。
測光再構成誤差のDSSIM+L1定義は、上記のようにDSSIMの測光再構成誤差とL1の測光再構成誤差とを合わせている。他の実施形態において、DSSIMとL1の測光再構成誤差の間で異なる割合が使用されてもよい。
図5は、1つ以上の実施形態による、深度推定モデルを使用する一般的なプロセス500を説明するフローチャートである。プロセス500は、与えられた入力画像から深度マップをもたらす。プロセス500は、トレーニングされた深度推定モデルを有するクライアントデバイス110によって遂行され得る。クライアントデバイスは、汎用コンピューティングデバイスであってもよく、また、カメラを備えていてもよい。いくつかの実施形態では、クライアントデバイスは、上記図1~図3に記載されている並行現実ゲームにおいて導入される。以下の説明はクライアントデバイスのコンテキストの範囲内であるが、プロセス500は他のコンピューティングデバイス上でも実行され得る。
図6は、一実施形態による、コンピューティングデバイスのアーキテクチャでの一例ある。図6は、本明細書に記載される1つ以上のエンティティの一部又は全部として使用されるコンピュータの物理的コンポーネントを例示する大まかなブロック図を示しているが、一実施形態によれば、コンピュータは、図6に提供されるコンポーネントの追加、削減、又は変形を含んでいてもよい。図6はコンピュータ600を示しているが、この図は、本明細書に記載される実施形態の構造的概略図としてではなく、コンピュータシステムに存在し得る種々の特徴の機能的説明として意図されている。実際には、また、当業者によって認識されるように、別々に示されたアイテムを組み合わせることができ、いくつかのアイテムを分離することもできる。
上記の説明のいくつかの部分は、アルゴリズム的プロセス又は動作の観点から実施形態を説明している。これらのアルゴリズムの説明及び表現は、データ処理技術の当業者によって一般的に使用され、彼らの作業の内容を効果的に当業者に伝える。これらの動作は、機能的、計算的、又は論理的に説明されているが、プロセッサ又は同等の電気回路、マイクロコードなどによって実行される命令を含むコンピュータプログラムによって実装されると理解される。更に、これらの機能動作の配置をモジュールと呼ぶことは、一般性を失うことなく、時として便利であることも証明されている。
Claims (20)
- コンピュータによって実行される方法であって、
シーンの画像を受信するステップと、
プロセスによってトレーニングされた深度推定モデルに画像を入力するステップであって、当該プロセスが、
各疑似立体画像ペアが第1の画像と第2の画像とを含む複数の疑似立体画像ペアを含むトレーニング画像データにアクセスするステップであって、
各画像ペアについて、
前記深度推定モデルにより、前記第1の画像のピクセルの深度予測値を生成するステップと、
前記第1の画像のカメラポーズヒントを取得するステップと、
前記第1の画像の前記ピクセルの前記深度予測値を用いて前記第2の画像を前記第1の画像に投影して、モデル合成フレームを生成するステップと、
前記第1の画像の前記カメラポーズヒントを用いて前記第2の画像を前記第1の画像に投影して、ヒント付き合成フレームを生成するステップと、
前記モデル合成フレームの前記ピクセルと前記第1の画像の前記ピクセルとの比較に基づいて、前記第1の画像の前記ピクセルに対応する一次損失値を計算するステップと、
前記ヒント付き合成フレームの前記ピクセルと前記第1の画像の前記ピクセルとの比較に基づいて、前記第1の画像の前記ピクセルに対応するヒント付き損失値を計算するステップと、
前記画像ペアの全体損失を計算するステップであって、前記第1の画像の所与のピクセルに対応する前記ヒント付き損失値が前記所与のピクセルに対応する前記一次損失値よりも小さいことに応じて、前記所与のピクセルに対応する前記一次損失値と、前記所与のピクセルの深度予測値と前記カメラポーズヒントを用いて決定される前記所与のピクセルの深度値とを用いて決定される教師あり損失値と、を用いて、前記全体損失に対する前記所与のピクセルの寄与を決定することを含むステップと、
前記疑似立体画像ペアの前記全体損失に基づいて、前記深度推定モデルのパラメータを調整するステップと、を含むプロセスであるステップと、
前記深度推定モデルにより、前記シーンの前記画像に対応する前記シーンの深度マップを生成ステップと、
を含む方法。 - 前記第1の画像の所与のピクセルに対応する前記ヒント付き損失値が前記所与のピクセルに対応する前記一次損失値よりも大きいことに応じて、前記全体損失に対する前記所与のピクセルの前記寄与を前記教師あり損失値に含めないステップを含む、請求項1に記載の方法。
- 前記深度推定モデルのトレーニングのための前記プロセスが、
前記第1の画像の前記ピクセルの深度ヒント値を取得するステップと、
前記第1の画像の前記ピクセルの前記深度ヒント値に基づいて前記第2の画像を前記第1の画像に投影して、追加のヒント付き合成フレームを生成するステップと、
前記追加のヒント付き合成フレームの前記ピクセルと前記第1の画像の前記ピクセルとの比較に基づいて、前記深度ヒント値に対する追加のヒント付き損失値を計算するステップと、
前記追加のヒント付き損失値を用いて、前記画像ペアの前記全体損失を計算するステップと、
を含む、請求項1に記載の方法。 - 前記第1の画像および前記ヒント付き合成フレームに対して前記カメラポーズヒントを用いて生成された視差マップを用いて、前記所与のピクセルの前記深度値を決定するステップを含む、請求項1に記載の方法。
- 前記第1の画像及び前記第2の画像が単一のカメラによってキャプチャされた時間的に別個のフレームである、請求項1に記載の方法。
- 前記深度予測値に基づいて前記第2の画像を前記第1の画像に投影するステップが、さらに前記第1の画像と前記第2の画像との間のポーズに基づく、請求項1に記載の方法。
- 深度予測値によるピクセルでの前記一次損失値が、前記モデル合成フレームの前記ピクセルと前記第1の画像の前記ピクセルとの間の差に基づき、深度ヒント値による前記ピクセルでの前記ヒント付き損失値が、前記ヒント付き合成フレームの前記ピクセルと前記第1の画像の前記ピクセルとの間の差に基づく、請求項1に記載の方法。
- 前記全体損失に対する所与のピクセルの前記寄与は、前記所与のピクセルでの前記一次損失値が前記ヒント付き損失値以下である場合、前記所与のピクセルの前記一次損失値であり、
前記全体損失に対する前記所与のピクセルの前記寄与は、前記所与のピクセルでの前記ヒント付き損失値が前記一次損失値よりも小さい場合、前記所与のピクセルの前記一次損失値と、前記所与のピクセルでの前記深度予測値および前記カメラポーズヒントを用いて決定された前記深度値の間の差と、の合計である、請求項1に記載の方法。 - 前記カメラポーズヒントは、前記画像ペアを入力し、前記画像ペアに基づいて前記カメラポーズヒントを出力するように構成されたポーズ推定モデルによって生成される、請求項1に記載の方法。
- コンピュータによって実行される、深度推定モデルをトレーニングする方法であって、
各疑似立体画像ペアが第1の画像と第2の画像とを含む複数の疑似立体画像ペアを含むトレーニング画像データにアクセスするステップであって、
各画像ペアについて、
前記深度推定モデルにより、前記第1の画像のピクセルの深度予測値を生成するステップと、
前記第1の画像のカメラポーズヒントを取得するステップと、
前記第1の画像の前記ピクセルの前記深度予測値を用いて、前記第2の画像を前記第1の画像に投影してモデル合成フレームを生成するステップと、
前記第1の画像の前記カメラポーズヒントを用いて、前記第2の画像を前記第1の画像に投影してヒント付き合成フレームを生成するステップと、
前記モデル合成フレームの前記ピクセルと前記第1の画像の前記ピクセルとの比較に基づいて、前記第1の画像の前記ピクセルに対応する一次損失値を計算するステップと、
前記ヒント付き合成フレームの前記ピクセルと前記第1の画像の前記ピクセルとの比較に基づいて、前記第1の画像の前記ピクセルに対応するヒント付き損失値を計算するステップと、
前記画像ペアの全体損失を計算するステップであって、前記第1の画像の所与のピクセルに対応する前記ヒント付き損失値が前記所与のピクセルに対応する前記一次損失値よりも小さいことに応じて、前記所与のピクセルに対応する前記一次損失値と、前記所与のピクセルの深度予測値と前記カメラポーズヒントを用いて決定される前記所与のピクセルの深度値とを用いて決定される教師あり損失値と、を用いて、前記全体損失に対する前記所与のピクセルの寄与を決定することを含むステップと、
前記疑似立体画像ペアの前記全体損失に基づいて、前記深度推定モデルのパラメータを調整するステップと、を含む、
方法。 - 前記第1の画像の所与のピクセルに対応する前記ヒント付き損失値が前記所与のピクセルに対応する前記一次損失値よりも大きいことに応じて、前記全体損失に対する前記所与のピクセルの前記寄与を前記教師あり損失値に含めないステップを含む、請求項10に記載の方法。
- 前記深度推定モデルをトレーニングするためのプロセスが、
前記第1の画像の前記ピクセルの深度ヒント値を取得するステップと、
前記第1の画像の前記ピクセルの前記深度ヒント値に基づいて前記第2の画像を前記第1の画像に投影して、追加のヒント付き合成フレームを生成するステップと、
前記追加のヒント付き合成フレームの前記ピクセルと前記第1の画像の前記ピクセルとの比較に基づいて、前記深度ヒント値に対する追加のヒント付き損失値を計算するステップと、
前記追加のヒント付き損失値を用いて、前記画像ペアの前記全体損失を計算するステップと、
を含む請求項10に記載の方法。 - 前記第1の画像および前記ヒント付き合成フレームに対して前記カメラポーズヒントを用いて生成された視差マップを用いて、前記所与のピクセルの前記深度値を決定するステップを含む、請求項10に記載の方法。
- 前記第1の画像及び前記第2の画像が単一のカメラによってキャプチャされた時間的に別個のフレームである、請求項10に記載の方法。
- 前記深度予測値に基づいて前記第2の画像を前記第1の画像に投影するステップが、さらに前記第1の画像と前記第2の画像との間のポーズに基づく、請求項10に記載の方法。
- 深度予測値によるピクセルでの前記一次損失値が、前記モデル合成フレームの前記ピクセルと前記第1の画像の前記ピクセルとの間の差に基づき、深度ヒント値による前記ピクセルでの前記ヒント付き損失値が、前記ヒント付き合成フレームの前記ピクセルと前記第1の画像の前記ピクセルとの間の差に基づく、請求項10に記載の方法。
- 前記全体損失に対する所与のピクセルの前記寄与は、前記所与のピクセルでの前記一次損失値が前記ヒント付き損失値以下である場合、前記所与のピクセルの前記一次損失値であり、
前記全体損失に対する前記所与のピクセルの前記寄与は、前記所与のピクセルでの前記ヒント付き損失値が前記一次損失値よりも小さい場合、前記所与のピクセルの前記一次損失値と、前記所与のピクセルでの前記深度予測値および前記カメラポーズヒントを用いて決定される前記深度値の差と、の合計である、請求項10に記載の方法。 - 前記カメラポーズヒントは、前記画像ペアを入力し、前記画像ペアに基づいて前記カメラポーズヒントを出力するように構成されたポーズ推定モデルによって生成される、請求項10に記載の方法。
- 命令を記憶する非一時的なコンピュータ可読記憶媒体であって、
前記命令は、プロセッサによって実行されると、前記プロセッサに、
プロセスによってトレーニングされた深度推定モデルに画像を入力するステップであって、前記プロセスが、
各疑似立体画像ペアが第1の画像と第2の画像とを含む複数の疑似立体画像ペアを含むトレーニング画像データにアクセスするステップであって、
各画像ペアについて、
前記深度推定モデルにより、前記第1の画像のピクセルの深度予測値を生成するステップと、
前記第1の画像のカメラポーズヒントを取得するステップと、
前記第1の画像の前記ピクセルの前記深度予測値を用いて、前記第2の画像を前記第1の画像に投影してモデル合成フレームを生成するステップと、
前記第1の画像の前記ピクセルの前記カメラポーズヒントを用いて、前記第2の画像を前記第1の画像に投影してヒント付き合成フレームを生成するステップと、
前記モデル合成フレームの前記ピクセルと前記第1の画像の前記ピクセルとの比較に基づいて、前記第1の画像の前記ピクセルに対応する一次損失値を計算するステップと、
前記ヒント付き合成フレームの前記ピクセルと前記第1の画像の前記ピクセルとの比較に基づいて、前記第1の画像の前記ピクセルに対応するヒント付き損失値を計算するステップと、
前記画像ペアの全体損失を計算するステップであって、前記第1の画像の所与のピクセルに対応する前記ヒント付き損失値が前記所与のピクセルに対応する前記一次損失値よりも小さいことに応じて、前記所与のピクセルに対応する前記一次損失値と、前記所与のピクセルの深度予測値と前記カメラポーズヒントを用いて決定される前記所与のピクセルの深度値とを用いて決定される教師あり損失値と、を用いて、前記全体損失に対する前記所与のピクセルの寄与を決定することを含むステップと、
前記疑似立体画像ペアの前記全体損失に基づいて、前記深度推定モデルのパラメータを調整するステップと、を含むプロセスであるステップと、
前記深度推定モデルにより、シーンの前記画像に対応する前記シーンの深度マップを生成ステップと、
を含む操作を実行させる命令を記憶するコンピュータ可読記憶媒体。 - 前記深度推定モデルをトレーニングするための前記プロセスが、
前記第1の画像の前記ピクセルの深度ヒント値を取得するステップと、
前記第1の画像の前記ピクセルの前記深度ヒント値に基づいて前記第2の画像を前記第1の画像に投影して、追加のヒント付き合成フレームを生成するステップと、
前記追加のヒント付き合成フレームの前記ピクセルと前記第1の画像の前記ピクセルとの比較に基づいて、前記深度ヒント値に対する追加のヒント付き損失値を計算するステップと、
前記追加のヒント付き損失値を用いて、前記画像ペアの前記全体損失を計算するステップと、
を含む請求項19に記載のコンピュータ可読記憶媒体。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962842531P | 2019-05-02 | 2019-05-02 | |
US62/842,531 | 2019-05-02 | ||
JP2020560813A JP6996009B2 (ja) | 2019-05-02 | 2020-05-02 | 深度ヒントを使用した深度推定モデルの自己教師ありトレーニング |
PCT/IB2020/054170 WO2020222204A1 (en) | 2019-05-02 | 2020-05-02 | Self-supervised training of a depth estimation model using depth hints |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020560813A Division JP6996009B2 (ja) | 2019-05-02 | 2020-05-02 | 深度ヒントを使用した深度推定モデルの自己教師ありトレーニング |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022037113A JP2022037113A (ja) | 2022-03-08 |
JP7174139B2 true JP7174139B2 (ja) | 2022-11-17 |
Family
ID=73016748
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020560813A Active JP6996009B2 (ja) | 2019-05-02 | 2020-05-02 | 深度ヒントを使用した深度推定モデルの自己教師ありトレーニング |
JP2021203338A Active JP7174139B2 (ja) | 2019-05-02 | 2021-12-15 | 深度ヒントを使用した深度推定モデルの自己教師ありトレーニング |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020560813A Active JP6996009B2 (ja) | 2019-05-02 | 2020-05-02 | 深度ヒントを使用した深度推定モデルの自己教師ありトレーニング |
Country Status (9)
Country | Link |
---|---|
US (3) | US11044462B2 (ja) |
EP (1) | EP3776468A4 (ja) |
JP (2) | JP6996009B2 (ja) |
KR (2) | KR102493185B1 (ja) |
CN (1) | CN112805748B (ja) |
AU (2) | AU2020266341B2 (ja) |
CA (1) | CA3097393C (ja) |
TW (1) | TWI839513B (ja) |
WO (1) | WO2020222204A1 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102506959B1 (ko) | 2018-05-17 | 2023-03-07 | 나이앤틱, 인크. | 깊이 추정 시스템의 자가 감독 훈련 |
US11044462B2 (en) | 2019-05-02 | 2021-06-22 | Niantic, Inc. | Self-supervised training of a depth estimation model using depth hints |
JP7272428B2 (ja) * | 2019-05-10 | 2023-05-12 | 日本電信電話株式会社 | 深度推定装置、深度推定モデル学習装置、深度推定方法、深度推定モデル学習方法、及び深度推定プログラム |
US12001958B2 (en) * | 2020-03-19 | 2024-06-04 | Nvidia Corporation | Future trajectory predictions in multi-actor environments for autonomous machine |
CN111753961B (zh) | 2020-06-26 | 2023-07-28 | 北京百度网讯科技有限公司 | 模型训练方法和装置、预测方法和装置 |
KR102471353B1 (ko) | 2020-07-03 | 2022-11-28 | 한국공학대학교산학협력단 | 바이메탈을 이용한 복원 기능을 포함하는 퓨즈 |
CN112561979B (zh) * | 2020-12-25 | 2022-06-28 | 天津大学 | 一种基于深度学习的自监督单目深度估计方法 |
CN113269066B (zh) * | 2021-05-14 | 2022-10-04 | 网易(杭州)网络有限公司 | 说话视频生成方法、装置和电子设备 |
KR102489890B1 (ko) * | 2021-05-28 | 2023-01-17 | 한국항공대학교산학협력단 | 깊이 추정 시스템 및 깊이 추정 방법 |
CN113435408A (zh) * | 2021-07-21 | 2021-09-24 | 北京百度网讯科技有限公司 | 人脸活体检测方法、装置、电子设备及存储介质 |
CN114037087B (zh) * | 2021-10-29 | 2024-02-09 | 北京百度网讯科技有限公司 | 模型训练方法及装置、深度预测方法及装置、设备和介质 |
KR102531286B1 (ko) * | 2022-03-29 | 2023-05-12 | 포티투닷 주식회사 | 깊이 정보 추정 모델 학습을 위한 데이터 처리 방법 및 장치 |
TWI803334B (zh) * | 2022-05-31 | 2023-05-21 | 鴻海精密工業股份有限公司 | 深度估計模型優化與物體距離檢測方法及相關設備 |
CN115512116B (zh) * | 2022-11-01 | 2023-06-30 | 北京安德医智科技有限公司 | 图像分割模型优化方法、装置、电子设备及可读存储介质 |
GB202216570D0 (en) * | 2022-11-07 | 2022-12-21 | Pommelhorse Ltd | Real-time video processor and method |
CN117351450B (zh) * | 2023-12-06 | 2024-02-27 | 吉咖智能机器人有限公司 | 一种单目3d检测方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016148588A (ja) | 2015-02-12 | 2016-08-18 | 株式会社デンソーアイティーラボラトリ | デプス推定モデル生成装置及びデプス推定装置 |
WO2018046964A1 (en) | 2016-09-12 | 2018-03-15 | Ucl Business Plc | Predicting depth from image data using a statistical model |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011188358A (ja) | 2010-03-10 | 2011-09-22 | Panasonic Corp | Vpn装置及びip通信装置 |
CN102223553B (zh) | 2011-05-27 | 2013-03-20 | 山东大学 | 一种二维视频到三维视频的自动转换方法 |
US20130077820A1 (en) * | 2011-09-26 | 2013-03-28 | Microsoft Corporation | Machine learning gesture detection |
US10262462B2 (en) * | 2014-04-18 | 2019-04-16 | Magic Leap, Inc. | Systems and methods for augmented and virtual reality |
US9275078B2 (en) | 2013-09-05 | 2016-03-01 | Ebay Inc. | Estimating depth from a single image |
JP6148154B2 (ja) | 2013-10-29 | 2017-06-14 | 日本電信電話株式会社 | 画像処理装置及び画像処理プログラム |
JP5937709B1 (ja) | 2015-01-29 | 2016-06-22 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 通信制御装置、通信制御方法及び通信制御プログラム |
CN107438866B (zh) | 2015-05-13 | 2020-12-01 | 谷歌公司 | 深度立体:学习从现实世界形象预测新视图 |
JP2017129904A (ja) | 2016-01-18 | 2017-07-27 | ソニー株式会社 | 情報処理装置、情報処理方法、及び記録媒体 |
US10255522B2 (en) | 2016-06-17 | 2019-04-09 | Facebook, Inc. | Generating object proposals using deep-learning models |
KR102529137B1 (ko) | 2016-08-22 | 2023-05-03 | 매직 립, 인코포레이티드 | 딥 러닝 센서들을 갖는 증강 현실 디스플레이 디바이스 |
CN108629800A (zh) * | 2017-03-20 | 2018-10-09 | 北京三星通信技术研究有限公司 | 平面确定方法及增强现实显示信息的显示方法、相应装置 |
CN107067465A (zh) | 2017-04-14 | 2017-08-18 | 深圳市唯特视科技有限公司 | 一种基于验证转换图像生成网络的三维视图合成方法 |
CN107204010B (zh) * | 2017-04-28 | 2019-11-19 | 中国科学院计算技术研究所 | 一种单目图像深度估计方法与系统 |
US10726514B2 (en) * | 2017-04-28 | 2020-07-28 | Intel Corporation | Compute optimizations for low precision machine learning operations |
CN107578436B (zh) | 2017-08-02 | 2020-06-12 | 南京邮电大学 | 一种基于全卷积神经网络fcn的单目图像深度估计方法 |
CN107767413B (zh) | 2017-09-20 | 2020-02-18 | 华南理工大学 | 一种基于卷积神经网络的图像深度估计方法 |
US10803546B2 (en) | 2017-11-03 | 2020-10-13 | Baidu Usa Llc | Systems and methods for unsupervised learning of geometry from images using depth-normal consistency |
JP2021503134A (ja) | 2017-11-15 | 2021-02-04 | グーグル エルエルシーGoogle LLC | 画像深度とエゴモーション予測ニューラルネットワークの教師なし学習 |
CN107909150B (zh) | 2017-11-29 | 2020-08-18 | 华中科技大学 | 基于逐块随机梯度下降法在线训练cnn的方法与系统 |
US10810754B2 (en) | 2018-04-24 | 2020-10-20 | Ford Global Technologies, Llc | Simultaneous localization and mapping constraints in generative adversarial networks for monocular depth estimation |
CN109191514B (zh) * | 2018-10-23 | 2020-11-24 | 北京字节跳动网络技术有限公司 | 用于生成深度检测模型的方法和装置 |
US11044462B2 (en) | 2019-05-02 | 2021-06-22 | Niantic, Inc. | Self-supervised training of a depth estimation model using depth hints |
-
2020
- 2020-05-01 US US16/864,743 patent/US11044462B2/en active Active
- 2020-05-02 KR KR1020217016884A patent/KR102493185B1/ko active IP Right Grant
- 2020-05-02 KR KR1020207031640A patent/KR102262824B1/ko active IP Right Grant
- 2020-05-02 CN CN202080005441.4A patent/CN112805748B/zh active Active
- 2020-05-02 EP EP20797645.7A patent/EP3776468A4/en active Pending
- 2020-05-02 AU AU2020266341A patent/AU2020266341B2/en active Active
- 2020-05-02 WO PCT/IB2020/054170 patent/WO2020222204A1/en unknown
- 2020-05-02 JP JP2020560813A patent/JP6996009B2/ja active Active
- 2020-05-02 CA CA3097393A patent/CA3097393C/en active Active
- 2020-05-04 TW TW109114835A patent/TWI839513B/zh active
-
2021
- 2021-03-26 US US17/213,634 patent/US11317079B2/en active Active
- 2021-07-21 AU AU2021206838A patent/AU2021206838B2/en active Active
- 2021-12-15 JP JP2021203338A patent/JP7174139B2/ja active Active
-
2022
- 2022-03-16 US US17/696,529 patent/US11711508B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016148588A (ja) | 2015-02-12 | 2016-08-18 | 株式会社デンソーアイティーラボラトリ | デプス推定モデル生成装置及びデプス推定装置 |
WO2018046964A1 (en) | 2016-09-12 | 2018-03-15 | Ucl Business Plc | Predicting depth from image data using a statistical model |
Also Published As
Publication number | Publication date |
---|---|
JP2022037113A (ja) | 2022-03-08 |
AU2020266341A1 (en) | 2020-12-03 |
KR102493185B1 (ko) | 2023-01-30 |
JP6996009B2 (ja) | 2022-01-17 |
US11044462B2 (en) | 2021-06-22 |
US11711508B2 (en) | 2023-07-25 |
CN112805748B (zh) | 2022-10-25 |
KR20200130472A (ko) | 2020-11-18 |
EP3776468A4 (en) | 2022-01-12 |
KR20210069125A (ko) | 2021-06-10 |
US11317079B2 (en) | 2022-04-26 |
AU2021206838B2 (en) | 2023-08-17 |
CN112805748A (zh) | 2021-05-14 |
US20220210392A1 (en) | 2022-06-30 |
CA3097393A1 (en) | 2020-11-05 |
CA3097393C (en) | 2022-02-01 |
US20200351489A1 (en) | 2020-11-05 |
AU2021206838A1 (en) | 2021-08-12 |
AU2020266341B2 (en) | 2021-04-22 |
JP2021522603A (ja) | 2021-08-30 |
WO2020222204A1 (en) | 2020-11-05 |
TW202109458A (zh) | 2021-03-01 |
EP3776468A1 (en) | 2021-02-17 |
US20210218950A1 (en) | 2021-07-15 |
KR102262824B1 (ko) | 2021-06-10 |
TWI839513B (zh) | 2024-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7174139B2 (ja) | 深度ヒントを使用した深度推定モデルの自己教師ありトレーニング | |
JP7241775B2 (ja) | 深度推定システムの自己教師ありトレーニング | |
TW202238068A (zh) | 自監督多圖框單眼深度估計模型 | |
AU2021235397B2 (en) | Determining traversable space from single images | |
TWI829167B (zh) | 用於採用小波分解之影像深度預測之方法及非暫時性電腦可讀儲存媒體 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211228 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221004 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7174139 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |