JP2020524355A - 単眼画像の深度回復方法及び装置、コンピュータ機器 - Google Patents

単眼画像の深度回復方法及び装置、コンピュータ機器 Download PDF

Info

Publication number
JP2020524355A
JP2020524355A JP2020520708A JP2020520708A JP2020524355A JP 2020524355 A JP2020524355 A JP 2020524355A JP 2020520708 A JP2020520708 A JP 2020520708A JP 2020520708 A JP2020520708 A JP 2020520708A JP 2020524355 A JP2020524355 A JP 2020524355A
Authority
JP
Japan
Prior art keywords
image
feature
monocular
gradient
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020520708A
Other languages
English (en)
Other versions
JP6850399B2 (ja
JP2020524355A5 (ja
Inventor
▲鮑▼▲虎▼▲軍▼
章国▲鋒▼
▲蒋▼沁宏
石建萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Sensetime Technology Development Co Ltd
Original Assignee
Zhejiang Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Sensetime Technology Development Co Ltd filed Critical Zhejiang Sensetime Technology Development Co Ltd
Publication of JP2020524355A publication Critical patent/JP2020524355A/ja
Publication of JP2020524355A5 publication Critical patent/JP2020524355A5/ja
Application granted granted Critical
Publication of JP6850399B2 publication Critical patent/JP6850399B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/94Dynamic range modification of images or parts thereof based on local image properties, e.g. for local contrast enhancement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本願は、単眼画像の深度回復方法及び装置、コンピュータ機器、コンピュータ可読記憶媒体、ならびにコンピュータプログラムを開示し、前記方法は、前記単眼画像に対して特徴抽出を行い、前記単眼画像の特徴画像を取得するステップと、前記特徴画像に対してデカップリングを行い、前記特徴画像のシーン構造マップを取得するステップと、前記特徴画像と前記シーン構造マップに対して勾配感知処理を行い、領域強化の特徴画像を取得するステップと、前記領域強化の特徴画像に基づき深度推定を行い、前記単眼画像の深度画像を取得するステップと、を含む。

Description

(関連出願の相互参照)
本願は、2018年5月23日に出願された、出願番号201810502947.0、発明の名称「単眼画像の深度回復方法及び装置、コンピュータ機器」の中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
本願は、コンピュータビジョン分野に関し、特に単眼画像の深度回復方法及び装置、コンピュータ機器、コンピュータ可読記憶媒体、ならびにコンピュータプログラムに関する。
単眼画像の深度回復とは、単眼画像に対して深度回復を行うことを指し、単眼画像の深度回復はコンピュータビジョン分野で重要な課題であり、様々な分野、例えば3次元再構成、ロボットリアルタイム測位、視覚障害物回避等の分野において重要な用途を有する。
しかしながら、深度スケールの不確実性のため、単眼画像の深度回復は複雑な多重解の課題である。既存の深度推定方法は、課題を解決するために、シーン構造推定と深度スケール推定を単純に組み合わせることが一般的であり、課題解決プロセスが比較的困難になり、多くのデータおよびトレーニング時間を必要とし、精度が低い。
前記の技術課題を解決するために、本願の実施形態は、単眼画像の深度回復方法及び装置、コンピュータ機器、コンピュータ可読記憶媒体、ならびにコンピュータプログラムを提供する。
本願の実施形態によって提供される単眼画像の深度回復方法は、
前記単眼画像に対して特徴抽出を行い、前記単眼画像の特徴画像を取得するステップと、
前記特徴画像に対してデカップリングを行い、前記特徴画像のシーン構造マップを取得するステップと、
前記特徴画像と前記シーン構造マップに対して勾配感知処理を行い、領域強化の特徴画像を取得するステップと、
前記領域強化の特徴画像に基づき深度推定を行い、前記単眼画像の深度画像を取得するステップと、を含む。
本願の実施形態では、前記単眼画像に対して特徴抽出を行い、前記単眼画像の特徴画像を取得するステップは、
前記単眼画像を第1のニューラルネットワークに入力して特徴抽出を行い、前記単眼画像の特徴画像を取得するステップを含む。
本願の実施形態では、前記第1のニューラルネットワークによって実行される特徴抽出は、
前記単眼画像に対してマルチスケールの特徴抽出を行い、前記単眼画像のマルチスケール特徴情報を取得するステップと、
前記マルチスケール特徴情報に対して残差調整を行い、調整されたマルチスケール特徴情報を取得するステップと、
前記調整されたマルチスケール特徴情報に対して特徴融合を行い、前記特徴画像を取得するステップと、を含む。
本願の実施形態では、前記特徴画像に対してデカップリングを行い、前記特徴画像のシーン構造マップを取得するステップは、
前記特徴画像を第2のニューラルネットワークに入力しデカップリングを行い、前記特徴画像のシーン構造マップを取得するステップを含む。
本願の実施形態では、前記特徴画像を第2のニューラルネットワークに入力する前に、さらに、
少なくとも1つの畳み込み層と正規化線形関数とを含む前記第2のニューラルネットワークを予め確立するステップを含む。
本願の実施形態では、前記特徴画像と前記シーン構造マップに対して勾配感知処理を行い、領域強化の特徴画像を取得するステップは、
前記特徴画像及び前記シーン構造マップを第3のニューラルネットワークに入力し勾配感知処理を行い、領域強化の特徴画像を取得するステップを含む。
本願の実施形態では、前記第3のニューラルネットワークによって実行される勾配感知処理は、
前記シーン構造マップに基づき前記シーン構造マップの実際の勾配画像を取得するステップと、
前記特徴画像に基づき前記特徴画像に対応する予測勾配画像を取得するステップと、
前記実際の勾配画像と前記予測勾配画像に基づき類似度分析を行い、マスクを取得するステップと、
前記マスク及び前記特徴画像に対して残差フィルタ処理を行い、領域強化の特徴画像を取得するステップと、を含む。
本願の実施形態では、前記実際の勾配情報及び前記予測勾配情報に基づき類似度分析を行い、マスクを取得するステップは、
前記実際の勾配画像と前記予測勾配画像との間の類似度を算出するステップと、
予め設定された閾値よりも大きい類似度を有する実際の勾配画像を前記マスクとして用いるステップと、を含む。
本願の実施形態では、前記マスク及び前記特徴画像に対して残差フィルタ処理を行うステップは、
前記マスクと前記特徴画像との積を算出し、融合画像を取得するステップと、
前記融合画像に対して、畳み込み計算、正規化線形計算、畳み込み計算を順に含む前処理を行い、前処理された画像を取得するステップと、
前記特徴画像と前記前処理された画像を重ね合わせて、領域強化の特徴画像を取得するステップと、を含む。
本願の実施形態では、前記領域強化の特徴画像に基づき深度推定を行い、前記単眼画像の深度画像を取得するステップは、
前記領域強化の特徴画像に対して畳み込み計算を行い、前記単眼画像の深度画像を取得するステップを含む。
本願の実施形態によって提供される単眼画像の深度回復装置は、
前記単眼画像に対して特徴抽出を行い、前記単眼画像の特徴画像を取得するように構成される特徴抽出モジュールと、
前記特徴画像に対してデカップリングを行い、前記特徴画像のシーン構造マップを取得するように構成されるシーン構造推定モジュールと、
前記特徴画像と前記シーン構造マップに対して勾配感知処理を行い、領域強化の特徴画像を取得するように構成される勾配感知モジュールと、
前記領域強化の特徴画像に基づき深度推定を行い、前記単眼画像の深度画像を取得するように構成される深度推定モジュールと、を備える。
本願の実施形態では、前記特徴抽出モジュールは、前記単眼画像を第1のニューラルネットワークに入力して特徴抽出を行い、前記単眼画像の特徴画像を取得するように構成される。
本願の実施形態では、前記第1のニューラルネットワークによって実行される特徴抽出は、
前記単眼画像に対してマルチスケールの特徴抽出を行い、前記単眼画像のマルチスケール特徴情報を取得するステップと、
前記マルチスケール特徴情報に対して残差調整を行い、調整されたマルチスケール特徴情報を取得するステップと、
前記調整されたマルチスケール特徴情報に対して特徴融合を行い、前記特徴画像を取得するステップと、を含む。
本願の実施形態では、前記シーン構造推定モジュールは、前記特徴画像を第2のニューラルネットワークに入力しデカップリングを行い、前記特徴画像のシーン構造マップを取得するように構成される。
本願の実施形態では、前記装置は、さらに、
少なくとも1つの畳み込み層と正規化線形関数とを含む前記第2のニューラルネットワークを予め確立するように構成される確立モジュールを備える。
本願の実施形態では、前記勾配感知モジュールは、前記特徴画像及び前記シーン構造マップを第3のニューラルネットワークに入力し勾配感知処理を行い、領域強化の特徴画像を取得するように構成される。
本願の実施形態では、前記第3のニューラルネットワークによって実行される勾配感知処理は、
前記シーン構造マップに基づき前記シーン構造マップの実際の勾配画像を取得するステップと、
前記特徴画像に基づき前記特徴画像に対応する予測勾配画像を取得するステップと、
前記実際の勾配画像と前記予測勾配画像に基づき類似度分析を行い、マスクを取得するステップと、
前記マスク及び前記特徴画像に対して残差フィルタ処理を行い、領域強化の特徴画像を取得するステップと、を含む。
本願の実施形態では、前記実際の勾配情報及び前記予測勾配情報に基づき類似度分析を行い、マスクを取得するステップは、
前記実際の勾配画像と前記予測勾配画像との間の類似度を算出するステップと、
予め設定された閾値よりも大きい類似度を有する実際の勾配画像を前記マスクとして用いるステップと、を含む。
本願の実施形態では、前記マスク及び前記特徴画像に対して残差フィルタ処理を行うステップは、
前記マスクと前記特徴画像との積を算出し、融合画像を取得するステップと、
前記融合画像に対して、畳み込み計算、正規化線形計算、畳み込み計算を順に含む前処理を行い、前処理された画像を取得するステップと、
前記特徴画像と前記前処理された画像を重ね合わせて、領域強化の特徴画像を取得するステップと、を含む。
本願の実施形態では、前記深度推定モジュールは、前記領域強化の特徴画像に対して畳み込み計算を行い、前記単眼画像の深度画像を取得するように構成される。
本願の実施形態では、コンピュータ実行可能コマンドを記憶したメモリと、前記メモリ内のコンピュータ実行可能コマンドを実行する時に、本願の実施形態によって提供される単眼画像の深度回復方法を実現するプロセッサーとを備えるコンピュータ機器を提供する。
本願の実施形態では、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、前記プロセッサーが前記コンピュータプログラムを実行する時に、本願の実施形態によって提供される単眼画像の深度回復方法を実現するコンピュータ可読記憶媒体を提供する。
本願の実施形態では、コンピュータコマンドを含むコンピュータプログラムであって、機器のプロセッサーで前記コンピュータコマンドを実行する時に、本願の実施形態によって提供される単眼画像の深度回復方法を実現するコンピュータプログラムを提供する。
本開示の実施形態によって提供される技術手段は以下のような有益な効果を有し得る。
本願の実施形態の技術手段によれば、前記単眼画像に対して特徴抽出を行い、前記単眼画像の特徴画像を取得し、前記特徴画像に対してデカップリングを行い、前記特徴画像のシーン構造マップを取得し、前記特徴画像と前記シーン構造マップに対して勾配感知処理を行い、領域強化の特徴画像を取得し、前記領域強化の特徴画像に基づき深度推定を行い、前記単眼画像の深度画像を取得する。前記の単眼画像の深度回復方法及び装置では、少量のデータを用いてより良い深度推定結果を得ることができるだけでなく、勾配感知処理によってより多くの深度詳細を得ることもできる。
尚、以上の一般的な説明及び以下の詳細な説明は例示的及び解釈的なものに過ぎず、本願を制限するものではないことを理解すべきである。
本願の実施形態の単眼画像の深度回復方法の概略フローチャートである。 本願の実施形態のニューラルネットワークの構造を示す図である。 本願の実施形態の単眼画像の特徴抽出の概略フローチャートである。 本願の実施形態の勾配感知処理の概略フローチャートである。 本願の実施形態の単眼画像の深度回復装置の構造を概略的に示す模式図である(その1)。 本願の実施形態の単眼画像の深度回復装置の構造を概略的に示す模式図である(その2)。 本願の実施形態のコンピュータ機器の構造を概略的に示す模式図である。
ここでの図面は本明細書に組み込まれその一部を構成しており、本願に該当する実施形態を示し、かつ明細書とともに本願の原理を解釈するために用いられる。
ここで、図面を参照しながら本願の様々な例示的実施形態を詳細に説明する。なお、特に断らない限り、これらの実施形態で記述した部材およびステップの相対的配置、数式および数値は本願の範囲を限定するものではないことに注意すべきである。
同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。
以下の少なくとも一つの例示的実施形態に対する説明は実際に説明的なものに過ぎず、本願およびその適用または使用へのなんらの制限にもならない。
関連分野の当業者に既知の技術、方法および機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法および機器は明細書の一部と見なすべきである。
なお、類似する符号および英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。
本願の実施形態はコンピュータシステム/サーバなどの電子デバイスに適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。コンピュータシステム/サーバとの併用に適する公知の計算システム、環境および/または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサーに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステムおよび前記あらゆるシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。
コンピュータシステム/サーバなどの電子デバイスはコンピュータシステムにより実行されるコンピュータシステム実行可能コマンド(例えば、プログラムモジュール)の一般的な言語環境において記載できる。通常、プログラムモジュールはルーチン、プログラム、目的プログラム、コンポーネント、ロジック、データ構造などを含んでもよく、それらは特定のタスクを実行するかまたは特定の抽象データ型を実現する。コンピュータシステム/サーバは分散型クラウドコンピューティング環境において実施でき、分散型クラウドコンピューティング環境において、タスクは通信ネットワークにわたってリンクされた遠隔処理機器により実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してもよい。
図1は本願の実施形態の単眼画像の深度回復方法の概略フローチャートであり、図1に示すように、前記単眼画像の深度回復は以下のステップを含む。
ステップ101において、単眼画像に対して特徴抽出を行い、前記単眼画像の特徴画像を取得する。
ここで、単眼画像は2次元画像とも呼ばれ、単眼画像の情報は例えばRGB情報などの各画素の色情報のみを含み、各画素の深度情報は含まない。本願の実施形態は、単眼画像から対応する深度画像を推定することを目的とし、(x,y)を単眼画像内の任意の画像の座標とすると、単眼画像から座標(x,y)に対応するRGB情報を決定できるが、座標(x,y)に対応する深度情報(depth)を決定できないので、座標(x,y)に対応する深度情報(depth)を決定するためには、該単眼画像の深度を回復する必要がある。
単眼画像の深度回復を達成するために、まず前記単眼画像に対して特徴抽出を行い、前記単眼画像の特徴画像を取得する必要がある。ここでの特徴抽出とは前記単眼画像に深度感知・特徴抽出を行い、その後の深度画像の推定のための基本的な特徴を提供することを指す。
本願の実施形態では、畳み込み演算を用いて前記単眼画像に対して特徴抽出を行ってもよい。
ステップ102において、前記特徴画像に対してデカップリングを行い、前記特徴画像のシーン構造マップを取得する。
ここで、シーン構造マップは単眼画像のシーン構造情報を含み、シーン構造情報は、単眼画像中の各オブジェクトの構造情報と、オブジェクト間の相対的な位置関係(例えば、前後関係)とを含み、ここでのシーン構造情報は実質的にオブジェクトの相対深度情報を反映する。
本願の実施形態では、特徴画像には、シーン構造情報と深度スケール情報の2種類の情報が含まれているため、これらの2種類の情報を推定することは非常に困難であるので、本願の実施形態では、前記特徴画像に対してデカップリングを行い、前記特徴画像のシーン構造情報を推定して、シーン構造マップを取得する。
本願の実施形態では、畳み込み演算を用いて前記特徴画像のシーン構造情報を推定してもよい。
ステップ103において、前記特徴画像と前記シーン構造マップに対して勾配感知処理を行い、領域強化の特徴画像を取得する。
深度画像の幾何学的細部を考慮すると、3次元再構成等のアプリケーションにとって非常に重要であり、本願の実施形態は、勾配感知処理によって特徴画像の強化領域を推定し、それによって領域強化の特徴画像を取得する。
本願の実施形態では、勾配と幾何学的細部との間の強い相関を用いて、取得された特徴画像およびシーン構造マップの勾配情報をそれぞれ推定し、2つの推定結果を比較することによって強化領域を決定でき、それによって領域強化の特徴画像を取得する。該領域強化の特徴画像において、幾何学的細部が強化され、それは後の高品質深度画像に対する基本的保証を提供する。
ステップ104において、前記領域強化の特徴画像に基づき深度推定を行い、前記単眼画像の深度画像を取得する。
本願の実施形態では、畳み込み演算によって前記領域強化の特徴画像に対して深度推定を行うことにより、前記単眼画像の深度画像を取得する。具体的には、前記領域強化の特徴画像に対して畳み込み計算を行い、前記単眼画像の深度画像を取得する。
本願の実施形態の技術手段によれば、深度推定を2つの部分、すなわち、1)シーン構造(scene structure)の推定と、2)深度の推定とに分け、それによってニューラルネットワークの収束を著しく加速し、深度推定の精度を向上させることができる。また、深度画像の局所的な細部が勾配感知処理によってさらに改善され、高品質の深度画像をもたらし、細かい幾何学的細部および正確なオブジェクト境界を必要とする3次元再構成等のアプリケーションに優れたデータソースを提供する。
前記の単眼画像の深度回復方法を実現するために、本願の実施形態では、ニューラルネットワーク構造(DCNetと呼ばれる)をさらに提供し、DCNetは、図2に示すように、3つの部分、すなわち、1)特徴抽出モジュール、2)デカップリングモジュール、及び3)勾配感知モジュールから構成され、その内に、デカップリングモジュールは2つの部分、すなわち2.1)シーン構造推定モジュール、2.2)深度推定モジュールを含む。図2を参照して、(a)部分のネットワークが特徴抽出モジュールに対応し、(b)部分のネットワークがシーン構造推定モジュールに対応し、(d)部分のネットワークが深度推定モジュールに対応し、(c)部分のネットワークが勾配感知モジュールに対応する。本願の実施形態では、ユークリッド損失関数を用いて図2に示すDCNetをトレーニングすることができる。図2に示すDCNetでは、(a)部分のネットワークを介して単眼画像の特徴抽出を行い、前記単眼画像の特徴画像を取得し、(b)部分のネットワークを介して前記特徴画像のデカップリングを行い、前記特徴画像のシーン構造マップを取得し、(c)部分のネットワークを介して前記特徴画像と前記シーン構造マップの勾配感知処理を行い、領域強化の特徴画像を取得し、(d)部分のネットワークを介して前記領域強化の特徴画像に基づき深度推定を行い、前記単眼画像の深度画像を取得する。
図1に示す技術手段によれば、単眼画像の特徴抽出は、前記単眼画像を第1のニューラルネットワークに入力して特徴抽出を行い、前記単眼画像の特徴画像を取得することによって行える。以下、図2及び図3を参照して、どのように第1のニューラルネットワークにより特徴抽出を行うかについて説明する。
図3は本願の実施形態の単眼画像の特徴抽出の概略フローチャートであり、図3に示すように、以下のようなステップを含む。
ステップ301において、前記単眼画像に対してマルチスケールの特徴抽出を行い、前記単眼画像のマルチスケール特徴情報を取得する。
図2に示すDCNetに基づき、第1のニューラルネットワークは(a)部分のネットワークであり、図2中の(a)部分のネットワークを参照して、左側の畳み込み層の列は、前記単眼画像に対してマルチスケールの特徴抽出を行い、前記単眼画像のマルチスケール特徴情報を取得することに用いられる。
ステップ302において、前記マルチスケール特徴情報に対して残差調整を行い、調整されたマルチスケール特徴情報を取得する。
ここで、マルチスケール特徴情報とは、一部の特徴情報が大規模に存在するが、一部の特徴情報が小規模に存在し、すなわち、抽出された特徴情報のスケールが異なることを指し、マルチスケール特徴情報のスケールが異なるので、小規模に存在する特徴情報が融合した後に消えるので、中間の列の残差類似調整モジュール(Residual like adjustment、adjustと略称する)(図2中の(e)を参照する)によって前記マルチスケール特徴情報に対して残差調整を行い、調整されたマルチスケール特徴情報を取得する必要があり、ここで、残差調整の目的は、マルチスケール特徴情報内の各特徴情報のスケールを調整して、より良い融合効果を得ることである。
ステップ303において、前記調整されたマルチスケール特徴情報に対して特徴融合を行い、前記特徴画像を取得する。
一実施形態では、調整されたマルチスケール特徴情報から一部の特徴情報を選択し、入力画像のサイズの半分までアップサンプリングしてから右側の融合モジュール(Concat)に入力し特徴融合を行い、それによって前記特徴画像を取得する。
以上のステップを経て特徴画像を取得した後、前記特徴画像を第2のニューラルネットワークに入力しデカップリングを行い、前記特徴画像のシーン構造マップを取得する。以下、図2を参照して、どのように第2のニューラルネットワークによりシーン構造マップを推定するかについて説明する。
図2に示すDCNetに基づき、第2のニューラルネットワークは(b)部分のネットワークであり、(a)部分のネットワークによって単眼画像から特徴画像Iを抽出した後、特徴画像Iを(b)部分のネットワークに入力し、(b)部分のネットワークによってシーン構造マップRを予測する。本願の実施形態では、少なくとも1つの畳み込み層と正規化線形関数とを含む前記第2のニューラルネットワークは予め確立される。ここで、畳み込み層は512チャンネルの畳み込み層であってもよく、正規化線形関数は正規化線形ユニット(ReLU、Rectified Linear Unit)によって実現される。IとRの関係は次式で表すことができる。
ただし、F1は特徴画像Iからシーン構造マップRへのマッピングを表し、F1は図2中の(b)部分のネットワークに対応し、(b)部分のネットワークがシーン構造マップRを学習するために用いられる。
画像のレイアウト詳細を明瞭化するために、本願の実施形態では、前記特徴画像と前記シーン構造マップに対して勾配感知処理を行い、領域強化の特徴画像を取得する。ここで、勾配感知処理は、前記特徴画像及び前記シーン構造マップを第3のニューラルネットワークに入力し勾配感知処理を行い、領域強化の特徴画像を取得することによって行える。以下、図2及び図4を参照して、どのように第3のニューラルネットワークにより勾配感知処理を行うかについて説明する。
図4は本願の実施形態の勾配感知処理の概略フローチャートであり、図4に示すように、以下のようなステップを含む。
ステップ401において、前記シーン構造マップに基づき前記シーン構造マップの実際の勾配画像を取得する。
ステップ402において、前記特徴画像に基づき前記特徴画像に対応する予測勾配画像を取得する。
図2に示すDCNetに基づき、第3のニューラルネットワークは(c)部分のネットワークであり、図2中の(c)部分のネットワークを参照して、シーン構造マップRから実際の勾配画像
を推定し、特徴画像Iから予測勾配画像
を推定し、望ましくは、
が同一であるが、
は実際の勾配画像であり、
は予測勾配画像であるので、
が異なる可能性がある。
ステップ403において、前記実際の勾配画像と前記予測勾配画像に基づき類似度分析を行い、マスクを取得する。
本実施形態では、前記実際の勾配画像と前記予測勾配画像との間の類似度を算出し(例えば、コサイン関数により類似度を算出する)、予め設定された閾値よりも大きい類似度を有する実際の勾配画像を前記マスクとして用いる。図2中の(c)部分のネットワークを参照して、
の類似度を算出し、
よりも大きい類似度を有する実際の勾配画像を前記マスクとする。
ここで、マスクは実際の勾配画像のある領域に対応し、該部分の領域の特徴によってその後の深度画像の細部の最適化がより容易になり、深度画像を3次元モデリング等の高精度用途に用いることができる。
ステップ404において、前記マスク及び前記特徴画像に対して残差フィルタ処理を行い、領域強化の特徴画像を取得する。
一実施形態では、領域強化の特徴画像は、前記マスクと前記特徴画像との積を算出し、融合画像を取得して、前記融合画像に対して、畳み込み計算、正規化線形計算、畳み込み計算を順に含む前処理を行い、前処理された画像を取得し、前記特徴画像と前記前処理された画像を重ね合わせて、領域強化の特徴画像を取得することによって得られる。例えば、図2中の(f)部分のネットワーク(Residual like filtering)を参照して、Multiplyモジュールによってマスクと特徴画像の積を算出して融合画像を取得し、融合画像を順次Convモジュール、RuLUモジュール及びConvモジュールに入力し、それによって対応する畳み込み計算、正規化線形計算及び畳み込み計算を実現し、最終的にSumモジュールによって元の特徴画像と重ね合わせて、領域強化の特徴画像を出力する。
以上の手法により領域強化の特徴画像を取得した後、図2中の(d)部分のネットワークによって前記領域強化の特徴画像に対して畳み込み計算を行い、前記単眼画像の深度画像を取得する。ここで、畳み込み計算を行う畳み込み層は64チャンネルの畳み込み層であってもよい。
本願の実施形態では、シーン構造推定モジュール(図2中の(b)部分のネットワーク)と深度推定モジュール(図2中の(d)部分のネットワーク)によって、深度画像の推定を分割統治法でシーン構造の推定と深度の推定とに分け、それによってDCNetの収束速度が向上しより正確な結果を得ることができる。そして、シーン構造推定モジュールと深度推定モジュールの間に勾配感知モジュールを設け、深度推定モジュールによって領域強化の特徴画像を取得することができるので、深いニューラルネットワーク(例えば、図2中の(d)部分のネットワーク)が強化領域に集中し、より良い境界及び細部を有する深度画像を回復することができ、回復した高精度の深度画像によって3次元再構成等のアプリケーションに高品質のデータソースを提供する。
図5は本願の実施形態の単眼画像の深度回復装置の構造を概略的に示す模式図(その1)であり、図5に示すように、前記単眼画像の深度回復装置は、
前記単眼画像に対して特徴抽出を行い、前記単眼画像の特徴画像を取得するように構成される特徴抽出モジュール501と、
前記特徴画像に対してデカップリングを行い、前記特徴画像のシーン構造マップを取得するように構成されるシーン構造推定モジュール502と、
前記特徴画像と前記シーン構造マップに対して勾配感知処理を行い、領域強化の特徴画像を取得するように構成される勾配感知モジュール503と、
前記領域強化の特徴画像に基づき深度推定を行い、前記単眼画像の深度画像を取得するように構成される深度推定モジュール504と、を備える。
当業者にとっては、図5に示す単眼画像の深度回復装置における各部の実施機能は、前記単眼画像の深度回復方法の関連記載を参照することによって解釈できることが理解すべきである。図5に示す単眼画像の深度回復装置における各部の機能は、プロセッサー上で動作するプログラムによって実現することもできるし、特定の論理回路によって実現することもできる。
図6は本願の実施形態の単眼画像の深度回復装置の構造を概略的に示す模式図(その2)であり、図6に示すように、前記単眼画像の深度回復装置は、
前記単眼画像に対して特徴抽出を行い、前記単眼画像の特徴画像を取得するように構成される特徴抽出モジュール501と、
前記特徴画像に対してデカップリングを行い、前記特徴画像のシーン構造マップを取得するように構成されるシーン構造推定モジュール502と、
前記特徴画像と前記シーン構造マップに対して勾配感知処理を行い、領域強化の特徴画像を取得するように構成される勾配感知モジュール503と、
前記領域強化の特徴画像に基づき深度推定を行い、前記単眼画像の深度画像を取得するように構成される深度推定モジュール504と、を備える。
一実施形態では、前記特徴抽出モジュール501は、前記単眼画像を第1のニューラルネットワークに入力して特徴抽出を行い、前記単眼画像の特徴画像を取得するように構成される。
一実施形態では、前記第1のニューラルネットワークによって実行される特徴抽出は、
前記単眼画像に対してマルチスケールの特徴抽出を行い、前記単眼画像のマルチスケール特徴情報を取得するステップと、
前記マルチスケール特徴情報に対して残差調整を行い、調整されたマルチスケール特徴情報を取得するステップと、
前記調整されたマルチスケール特徴情報に対して特徴融合を行い、前記特徴画像を取得するステップと、を含む。
一実施形態では、前記シーン構造推定モジュール502は、前記特徴画像を第2のニューラルネットワークに入力しデカップリングを行い、前記特徴画像のシーン構造マップを取得するように構成される。
一実施形態では、前記装置は、さらに、
少なくとも1つの畳み込み層と正規化線形関数とを含む前記第2のニューラルネットワークを予め確立するように構成される確立モジュール505を備える。
一実施形態では、前記勾配感知モジュール503は、前記特徴画像及び前記シーン構造マップを第3のニューラルネットワークに入力し勾配感知処理を行い、領域強化の特徴画像を取得するように構成される。
一実施形態では、前記第3のニューラルネットワークによって実行される勾配感知処理は、
前記シーン構造マップに基づき前記シーン構造マップの実際の勾配画像を取得するステップと、
前記特徴画像に基づき前記特徴画像に対応する予測勾配画像を取得するステップと、
前記実際の勾配画像と前記予測勾配画像に基づき類似度分析を行い、マスクを取得すると、
前記マスク及び前記特徴画像に対して残差フィルタ処理を行い、領域強化の特徴画像を取得するステップと、を含む。
一実施形態では、前記実際の勾配情報及び前記予測勾配情報に基づき類似度分析を行い、マスクを取得するステップは、
前記実際の勾配画像と前記予測勾配画像との間の類似度を算出するステップと、
予め設定された閾値よりも大きい類似度を有する実際の勾配画像を前記マスクとして用いるステップと、を含む。
一実施形態では、前記マスク及び前記特徴画像に対して残差フィルタ処理を行うステップは、
前記マスクと前記特徴画像との積を算出し、融合画像を取得するステップと、
前記融合画像に対して、畳み込み計算、正規化線形計算、畳み込み計算を順に含む前処理を行い、前処理された画像を取得するステップと、
前記特徴画像と前記前処理された画像を重ね合わせて、領域強化の特徴画像を取得するステップと、を含む。
一実施形態では、前記深度推定モジュール504は、前記領域強化の特徴画像に対して畳み込み計算を行い、前記単眼画像の深度画像を取得するように構成される。
当業者にとっては、図6に示す単眼画像の深度回復装置における各部の実施機能は、前記単眼画像の深度回復方法の関連記載を参照することによって解釈できることが理解すべきである。図6に示す単眼画像の深度回復装置における各部の機能は、プロセッサー上で動作するプログラムによって実現することもできるし、特定の論理回路によって実現することもできる。
本願の実施形態において前述した単眼画像の深度回復装置は、ソフトウェア機能モジュールの形態で実現され、独立製品として販売または使用される場合に、コンピュータ可読記憶媒体に記憶されてもよい。このような理解に基づいて、本願の実施形態の技術手段は、本質的または従来技術の進歩に寄与する部分がソフトウェア製品の形で実施することができ、該コンピュータソフトウェア製品は記憶媒体に記憶され複数のコマンドを含んでコンピュータ機器(パーソナルコンピュータ、サーバ、またはネットワーク装置等)に、本願の各実施形態で説明されている方法の全部または一部を実行させる。前記の記憶媒体は、USBフラッシュドライブ、モバイルハードディスク、読み出し専用メモリ(ROM、Read Only Memory)、磁気ディスクまたは光ディスク等のプログラムコードを記憶可能である様々な媒体を含む。従って、本願の実施形態はハードウェアとソフトウェアのいかなる特定の組合わせにも限定されない。
これに対応して、本願の実施形態は、コンピュータ実行可能コマンドが記憶されたコンピュータ記憶媒体であって、プロセッサーで該コンピュータ実行可能コマンドを実行する時に、本願の実施形態の前記の単眼画像の深度回復方法を実現するコンピュータ記憶媒体をさらに提供する。
図7は本願の実施形態のコンピュータ機器の構造を概略的に示す模式図であり、図7に示すように、コンピュータ機器100は、1つまたは複数の(図で1つのみを示す)プロセッサー1002(プロセッサー1002は、マイクロプロセッサー(MCU、Micro Controller Unit)またはプログラマブルロジックデバイス(FPGA、Field Programmable Gate Array)等の処理装置を含むが、これに限定されない。)と、データを記憶するためのメモリ1004と、通信機能用の送信装置1006とを、備える。当業者であれば、図7に示す構造は単なる例示であり、前記の電子装置の構造を限定するものではないことが理解すべきである。例えば、コンピュータ機器100はさらに図7に示す要素よりも多いまたは少ない構成要素を含んでもよく、あるいは図7に示すものとは異なる構成を有してもよい。
メモリ1004は、アプリケーションソフトウェアのソフトウェアプログラム及びモジュール、例えば本願の実施形態における方法に対応するプログラムコマンド/モジュールを記憶するために用いられ、プロセッサー1002は、メモリ1004に記憶されたソフトウェアプログラム及びモジュールを実行することによって、様々な機能アプリケーション及びデータ処理、すなわち、前記の方法を実現する。メモリ1004は、高速ランダムアクセスメモリを含んでもよく、更に不揮発性メモリ、例えば1つまたは複数の磁気記憶装置、フラッシュメモリ、または他の不揮発性固体メモリを含んでもよい。いくつかの例では、メモリ1004は、更にプロセッサー1002に対して遠隔配置された、ネットワークを介して前記のコンピュータ機器100に接続され得るメモリを含んでもよい。前記ネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びその組合わせが挙げられるが、これらに限定されない。
送信装置1006は、ネットワークを介してデータを送受信するためのものである。前記のネットワークの具体的な例として、コンピュータ機器100の通信プロバイダによって提供される無線ネットワークを含み得る。一例では、送信装置1006は、インターネットと通信するために基地局を介して他のネットワーク装置に接続されるネットワークインタフェースコントローラ(NIC、Network Interface Controller)を含む。一例では、送信装置1006は、インターネットと無線で通信するための無線周波数(RF、Radio Frequency)モジュールとすることができる。
本願の実施形態に記載されている技術手段は、矛盾なく任意に組み合わせることができる。
本願によって提供されるいくつかの実施形態では、開示された方法およびスマートデバイスは他の方法で実現されてもよいことが理解すべきである。以上説明した機器の実施形態は例示的なものに過ぎず、例えば、前記ユニットの分割は論理的な機能の分割に過ぎず、実際に実施する場合に、その以外の方式で分割してもよく、例えば、複数のユニットまたは構成要素を組み合わせてもよいし、あるいは別のシステムに集積してもよいし、あるいは一部の機能を省略したり実行しなくてもよい。さらに、図示または検討した各構成要素の結合、直接結合、または通信接続は、いくつかのインタフェース、装置またはユニットを介した間接結合または通信接続であり得、電気的、機械的または他の形態であり得る。
別々の構成要素として前述したユニットは物理的に分離されてもされなくてもよく、ユニットとして示された構成要素は物理的ユニットであってもなくてもよく、すなわち一箇所にあっても複数のネットワークユニットに分散してもよいし、本実施形態の技術手段の目的を達成すれば、実際の必要に応じていくつかまたは全てのユニットを選択することができる。
また、本願の各実施形態における各機能ユニットは、1つの第2の処理ユニットに集積されてもよいし、1つのユニットとして別々に使用されてもよく、2つまたは2つ以上のユニットが1つのユニットに集積されてもよいし、前記集積ユニットは、ハードウェアの形で、またはハードウェアとソフトウェアの機能ユニットの形で実現され得る。
以上、本願の具体的な実施形態を説明したが、本願の保護範囲はこれに限定されるものではなく、当業者は本願に開示された技術的範囲内で容易に想到した変更や置換も、すべて本願の保護範囲に含まれる。
産業上の利用可能性
本願の実施形態の技術手段によれば、前記単眼画像に対して特徴抽出を行い、前記単眼画像の特徴画像を取得し、前記特徴画像に対してデカップリングを行い、前記特徴画像のシーン構造マップを取得し、前記特徴画像と前記シーン構造マップに対して勾配感知処理を行い、領域強化の特徴画像を取得し、前記領域強化の特徴画像に基づき深度推定を行い、前記単眼画像の深度画像を取得する。前記の単眼画像の深度回復方法および装置は、少量のデータを用いてより良い深度推定結果を得ることができるだけでなく、勾配感知処理によってより多くの深度詳細を得ることもできる。
尚、以上の一般的な説明及び以下の詳細な説明は例示的及び解釈的なものに過ぎず、本願を制限するものではないことを理解すべきである。
本願明細書は、例えば、以下の項目も提供する。
(項目1)
単眼画像の深度回復方法であって、
前記単眼画像に対して特徴抽出を行い、前記単眼画像の特徴画像を取得するステップと、
前記特徴画像に対してデカップリングを行い、前記特徴画像のシーン構造マップを取得するステップと、
前記特徴画像と前記シーン構造マップに対して勾配感知処理を行い、領域強化の特徴画像を取得するステップと、
前記領域強化の特徴画像に基づき深度推定を行い、前記単眼画像の深度画像を取得するステップと、を含む単眼画像の深度回復方法。
(項目2)
前記単眼画像に対して特徴抽出を行い、前記単眼画像の特徴画像を取得するステップは、
前記単眼画像を第1のニューラルネットワークに入力して特徴抽出を行い、前記単眼画像の特徴画像を取得するステップを含む項目1に記載の方法。
(項目3)
前記第1のニューラルネットワークによって実行される特徴抽出は、
前記単眼画像に対してマルチスケールの特徴抽出を行い、前記単眼画像のマルチスケール特徴情報を取得するステップと、
前記マルチスケール特徴情報に対して残差調整を行い、調整されたマルチスケール特徴情報を取得するステップと、
前記調整されたマルチスケール特徴情報に対して特徴融合を行い、前記特徴画像を取得するステップと、を含む項目2に記載の方法。
(項目4)
前記特徴画像に対してデカップリングを行い、前記特徴画像のシーン構造マップを取得するステップは、
前記特徴画像を第2のニューラルネットワークに入力しデカップリングを行い、前記特徴画像のシーン構造マップを取得するステップを含む項目1に記載の方法。
(項目5)
前記特徴画像を第2のニューラルネットワークに入力する前に、さらに、
少なくとも1つの畳み込み層と正規化線形関数とを含む前記第2のニューラルネットワークを予め確立するステップを含む項目4に記載の方法。
(項目6)
前記特徴画像と前記シーン構造マップに対して勾配感知処理を行い、領域強化の特徴画像を取得する前記ステップは、
前記特徴画像及び前記シーン構造マップを第3のニューラルネットワークに入力し勾配感知処理を行い、領域強化の特徴画像を取得するステップを含む項目1に記載の方法。
(項目7)
前記第3のニューラルネットワークによって実行される勾配感知処理は、
前記シーン構造マップに基づき前記シーン構造マップの実際の勾配画像を取得するステップと、
前記特徴画像に基づき前記特徴画像に対応する予測勾配画像を取得するステップと、
前記実際の勾配画像と前記予測勾配画像に基づき類似度分析を行い、マスクを取得するステップと、
前記マスク及び前記特徴画像に対して残差フィルタ処理を行い、領域強化の特徴画像を取得するステップと、を含む項目6に記載の方法。
(項目8)
前記実際の勾配情報及び前記予測勾配情報に基づき類似度分析を行い、マスクを取得するステップは、
前記実際の勾配画像と前記予測勾配画像との間の類似度を算出するステップと、
予め設定された閾値よりも大きい類似度を有する実際の勾配画像を前記マスクとして用いるステップとを含む項目7に記載の方法。
(項目9)
前記マスク及び前記特徴画像に対して残差フィルタ処理を行うステップは、
前記マスクと前記特徴画像との積を算出し、融合画像を取得するステップと、
前記融合画像に対して、畳み込み計算、正規化線形計算、畳み込み計算を順に含む前処理を行い、前処理された画像を取得するステップと、
前記特徴画像と前記前処理された画像を重ね合わせて、領域強化の特徴画像を取得するステップと、を含む項目7に記載の方法。
(項目10)
前記領域強化の特徴画像に基づき深度推定を行い、前記単眼画像の深度画像を取得するステップは、
前記領域強化の特徴画像に対して畳み込み計算を行い、前記単眼画像の深度画像を取得するステップを含む項目1に記載の方法。
(項目11)
単眼画像の深度回復装置であって、
前記単眼画像に対して特徴抽出を行い、前記単眼画像の特徴画像を取得するように構成される特徴抽出モジュールと、
前記特徴画像に対してデカップリングを行い、前記特徴画像のシーン構造マップを取得するように構成されるシーン構造推定モジュールと、
前記特徴画像と前記シーン構造マップに対して勾配感知処理を行い、領域強化の特徴画像を取得するように構成される勾配感知モジュールと、
前記領域強化の特徴画像に基づき深度推定を行い、前記単眼画像の深度画像を取得するように構成される深度推定モジュールと、を備える単眼画像の深度回復装置。
(項目12)
前記特徴抽出モジュールは、前記単眼画像を第1のニューラルネットワークに入力して特徴抽出を行い、前記単眼画像の特徴画像を取得するように構成される項目11に記載の装置。
(項目13)
前記第1のニューラルネットワークによって実行される特徴抽出は、
前記単眼画像に対してマルチスケールの特徴抽出を行い、前記単眼画像のマルチスケール特徴情報を取得するステップと、
前記マルチスケール特徴情報に対して残差調整を行い、調整されたマルチスケール特徴情報を取得するステップと、
前記調整されたマルチスケール特徴情報に対して特徴融合を行い、前記特徴画像を取得するステップと、を含む項目12に記載の装置。
(項目14)
前記シーン構造推定モジュールは、前記特徴画像を第2のニューラルネットワークに入力しデカップリングを行い、前記特徴画像のシーン構造マップを取得するように構成される項目11に記載の装置。
(項目15)
前記装置は、さらに、
少なくとも1つの畳み込み層と正規化線形関数とを含む前記第2のニューラルネットワークを予め確立するように構成される確立モジュールを備える項目14に記載の装置。
(項目16)
前記勾配感知モジュールは、前記特徴画像及び前記シーン構造マップを第3のニューラルネットワークに入力し勾配感知処理を行い、領域強化の特徴画像を取得するように構成される項目11に記載の装置。
(項目17)
前記第3のニューラルネットワークによって実行される勾配感知処理は、
前記シーン構造マップに基づき前記シーン構造マップの実際の勾配画像を取得するステップと、
前記特徴画像に基づき前記特徴画像に対応する予測勾配画像を取得するステップと、
前記実際の勾配画像と前記予測勾配画像に基づき類似度分析を行い、マスクを取得すると、
前記マスク及び前記特徴画像に対して残差フィルタ処理を行い、領域強化の特徴画像を取得するステップと、を含む項目16に記載の装置。
(項目18)
前記実際の勾配情報及び前記予測勾配情報に基づき類似度分析を行い、マスクを取得するステップは、
前記実際の勾配画像と前記予測勾配画像との間の類似度を算出するステップと、
予め設定された閾値よりも大きい類似度を有する実際の勾配画像を前記マスクとして用いるステップとを含む項目17に記載の装置。
(項目19)
前記マスク及び前記特徴画像に対して残差フィルタ処理を行うステップは、
前記マスクと前記特徴画像との積を算出し、融合画像を取得するステップと、
前記融合画像に対して、畳み込み計算、正規化線形計算、畳み込み計算を順に含む前処理を行い、前処理された画像を取得するステップと、
前記特徴画像と前記前処理された画像を重ね合わせて、領域強化の特徴画像を取得するステップとを含む項目17に記載の装置。
(項目20)
前記深度推定モジュールは、前記領域強化の特徴画像に対して畳み込み計算を行い、前記単眼画像の深度画像を取得するように構成される項目11に記載の装置。
(項目21)
コンピュータ実行可能コマンドを記憶したメモリと、前記メモリ内のコンピュータ実行可能コマンドを実行する時に、項目1〜10中のいずれか1項に記載の方法のステップを実現するプロセッサーとを備えるコンピュータ機器。
(項目22)
コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、前記プロセッサーが前記コンピュータプログラムを実行する時に、項目1〜10中のいずれか1項に記載の方法を実現するコンピュータ可読記憶媒体。
(項目23)
コンピュータコマンドを含むコンピュータプログラムであって、機器のプロセッサーで前記コンピュータコマンドを実行する時に、項目1〜10中のいずれか1項に記載の方法を実現するコンピュータプログラム。

Claims (23)

  1. 単眼画像の深度回復方法であって、
    前記単眼画像に対して特徴抽出を行い、前記単眼画像の特徴画像を取得するステップと、
    前記特徴画像に対してデカップリングを行い、前記特徴画像のシーン構造マップを取得するステップと、
    前記特徴画像と前記シーン構造マップに対して勾配感知処理を行い、領域強化の特徴画像を取得するステップと、
    前記領域強化の特徴画像に基づき深度推定を行い、前記単眼画像の深度画像を取得するステップと、を含む単眼画像の深度回復方法。
  2. 前記単眼画像に対して特徴抽出を行い、前記単眼画像の特徴画像を取得するステップは、
    前記単眼画像を第1のニューラルネットワークに入力して特徴抽出を行い、前記単眼画像の特徴画像を取得するステップを含む請求項1に記載の方法。
  3. 前記第1のニューラルネットワークによって実行される特徴抽出は、
    前記単眼画像に対してマルチスケールの特徴抽出を行い、前記単眼画像のマルチスケール特徴情報を取得するステップと、
    前記マルチスケール特徴情報に対して残差調整を行い、調整されたマルチスケール特徴情報を取得するステップと、
    前記調整されたマルチスケール特徴情報に対して特徴融合を行い、前記特徴画像を取得するステップと、を含む請求項2に記載の方法。
  4. 前記特徴画像に対してデカップリングを行い、前記特徴画像のシーン構造マップを取得するステップは、
    前記特徴画像を第2のニューラルネットワークに入力しデカップリングを行い、前記特徴画像のシーン構造マップを取得するステップを含む請求項1に記載の方法。
  5. 前記特徴画像を第2のニューラルネットワークに入力する前に、さらに、
    少なくとも1つの畳み込み層と正規化線形関数とを含む前記第2のニューラルネットワークを予め確立するステップを含む請求項4に記載の方法。
  6. 前記特徴画像と前記シーン構造マップに対して勾配感知処理を行い、領域強化の特徴画像を取得する前記ステップは、
    前記特徴画像及び前記シーン構造マップを第3のニューラルネットワークに入力し勾配感知処理を行い、領域強化の特徴画像を取得するステップを含む請求項1に記載の方法。
  7. 前記第3のニューラルネットワークによって実行される勾配感知処理は、
    前記シーン構造マップに基づき前記シーン構造マップの実際の勾配画像を取得するステップと、
    前記特徴画像に基づき前記特徴画像に対応する予測勾配画像を取得するステップと、
    前記実際の勾配画像と前記予測勾配画像に基づき類似度分析を行い、マスクを取得するステップと、
    前記マスク及び前記特徴画像に対して残差フィルタ処理を行い、領域強化の特徴画像を取得するステップと、を含む請求項6に記載の方法。
  8. 前記実際の勾配情報及び前記予測勾配情報に基づき類似度分析を行い、マスクを取得するステップは、
    前記実際の勾配画像と前記予測勾配画像との間の類似度を算出するステップと、
    予め設定された閾値よりも大きい類似度を有する実際の勾配画像を前記マスクとして用いるステップとを含む請求項7に記載の方法。
  9. 前記マスク及び前記特徴画像に対して残差フィルタ処理を行うステップは、
    前記マスクと前記特徴画像との積を算出し、融合画像を取得するステップと、
    前記融合画像に対して、畳み込み計算、正規化線形計算、畳み込み計算を順に含む前処理を行い、前処理された画像を取得するステップと、
    前記特徴画像と前記前処理された画像を重ね合わせて、領域強化の特徴画像を取得するステップと、を含む請求項7に記載の方法。
  10. 前記領域強化の特徴画像に基づき深度推定を行い、前記単眼画像の深度画像を取得するステップは、
    前記領域強化の特徴画像に対して畳み込み計算を行い、前記単眼画像の深度画像を取得するステップを含む請求項1に記載の方法。
  11. 単眼画像の深度回復装置であって、
    前記単眼画像に対して特徴抽出を行い、前記単眼画像の特徴画像を取得するように構成される特徴抽出モジュールと、
    前記特徴画像に対してデカップリングを行い、前記特徴画像のシーン構造マップを取得するように構成されるシーン構造推定モジュールと、
    前記特徴画像と前記シーン構造マップに対して勾配感知処理を行い、領域強化の特徴画像を取得するように構成される勾配感知モジュールと、
    前記領域強化の特徴画像に基づき深度推定を行い、前記単眼画像の深度画像を取得するように構成される深度推定モジュールと、を備える単眼画像の深度回復装置。
  12. 前記特徴抽出モジュールは、前記単眼画像を第1のニューラルネットワークに入力して特徴抽出を行い、前記単眼画像の特徴画像を取得するように構成される請求項11に記載の装置。
  13. 前記第1のニューラルネットワークによって実行される特徴抽出は、
    前記単眼画像に対してマルチスケールの特徴抽出を行い、前記単眼画像のマルチスケール特徴情報を取得するステップと、
    前記マルチスケール特徴情報に対して残差調整を行い、調整されたマルチスケール特徴情報を取得するステップと、
    前記調整されたマルチスケール特徴情報に対して特徴融合を行い、前記特徴画像を取得するステップと、を含む請求項12に記載の装置。
  14. 前記シーン構造推定モジュールは、前記特徴画像を第2のニューラルネットワークに入力しデカップリングを行い、前記特徴画像のシーン構造マップを取得するように構成される請求項11に記載の装置。
  15. 前記装置は、さらに、
    少なくとも1つの畳み込み層と正規化線形関数とを含む前記第2のニューラルネットワークを予め確立するように構成される確立モジュールを備える請求項14に記載の装置。
  16. 前記勾配感知モジュールは、前記特徴画像及び前記シーン構造マップを第3のニューラルネットワークに入力し勾配感知処理を行い、領域強化の特徴画像を取得するように構成される請求項11に記載の装置。
  17. 前記第3のニューラルネットワークによって実行される勾配感知処理は、
    前記シーン構造マップに基づき前記シーン構造マップの実際の勾配画像を取得するステップと、
    前記特徴画像に基づき前記特徴画像に対応する予測勾配画像を取得するステップと、
    前記実際の勾配画像と前記予測勾配画像に基づき類似度分析を行い、マスクを取得すると、
    前記マスク及び前記特徴画像に対して残差フィルタ処理を行い、領域強化の特徴画像を取得するステップと、を含む請求項16に記載の装置。
  18. 前記実際の勾配情報及び前記予測勾配情報に基づき類似度分析を行い、マスクを取得するステップは、
    前記実際の勾配画像と前記予測勾配画像との間の類似度を算出するステップと、
    予め設定された閾値よりも大きい類似度を有する実際の勾配画像を前記マスクとして用いるステップとを含む請求項17に記載の装置。
  19. 前記マスク及び前記特徴画像に対して残差フィルタ処理を行うステップは、
    前記マスクと前記特徴画像との積を算出し、融合画像を取得するステップと、
    前記融合画像に対して、畳み込み計算、正規化線形計算、畳み込み計算を順に含む前処理を行い、前処理された画像を取得するステップと、
    前記特徴画像と前記前処理された画像を重ね合わせて、領域強化の特徴画像を取得するステップとを含む請求項17に記載の装置。
  20. 前記深度推定モジュールは、前記領域強化の特徴画像に対して畳み込み計算を行い、前記単眼画像の深度画像を取得するように構成される請求項11に記載の装置。
  21. コンピュータ実行可能コマンドを記憶したメモリと、前記メモリ内のコンピュータ実行可能コマンドを実行する時に、請求項1〜10中のいずれか1項に記載の方法のステップを実現するプロセッサーとを備えるコンピュータ機器。
  22. コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、前記プロセッサーが前記コンピュータプログラムを実行する時に、請求項1〜10中のいずれか1項に記載の方法を実現するコンピュータ可読記憶媒体。
  23. コンピュータコマンドを含むコンピュータプログラムであって、機器のプロセッサーで前記コンピュータコマンドを実行する時に、請求項1〜10中のいずれか1項に記載の方法を実現するコンピュータプログラム。
JP2020520708A 2018-05-23 2018-11-19 単眼画像の深度回復方法及び装置、コンピュータ機器 Active JP6850399B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810502947.0 2018-05-23
CN201810502947.0A CN108932734B (zh) 2018-05-23 2018-05-23 单目图像的深度恢复方法及装置、计算机设备
PCT/CN2018/116276 WO2019223262A1 (zh) 2018-05-23 2018-11-19 单目图像的深度恢复方法及装置、计算机设备

Publications (3)

Publication Number Publication Date
JP2020524355A true JP2020524355A (ja) 2020-08-13
JP2020524355A5 JP2020524355A5 (ja) 2021-03-18
JP6850399B2 JP6850399B2 (ja) 2021-03-31

Family

ID=64449119

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020520708A Active JP6850399B2 (ja) 2018-05-23 2018-11-19 単眼画像の深度回復方法及び装置、コンピュータ機器

Country Status (5)

Country Link
US (1) US11004221B2 (ja)
JP (1) JP6850399B2 (ja)
CN (1) CN108932734B (ja)
SG (1) SG11201912423WA (ja)
WO (1) WO2019223262A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6971934B2 (ja) * 2018-08-10 2021-11-24 株式会社東芝 画像処理装置
CN109948689B (zh) * 2019-03-13 2022-06-03 北京达佳互联信息技术有限公司 一种视频生成方法、装置、电子设备及存储介质
CN110515463B (zh) * 2019-08-29 2023-02-28 南京泛在地理信息产业研究院有限公司 一种手势交互式视频场景中基于单目视觉的3d模型嵌入方法
CN112446909B (zh) * 2019-08-30 2022-02-01 上海商汤临港智能科技有限公司 一种深度图像补全方法及装置、计算机可读存储介质
CN110992304B (zh) * 2019-10-30 2023-07-07 浙江力邦合信智能制动系统股份有限公司 二维图像深度测量方法及其在车辆安全监测中的应用
US20210366139A1 (en) * 2020-05-21 2021-11-25 Samsung Electronics Co., Ltd. Method and apparatus for generating depth image
US12014507B2 (en) 2021-06-10 2024-06-18 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for training a prediction system
CN114143517A (zh) * 2021-10-26 2022-03-04 深圳华侨城卡乐技术有限公司 一种基于重叠区域的融合蒙板计算方法、系统及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120002871A1 (en) * 2010-07-01 2012-01-05 Miao Hu Method of Estimating Depths from a Single Image Displayed on Display
JP2012525190A (ja) * 2009-04-29 2012-10-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 単眼の内視鏡画像からのリアルタイム深度推定
CN103413347A (zh) * 2013-07-05 2013-11-27 南京邮电大学 基于前景背景融合的单目图像深度图提取方法
CN105374039A (zh) * 2015-11-16 2016-03-02 辽宁大学 基于轮廓锐度的单目图像深度信息估计方法
CN107204010A (zh) * 2017-04-28 2017-09-26 中国科学院计算技术研究所 一种单目图像深度估计方法与系统
CN107578436A (zh) * 2017-08-02 2018-01-12 南京邮电大学 一种基于全卷积神经网络fcn的单目图像深度估计方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2729106A1 (en) * 2008-06-24 2009-12-30 Thomson Licensing System and method for depth extraction of images with motion compensation
US8982187B2 (en) * 2011-09-19 2015-03-17 Himax Technologies Limited System and method of rendering stereoscopic images
US9471988B2 (en) * 2011-11-02 2016-10-18 Google Inc. Depth-map generation for an input image using an example approximate depth-map associated with an example similar image
CN106157307B (zh) * 2016-06-27 2018-09-11 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN106768325A (zh) * 2016-11-21 2017-05-31 清华大学 多光谱光场视频采集装置
US11315292B2 (en) * 2017-03-02 2022-04-26 Arizona Board Of Regents On Behalf Of Arizona State University Live-cell computed tomography
US10504282B2 (en) * 2018-03-21 2019-12-10 Zoox, Inc. Generating maps without shadows using geometry

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012525190A (ja) * 2009-04-29 2012-10-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 単眼の内視鏡画像からのリアルタイム深度推定
US20120002871A1 (en) * 2010-07-01 2012-01-05 Miao Hu Method of Estimating Depths from a Single Image Displayed on Display
CN103413347A (zh) * 2013-07-05 2013-11-27 南京邮电大学 基于前景背景融合的单目图像深度图提取方法
CN105374039A (zh) * 2015-11-16 2016-03-02 辽宁大学 基于轮廓锐度的单目图像深度信息估计方法
CN107204010A (zh) * 2017-04-28 2017-09-26 中国科学院计算技术研究所 一种单目图像深度估计方法与系统
CN107578436A (zh) * 2017-08-02 2018-01-12 南京邮电大学 一种基于全卷积神经网络fcn的单目图像深度估计方法

Also Published As

Publication number Publication date
US20200143552A1 (en) 2020-05-07
SG11201912423WA (en) 2020-01-30
JP6850399B2 (ja) 2021-03-31
WO2019223262A1 (zh) 2019-11-28
US11004221B2 (en) 2021-05-11
CN108932734B (zh) 2021-03-09
CN108932734A (zh) 2018-12-04

Similar Documents

Publication Publication Date Title
JP6850399B2 (ja) 単眼画像の深度回復方法及び装置、コンピュータ機器
US11145083B2 (en) Image-based localization
JP2020524355A5 (ja)
CN111325796B (zh) 用于确定视觉设备的位姿的方法和装置
US11308347B2 (en) Method of determining a similarity transformation between first and second coordinates of 3D features
CN110637305B (zh) 通过渲染许多3d视图来学习重构3d形状
KR102647351B1 (ko) 3차원의 포인트 클라우드를 이용한 모델링 방법 및 모델링 장치
CN110264509A (zh) 确定图像捕捉设备的位姿的方法、装置及其存储介质
WO2018089163A1 (en) Methods and systems of performing object pose estimation
EP3343506A1 (en) Method and device for joint segmentation and 3d reconstruction of a scene
CN112154486B (zh) 用于多用户增强现实购物的系统和方法
US11315313B2 (en) Methods, devices and computer program products for generating 3D models
CN110598771A (zh) 一种基于深度语义分割网络的视觉目标识别方法和装置
CN113592015A (zh) 定位以及训练特征匹配网络的方法和装置
JP6955081B2 (ja) オブジェクト姿勢を決定するための電子デバイス、システムおよび方法
Sharma et al. A novel 3d-unet deep learning framework based on high-dimensional bilateral grid for edge consistent single image depth estimation
Liu et al. Depth estimation of traffic scenes from image sequence using deep learning
Schwarz et al. Tracking planes with time of flight cameras and j-linkage
CN112449701B (zh) 学习模板表示库
Madhavan et al. Implementation of Customized Adaptive Algorithms for Visualization of Stereoscopic Face Mask
Liu et al. Check for updates Depth Estimation of Traffic Scenes from Image Sequence Using Deep Learning
Rodriguez et al. Moments-based stereo camera egomotion analysis and results for long-range trajectories
CN116051832A (zh) 车辆的三维标注方法和装置
Abdellaoui et al. New matching method for human body tracking
Mitchell et al. A robust structure and motion replacement for bundle adjustment

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191220

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201120

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20210202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210305

R150 Certificate of patent or registration of utility model

Ref document number: 6850399

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250