JP2021500689A - 単眼画像深度推定方法及び装置、機器、プログラム及び記憶媒体 - Google Patents

単眼画像深度推定方法及び装置、機器、プログラム及び記憶媒体 Download PDF

Info

Publication number
JP2021500689A
JP2021500689A JP2020542490A JP2020542490A JP2021500689A JP 2021500689 A JP2021500689 A JP 2021500689A JP 2020542490 A JP2020542490 A JP 2020542490A JP 2020542490 A JP2020542490 A JP 2020542490A JP 2021500689 A JP2021500689 A JP 2021500689A
Authority
JP
Japan
Prior art keywords
monocular image
depth map
features
depth
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020542490A
Other languages
English (en)
Other versions
JP6963695B2 (ja
Inventor
甘宇康
▲許▼翔宇
▲孫▼文秀
林▲りゃん▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Publication of JP2021500689A publication Critical patent/JP2021500689A/ja
Application granted granted Critical
Publication of JP6963695B2 publication Critical patent/JP6963695B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本願の実施例は、深度推定ニューラルネットワークにより、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得するステップと、前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得するステップと、を含む単眼画像深度推定方法及び装置、機器、コンピュータプログラム並びに記憶媒体を開示する。本願の実施例は単眼画像深度推定の正確度を高めることができる。

Description

(関連出願の相互参照)
本願は、出願番号が201810845040.4で、出願日が2018年7月27日である中国特許出願に基づいて提出され、且つ該中国特許出願の優先権を主張し、該中国特許出願の全ての内容が参照によって本願に組み込まれる。
本願は、コンピュータビジョン技術に関し、特に、単眼画像深度推定方法及び装置、電子機器、コンピュータプログラム並びに記憶媒体に関する。
画像の深度推定は、コンピュータビジョン分野の重要な課題となっており、現在、主に単眼画像深度推定と両眼画像深度推定を含む。ここで、単眼画像深度推定は主に単眼画像に基づいて画像の深度情報を推定するが、それが非常に困難な課題であるため、従来の単眼画像深度推定方法により予測された単眼画像の深度情報の正確度がまだ悪い。
本願の実施例は、単眼画像深度推定の技術的手段を提供する。
本願の実施例の一態様によれば、
深度推定ニューラルネットワークにより、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得するステップと、
前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得するステップと、を含む単眼画像深度推定方法を提供する。
選択可能に、本願の上記方法実施例では、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得する前記ステップの前に、
前記単眼画像に対して第1ニューラルネットワークにより特徴抽出を行って前記単眼画像内の各所定領域の特徴を取得し、前記各所定領域の特徴を前記単眼画像内の各所定領域の絶対特徴とするステップと、
前記単眼画像内の各所定領域の絶対特徴に基づいて、前記単眼画像内の各所定領域の間の相対特徴を取得するステップと、を更に含む。
選択可能に、本願の上記のいずれか1つの方法実施例では、前記単眼画像内の各所定領域の絶対特徴に基づいて、前記単眼画像内の各所定領域の間の相対特徴を取得する前記ステップには、
前記単眼画像内の各所定領域の絶対特徴に対して、関連度層を介してベクトル演算を行って、前記単眼画像内の各所定領域の間の相対特徴を取得するステップを含む。
選択可能に、本願の上記のいずれか1つの方法実施例では、前記単眼画像に対して第1ニューラルネットワークにより特徴抽出を行うステップの前に、
前記単眼画像に対してダウンサンプリングを行って所定次元を有する単眼画像を取得するステップを更に含み、前記単眼画像の次元が前記所定次元の倍数である。
選択可能に、本願の上記のいずれか1つの方法実施例では、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得する前記ステップには、
全結合層によって前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴を組み合わせ、前記単眼画像のグローバル特徴を取得するステップを含む。
選択可能に、本願の上記のいずれか1つの方法実施例では、前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得する前記ステップには、
前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、深度推定器で深度推定を行って、前記単眼画像の予測深度マップを取得するステップを含む。
選択可能に、本願の上記のいずれか1つの方法実施例では、前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得する前記ステップの後に、
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得するステップを更に含む。
選択可能に、本願の上記のいずれか1つの方法実施例では、前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得する前記ステップには、
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得するステップと、
前記残差マップに基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得するステップと、を含む。
選択可能に、本願の上記のいずれか1つの方法実施例では、前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得する前記ステップには、
前記単眼画像の深度情報の縦方向変化法則に基づいて、残差推定ネットワークによって前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得するステップを含み、
前記残差マップに基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得する前記ステップには、
前記残差マップと前記予測深度マップに対して画素ずつの重畳演算を行って、前記単眼画像の目標深度マップを取得するステップを含む。
選択可能に、本願の上記のいずれか1つの方法実施例では、前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得する前記ステップの前に、
前記予測深度マップに基づいて、前記単眼画像の深度情報の縦方向変化法則を取得するステップを更に含む。
選択可能に、本願の上記のいずれか1つの方法実施例では、前記予測深度マップに基づいて、前記単眼画像の深度情報の縦方向変化法則を取得する前記ステップには、
縦方向プーリング層によって前記予測深度マップを処理して、前記単眼画像の深度情報の縦方向変化法則を取得するステップを含む。
選択可能に、本願の上記のいずれか1つの方法実施例では、前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化する前記ステップには、
前記予測深度マップに対して所定回数のアップサンプリングを行い、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップに基づいて、深度情報の縦方向変化法則を取得し、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップの深度情報の縦方向変化法則に基づいて、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップを最適化して、最適化後の目標深度マップを取得するステップを含み、
最終回のアップサンプリング以外の毎回のアップサンプリングで取得された最適化後の目標深度マップを次回のアップサンプリングの予測深度マップとし、最終回のアップサンプリングで取得された最適化後の目標深度マップを、前記単眼画像の目標深度マップとし、前記目標深度マップの次元が前記単眼画像の次元と同じである。
選択可能に、本願の上記のいずれか1つの方法実施例では、前記深度推定ニューラルネットワークは、関連度層、全結合層及び深度推定器を含み、疎な深度マップと両眼画像の立体的なマッチングで取得された密な深度マップをアノテーションデータとして利用して、前記深度推定ニューラルネットワークをトレーニングする。
本願の実施例の別の態様によれば、
単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得し、前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得するように構成される深度推定ニューラルネットワークを含む単眼画像深度推定装置を提供する。
選択可能に、本願の上記装置実施例では、
前記単眼画像に対して特徴抽出を行って、前記単眼画像内の各所定領域の特徴を取得し、前記各所定領域の特徴を前記単眼画像内の各所定領域の絶対特徴とするように構成される第1ニューラルネットワークを更に含み、
前記深度推定ニューラルネットワークは、更に、前記単眼画像内の各所定領域の絶対特徴に基づいて、前記単眼画像内の各所定領域の間の相対特徴を取得するために用いられる。
選択可能に、本願の上記のいずれか1つの装置実施例では、前記深度推定ニューラルネットワークは、
前記単眼画像内の各所定領域の絶対特徴に対してベクトル演算を行って、前記単眼画像内の各所定領域の間の相対特徴を取得するように構成される関連度層を含む。
選択可能に、本願の上記のいずれか1つの装置実施例では、
前記単眼画像に対して特徴抽出を行う前に、前記単眼画像に対してダウンサンプリングを行って所定次元を有する単眼画像を取得するように構成されるダウンサンプリング層を更に含み、前記単眼画像の次元が前記所定次元の倍数である。
選択可能に、本願の上記のいずれか1つの装置実施例では、前記深度推定ニューラルネットワークは、
前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴を組み合わせ、前記単眼画像のグローバル特徴を取得するように構成される全結合層を含む。
選択可能に、本願の上記のいずれか1つの装置実施例では、前記深度推定ニューラルネットワークは、
前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて深度推定を行って、前記単眼画像の予測深度マップを取得するように構成される深度推定器を含む。
選択可能に、本願の上記のいずれか1つの装置実施例では、
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得するように構成される第2ニューラルネットワークを更に含む。
選択可能に、本願の上記のいずれか1つの装置実施例では、前記第2ニューラルネットワークは、前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得し、前記残差マップに基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得するように構成される。
選択可能に、本願の上記のいずれか1つの装置実施例では、前記第2ニューラルネットワークは、
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得するように構成される残差推定ネットワークと、
前記残差マップと前記予測深度マップに対して画素ずつの重畳演算を行って、前記単眼画像の目標深度マップを取得するように構成される加算ユニットと、を含む。
選択可能に、本願の上記のいずれか1つの装置実施例では、前記第2ニューラルネットワークは、更に、前記予測深度マップに基づいて、前記単眼画像の深度情報の縦方向変化法則を取得するために用いられる。
選択可能に、本願の上記のいずれか1つの装置実施例では、前記第2ニューラルネットワークは、
前記予測深度マップを処理して、前記単眼画像の深度情報の縦方向変化法則を取得するように構成される縦方向プーリング層を含む。
選択可能に、本願の上記のいずれか1つの装置実施例では、
前記予測深度マップに対して所定回数のアップサンプリングを行うように構成されるアップサンプリング層と、
毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップに基づいて、深度情報の縦方向変化法則を取得するように構成される縦方向プーリング層と、を更に含み、
前記第2ニューラルネットワークは、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップの深度情報の縦方向変化法則に基づいて、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップを最適化して、最適化後の目標深度マップを取得するように構成され、
最終回のアップサンプリング以外の毎回のアップサンプリングで取得された最適化後の目標深度マップを次回のアップサンプリングの予測深度マップとし、最終回のアップサンプリングで取得された最適化後の目標深度マップを、前記単眼画像の目標深度マップとし、前記目標深度マップの次元が前記単眼画像の次元と同じである。
選択可能に、本願の上記のいずれか1つの装置実施例では、前記深度推定ニューラルネットワークは、関連度層、全結合層及び深度推定器を含み、疎な深度マップと両眼画像の立体的なマッチングで取得された密な深度マップをアノテーションデータとして利用して、前記深度推定ニューラルネットワークをトレーニングする。
本願の実施例の更に別の態様によれば、上記のいずれか1つの実施例に記載の装置を含む電子機器を提供する。
本願の実施例のまた1つの態様によれば、
実行可能コマンドを記憶するように構成されるメモリと、
前記実行可能コマンドを実行して上記のいずれか1つの実施例に記載の方法を実行するように構成されるプロセッサと、を含む電子機器を提供する。
本願の実施例のまた1つの態様によれば、コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードが機器上で作動する時に、前記機器におけるプロセッサが上記のいずれか1つの実施例に記載の方法を実現するためのコマンドを実行するコンピュータプログラムを提供する。
本願の実施例のまた1つの態様によれば、コンピュータ可読コマンドを記憶し、前記コマンドが実行される時に上記のいずれか1つの実施例に記載の方法が実現されるように構成されるコンピュータ記憶媒体を提供する。
本願の上記実施例で提供される単眼画像深度推定方法及び装置、電子機器、コンピュータプログラム並びに記憶媒体によれば、深度推定ニューラルネットワークにより、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像のグローバル特徴を取得し、グローバル特徴、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像の予測深度マップを取得するようになっており、単眼画像深度推定で画像内の各所定領域の相対特徴と絶対特徴を用いて相互に補充することによって、深度推定での相対距離予測の正確度を高めて、単眼画像深度推定の正確度を高めることができる。
以下、図面及び実施例を通じて本願の技術的手段をさらに詳しく説明する。
本願のいくつかの実施例の単眼画像深度推定方法のフローチャートである。 本願の別の実施例の単眼画像深度推定方法のフローチャートである。 本願の実施例でマルチスケール学習により最適化する時の各スケール最適化のフローチャートである。 本願のいくつかの実施例の単眼画像深度推定方法を実現するネットワーク構成の模式図である。 本願のいくつかの実施例の単眼画像深度推定方法を実現するネットワーク構成の模式図である。 本願のいくつかの実施例の単眼画像深度推定方法を実現するネットワーク構成の模式図である。 本願のいくつかの実施例の単眼画像深度推定装置の構造模式図である。 本願の別の実施例の単眼画像深度推定装置の構造模式図である。 本願の更に別の実施例の単眼画像深度推定装置の構造模式図である。 本願のいくつかの実施例で提供される電子機器の構造模式図である。
図面を参照し、以下の詳細な説明により本願をより明瞭に理解することができる。
明細書の一部を構成する図面は、本願の実施例を説明し、その説明と共に本願の原理を解釈することに用いられる。
ここで、図面を参照しながら本願の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施例で記述した部材及びステップの相対的配置、数式及び値は本願の範囲を限定するものではないことに注意すべきである。
同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。
以下の少なくとも一つの例示的な実施例に対する説明は実際に説明的なものに過ぎず、本願及びその適用または使用へのなんらの制限にもならない。
関連分野の当業者に既知の技術、方法及び機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法及び機器は明細書の一部と見なすべきである。
なお、類似する符号及び英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。
本願の実施例はコンピュータシステム/サーバに適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。コンピュータシステム/サーバとの併用に適する公知の計算システム、環境及び/または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム及び前記の任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。
コンピュータシステム/サーバはコンピュータシステムにより実行されるコンピュータシステム実行可能コマンド(例えば、プログラムモジュール)の一般的な言語環境において記述できる。通常、プログラムモジュールはルーチン、プログラム、目的プログラム、コンポーネント、ロジック、データ構造などを含んでよく、それらは特定のタスクを実行するかまたは特定の抽象データ型を実現する。コンピュータシステム/サーバは分散型クラウドコンピューティング環境において実施でき、分散型クラウドコンピューティング環境において、タスクは通信ネットワークにわたってリンクされた遠隔処理機器により実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してよい。
図1は本願のいくつかの実施例の単眼画像深度推定方法のフローチャートである。
図1に示すように、該方法は、以下のステップを含む。
102において、深度推定ニューラルネットワークにより、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像のグローバル特徴を取得する。
本実施例では、単眼画像は、写真機、ビデオカメラ、スキャナ等のような画像取得装置から取得された画像であってもよいし、USBメモリ、光ディスク、ハードディスク等のような記憶装置から取得された画像であってもよく、本実施例では単眼画像の取得方式が限定されない。ここで、単眼画像内の各所定領域の絶対特徴は、例えば、模様特徴、幾何特徴等を含んでよい、単眼画像内の各所定領域の局所的外観を表すためのものであってよい。単眼画像内の各所定領域の間の相対特徴は、例えば、模様相違点、幾何相違点等を含んでよい、単眼画像内の各所定領域の局所的外観同士の相違点を表すためのものであってよい。単眼画像中の各所定領域は画像の特徴により設定可能である。本実施例の深度マップとは、画像内の各画素の画素値で画像内の各画素から画像取得装置までの距離を表現する画像を指す。
選択可能な一例では、全結合層によって単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴を組み合わせ、単眼画像のグローバル特徴を取得するようにしてよい。
104において、グローバル特徴、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像の予測深度マップを取得する。
選択可能な一例では、単眼画像のグローバル特徴、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、深度推定器で深度推定を行って、単眼画像の予測深度マップを取得するようにしてよい。例えば、深度推定器としては、主に畳み込み層と逆畳み込み層からなり、画像の幾何分布情報、即ち、画像のグローバル特徴、画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて画像内の各画素の深度値を回帰させて予測深度マップを取得することができる完全畳み込みネットワークを用いてよい。
本実施例で提供される単眼画像深度推定方法は、深度推定ニューラルネットワークにより、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像のグローバル特徴を取得し、また、グローバル特徴、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像の予測深度マップを取得するようになっており、単眼画像深度推定で画像内の各所定領域の相対特徴と絶対特徴を用いて相互に補充することによって、深度推定での相対距離予測の正確度を高め、単眼画像深度推定の正確度を高めることができる。
選択可能に、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像のグローバル特徴を取得する前に、更に、単眼画像に対して第1ニューラルネットワークにより特徴抽出を行って、単眼画像内の各所定領域の特徴を取得し、各所定領域の特徴を単眼画像内の各所定領域の絶対特徴とし、次に単眼画像内の各所定領域の絶対特徴に基づいて単眼画像内の各所定領域の間の相対特徴を取得するようにしてよい。例えば、第1ニューラルネットワークとしては、畳み込み層とプーリング層からなるエンコーダネットワークを用いてよく、単眼画像に対してエンコーダネットワークにより特徴抽出を行って、画像の高次元特徴を取得することができる。
選択可能な一例では、単眼画像内の各所定領域の絶対特徴に対して、関連度層を介してベクトル演算を行って、単眼画像内の各所定領域の間の相対特徴を取得するようにしてよい。ここで、画像内の各所定領域の間の相対特徴は、画像内の各所定領域とその周りの特定範囲内の所定領域の間の相対特徴であってよく、例えば、単眼画像内の各所定領域とその周りの特定範囲内の所定領域の間の特徴ベクトルに対してドット積演算を行うことによって、単眼画像内の各所定領域の間の相対特徴を取得するようにしてよい。
選択可能に、単眼画像に対して第1ニューラルネットワークにより特徴抽出を行う前に、更に、単眼画像に対してダウンサンプリングを行って、所定次元を有する単眼画像を取得し、所定次元を有する単眼画像を、深度推定ニューラルネットワークにより深度推定を行われる単眼画像とするようにしてよく、それによって、計算量を減少して、データ処理の速度を高める。ここで、単眼画像の次元は、所定次元の倍数であり、例えば、所定次元の8倍である。
通常、画像の垂直方向での深度変化は水平方向での深度変化より大きく、例えば、運転シーンでは、画像中の道路は一般的に垂直方向に沿ってビデオカメラから離れるところへ延伸し、このことから、画像深度情報の縦方向変化法則が画像絶対距離の推定に有利であることを分かった。従って、単眼画像の深度情報の縦方向変化法則を単眼画像の深度推定に用いることができ、例えば、単眼画像の深度情報の縦方向変化法則に基づいて、予測深度マップを最適化することができる。
いくつかの実施例では、図2に示すように、グローバル特徴、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像の予測深度マップを取得する操作204の後に、
206において、単眼画像の深度情報の縦方向変化法則に基づいて、予測深度マップを最適化して、単眼画像の目標深度マップを取得するステップを更に含んでよい。
選択可能に、単眼画像の深度情報の縦方向変化法則に基づいて、予測深度マップに対して残差推定を行って、予測深度マップの残差マップを取得し、次に残差マップに基づいて、予測深度マップを最適化して、単眼画像の目標深度マップを取得するようにしてよい。
選択可能な一例では、単眼画像の深度情報の縦方向変化法則に基づいて、残差推定ネットワークによって予測深度マップに対して残差推定を行って、予測深度マップの残差マップを取得し、次に残差マップと予測深度マップに対して画素ずつの重畳演算を行って、単眼画像の目標深度マップを取得するようにしてよい。
選択可能に、単眼画像の深度情報の縦方向変化法則に基づいて、予測深度マップを最適化して、単眼画像の目標深度マップを取得する前に、更に予測深度マップに基づいて、単眼画像の深度情報の縦方向変化法則を取得するようにしてよい。
選択可能な一例では、縦方向プーリング層によって予測深度マップを処理して、単眼画像の深度情報の縦方向変化法則を取得するようにしてよい。ここで、縦方向プーリング層は、列ベクトルを用いてプーリングカーネルとして、予測深度マップに対してプーリング処理を行ってよく、例えば、大きさがH×1のプーリングカーネルを用いて予測深度マップに対して平均プーリング処理を行ってよく、ここでHが1より大きい整数である。
本実施例で提供される単眼画像深度推定方法は、深度推定ニューラルネットワークにより、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像のグローバル特徴を取得し、また、グローバル特徴、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像の予測深度マップを取得し、また、単眼画像の深度情報の縦方向変化法則に基づいて、予測深度マップを最適化して、単眼画像の目標深度マップを取得するようになっており、単眼画像深度推定で画像内の各所定領域の相対特徴と絶対特徴を用いて相互に補充することによって、深度推定での相対距離予測の正確度を高めると共に、画像深度情報の縦方向変化法則を用いて最適化して、深度推定での絶対距離予測の正確度を高め、それによって単眼画像深度推定の正確度を全面的に高めることができる。
いくつかの実施例では、単眼画像に対して第1ニューラルネットワークにより特徴抽出を行う前に、単眼画像に対してダウンサンプリングを行って、所定次元を有する単眼画像を取得し、所定次元を有する単眼画像を、深度推定ニューラルネットワークにより深度推定を行われる単眼画像とする時に、単眼画像の深度情報の縦方向変化法則に基づいて、予測深度マップを最適化するようになっており、単眼画像深度推定の正確度を高めるために、マルチスケール学習の方法を用いてよい。
選択可能に、予測深度マップに対して所定回数のアップサンプリングを行い、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップに基づいて、深度情報の縦方向変化法則を取得し、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップの深度情報の縦方向変化法則に基づいて、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップを最適化して、最適化後の目標深度マップを取得するようにしてよい。ここで、最終回のアップサンプリング以外の毎回のアップサンプリングで取得された最適化後の目標深度マップを次回のアップサンプリングの予測深度マップとし、最終回のアップサンプリングで取得された最適化後の目標深度マップを単眼画像の目標深度マップとし、該目標深度マップの次元が単眼画像の次元と同じである。
以下、図3を参照しながら、マルチスケール学習により最適化する時の各スケール最適化のフローを詳細に説明する。
図3に示すように、該方法は、以下のステップを含む。
302において、第1所定次元を有する予測深度マップに対してアップサンプリングを行って、第2所定次元を有する予測深度マップを取得する。
本実施例では、第1所定次元を有する予測深度マップは、深度推定ニューラルネットワークから取得された予測深度マップであってもよいし、前のスケール最適化フローから取得された最適化後の目標深度マップであってもよい。第2所定次元は第1所定次元の倍数であり、ここで、第1所定次元と第2所定次元がアップサンプリングの回数、周波数及び単眼画像のサイズ等に依存するものであってよい。
選択可能な一例では、アップサンプリング層によって第1所定次元を有する予測深度マップに対してアップサンプリングを行って、第2所定次元を有する予測深度マップを取得するようにしてよい。
304において、第2所定次元を有する予測深度マップに基づいて、対応する深度情報の縦方向変化法則を取得する。
選択可能な一例では、縦方向プーリング層によって第2所定次元を有する予測深度マップを処理して、対応する深度情報の縦方向変化法則を取得するようにしてよい。
306において、対応する深度情報の縦方向変化法則に基づいて、第2所定次元を有する予測深度マップに対して残差推定を行って、対応する残差マップを取得する。
選択可能な一例では、対応する深度情報の縦方向変化法則に基づいて、残差推定ネットワークによって第2所定次元を有する予測深度マップに対して残差推定を行って、対応する残差マップを取得するようにしてよい。
308において、対応する残差マップに基づいて、第2所定次元を有する予測深度マップを最適化して、最適化後の第2所定次元を有する目標深度マップを取得する。
選択可能な一例では、対応する残差マップと第2所定次元を有する予測深度マップに対して画素ずつの重畳演算を行うことで、最適化後の第2所定次元を有する目標深度マップを取得するようにしてよい。
図4A〜図4Cは本願のいくつかの実施例の単眼画像深度推定方法を実現するネットワーク構成の模式図である。
本実施例では、図4Aに示すように、本願の実施例の単眼画像深度推定方法を実現するネットワークは、畳み込みニューラルネットワーク、深度推定ニューラルネットワーク及び深度最適化ニューラルネットワークを含む。ここで、畳み込みニューラルネットワークは、ダウンサンプリング層と第1ニューラルネットワークを含み、ダウンサンプリング層によって単眼画像に対して8倍ダウンサンプリングを行って、次元が単眼画像の1/8の単眼画像を取得し、次に第1ニューラルネットワークによって1/8次元の単眼画像に対して特徴抽出を行って、1/8次元の単眼画像内の各所定領域の絶対特徴を取得する。
図4Bに示すように、深度推定ニューラルネットワークは、関連度層、全結合層及び深度推定器を含み、ここで、関連度層は1/8次元の単眼画像内の各所定領域の絶対特徴に基づいて、1/8次元の単眼画像内の各所定領域の間の相対特徴を取得することができ、全結合層は1/8次元の単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、1/8次元の単眼画像のグローバル特徴を取得することができ、深度推定器は1/8次元の画像のグローバル特徴、1/8次元の単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、1/8次元の予測深度マップを取得することができる。
本実施例では、深度最適化ニューラルネットワークは、第1スケール最適化ネットワーク、第2スケール最適化ネットワーク及び第3スケール最適化ネットワークを含み、ここで、各スケール最適化ネットワークの構造は、図4Cに示すように、いずれもアップサンプリング層、縦方向プーリング層、残差推定ネットワーク及び加算ユニットを含む。
ここで、第1スケール最適化ネットワークのアップサンプリング層は1/8次元の予測深度マップに対して2倍アップサンプリングを行って、1/4次元の予測深度マップを取得することができ、第1スケール最適化ネットワークの縦方向プーリング層は1/4次元の予測深度マップに基づいて、対応する深度情報の縦方向変化法則を取得することができ、第1スケール最適化ネットワークの残差推定ネットワークは1/4次元の予測深度マップに対応する深度情報の縦方向変化法則に基づいて、1/4次元の予測深度マップに対して残差推定を行って、対応する残差マップを取得することができ、第1スケール最適化ネットワークの加算ユニットは対応する残差マップと1/4次元の予測深度マップに対して画素ずつの重畳演算を行って、最適化後の1/4次元の目標深度マップを取得することができ、該最適化後の1/4次元の目標深度マップを第2スケール最適化ネットワークの予測深度マップとしてよい。
第2スケール最適化ネットワークのアップサンプリング層は最適化後の1/4次元の目標深度マップに対して2倍アップサンプリングを行って、1/2次元の予測深度マップを取得することができ、第2スケール最適化ネットワークの縦方向プーリング層は1/2次元の予測深度マップに基づいて、対応する深度情報の縦方向変化法則を取得することができ、第2スケール最適化ネットワークの残差推定ネットワークは1/2次元の予測深度マップに対応する深度情報の縦方向変化法則に基づいて、1/2次元の予測深度マップに対して残差推定を行って、対応する残差マップを取得することができ、第2スケール最適化ネットワークの加算ユニットは対応する残差マップと1/2次元の予測深度マップに対して画素ずつの重畳演算を行って、最適化後の1/2次元の目標深度マップを取得することができ、該最適化後の1/2次元の目標深度マップを第3スケール最適化ネットワークの予測深度マップとしてよい。
第3スケール最適化ネットワークのアップサンプリング層は最適化後の1/2次元の目標深度マップに対して2倍アップサンプリングを行って、次元が単眼画像の次元と同じな予測深度マップを取得することができ、第3スケール最適化ネットワークの縦方向プーリング層は次元が単眼画像の次元と同じな予測深度マップに基づいて、対応する深度情報の縦方向変化法則を取得することができ、第3スケール最適化ネットワークの残差推定ネットワークは次元が単眼画像の次元と同じな予測深度マップに対応する深度情報の縦方向変化法則に基づいて、次元が単眼画像の次元と同じな予測深度マップに対して残差推定を行って、対応する残差マップを取得することができ、第3スケール最適化ネットワークの加算ユニットは対応する残差マップと次元が単眼画像の次元と同じな予測深度マップに対して画素ごとの重畳を行って、最適化後の次元が単眼画像の次元と同じな目標深度マップを取得することができ、該最適化後の深度マップを単眼画像の目標深度マップとしてよい。
選択可能な一例では、上記各実施例の深度推定ニューラルネットワークは、両眼画像の立体的なマッチングで取得された密な深度マップと疎な深度マップをアノテーションデータとして利用して、半教師ありトレーニングを行うことによって取得されてよい。
本実施例では、他の方法で取得されたトレーニングデータの「アノテーションデータ」が比較的疎なものであり、即ち、深度マップ中の有効画素値が比較的少なく、従って、両眼マッチングで取得された深度マップをトレーニングデータの「アノテーションデータ」とする。
本願の実施例で提供される単眼画像深度推定方法は、シーン幾何構成解析、自動運転、運転支援、目標追跡及びロボットの自律的障害物回避等の分野に利用可能である。例えば、運転シーンでは、本願の実施例で提供される単眼画像深度推定方法を用いて前方車両又は通行人までの距離を予測することができる。携帯電話で写真を撮る時に、本願の実施例で提供される単眼画像深度推定方法で予測された深度情報を用いて単眼ぼかし操作を行うことができ、本願の実施例で提供される単眼画像深度推定方法の予測結果を用いれば、物体追跡アルゴリズムの改善に寄与することが可能になる。
図5は本願のいくつかの実施例の単眼画像深度推定装置の構造模式図である。
図5に示すように、該装置は、深度推定ニューラルネットワーク510を含む。ここで、
深度推定ニューラルネットワーク510は、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像のグローバル特徴を取得し、また、グローバル特徴、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像の予測深度マップを取得するように構成される。
本実施例では、単眼画像は、写真機、ビデオカメラ、スキャナ等のような画像取得装置から取得された画像であってもよいし、USBメモリ、光ディスク、ハードディスク等のような記憶装置から取得された画像であってもよく、本実施例では単眼画像の取得方式が限定されない。ここで、単眼画像内の各所定領域の絶対特徴は、例えば、模様特徴、幾何特徴等を含んでよい、単眼画像内の各所定領域の局所的外観を表すためのものであってよい。単眼画像内の各所定領域の間の相対特徴は、例えば、模様相違点、幾何相違点等を含んでよい、単眼画像内の各所定領域の局所的外観同士の相違点を表すためのものであってよい。単眼画像中の各所定領域は画像の特徴により設定可能である。本実施例の深度マップとは、画像内の各画素の画素値で画像内の各画素から画像取得装置までの距離を表現する画像を指す。
選択可能な一例では、図5に示すように、深度推定ニューラルネットワーク510は、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴を組み合わせ、単眼画像のグローバル特徴を取得するように構成される全結合層511を含んでよい。深度推定ニューラルネットワーク510は、単眼画像のグローバル特徴、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、深度推定を行って、単眼画像の予測深度マップを取得するように構成される深度推定器512を更に含んでよい。例えば、深度推定器としては、主に畳み込み層と逆畳み込み層からなり、画像の幾何分布情報、即ち、画像のグローバル特徴、画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて画像内の各画素の深度値を回帰させて予測深度マップを取得することができる完全畳み込みネットワークを用いてよい。
本実施例で提供される単眼画像深度推定装置は、深度推定ニューラルネットワークにより、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像のグローバル特徴を取得し、また、グローバル特徴、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像の予測深度マップを取得するようになっており、単眼画像深度推定で画像内の各所定領域の相対特徴と絶対特徴を用いて相互に補充することによって、深度推定での相対距離予測の正確度を高め、単眼画像深度推定の正確度を高めることができる。
図6は本願の別の実施例の単眼画像深度推定装置の構造模式図である。
図6に示すように、図5の実施例と比べて、該装置に第1ニューラルネットワーク620を更に含むことで異なっている。
第1ニューラルネットワーク620は、単眼画像に対して特徴抽出を行って、単眼画像内の各所定領域の特徴を取得し、各所定領域の特徴を単眼画像内の各所定領域の絶対特徴とするように構成される。例えば、第1ニューラルネットワークとしては、畳み込み層とプーリング層からなるエンコーダネットワークを用いてよく、単眼画像に対してエンコーダネットワークにより特徴抽出を行って、画像の高次元特徴を取得することができる。
深度推定ニューラルネットワーク610は、更に、単眼画像内の各所定領域の絶対特徴に基づいて、単眼画像内の各所定領域の間の相対特徴を取得するために用いられる。
選択可能な一例では、図6に示すように、深度推定ニューラルネットワーク610は、単眼画像内の各所定領域の絶対特徴に対して、関連度層を介してベクトル演算を行って、単眼画像内の各所定領域の間の相対特徴を取得するように構成される関連度層613を更に含んでよい。ここで、画像内の各所定領域の間の相対特徴は、画像内の各所定領域とその周りの特定範囲内の所定領域の間の相対特徴であってよく、例えば、単眼画像内の各所定領域とその周りの特定範囲内の所定領域の間の特徴ベクトルに対してドット積演算を行うことによって、単眼画像内の各所定領域の間の相対特徴を取得するようにしてよい。
選択可能に、該装置は、単眼画像に対して特徴抽出を行う前に、単眼画像に対してダウンサンプリングを行って、所定次元を有する単眼画像を取得するように構成されるダウンサンプリング層を更に含んでよく、この時に深度推定ニューラルネットワーク610は、所定次元を有する単眼画像に対して深度推定を行って、計算量を減少して、データ処理の速度を高める。ここで、単眼画像の次元は、所定次元の倍数であり、例えば、所定次元の8倍である。
図7は本願の別の実施例の単眼画像深度推定装置の構造模式図である。
図7に示すように、図5の実施例と比べて、該装置に第2ニューラルネットワーク730を更に含むことで異なっている。
第2ニューラルネットワーク730は、単眼画像の深度情報の縦方向変化法則に基づいて、予測深度マップを最適化して、単眼画像の目標深度マップを取得するように構成される。
選択可能に、第2ニューラルネットワーク730は、単眼画像の深度情報の縦方向変化法則に基づいて、予測深度マップに対して残差推定を行って、予測深度マップの残差マップを取得し、次に残差マップに基づいて、予測深度マップを最適化して、単眼画像の目標深度マップを取得するように構成される。
選択可能な一例では、図7に示すように、第2ニューラルネットワーク730は、単眼画像の深度情報の縦方向変化法則に基づいて、予測深度マップに対して残差推定を行って、予測深度マップの残差マップを取得するように構成される残差推定ネットワーク731と、残差マップと予測深度マップに対して画素ずつの重畳演算を行って、単眼画像の目標深度マップを取得するように構成される加算ユニット732と、を含んでよい。
選択可能に、第2ニューラルネットワーク730は、更に、予測深度マップに基づいて、単眼画像の深度情報の縦方向変化法則を取得するために用いられる。
選択可能な一例では、図7に示すように、第2ニューラルネットワーク730は、縦方向プーリング層によって予測深度マップを処理して、単眼画像の深度情報の縦方向変化法則を取得するように構成される縦方向プーリング層733を更に含んでよい。ここで、縦方向プーリング層は、列ベクトルを用いてプーリングカーネルとして、予測深度マップに対してプーリング処理を行ってよく、例えば、縦方向プーリング層は、大きさがH×1のプーリングカーネルを用いて予測深度マップに対して平均プーリング処理を行ってよく、ここでHが1より大きい整数である。
本実施例で提供される単眼画像深度推定装置は、深度推定ニューラルネットワークにより、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像のグローバル特徴を取得し、また、グローバル特徴、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像の予測深度マップを取得し、また、単眼画像の深度情報の縦方向変化法則に基づいて、予測深度マップを最適化して、単眼画像の目標深度マップを取得するようになっており、単眼画像深度推定で画像内の各所定領域の相対特徴と絶対特徴を用いて相互に補充することによって、深度推定での相対距離予測の正確度を高めると共に、画像深度情報の縦方向変化法則を用いて最適化して、深度推定での絶対距離予測の正確度を高め、それによって単眼画像深度推定の正確度を全面的に高めることができる。
選択可能な一例では、単眼画像に対して第1ニューラルネットワークにより特徴抽出を行う前に、ダウンサンプリング層によって単眼画像に対してダウンサンプリングを行って、所定次元を有する単眼画像を取得し、所定次元を有する単眼画像を、深度推定ニューラルネットワークにより深度推定を行われる単眼画像とする時に、単眼画像の深度情報の縦方向変化法則に基づいて、予測深度マップを最適化するようになっており、単眼画像深度推定の正確度を高めるために、マルチスケール学習の方法を用いてよい。
選択可能に、該装置は、予測深度マップに対して所定回数のアップサンプリングを行うように構成されるアップサンプリング層と、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップに基づいて、深度情報の縦方向変化法則を取得するように構成される縦方向プーリング層と、を更に含んでよく、第2ニューラルネットワークは、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップの深度情報の縦方向変化法則に基づいて、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップを最適化して、最適化後の目標深度マップを取得するように構成される。ここで、最終回のアップサンプリング以外の毎回のアップサンプリングで取得された最適化後の目標深度マップを次回のアップサンプリングの予測深度マップとし、最終回のアップサンプリングで取得された最適化後の目標深度マップを単眼画像の目標深度マップとし、該目標深度マップの次元が単眼画像の次元と同じである。
選択可能な一例では、上記各実施例の深度推定ニューラルネットワークは、両眼画像の立体的なマッチングで取得された密な深度マップと疎な深度マップをアノテーションデータとして利用して、半教師ありトレーニングを行うことによって取得されてよい。
選択可能な一例では、他の方法で取得されたトレーニングデータの「アノテーションデータ」が比較的疎なものであり、即ち、深度マップ中の有効画素値が比較的少なく、従って、両眼画像の立体的なマッチングで取得された深度マップをトレーニングデータの「アノテーションデータ」とする。本願の実施例は、例えば、携帯端末、パーソナルコンピュータ(PC)、タブレット型コンピュータ、サーバなどであってよい電子機器を更に提供する。以下、本願の実施例の端末装置又はサーバを実現するのに適する電子機器800の構造模式図を示す図8を参照し、図8に示すように、電子機器800は1つ又は複数のプロセッサ、通信部などを含み、前記1つ又は複数のプロセッサは、例えば、1つ又は複数の中央処理ユニット(CPU)801、及び/又は1つ又は複数の画像プロセッサ(GPU)813などであり、プロセッサは、読み取り専用メモリ(ROM)802に記憶された実行可能コマンド又は記憶部808からランダムアクセスメモリ(RAM)803にロードされた実行可能コマンドによって各種の適切な動作及び処理を実現することができる。通信部812はネットワークカードを含んでよいが、それに限定されなく、前記ネットワークカードはIB(Infiniband)ネットワークカードを含んでよいが、それに限定されなく、プロセッサは読み取り専用メモリ802及び/又はランダムアクセスメモリ803と通信して実行可能コマンドを実行し、通信バス804を介して通信部812に接続され、通信部812を介して他のターゲットデバイスと通信してよく、それにより本願の実施例で提供されるいずれか一項の方法に対応する操作を完成し、例えば、深度推定ニューラルネットワークにより、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得し、前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得する。
また、RAM803には、装置の動作に必要な各種のプログラムやデータが格納されていてもよい。CPU801、ROM802及びRAM803は、通信バス804を介して相互に接続される。RAM803を有する場合に、ROM802は選択可能なモジュールである。RAM803は実行可能コマンドを格納するか、または動作時に実行可能コマンドをROM802に書き込み、実行可能コマンドによって中央処理ユニット801に上記通信方法に対応する操作を実行させる。入力/出力(I/O)インターフェイス805も通信バス804に接続される。通信部812は、統合的に設置されてもよく、複数のサブモジュール(例えば複数のIBネットワークカード)を有し、通信バスのリンク上にあるように設置されてもよい。
キーボード、マウスなどを含む入力部806と、陰極線管(CRT)、液晶ディスプレイー(LCD)など及びスピーカなどを含む出力部807と、ハードディスクなどを含む記憶部808と、LANカード、モデムなどのネットワークインターフェイスカードを含む通信部809とがI/Oインターフェイス805に接続されている。通信部809は例えばインターネットのようなネットワークを介して通信処理を行う。ドライブ810も必要に応じてI/Oインターフェイス805に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体811は、必要に応じてドライブ810上に装着され、そこから読み出されたコンピュータプログラムを必要に応じて記憶部808にインストールする。
なお、図8に示す構造は選択可能な一実施形態に過ぎず、具体的な実践過程では、実際の必要に応じて上記図8の部品の数及び種類を選択、削除、追加、または置換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばGPU813とCPU801は分離設置するかまたはGPU813をCPU801に統合するようにしてよく、通信部は分離設置するか、またはCPU801やGPU813に統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本願で開示された保護範囲に属する。
特に、本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例により提供される方法のステップを対応して実行する対応のコマンドを含んでよく、例えば、深度推定ニューラルネットワークにより、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得し、前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得する。このような実施例では、該コンピュータプログラムは通信部809によってネットワークからダウンロード及びインストールされ、及び/又はリムーバブル媒体811からインストールされ得る。中央処理ユニット(CPU)801によって該コンピュータプログラムを実行する時に、本願の方法で限定された上記機能を実行する。
1つ又は複数の選択可能な実施形態では、本願の実施例は、コンピュータ可読コマンドを記憶し、該コマンドが実行される時にコンピュータが上記のいずれか1つの可能な実現形態における画像回復方法を実行するように構成されるコンピュータプログラム製品を更に提供する。
該コンピュータプログラム製品は具体的にはハードウェア、ソフトウェア又はそれらの組合せにより実現可能である。選択可能な一例において、該コンピュータプログラム製品は具体的にはコンピュータ記憶媒体として実現され、別の選択可能な一例において、該コンピュータプログラム製品は具体的には、例えばソフトウェア開発キット(Software Development Kit、SDK)などのソフトウェア製品として実現される。
1つ又は複数の選択可能な実施形態では、本願の実施例は、第1装置から第2装置へ単眼画像深度推定指示を送信し、該指示により第2装置に上記のいずれか1つの可能な実施例における単眼画像深度推定方法を実行させるステップと、第1装置により第2装置から送信される単眼画像深度推定の結果を受信するステップと、を含む単眼画像深度推定方法及びそれに対応する装置、電子機器、コンピュータ記憶媒体、コンピュータプログラム並びにコンピュータプログラム製品を更に提供する。
いくつかの実施例では、該単眼画像深度推定指示は具体的には呼び出しコマンドであってもよく、第1装置は呼び出すことで第2装置に単眼画像深度推定を実行させるように指示してもよく、それに対して、呼び出しコマンドを受信したことに応答して、第2装置は上記単眼画像深度推定方法中の任意の実施例中のステップ及び/又はフローを実行することができる。
本願の実施例における「第1」、「第2」などの用語は区別するためのものに過ぎず、本願の実施例に対する限定と理解してはならないことを理解すべきである。
更に、本願では、「複数の」は2つ又は2つ以上を指してよく、「少なくとも1つの」は1つ、2つ又は2つ以上を指してよいことを理解すべきである。
更に、本願で言及された任意の部材、データ又は構造は、明確に限定され又は明細書の前後で反対的に示唆された場合でなければ、一般的には1つ又は複数と理解してよいことを理解すべきである。
更に、本願ではそれぞれの実施例についての説明はそれぞれの実施例の相違点を重点として強調し、その同一又は類似的な点について相互に参照してよく、簡単化するために、ここで一つずつに繰り返して説明しないことを理解すべきである。
本願の方法及び装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組合わせによって本願の方法及び装置を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本願の方法のステップは、特に断らない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施例では、本願は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本願の方法を実現するための機械可読コマンドを含む。従って、本願は本願の方法を実行するためのプログラムが記憶された記録媒体も含む。
本願の説明は、例示及び説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本願を限定するというわけでない。当業者にとっては多くの修正及び変形を加えることができるのは明らかであろう。実施例は本願の原理及び実際応用をより明瞭に説明するため、かつ当業者が本願を理解して特定用途に適した各種の修正を加えた各種の実施例を設計可能にするように選択され説明されたものである。
本願の上記実施例で提供される単眼画像深度推定方法及び装置、電子機器、コンピュータプログラム並びに記憶媒体によれば、深度推定ニューラルネットワークにより、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像のグローバル特徴を取得し、グローバル特徴、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像の予測深度マップを取得するようになっており、単眼画像深度推定で画像内の各所定領域の相対特徴と絶対特徴を用いて相互に補充することによって、深度推定での相対距離予測の正確度を高めて、単眼画像深度推定の正確度を高めることができる。
例えば、本願は以下の項目を提供する。
(項目1)
深度推定ニューラルネットワークにより、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得するステップと、
前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得するステップと、を含む単眼画像深度推定方法。
(項目2)
単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得する前記ステップの前に、
前記単眼画像に対して第1ニューラルネットワークにより特徴抽出を行って前記単眼画像内の各所定領域の特徴を取得し、前記各所定領域の特徴を前記単眼画像内の各所定領域の絶対特徴とするステップと、
前記単眼画像内の各所定領域の絶対特徴に基づいて、前記単眼画像内の各所定領域の間の相対特徴を取得するステップと、を更に含む項目1に記載の方法。
(項目3)
前記単眼画像内の各所定領域の絶対特徴に基づいて、前記単眼画像内の各所定領域の間の相対特徴を取得する前記ステップには、
前記単眼画像内の各所定領域の絶対特徴に対して、関連度層を介してベクトル演算を行って、前記単眼画像内の各所定領域の間の相対特徴を取得するステップを含む項目2に記載の方法。
(項目4)
前記単眼画像に対して第1ニューラルネットワークにより特徴抽出を行うステップの前に、
前記単眼画像に対してダウンサンプリングを行って所定次元を有する単眼画像を取得するステップを更に含み、前記単眼画像の次元が前記所定次元の倍数である項目2又は3に記載の方法。
(項目5)
単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得する前記ステップには、
全結合層によって前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴を組み合わせ、前記単眼画像のグローバル特徴を取得するステップを含む項目1〜4のいずれか一項に記載の方法。
(項目6)
前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得する前記ステップには、
前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、深度推定器で深度推定を行って、前記単眼画像の予測深度マップを取得するステップを含む項目1〜5のいずれか一項に記載の方法。
(項目7)
前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得する前記ステップの後に、
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得するステップを更に含む項目1〜6のいずれか一項に記載の方法。
(項目8)
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得する前記ステップには、
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得するステップと、
前記残差マップに基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得するステップと、を含む項目7に記載の方法。
(項目9)
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得する前記ステップには、
前記単眼画像の深度情報の縦方向変化法則に基づいて、残差推定ネットワークによって前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得するステップを含み、
前記残差マップに基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得する前記ステップには、
前記残差マップと前記予測深度マップに対して画素ずつの重畳演算を行って、前記単眼画像の目標深度マップを取得するステップを含む項目8に記載の方法。
(項目10)
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得する前記ステップの前に、
前記予測深度マップに基づいて、前記単眼画像の深度情報の縦方向変化法則を取得するステップを更に含む項目7〜9のいずれか一項に記載の方法。
(項目11)
前記予測深度マップに基づいて、前記単眼画像の深度情報の縦方向変化法則を取得する前記ステップには、
縦方向プーリング層によって前記予測深度マップを処理して、前記単眼画像の深度情報の縦方向変化法則を取得するステップを含む項目10に記載の方法。
(項目12)
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化する前記ステップには、
前記予測深度マップに対して所定回数のアップサンプリングを行い、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップに基づいて、深度情報の縦方向変化法則を取得し、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップの深度情報の縦方向変化法則に基づいて、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップを最適化して、最適化後の目標深度マップを取得するステップを含み、
最終回のアップサンプリング以外の毎回のアップサンプリングで取得された最適化後の目標深度マップを次回のアップサンプリングの予測深度マップとし、最終回のアップサンプリングで取得された最適化後の目標深度マップを、前記単眼画像の目標深度マップとし、前記目標深度マップの次元が前記単眼画像の次元と同じである項目7に記載の方法。
(項目13)
前記深度推定ニューラルネットワークは、関連度層、全結合層及び深度推定器を含み、疎な深度マップと両眼画像の立体的なマッチングで取得された密な深度マップをアノテーションデータとして利用して、前記深度推定ニューラルネットワークをトレーニングする項目1〜12のいずれか一項に記載の方法。
(項目14)
単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得し、前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得するように構成される深度推定ニューラルネットワークを含む単眼画像深度推定装置。
(項目15)
前記単眼画像に対して特徴抽出を行って、前記単眼画像内の各所定領域の特徴を取得し、前記各所定領域の特徴を前記単眼画像内の各所定領域の絶対特徴とするように構成される第1ニューラルネットワークを更に含み、
前記深度推定ニューラルネットワークは、更に、前記単眼画像内の各所定領域の絶対特徴に基づいて、前記単眼画像内の各所定領域の間の相対特徴を取得するために用いられる項目14に記載の装置。
(項目16)
前記深度推定ニューラルネットワークは、
前記単眼画像内の各所定領域の絶対特徴に対してベクトル演算を行って、前記単眼画像内の各所定領域の間の相対特徴を取得するように構成される関連度層を含む項目15に記載の装置。
(項目17)
前記単眼画像に対して特徴抽出を行う前に、前記単眼画像に対してダウンサンプリングを行って所定次元を有する単眼画像を取得するように構成されるダウンサンプリング層を更に含み、前記単眼画像の次元が前記所定次元の倍数である項目15又は16に記載の装置。
(項目18)
前記深度推定ニューラルネットワークは、
前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴を組み合わせ、前記単眼画像のグローバル特徴を取得するように構成される全結合層を含む項目14〜17のいずれか一項に記載の装置。
(項目19)
前記深度推定ニューラルネットワークは、
前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて深度推定を行って、前記単眼画像の予測深度マップを取得するように構成される深度推定器を含む項目14〜18のいずれか一項に記載の装置。
(項目20)
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得するように構成される第2ニューラルネットワークを更に含む項目14〜19のいずれか一項に記載の装置。
(項目21)
前記第2ニューラルネットワークは、前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得し、前記残差マップに基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得するように構成される項目20に記載の装置。
(項目22)
前記第2ニューラルネットワークは、
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得するように構成される残差推定ネットワークと、
前記残差マップと前記予測深度マップに対して画素ずつの重畳演算を行って、前記単眼画像の目標深度マップを取得するように構成される加算ユニットと、を含む項目21に記載の装置。
(項目23)
前記第2ニューラルネットワークは、更に、前記予測深度マップに基づいて、前記単眼画像の深度情報の縦方向変化法則を取得するために用いられる項目20〜22のいずれか一項に記載の装置。
(項目24)
前記第2ニューラルネットワークは、
前記予測深度マップを処理して、前記単眼画像の深度情報の縦方向変化法則を取得するように構成される縦方向プーリング層を含む項目23に記載の装置。
(項目25)
前記予測深度マップに対して所定回数のアップサンプリングを行うように構成されるアップサンプリング層と、
毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップに基づいて、深度情報の縦方向変化法則を取得するように構成される縦方向プーリング層と、を更に含み、
前記第2ニューラルネットワークは、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップの深度情報の縦方向変化法則に基づいて、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップを最適化して、最適化後の目標深度マップを取得するように構成され、
最終回のアップサンプリング以外の毎回のアップサンプリングで取得された最適化後の目標深度マップを次回のアップサンプリングの予測深度マップとし、最終回のアップサンプリングで取得された最適化後の目標深度マップを、前記単眼画像の目標深度マップとし、前記目標深度マップの次元が前記単眼画像の次元と同じである項目20に記載の装置。
(項目26)
前記深度推定ニューラルネットワークは、関連度層、全結合層及び深度推定器を含み、疎な深度マップと両眼画像の立体的なマッチングで取得された密な深度マップをアノテーションデータとして利用して、前記深度推定ニューラルネットワークをトレーニングする項目14〜25のいずれか一項に記載の装置。
(項目27)
項目14〜26のいずれか一項に記載の装置を含む電子機器。
(項目28)
実行可能コマンドを記憶するように構成されるメモリと、
前記実行可能コマンドを実行して項目1〜13のいずれか一項に記載の方法を実行するように構成されるプロセッサと、を含む電子機器。
(項目29)
コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードが機器上で作動する時に、前記機器におけるプロセッサが項目1〜13のいずれか一項に記載の方法を実現するためのコマンドを実行するコンピュータプログラム。
(項目30)
コンピュータ可読コマンドを記憶し、前記コマンドが実行される時に項目1〜13のいずれか一項に記載の方法が実現されるように構成されるコンピュータ記憶媒体。

Claims (30)

  1. 深度推定ニューラルネットワークにより、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得するステップと、
    前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得するステップと、を含む単眼画像深度推定方法。
  2. 単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得する前記ステップの前に、
    前記単眼画像に対して第1ニューラルネットワークにより特徴抽出を行って前記単眼画像内の各所定領域の特徴を取得し、前記各所定領域の特徴を前記単眼画像内の各所定領域の絶対特徴とするステップと、
    前記単眼画像内の各所定領域の絶対特徴に基づいて、前記単眼画像内の各所定領域の間の相対特徴を取得するステップと、を更に含む請求項1に記載の方法。
  3. 前記単眼画像内の各所定領域の絶対特徴に基づいて、前記単眼画像内の各所定領域の間の相対特徴を取得する前記ステップには、
    前記単眼画像内の各所定領域の絶対特徴に対して、関連度層を介してベクトル演算を行って、前記単眼画像内の各所定領域の間の相対特徴を取得するステップを含む請求項2に記載の方法。
  4. 前記単眼画像に対して第1ニューラルネットワークにより特徴抽出を行うステップの前に、
    前記単眼画像に対してダウンサンプリングを行って所定次元を有する単眼画像を取得するステップを更に含み、前記単眼画像の次元が前記所定次元の倍数である請求項2又は3に記載の方法。
  5. 単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得する前記ステップには、
    全結合層によって前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴を組み合わせ、前記単眼画像のグローバル特徴を取得するステップを含む請求項1〜4のいずれか一項に記載の方法。
  6. 前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得する前記ステップには、
    前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、深度推定器で深度推定を行って、前記単眼画像の予測深度マップを取得するステップを含む請求項1〜5のいずれか一項に記載の方法。
  7. 前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得する前記ステップの後に、
    前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得するステップを更に含む請求項1〜6のいずれか一項に記載の方法。
  8. 前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得する前記ステップには、
    前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得するステップと、
    前記残差マップに基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得するステップと、を含む請求項7に記載の方法。
  9. 前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得する前記ステップには、
    前記単眼画像の深度情報の縦方向変化法則に基づいて、残差推定ネットワークによって前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得するステップを含み、
    前記残差マップに基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得する前記ステップには、
    前記残差マップと前記予測深度マップに対して画素ずつの重畳演算を行って、前記単眼画像の目標深度マップを取得するステップを含む請求項8に記載の方法。
  10. 前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得する前記ステップの前に、
    前記予測深度マップに基づいて、前記単眼画像の深度情報の縦方向変化法則を取得するステップを更に含む請求項7〜9のいずれか一項に記載の方法。
  11. 前記予測深度マップに基づいて、前記単眼画像の深度情報の縦方向変化法則を取得する前記ステップには、
    縦方向プーリング層によって前記予測深度マップを処理して、前記単眼画像の深度情報の縦方向変化法則を取得するステップを含む請求項10に記載の方法。
  12. 前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化する前記ステップには、
    前記予測深度マップに対して所定回数のアップサンプリングを行い、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップに基づいて、深度情報の縦方向変化法則を取得し、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップの深度情報の縦方向変化法則に基づいて、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップを最適化して、最適化後の目標深度マップを取得するステップを含み、
    最終回のアップサンプリング以外の毎回のアップサンプリングで取得された最適化後の目標深度マップを次回のアップサンプリングの予測深度マップとし、最終回のアップサンプリングで取得された最適化後の目標深度マップを、前記単眼画像の目標深度マップとし、前記目標深度マップの次元が前記単眼画像の次元と同じである請求項7に記載の方法。
  13. 前記深度推定ニューラルネットワークは、関連度層、全結合層及び深度推定器を含み、疎な深度マップと両眼画像の立体的なマッチングで取得された密な深度マップをアノテーションデータとして利用して、前記深度推定ニューラルネットワークをトレーニングする請求項1〜12のいずれか一項に記載の方法。
  14. 単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得し、前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得するように構成される深度推定ニューラルネットワークを含む単眼画像深度推定装置。
  15. 前記単眼画像に対して特徴抽出を行って、前記単眼画像内の各所定領域の特徴を取得し、前記各所定領域の特徴を前記単眼画像内の各所定領域の絶対特徴とするように構成される第1ニューラルネットワークを更に含み、
    前記深度推定ニューラルネットワークは、更に、前記単眼画像内の各所定領域の絶対特徴に基づいて、前記単眼画像内の各所定領域の間の相対特徴を取得するために用いられる請求項14に記載の装置。
  16. 前記深度推定ニューラルネットワークは、
    前記単眼画像内の各所定領域の絶対特徴に対してベクトル演算を行って、前記単眼画像内の各所定領域の間の相対特徴を取得するように構成される関連度層を含む請求項15に記載の装置。
  17. 前記単眼画像に対して特徴抽出を行う前に、前記単眼画像に対してダウンサンプリングを行って所定次元を有する単眼画像を取得するように構成されるダウンサンプリング層を更に含み、前記単眼画像の次元が前記所定次元の倍数である請求項15又は16に記載の装置。
  18. 前記深度推定ニューラルネットワークは、
    前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴を組み合わせ、前記単眼画像のグローバル特徴を取得するように構成される全結合層を含む請求項14〜17のいずれか一項に記載の装置。
  19. 前記深度推定ニューラルネットワークは、
    前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて深度推定を行って、前記単眼画像の予測深度マップを取得するように構成される深度推定器を含む請求項14〜18のいずれか一項に記載の装置。
  20. 前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得するように構成される第2ニューラルネットワークを更に含む請求項14〜19のいずれか一項に記載の装置。
  21. 前記第2ニューラルネットワークは、前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得し、前記残差マップに基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得するように構成される請求項20に記載の装置。
  22. 前記第2ニューラルネットワークは、
    前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得するように構成される残差推定ネットワークと、
    前記残差マップと前記予測深度マップに対して画素ずつの重畳演算を行って、前記単眼画像の目標深度マップを取得するように構成される加算ユニットと、を含む請求項21に記載の装置。
  23. 前記第2ニューラルネットワークは、更に、前記予測深度マップに基づいて、前記単眼画像の深度情報の縦方向変化法則を取得するために用いられる請求項20〜22のいずれか一項に記載の装置。
  24. 前記第2ニューラルネットワークは、
    前記予測深度マップを処理して、前記単眼画像の深度情報の縦方向変化法則を取得するように構成される縦方向プーリング層を含む請求項23に記載の装置。
  25. 前記予測深度マップに対して所定回数のアップサンプリングを行うように構成されるアップサンプリング層と、
    毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップに基づいて、深度情報の縦方向変化法則を取得するように構成される縦方向プーリング層と、を更に含み、
    前記第2ニューラルネットワークは、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップの深度情報の縦方向変化法則に基づいて、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップを最適化して、最適化後の目標深度マップを取得するように構成され、
    最終回のアップサンプリング以外の毎回のアップサンプリングで取得された最適化後の目標深度マップを次回のアップサンプリングの予測深度マップとし、最終回のアップサンプリングで取得された最適化後の目標深度マップを、前記単眼画像の目標深度マップとし、前記目標深度マップの次元が前記単眼画像の次元と同じである請求項20に記載の装置。
  26. 前記深度推定ニューラルネットワークは、関連度層、全結合層及び深度推定器を含み、疎な深度マップと両眼画像の立体的なマッチングで取得された密な深度マップをアノテーションデータとして利用して、前記深度推定ニューラルネットワークをトレーニングする請求項14〜25のいずれか一項に記載の装置。
  27. 請求項14〜26のいずれか一項に記載の装置を含む電子機器。
  28. 実行可能コマンドを記憶するように構成されるメモリと、
    前記実行可能コマンドを実行して請求項1〜13のいずれか一項に記載の方法を実行するように構成されるプロセッサと、を含む電子機器。
  29. コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードが機器上で作動する時に、前記機器におけるプロセッサが請求項1〜13のいずれか一項に記載の方法を実現するためのコマンドを実行するコンピュータプログラム。
  30. コンピュータ可読コマンドを記憶し、前記コマンドが実行される時に請求項1〜13のいずれか一項に記載の方法が実現されるように構成されるコンピュータ記憶媒体。
JP2020542490A 2018-07-27 2019-04-11 単眼画像深度推定方法及び装置、機器、プログラム及び記憶媒体 Active JP6963695B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810845040.4A CN109035319B (zh) 2018-07-27 2018-07-27 单目图像深度估计方法及装置、设备、程序及存储介质
CN201810845040.4 2018-07-27
PCT/CN2019/082314 WO2020019761A1 (zh) 2018-07-27 2019-04-11 单目图像深度估计方法及装置、设备、程序及存储介质

Publications (2)

Publication Number Publication Date
JP2021500689A true JP2021500689A (ja) 2021-01-07
JP6963695B2 JP6963695B2 (ja) 2021-11-10

Family

ID=64647384

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020542490A Active JP6963695B2 (ja) 2018-07-27 2019-04-11 単眼画像深度推定方法及び装置、機器、プログラム及び記憶媒体

Country Status (7)

Country Link
US (1) US11443445B2 (ja)
JP (1) JP6963695B2 (ja)
KR (1) KR102292559B1 (ja)
CN (1) CN109035319B (ja)
SG (1) SG11202003878TA (ja)
TW (1) TWI766175B (ja)
WO (1) WO2020019761A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109035319B (zh) * 2018-07-27 2021-04-30 深圳市商汤科技有限公司 单目图像深度估计方法及装置、设备、程序及存储介质
US11589031B2 (en) * 2018-09-26 2023-02-21 Google Llc Active stereo depth prediction based on coarse matching
GB201900839D0 (en) * 2019-01-21 2019-03-13 Or3D Ltd Improvements in and relating to range-finding
CN111784659A (zh) * 2020-06-29 2020-10-16 北京百度网讯科技有限公司 图像检测的方法、装置、电子设备以及存储介质
US20220051372A1 (en) * 2020-08-12 2022-02-17 Niantic, Inc. Feature matching using features extracted from perspective corrected image
CN112070817A (zh) * 2020-08-25 2020-12-11 中国科学院深圳先进技术研究院 一种图像深度估计方法、终端设备及计算机可读存储介质
CN112446328B (zh) * 2020-11-27 2023-11-17 汇纳科技股份有限公司 单目深度的估计系统、方法、设备及计算机可读存储介质
CN112183537B (zh) * 2020-11-30 2021-03-19 北京易真学思教育科技有限公司 模型训练方法及装置、文本区域检测方法及装置
CN112837361A (zh) * 2021-03-05 2021-05-25 浙江商汤科技开发有限公司 一种深度估计方法及装置、电子设备和存储介质
CN116745813A (zh) * 2021-03-18 2023-09-12 创峰科技 室内环境的自监督式深度估计框架
CN113379813B (zh) * 2021-06-08 2024-04-30 北京百度网讯科技有限公司 深度估计模型的训练方法、装置、电子设备及存储介质
CN113344997B (zh) * 2021-06-11 2022-07-26 方天圣华(北京)数字科技有限公司 快速获取只含有目标对象的高清前景图的方法及系统
CN113344998B (zh) * 2021-06-25 2022-04-29 北京市商汤科技开发有限公司 深度检测方法、装置、计算机设备及存储介质
KR20230064188A (ko) * 2021-11-03 2023-05-10 네이버랩스 주식회사 단안 거리 추정 모델 학습 방법 및 시스템
CN114612544B (zh) * 2022-03-11 2024-01-02 北京百度网讯科技有限公司 图像处理方法、装置、设备和存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002222419A (ja) * 2001-01-29 2002-08-09 Olympus Optical Co Ltd 画像領域分割装置及びその方法ならびに処理プログラムが記録された記録媒体
CN102750702A (zh) * 2012-06-21 2012-10-24 东华大学 基于优化bp神经网络模型的单目红外图像深度估计方法
WO2015043872A1 (en) * 2013-09-25 2015-04-02 Technische Universität München Semi-dense simultaneous localization and mapping
CN106157307A (zh) * 2016-06-27 2016-11-23 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN106599805A (zh) * 2016-12-01 2017-04-26 华中科技大学 一种基于有监督数据驱动的单目视频深度估计方法
CN106780588A (zh) * 2016-12-09 2017-05-31 浙江大学 一种基于稀疏激光观测的图像深度估计方法
CN106952222A (zh) * 2017-03-17 2017-07-14 成都通甲优博科技有限责任公司 一种交互式图像虚化方法及装置
CN107204010A (zh) * 2017-04-28 2017-09-26 中国科学院计算技术研究所 一种单目图像深度估计方法与系统
CN107553490A (zh) * 2017-09-08 2018-01-09 深圳市唯特视科技有限公司 一种基于深度学习的单目视觉避障方法
CN107578436A (zh) * 2017-08-02 2018-01-12 南京邮电大学 一种基于全卷积神经网络fcn的单目图像深度估计方法
CN107767413A (zh) * 2017-09-20 2018-03-06 华南理工大学 一种基于卷积神经网络的图像深度估计方法
CN108229478A (zh) * 2017-06-30 2018-06-29 深圳市商汤科技有限公司 图像语义分割及训练方法和装置、电子设备、存储介质和程序

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8472699B2 (en) * 2006-11-22 2013-06-25 Board Of Trustees Of The Leland Stanford Junior University Arrangement and method for three-dimensional depth image construction
US9471988B2 (en) * 2011-11-02 2016-10-18 Google Inc. Depth-map generation for an input image using an example approximate depth-map associated with an example similar image
CN107230014B (zh) * 2017-05-15 2020-11-03 浙江仟和网络科技有限公司 一种末端即时物流的智能调度系统
CN107945265B (zh) 2017-11-29 2019-09-20 华中科技大学 基于在线学习深度预测网络的实时稠密单目slam方法与系统
CN109035319B (zh) * 2018-07-27 2021-04-30 深圳市商汤科技有限公司 单目图像深度估计方法及装置、设备、程序及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002222419A (ja) * 2001-01-29 2002-08-09 Olympus Optical Co Ltd 画像領域分割装置及びその方法ならびに処理プログラムが記録された記録媒体
CN102750702A (zh) * 2012-06-21 2012-10-24 东华大学 基于优化bp神经网络模型的单目红外图像深度估计方法
WO2015043872A1 (en) * 2013-09-25 2015-04-02 Technische Universität München Semi-dense simultaneous localization and mapping
CN106157307A (zh) * 2016-06-27 2016-11-23 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN106599805A (zh) * 2016-12-01 2017-04-26 华中科技大学 一种基于有监督数据驱动的单目视频深度估计方法
CN106780588A (zh) * 2016-12-09 2017-05-31 浙江大学 一种基于稀疏激光观测的图像深度估计方法
CN106952222A (zh) * 2017-03-17 2017-07-14 成都通甲优博科技有限责任公司 一种交互式图像虚化方法及装置
CN107204010A (zh) * 2017-04-28 2017-09-26 中国科学院计算技术研究所 一种单目图像深度估计方法与系统
CN108229478A (zh) * 2017-06-30 2018-06-29 深圳市商汤科技有限公司 图像语义分割及训练方法和装置、电子设备、存储介质和程序
CN107578436A (zh) * 2017-08-02 2018-01-12 南京邮电大学 一种基于全卷积神经网络fcn的单目图像深度估计方法
CN107553490A (zh) * 2017-09-08 2018-01-09 深圳市唯特视科技有限公司 一种基于深度学习的单目视觉避障方法
CN107767413A (zh) * 2017-09-20 2018-03-06 华南理工大学 一种基于卷积神经网络的图像深度估计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SAXENA, A. ET AL.: "Learning Depth from Single Monocular Images", NIPS '05: PROCEEDINGS OF THE 18TH INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS, JPN7021001234, December 2005 (2005-12-01), ISSN: 0004484828 *

Also Published As

Publication number Publication date
CN109035319B (zh) 2021-04-30
WO2020019761A1 (zh) 2020-01-30
KR102292559B1 (ko) 2021-08-24
TW202008308A (zh) 2020-02-16
KR20200044108A (ko) 2020-04-28
CN109035319A (zh) 2018-12-18
US11443445B2 (en) 2022-09-13
SG11202003878TA (en) 2020-05-28
US20200226773A1 (en) 2020-07-16
JP6963695B2 (ja) 2021-11-10
TWI766175B (zh) 2022-06-01

Similar Documents

Publication Publication Date Title
JP6963695B2 (ja) 単眼画像深度推定方法及び装置、機器、プログラム及び記憶媒体
US11308638B2 (en) Depth estimation method and apparatus, electronic device, program, and medium
CN109325972B (zh) 激光雷达稀疏深度图的处理方法、装置、设备及介质
JP7032536B2 (ja) インスタンスセグメンテーション方法および装置、電子機器、プログラムならびに媒体
US10255686B2 (en) Estimating depth from a single image
WO2019020075A1 (zh) 图像处理方法、装置、存储介质、计算机程序和电子设备
JP7123133B2 (ja) 両眼画像の深度推定方法及び装置、機器、プログラム並びに媒体
JP6902122B2 (ja) ダブル視野角画像較正および画像処理方法、装置、記憶媒体ならびに電子機器
CN111739005B (zh) 图像检测方法、装置、电子设备及存储介质
EP3872760B1 (en) Method and apparatus of training depth estimation network, and method and apparatus of estimating depth of image
CN110223236B (zh) 用于增强图像序列的方法
CN113129352A (zh) 一种稀疏光场重建方法及装置
CN108305281A (zh) 图像的校准方法、装置、存储介质、程序产品和电子设备
CN116883770A (zh) 深度估计模型的训练方法、装置、电子设备及存储介质
CN112348939A (zh) 用于三维重建的纹理优化方法及装置
CN117333627B (zh) 一种自动驾驶场景的重建与补全方法、系统及存储介质
Hamzah et al. Depth Estimation Based on Stereo Image Using Passive Sensor
JP7425169B2 (ja) 画像処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム
CN116051832A (zh) 车辆的三维标注方法和装置
CN117788658A (zh) 用于渲染图像的方法、设备和计算机程序产品
CN115239782A (zh) 用于呈现图像的方法、电子设备和存储介质
KR20240012426A (ko) 비제약 이미지 안정화

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200422

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210607

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210927

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211015

R150 Certificate of patent or registration of utility model

Ref document number: 6963695

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250