JP2021502626A - 両眼画像の深度推定方法及び装置、機器、プログラム並びに媒体 - Google Patents

両眼画像の深度推定方法及び装置、機器、プログラム並びに媒体 Download PDF

Info

Publication number
JP2021502626A
JP2021502626A JP2020522837A JP2020522837A JP2021502626A JP 2021502626 A JP2021502626 A JP 2021502626A JP 2020522837 A JP2020522837 A JP 2020522837A JP 2020522837 A JP2020522837 A JP 2020522837A JP 2021502626 A JP2021502626 A JP 2021502626A
Authority
JP
Japan
Prior art keywords
image
pixel
reliability
neural network
predetermined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020522837A
Other languages
English (en)
Other versions
JP7123133B2 (ja
Inventor
ルイチャオ シアオ
ルイチャオ シアオ
ウェンシウ スン
ウェンシウ スン
チョンシー ヤン
チョンシー ヤン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Publication of JP2021502626A publication Critical patent/JP2021502626A/ja
Application granted granted Critical
Publication of JP7123133B2 publication Critical patent/JP7123133B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本願の実施例は、処理対象である両眼画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得るステップであって、前記視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈するステップと、前記視差画像に基づいて、前記処理対象である両眼画像の深度画像を取得するステップと、を含む両眼画像の深度推定方法及び装置、機器、プログラム並びに媒体を開示する。本願の実施例は、視差画像を得ると同時に、対応する信頼度画像を得ることができ、信頼度画像を用いて視差画像を検出して、より精確な深度画像を取得する。

Description

(関連出願の相互参照)
本願は、出願番号が201810847268.7で、出願日が2018年7月27日である中国特許出願に基づいて提出され、且つ該中国特許出願の優先権を主張し、該中国特許出願の全ての内容が参照によって本願に組み込まれる。
本願は、コンピュータビジョン技術に関し、特に、両眼画像の深度推定方法及び装置、電子機器、コンピュータプログラム並びに記憶媒体に関する。
機械学習技術が進むに伴って、深度学習ネットワークは、自動運転等の多くの現実的シーンで適用されている。これらの適用では予測結果が非常に重要なものであり、特に、深度学習に基づく回帰タスク、例えば、両眼の立体的なマッチングで、通常、予測結果が正確であると仮定されている。しかしながら、このような仮定が合理的なものでなく、誤って予測された画素が非常に重要な領域、例えば、細かくて小さい障害物にある場合に、深度学習に基づく回避システムの故障を招くことがある。また、これらの深度学習ネットワークを他のシーンに配置する時にも、芳しくない結果、更に合理的でない結果を招くことがある。
本願の実施例は、両眼画像の深度推定手段を提供する。
本願の実施例の一態様によれば、
処理対象である両眼画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得るステップであって、前記視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈するステップと、
前記視差画像に基づいて、前記処理対象である両眼画像の深度画像を取得するステップと、を含む両眼画像の深度推定方法を提供する。
選択可能に、本願の上記方法実施例では、処理対象である両眼画像を所定ニューラルネットワークに入力して、信頼度画像を得る前記ステップは、
前記処理対象である両眼画像を両眼立体マッチングニューラルネットワークにより処理した後、2つの畳み込み層と1つの正規化層によって順に処理して前記信頼度画像を得るステップを含む。
選択可能に、本願の上記のいずれか1つの方法実施例では、
前記視差画像内の各画素の信頼度及び該画素の前記所定分布における離散パラメータに基づいて算出された損失関数を用いて、前記所定ニューラルネットワークをトレーニングするステップを更に含む。
選択可能に、本願の上記のいずれか1つの方法実施例では、前記損失関数は、正則化項と、前記視差画像内の各画素の前記損失関数における重みを調整するフォーカス損失項とを含む。
選択可能に、本願の上記のいずれか1つの方法実施例では、前記正則化項は、信頼度に関連する正則化項、及び所定ニューラルネットワークパラメータに関連する正則化項を含む。
選択可能に、本願の上記のいずれか1つの方法実施例では、前記視差画像内の各画素の信頼度及び該画素の前記所定分布における離散パラメータに基づいて前記損失関数を算出するステップは、
前記視差画像とその前記信頼度画像、及び前記所定ニューラルネットワークパラメータと真実視差画像に基づいて、前記所定ニューラルネットワークパラメータに関する尤度関数を取得するステップと、
前記視差画像内の各画素の従う前記所定分布に基づいて、前記視差画像内の各画素の信頼度と該画素の前記所定分布における離散パラメータとの負の相関関係を取得するステップと、
前記視差画像内の各画素の信頼度と該画素の前記所定分布における離散パラメータとの負の相関関係に基づいて、前記所定ニューラルネットワークパラメータが前記所定分布に従い、前記視差画像内の各画素の信頼度が非逓減分布に従うことに基づいて、前記尤度関数に対して負対数を取って、前記損失関数を取得するステップと、を含む。
選択可能に、本願の上記のいずれか1つの方法実施例では、前記所定分布は、ラプラス分布又はガウス分布を含む。
選択可能に、本願の上記のいずれか1つの方法実施例では、前記所定分布がラプラス分布であることに応じて、前記損失関数は、前記視差画像と真実視差画像内の各画素の視差値との差の絶対値と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、前記視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、及び前記所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む。
選択可能に、本願の上記のいずれか1つの方法実施例では、所定分布がガウス分布であることに応じて、前記損失関数は、前記視差画像と真実視差画像内の各画素の視差値との差の平方と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、前記視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、及び前記所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む。
本願の実施例の別の態様によれば、
処理対象である両眼画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得るように構成される視差画像取得ユニットであって、前記視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈する視差画像取得ユニットと、
前記視差画像に基づいて、前記処理対象である両眼画像の深度画像を取得するように構成される深度画像取得ユニットと、を含む両眼画像の深度推定装置を提供する。
選択可能に、本願の上記装置実施例では、前記視差画像取得ユニットは、前記処理対象である両眼画像を両眼立体マッチングニューラルネットワークにより処理した後、2つの畳み込み層と1つの正規化層によって順に処理して前記信頼度画像を得るように構成される。
選択可能に、本願の上記のいずれか1つの装置実施例では、
前記視差画像内の各画素の信頼度及び該画素の前記所定分布における離散パラメータに基づいて算出された損失関数を用いて、前記所定ニューラルネットワークをトレーニングするように構成されるニューラルネットワークトレーニングユニットを更に含む。
選択可能に、本願の上記のいずれか1つの装置実施例では、前記損失関数は、正則化項と、前記視差画像内の各画素の前記損失関数における重みを調整するフォーカス損失項とを含む。
選択可能に、本願の上記のいずれか1つの装置実施例では、前記正則化項は、信頼度に関連する正則化項、及び所定ニューラルネットワークパラメータに関連する正則化項を含む。
選択可能に、本願の上記のいずれか1つの装置実施例では、前記ニューラルネットワークトレーニングユニットは、
前記視差画像とその前記信頼度画像、及び前記所定ニューラルネットワークパラメータと真実視差画像に基づいて、前記所定ニューラルネットワークパラメータに関する尤度関数を取得し、前記視差画像内の各画素の従う前記所定分布に基づいて、前記視差画像内の各画素の信頼度と該画素の前記所定分布における離散パラメータとの負の相関関係を取得し、前記視差画像内の各画素の信頼度と該画素の前記所定分布における離散パラメータとの負の相関関係に基づいて、前記所定ニューラルネットワークパラメータが前記所定分布に従い、前記視差画像内の各画素の信頼度が非逓減分布に従うことに基づいて、前記尤度関数に対して負対数を取って、前記損失関数を取得するように構成される損失関数取得モジュールを含む。
選択可能に、本願の上記のいずれか1つの装置実施例では、前記所定分布は、ラプラス分布又はガウス分布を含む。
選択可能に、本願の上記のいずれか1つの装置実施例では、所定分布がラプラス分布であることに応じて、前記損失関数は、前記視差画像と真実視差画像内の各画素の視差値との差の絶対値と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、前記視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、及び前記所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む。
選択可能に、本願の上記のいずれか1つの装置実施例では、所定分布がガウス分布であることに応じて、前記損失関数は、前記視差画像と真実視差画像内の各画素の視差値との差の平方と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、前記視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、及び前記所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む。
本願の実施例の更に別の態様によれば、上記のいずれか1つの実施例に記載の装置を含む電子機器を提供する。
本願の実施例のまた1つの態様によれば、
実行可能コマンドを記憶するように構成されるメモリと、
前記実行可能コマンドを実行して上記のいずれか1つの実施例に記載の方法を完了するように構成されるプロセッサと、を含む電子機器を提供する。
本願の実施例のまた1つの態様によれば、コンピュータ可読コードを含むコンピュータプログラムをであって、前記コンピュータ可読コードが機器上で作動する時に、前記機器におけるプロセッサが上記のいずれか1つの実施例に記載の方法を実現するためのコマンドを実行するコンピュータプログラムを提供する。
本願の実施例のまた1つの態様によれば、コンピュータ可読コマンドを記憶し、前記コマンドが実行される時に上記のいずれか1つの実施例に記載の方法が実現されるように構成されるコンピュータ記憶媒体を提供する。
本願の上記実施例で提供される両眼画像の深度推定方法及び装置、電子機器、コンピュータプログラム並びに記憶媒体によれば、処理対象である両眼画像の左視界画像と右視界画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得、視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈し、次に視差画像に基づいて、処理対象である両眼画像の深度画像を取得することによって、所定ニューラルネットワークで視差画像を得ると同時に、対応する信頼度画像を得、そのように、信頼度アノテーションを教師データとせずに、教師無しの学習方式で視差画像に対応する信頼度画像を得ることができ、信頼度は、視差画像内の各画素の所定分布における離散パラメータが該画素の信頼度と負の相関関係を呈するという物理的な意義を有するので、信頼度画像を用いて視差画像における誤りが発生可能な領域を検出して、視差画像の解析に寄与して、より精確な深度画像を取得することができる。
以下、図面及び実施例を通じて本願の技術的手段をさらに詳しく説明する。
明細書の一部を構成する図面は、本願の実施例を説明し、その説明と共に本願の原理を解釈することに用いられる。
図面を参照し、以下の詳細な説明により本願をより明瞭に理解することができる。
本願のいくつかの実施例の両眼画像の深度推定方法のフローチャートである。 本願のいくつかの実施例で信頼度を含む損失関数を取得するフローチャートである。 本願のいくつかの実施例の両眼画像の深度推定装置の構造模式図である。 本願のいくつかの実施例で提供される電子機器の構造模式図である。
ここで、図面を参照しながら本願の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施例で記述した部材及びステップの相対的配置、数式及び値は本願の範囲を限定するものではないことに注意すべきである。
同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。
以下の少なくとも一つの例示的な実施例に対する説明は実際に説明的なものに過ぎず、本願及びその適用または使用へのなんらの制限にもならない。
関連分野の当業者に既知の技術、方法及び機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法及び機器は明細書の一部と見なすべきである。
なお、類似する符号及び英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。
本願の実施例はコンピュータシステム/サーバに適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。コンピュータシステム/サーバとの併用に適する公知の計算システム、環境及び/または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム及び前記の任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。
コンピュータシステム/サーバはコンピュータシステムにより実行されるコンピュータシステム実行可能コマンド(例えば、プログラムモジュール)の一般的な言語環境において記述できる。通常、プログラムモジュールはルーチン、プログラム、目的プログラム、コンポーネント、ロジック、データ構造などを含んでよく、それらは特定のタスクを実行するかまたは特定の抽象データ型を実現する。コンピュータシステム/サーバは分散型クラウドコンピューティング環境において実施でき、分散型クラウドコンピューティング環境において、タスクは通信ネットワークにわたってリンクされた遠隔処理機器により実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してよい。
図1は本願のいくつかの実施例の両眼画像の深度推定方法のフローチャートである。
図1に示すように、該方法は、以下のステップを含む。
102において、処理対象である両眼画像を所定ニューラルネットワークに入力して、視差画像及びその信頼度画像を得る。
本実施例では、処理対象である両眼画像は、ビデオカメラ等のような画像取得装置で直接入手された画像であってもよく、USBメモリ等のような記憶装置から入手された予め記憶された画像であってもよく、更にネットワークを経由してウェブサーバから入手された画像であってもよく、本実施例では処理対象である両眼画像の取得方式が限定されない。処理対象である両眼画像の左視界画像と右視界画像、又は処理対象である両眼画像の上視界画像と下視界画像を所定ニューラルネットワークに入力して、視差画像及びその信頼度画像を得る。左視界画像と右視界画像、上視界画像と下視界画像は相対的な2つの画像であり、具体的に更に他の名称であってもよく、本実施例では具体的に限定されなく、後続の実施例で左視界画像、右視界画像をもって説明する。視差画像は左視界画像を基准として得られた左視界画像に対応する視差画像であってもよく、右視界画像を基准として得られた右視界画像に対応する視差画像であってもよく、本実施例では限定されない。信頼度画像は視差画像に基づいて取得された、視差画像内の各画素の信頼度を示す画像であってよく、ここで、視差画像内の各画素の所定分布における離散パラメータは該画素の信頼度と負の相関関係を呈し、離散パラメータは標準偏差パラメータを含むが、それに限定されない。
本実施例では、所定ニューラルネットワークは、処理対象である両眼画像の左視界画像と右視界画像を処理する前に予め決定されたニューラルネットワークであってよく、この時に所定ニューラルネットワークによって所望の視差画像を取得可能であり、所定ニューラルネットワークは、処理対象である両眼画像の左視界画像と右視界画像を処理する前に予めトレーニングされたニューラルネットワークであってもよく、この時に処理対象である両眼画像の左視界画像と右視界画像はトレーニングデータ集合から取得された画像であってよく、処理対象である両眼画像の左視界画像と右視界画像によって所定ニューラルネットワークをトレーニングすることができる。
選択可能な一例では、所定ニューラルネットワークは、両眼立体マッチングニューラルネットワーク、2つの畳み込み層及び1つの正規化(Sigmoid)層を含んでよく、処理対象である両眼画像の左視界画像と右視界画像を両眼立体マッチングニューラルネットワークにより処理された後、2つの畳み込み層と1つの正規化層によって順に処理して頼度画像を取得するようにしてよい。本実施例は信頼度画像を得るネットワークの構成について限定するものではない。
104において、視差画像に基づいて、処理対象である両眼画像の深度画像を取得する。
選択可能に、処理対象である両眼画像の視差画像を取得した後、カメラ結像投影モデルにより、深度情報と視差情報の幾何演算関係に基づいて、処理対象である両眼画像の深度画像を取得するようにしてよく、本実施例は視差画像に基づいて、深度画像を取得する方法について限定するものではない。
本実施例で提供される両眼画像の深度推定方法によれば、処理対象である両眼画像の左視界画像と右視界画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得、視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈し、次に視差画像に基づいて、処理対象である両眼画像の深度画像を取得することによって、所定ニューラルネットワークで視差画像を得ると同時に、対応する信頼度画像を得、そのように、信頼度アノテーションを教師データとせずに、教師無しの学習方式で視差画像に対応する信頼度画像を得ることができ、信頼度は、視差画像内の各画素の所定分布における離散パラメータが該画素の信頼度と負の相関関係を呈するという物理的な意義を有するので、信頼度画像を用いて視差画像における誤りが発生可能な領域を検出して、視差画像の解析に寄与して、より精確な深度画像を取得することができる。
いくつかの実施例では、損失関数を用いて所定ニューラルネットワークをトレーニングしてよく、ここで、損失関数は視差画像内の各画素の信頼度及び該画素の所定分布における離散パラメータに基づいて算出可能であり、即ち、視差画像内の各画素の所定分布における離散パラメータが該画素の信頼度と負の相関関係を呈するという信頼度の物理的な意義により、信頼度を含む損失関数を取得することができ、損失関数中の信頼度を用いて損失関数を最適化して、該損失関数を用いてトレーニングされた所定ニューラルネットワークにより好適なロバスト性を持たせることができる。
選択可能に、損失関数は、フォーカス損失項及び正則化項を含んでよく、ここで、フォーカス損失項は、信頼度によって視差画像内の各画素の損失関数での重みを自動的に調整して、視差画像内の信頼度が高い画素に大きい重みを持たせ、視差画像中の信頼度が低い画素に小さい重みを持たせることができ、それによって学習した信頼度を所定ニューラルネットワークのトレーニングプロセスに同期して適用して、入力データ中のノイズによる影響を低減することができ、例えば、入力データ中のノイズが処理対象である両眼画像内の遮蔽された領域等であり、所定ニューラルネットワークがより好ましい段階で縮約可能であり、より好適なロバスト性を有する。
選択可能に、損失関数中の正則化項は、信頼度に関連する正則化項、及び所定ニューラルネットワークパラメータに関連する正則化項を含んでよく、ここで、信頼度に関連する正則化項は、視差画像内の信頼度が低い画素の損失重みが小さ過ぎないように、トレーニングの効率を確保することができ、所定ニューラルネットワークパラメータに関連する正則化項は重み正則化項にもなり、トレーニングプロセスでの所定ニューラルネットワークの過剰適合を防止することができる。
図2は本願のいくつかの実施例で信頼度を含む損失関数を取得するフローチャートである。
図2に示すように、該方法は以下のステップを含む。
202において、処理対象である両眼画像の視差画像とその信頼度画像、及び所定ニューラルネットワークパラメータと真実視差画像に基づいて、所定ニューラルネットワークパラメータに関する尤度関数を取得する。
選択可能に、処理対象である両眼画像の視差画像とその信頼度画像、及び所定ニューラルネットワークパラメータと真実視差画像に基づいて、ベイズ確率論により所定ニューラルネットワークパラメータに関する尤度関数を取得してよい。
204において、視差画像内の各画素の従う所定分布に基づいて、視差画像内の各画素の信頼度と該画素の所定分布における離散パラメータとの負の相関関係を取得する。
選択可能に、視差画像中の各画素を異なる標準偏差の所定分布に従わせることによって、視差画像内の各画素の信頼度と該画素の所定分布における離散パラメータとの負の相関関係を取得してよい。
206において、視差画像内の各画素の信頼度と該画素の所定分布における離散パラメータとの負の相関関係に基づいて、所定ニューラルネットワークパラメータが所定分布に従い、視差画像内の各画素の信頼度が非逓減分布に従うことに基づいて、尤度関数に対して負対数を取って、損失関数を取得する。
選択可能に、所定ニューラルネットワークパラメータは、平均値がゼロで、標準偏差が1である所定分布に従ってよい。
選択可能に、所定分布はラプラス分布又はガウス分布であってよい。
いくつかの実施例では、所定分布がラプラス分布であることに応じて、損失関数は、処理対象である両眼画像の視差画像と真実視差画像内の各画素の視差値との差の絶対値と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む。
ここで、ベイズ確率論により、処理対象である両眼画像の視差画像とその信頼度画像、及び所定ニューラルネットワークパラメータと真実視差画像に基づいて、以下のような所定ニューラルネットワークパラメータに関する尤度関数が取得される。
(式1)
ただし、x={x、x、…、x}は処理対象である両眼画像であり、y={y、y、…、y}は真実視差画像であり、ただし、TとNはそれぞれ処理対象である両眼画像と真実視差画像中の画素数量であり、wは所定ニューラルネットワークのパラメータであり、c={c、c、…、c}は信頼度画像である。
視差画像内の各画素が異なる標準偏差のラプラス分布に従うことに基づいて、
(式2)
以下のような視差画像内の各画素の信頼度と該画素のラプラス分布での離散パラメータとの負の相関関係が取得される。
(式3)
ただし、b={b、b、…、b}は異なる標準偏差のラプラス分布であり、bはラプラス分布の標準偏差パラメータ、即ち離散パラメータであり、c∈[0,1]はランダム変数とし、bとcの線形逓減関数で負の相関関係を呈し、k及びaは、b≧1を常に満たしているように、a≧k+1を満たす2つの正定数である。
所定ニューラルネットワークパラメータが、平均値がゼロで、標準偏差が1であるラプラス分布に従い、
(式4)
視差画像内の各画素の信頼度が非逓減分布に従い、γ≧0であることに基づいて、
(式5)
式2、式3、式4及び式5を式1に代入して、尤度関数に対して負対数を取って、損失関数を取得する。
(式6)
別の些実施例では、所定分布がガウス分布であることに応じて、損失関数は、処理対象である両眼画像の視差画像と真実視差画像内の各画素の視差値との差の平方と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む。
ここで、ベイズ確率論により、処理対象である両眼画像の視差画像とその信頼度画像、及び所定ニューラルネットワークパラメータと真実視差画像に基づいて、以下のような所定ニューラルネットワークパラメータに関する尤度関数が取得される。
(式1)
ただし、x={x、x、…、x}は処理対象である両眼画像であり、y={y、y、…、y}は真実視差画像であり、ただし、TとNはそれぞれ処理対象である両眼画像と真実視差画像中の画素数量であり、wは所定ニューラルネットワークのパラメータであり、c={c、c、…、c}は信頼度画像である。
視差画像内の各画素が異なる標準偏差のガウス分布に従うことに基づいて、
(式7)
以下のような視差画像内の各画素の信頼度と該画素のガウス分布での離散パラメータとの負の相関関係が取得される。
(式3)
ただし、b={b、b、…、b}は異なる標準偏差のガウス分布であり、bはガウス分布の標準偏差パラメータ、即ち離散パラメータであり、c∈[0,1]はランダム変数とし、bとcの線形逓減関数で負の相関関係を呈し、k及びaは、b≧1を常に満たしているように、a≧k+1を満たす2つの正定数である。
所定ニューラルネットワークパラメータが、平均値がゼロで、標準偏差が1であるガウス分布に従い、
(式8)
視差画像内の各画素の信頼度が非逓減分布に従い、γ≧0であることに基づいて、
(式5)
式7、式3、式8及び式5を式1に代入して、尤度関数に対して負対数を取って、損失関数を取得する。
(式9)
本願の上記各実施例の方法は、携帯電話、タブレットコンピュータ等のような携帯端末又は自動運転等の装置の画像処理に利用可能である。
図3は本願のいくつかの実施例の両眼画像の深度推定装置の構造模式図である。
図3に示すように、該装置は、視差画像取得ユニット310と深度画像取得ユニット320を含む。
視差画像取得ユニット310は、処理対象である両眼画像を所定ニューラルネットワークに入力して、視差画像及びその信頼度画像を得るように構成される。
本実施例では、処理対象である両眼画像は、ビデオカメラ等のような画像取得装置で直接入手された画像であってもよく、USBメモリ等のような記憶装置から入手された予め記憶された画像であってもよく、更にネットワークを経由してウェブサーバから入手された画像であってもよく、本実施例では処理対象である両眼画像の取得方式が限定されない。処理対象である両眼画像の左視界画像と右視界画像、又は処理対象である両眼画像の上視界画像と下視界画像を所定ニューラルネットワークに入力して、視差画像及びその信頼度画像を得る。左視界画像と右視界画像、上視界画像と下視界画像は相対的な2つの画像であり、具体的に更に他の名称であってもよく、本実施例では具体的に限定されなく、後続の実施例で左視界画像、右視界画像をもって説明する。視差画像は左視界画像を基准として得られた左視界画像に対応する視差画像であってもよく、右視界画像を基准として得られた右視界画像に対応する視差画像であってもよく、本実施例では限定されない。信頼度画像は視差画像に基づいて取得された、視差画像内の各画素の信頼度を示す画像であってよく、ここで、視差画像内の各画素の所定分布における離散パラメータは該画素の信頼度と負の相関関係を呈し、離散パラメータは標準偏差パラメータを含むが、それに限定されない。
本実施例では、所定ニューラルネットワークは、処理対象である両眼画像の左視界画像と右視界画像を処理する前に予め決定されたニューラルネットワークであってよく、この時に所定ニューラルネットワークによって所望の視差画像を取得可能であり、所定ニューラルネットワークは、処理対象である両眼画像の左視界画像と右視界画像を処理する前に予めトレーニングされたニューラルネットワークであってもよく、この時に処理対象である両眼画像の左視界画像と右視界画像はトレーニングデータ集合から取得された画像であってよく、処理対象である両眼画像の左視界画像と右視界画像によって所定ニューラルネットワークをトレーニングすることができる。
選択可能な一例では、所定ニューラルネットワークは、両眼立体マッチングニューラルネットワーク、2つの畳み込み層及び1つの正規化(Sigmoid)層を含んでよく、視差画像取得ユニット310は、処理対象である両眼画像の左視界画像と右視界画像を両眼立体マッチングニューラルネットワークにより処理された後、2つの畳み込み層と1つの正規化層によって順に処理して信頼度画像を得ることができる。本実施例は信頼度画像を得るネットワークの構成について限定するものではない。
深度画像取得ユニット320は、視差画像に基づいて、処理対象である両眼画像の深度画像を取得するように構成される。
選択可能に、処理対象である両眼画像の視差画像を取得した後、カメラ結像投影モデルにより、深度情報と視差情報の幾何演算関係に基づいて、処理対象である両眼画像の深度画像を取得するようにしてよく、本実施例は視差画像に基づいて、深度画像を取得する方法について限定するものではない。
本実施例で提供される両眼画像の深度推定装置によれば、処理対象である両眼画像の左視界画像と右視界画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得、視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈し、次に視差画像に基づいて、処理対象である両眼画像の深度画像を取得することによって、所定ニューラルネットワークで視差画像を得ると同時に、対応する信頼度画像を得、そのように、信頼度アノテーションを教師データとせずに、教師無しの学習方式で視差画像に対応する信頼度画像を得ることができ、信頼度は、視差画像内の各画素の所定分布における離散パラメータが該画素の信頼度と負の相関関係を呈するという物理的な意義を有するので、信頼度画像を用いて視差画像における誤りが発生可能な領域を検出して、視差画像の解析に寄与して、より精確な深度画像を取得することができる。
いくつかの実施例では、両眼画像の深度推定装置は、損失関数を用いて所定ニューラルネットワークをトレーニングするためのニューラルネットワークトレーニングユニットを更に含んでよく、ここで、損失関数は視差画像内の各画素の信頼度及び該画素の所定分布における離散パラメータに基づいて算出可能であり、即ち、視差画像内の各画素の所定分布における離散パラメータが該画素の信頼度と負の相関関係を呈するという信頼度の物理的な意義により、信頼度を含む損失関数を取得することができ、損失関数中の信頼度を用いて損失関数を最適化して、該損失関数を用いてトレーニングされた所定ニューラルネットワークにより好適なロバスト性を持たせることができる。
選択可能に、損失関数は、フォーカス損失項及び正則化項を含んでよく、ここで、フォーカス損失項は、信頼度によって視差画像内の各画素の損失関数での重みを自動的に調整して、視差画像内の信頼度が高い画素に大きい重みを持たせ、視差画像中の信頼度が低い画素に小さい重みを持たせることができ、それによって学習した信頼度を所定ニューラルネットワークのトレーニングプロセスに同期して適用して、入力データ中のノイズによる影響を低減することができ、例えば、入力データ中のノイズが処理対象である両眼画像内の遮蔽された領域等であり、所定ニューラルネットワークがより好ましい段階で縮約可能であり、より好適なロバスト性を有する。
選択可能に、損失関数中の正則化項は、信頼度に関連する正則化項、及び所定ニューラルネットワークパラメータに関連する正則化項を含んでよく、ここで、信頼度に関連する正則化項は、視差画像内の信頼度が低い画素の損失重みが小さ過ぎないように、トレーニングの効率を確保することができ、所定ニューラルネットワークパラメータに関連する正則化項は重み正則化項にもなり、トレーニングプロセスでの所定ニューラルネットワークの過剰適合を防止することができる。
選択可能に、ニューラルネットワークトレーニングユニットは、信頼度を含む損失関数を取得するように構成される損失関数取得モジュールを含んでよい。
選択可能な一例では、損失関数取得モジュールは、処理対象である両眼画像の視差画像とその信頼度画像、及び所定ニューラルネットワークパラメータと真実視差画像に基づいて、所定ニューラルネットワークパラメータに関する尤度関数を取得し、視差画像内の各画素の従う所定分布に基づいて、視差画像内の各画素の信頼度と該画素の所定分布における離散パラメータとの負の相関関係を取得し、視差画像内の各画素の信頼度と該画素の所定分布における離散パラメータとの負の相関関係に基づいて、所定ニューラルネットワークパラメータが所定分布に従い、視差画像内の各画素の信頼度が非逓減分布に従うことに基づいて、尤度関数に対して負対数を取って、損失関数を取得するようになってよい。
選択可能に、損失関数取得モジュールは、処理対象である両眼画像の視差画像とその信頼度画像、及び所定ニューラルネットワークパラメータと真実視差画像に基づいて、ベイズ確率論により所定ニューラルネットワークパラメータに関する尤度関数を取得するようになってよい。
選択可能に、損失関数取得モジュールは、視差画像中の各画素を異なる標準偏差の所定分布に従わせることによって、視差画像内の各画素の信頼度と該画素の所定分布における離散パラメータとの負の相関関係を取得するようになってよい。
選択可能に、所定ニューラルネットワークパラメータは、平均値がゼロで、標準偏差が1である所定分布に従ってよい。
選択可能に、所定分布はラプラス分布又はガウス分布であってよい。
いくつかの実施例では、所定分布がラプラス分布であることに応じて、損失関数は、処理対象である両眼画像の視差画像と真実視差画像内の各画素の視差値との差の絶対値と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む。
別の実施例では、所定分布がガウス分布であることに応じて、損失関数は、処理対象である両眼画像の視差画像と真実視差画像内の各画素の視差値との差の平方と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む。
本願の実施例は、例えば、携帯端末、パーソナルコンピュータ(PC)、タブレット型コンピュータ、サーバなどであってよい電子機器を更に提供する。以下、本願の実施例の端末装置又はサーバを実現するのに適する電子機器400の構造模式図を示す図4を参照し、図4に示すように、電子機器400は1つ又は複数のプロセッサ、通信部などを含み、前記1つ又は複数のプロセッサは、例えば、1つ又は複数の中央処理ユニット(CPU)401、及び/又は1つ又は複数の画像プロセッサ(GPU)413であり、プロセッサは、読み取り専用メモリ(ROM)402に記憶された実行可能コマンド又は記憶部408からランダムアクセスメモリ(RAM)403にロードされた実行可能コマンドによって各種の適切な動作及び処理を実現することができる。通信部412はネットワークカードを含んでよいが、それに限定されなく、前記ネットワークカードはIB(Infiniband)ネットワークカードを含んでよいが、それに限定されなく、プロセッサは読み取り専用メモリ402及び/又はランダムアクセスメモリ403と通信して実行可能コマンドを実行し、通信バス404を介して通信部412に接続され、通信部412を介して他のターゲットデバイスと通信してよく、それにより本願の実施例で提供されるいずれか一項の方法に対応する操作を完成し、例えば、処理対象である両眼画像の左視界画像と右視界画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得、視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈し、前記視差画像に基づいて、前記処理対象である両眼画像の深度画像を取得する。
また、RAM403には、装置の動作に必要な各種のプログラムやデータが格納されていてもよい。CPU401、ROM402及びRAM403は、通信バス404を介して相互に接続される。RAM403を有する場合に、ROM402は選択可能なモジュールである。RAM403は実行可能コマンドを格納するか、または動作時に実行可能コマンドをROM402に書き込み、実行可能コマンドによって中央処理ユニット401に上記通信方法に対応する操作を実行させる。入力/出力(I/O)インターフェイス405も通信バス404に接続される。通信部412は、統合的に設置されてもよく、複数のサブモジュール(例えば複数のIBネットワークカード)を有し、通信バスのリンク上にあるように設置されてもよい。
キーボード、マウスなどを含む入力部406と、陰極線管(CRT)、液晶ディスプレイー(LCD)など及びスピーカなどを含む出力部407と、ハードディスクなどを含む記憶部408と、LANカード、モデムなどのネットワークインターフェイスカードを含む通信部409とがI/Oインターフェイス405に接続されている。通信部409は例えばインターネットのようなネットワークを介して通信処理を行う。ドライブ410も必要に応じてI/Oインターフェイス405に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体411は、必要に応じてドライブ410上に装着され、そこから読み出されたコンピュータプログラムを必要に応じて記憶部408にインストールする。
なお、図4に示す構造は選択可能な一実施形態に過ぎず、具体的な実践過程では、実際の必要に応じて上記図4の部品の数及び種類を選択、削除、追加、または置換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばGPU413とCPU401は分離設置するかまたはGPU413をCPU401に統合するようにしてよく、通信部は分離設置するか、またはCPU401やGPU413に統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本願の保護範囲に属する。
特に、本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例により提供される方法のステップを対応して実行する対応のコマンドを含んでよく、例えば、処理対象である両眼画像の左視界画像と右視界画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得、視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈し、前記視差画像に基づいて、前記処理対象である両眼画像の深度画像を取得する。このような実施例では、該コンピュータプログラムは通信部409によってネットワークからダウンロード及びインストールされ、及び/又はリムーバブル媒体411からインストールされ得る。中央処理ユニット(CPU)401によって該コンピュータプログラムを実行する時に、本願の方法で限定された上記機能を実行する。
1つ又は複数の選択可能な実施形態では、本願の実施例は、コンピュータ可読コマンドを記憶し、該コマンドが実行される時にコンピュータに上記のいずれか1つの可能な実施形態における両眼画像の深度推定方法を実行させるように構成されるコンピュータプログラム製品を更に提供する。
該コンピュータプログラム製品は具体的にはハードウェア、ソフトウェア又はそれらの組合せにより実現可能である。選択可能な一例において、該コンピュータプログラム製品は具体的にはコンピュータ記憶媒体として実現され、別の選択可能な一例において、該コンピュータプログラム製品は具体的には、例えばソフトウェア開発キット(Software Development Kit、SDK)などのソフトウェア製品として実現される。
1つ又は複数の選択可能な実施形態では、本願の実施例は、両眼画像の深度推定方法及びそれに対応する装置、電子機器、コンピュータ記憶媒体、コンピュータプログラム並びにコンピュータプログラム製品を更に提供し、該方法は、第2装置に上記のいずれか1つの可能な実施例における両眼画像の深度推定方法を実行させる、両眼画像に基づく深度推定指示を第1装置から第2装置へ送信するステップと、第1装置により第2装置から送信される両眼画像の深度推定の結果を受信するステップと、を含む。
いくつかの実施例では、この両眼画像の深度推定指示は具体的には呼び出しコマンドであってもよく、第1の装置は呼び出すことで第2の装置に両眼画像の深度推定を実行させるように指示してもよく、それに対して、呼び出しコマンドを受信したことに応答して、第2の装置は上記両眼画像の深度推定方法中の任意の実施例中のステップ及び/又は流れを実行することができる。
本願の実施例における「第1の」、「第2の」などの用語は区別するためのものに過ぎず、本願の実施例に対する限定と理解してはならないことを理解すべきである。
更に、本願では、「複数の」は2つ又は2つ以上を指してよく、「少なくとも1つの」は1つ、2つ又は2つ以上を指してよいことを理解すべきである。
更に、本願で言及された任意の部材、データ又は構造は、明確に限定され又は明細書の前後で反対的に示唆された場合でなければ、一般的には1つ又は複数と理解してよいことを理解すべきである。
更に、本願ではそれぞれの実施例についての説明はそれぞれの実施例の相違点を重点として強調し、その同一又は類似的な点について相互に参照してよく、簡単化するために、ここで一つずつに繰り返して説明しないことを理解すべきである。
本願の方法及び装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組合わせによって本願の方法及び装置を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本願の方法のステップは、特に断らない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施例では、本願は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本願の方法を実現するための機械可読コマンドを含む。従って、本願は本願の方法を実行するためのプログラムが記憶された記録媒体も含む。
本願の説明は、例示及び説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本願を限定するというわけでない。当業者にとっては多くの修正及び変形を加えることができるのは明らかであろう。実施例は本願の原理及び実際応用をより明瞭に説明するため、かつ当業者が本願を理解して特定用途に適した各種の修正を加えた各種の実施例を設計可能にするように選択され説明されたものである。

Claims (22)

  1. 処理対象である両眼画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得るステップであって、前記視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈するステップと、
    前記視差画像に基づいて、前記処理対象である両眼画像の深度画像を取得するステップと、を含む両眼画像の深度推定方法。
  2. 処理対象である両眼画像の左視界画像と右視界画像を所定ニューラルネットワークに入力して、信頼度画像を得る前記ステップは、
    前記処理対象である両眼画像を両眼立体マッチングニューラルネットワークにより処理した後、2つの畳み込み層と1つの正規化層によって順に処理して前記信頼度画像を得るステップを含む請求項1に記載の方法。
  3. 前記視差画像内の各画素の信頼度及び該画素の前記所定分布における離散パラメータに基づいて算出された損失関数を用いて、前記所定ニューラルネットワークをトレーニングするステップを更に含む請求項1又は2に記載の方法。
  4. 前記損失関数は、正則化項と、前記視差画像内の各画素の前記損失関数における重みを調整するフォーカス損失項とを含む請求項3に記載の方法。
  5. 前記正則化項は、信頼度に関連する正則化項、及び所定ニューラルネットワークパラメータに関連する正則化項を含む請求項4に記載の方法。
  6. 前記視差画像内の各画素の信頼度及び該画素の前記所定分布における離散パラメータに基づいて前記損失関数を算出するステップは、
    前記視差画像とその前記信頼度画像、及び前記所定ニューラルネットワークパラメータと真実視差画像に基づいて、前記所定ニューラルネットワークパラメータに関する尤度関数を取得するステップと、
    前記視差画像内の各画素の従う前記所定分布に基づいて、前記視差画像内の各画素の信頼度と該画素の前記所定分布における離散パラメータとの負の相関関係を取得するステップと、
    前記視差画像内の各画素の信頼度と該画素の前記所定分布における離散パラメータとの負の相関関係に基づいて、前記所定ニューラルネットワークパラメータが前記所定分布に従い、前記視差画像内の各画素の信頼度が非逓減分布に従うことに基づいて、前記尤度関数に対して負対数を取って、前記損失関数を取得するステップと、を含む請求項3〜5のいずれか一項に記載の方法。
  7. 前記所定分布は、ラプラス分布又はガウス分布を含む請求項3〜6のいずれか一項に記載の方法。
  8. 前記所定分布がラプラス分布であることに応じて、前記損失関数は、前記視差画像と真実視差画像内の各画素の視差値との差の絶対値と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、前記視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、及び前記所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む請求項7に記載の方法。
  9. 所定分布がガウス分布であることに応じて、前記損失関数は、前記視差画像と真実視差画像内の各画素の視差値との差の平方と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、前記視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、及び前記所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む請求項7に記載の方法。
  10. 処理対象である両眼画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得るように構成される視差画像取得ユニットであって、前記視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈する視差画像取得ユニットと、
    前記視差画像に基づいて、前記処理対象である両眼画像の深度画像を取得するように構成される深度画像取得ユニットと、を含む両眼画像の深度推定装置。
  11. 前記視差画像取得ユニットは、前記処理対象である両眼画像を両眼立体マッチングニューラルネットワークにより処理した後、2つの畳み込み層と1つの正規化層によって順に処理して前記信頼度画像を得るように構成される請求項10に記載の装置。
  12. 前記視差画像内の各画素の信頼度及び該画素の前記所定分布における離散パラメータに基づいて算出された損失関数を用いて、前記所定ニューラルネットワークをトレーニングするように構成されるニューラルネットワークトレーニングユニットを更に含む請求項10又は11に記載の装置。
  13. 前記損失関数は、正則化項と、前記視差画像内の各画素の前記損失関数における重みを調整するフォーカス損失項とを含む請求項12に記載の装置。
  14. 前記正則化項は、信頼度に関連する正則化項、及び所定ニューラルネットワークパラメータに関連する正則化項を含む請求項13に記載の装置。
  15. 前記ニューラルネットワークトレーニングユニットは、
    前記視差画像とその前記信頼度画像、及び前記所定ニューラルネットワークパラメータと真実視差画像に基づいて、前記所定ニューラルネットワークパラメータに関する尤度関数を取得し、前記視差画像内の各画素の従う前記所定分布に基づいて、前記視差画像内の各画素の信頼度と該画素の前記所定分布における離散パラメータとの負の相関関係を取得し、前記視差画像内の各画素の信頼度と該画素の前記所定分布における離散パラメータとの負の相関関係に基づいて、前記所定ニューラルネットワークパラメータが前記所定分布に従い、前記視差画像内の各画素の信頼度が非逓減分布に従うことに基づいて、前記尤度関数に対して負対数を取って、前記損失関数を取得するように構成される損失関数取得モジュールを含む請求項12〜14のいずれか一項に記載の装置。
  16. 前記所定分布は、ラプラス分布又はガウス分布を含む請求項12〜15のいずれか一項に記載の装置。
  17. 所定分布がラプラス分布であることに応じて、前記損失関数は、前記視差画像と真実視差画像内の各画素の視差値との差の絶対値と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、前記視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、及び前記所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む請求項16に記載の装置。
  18. 所定分布がガウス分布であることに応じて、前記損失関数は、前記視差画像と真実視差画像内の各画素の視差値との差の平方と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、前記視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、及び前記所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む請求項16に記載の装置。
  19. 請求項1〜18のいずれか一項に記載の装置を含む電子機器。
  20. 実行可能コマンドを記憶するように構成されるメモリと、
    前記実行可能コマンドを実行して請求項1〜9のいずれか一項に記載の方法を完了するように構成されるプロセッサと、を含む電子機器。
  21. コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードが機器上で作動する時に、前記機器におけるプロセッサが請求項1〜9のいずれか一項に記載の方法を実現するためのコマンドを実行するコンピュータプログラム。
  22. コンピュータ可読コマンドを記憶し、前記コマンドが実行される時に請求項1〜9のいずれか一項に記載の方法が実現されるように構成されるコンピュータ記憶媒体。
JP2020522837A 2018-07-27 2019-04-12 両眼画像の深度推定方法及び装置、機器、プログラム並びに媒体 Active JP7123133B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810847268.7 2018-07-27
CN201810847268.7A CN109191512B (zh) 2018-07-27 2018-07-27 双目图像的深度估计方法及装置、设备、程序及介质
PCT/CN2019/082549 WO2020019765A1 (zh) 2018-07-27 2019-04-12 双目图像的深度估计方法及装置、设备、程序及介质

Publications (2)

Publication Number Publication Date
JP2021502626A true JP2021502626A (ja) 2021-01-28
JP7123133B2 JP7123133B2 (ja) 2022-08-22

Family

ID=64937763

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020522837A Active JP7123133B2 (ja) 2018-07-27 2019-04-12 両眼画像の深度推定方法及び装置、機器、プログラム並びに媒体

Country Status (6)

Country Link
US (1) US11295466B2 (ja)
JP (1) JP7123133B2 (ja)
CN (1) CN109191512B (ja)
SG (1) SG11202003899WA (ja)
TW (1) TWI721510B (ja)
WO (1) WO2020019765A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023047562A1 (ja) * 2021-09-27 2023-03-30 日本電気株式会社 学習装置、学習方法、及び、記録媒体
JP7451456B2 (ja) 2021-03-22 2024-03-18 株式会社東芝 運動推定装置及びそれを用いた運動推定方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191512B (zh) 2018-07-27 2020-10-30 深圳市商汤科技有限公司 双目图像的深度估计方法及装置、设备、程序及介质
CN113167269A (zh) * 2018-12-16 2021-07-23 森西亚有限责任公司 泵系统
CN109887019B (zh) * 2019-02-19 2022-05-24 北京市商汤科技开发有限公司 一种双目匹配方法及装置、设备和存储介质
CN111723926B (zh) * 2019-03-22 2023-09-12 北京地平线机器人技术研发有限公司 用于确定图像视差的神经网络模型的训练方法和训练装置
CN110148179A (zh) * 2019-04-19 2019-08-20 北京地平线机器人技术研发有限公司 一种训练用于估计图像视差图的神经网络模型方法、装置及介质
WO2021229455A1 (en) * 2020-05-11 2021-11-18 Niantic, Inc. Generating stereo image data from monocular images
CN112116639B (zh) * 2020-09-08 2022-06-07 苏州浪潮智能科技有限公司 一种图像配准方法、装置及电子设备和存储介质
CN112634341B (zh) * 2020-12-24 2021-09-07 湖北工业大学 多视觉任务协同的深度估计模型的构建方法
CN113706599B (zh) * 2021-10-29 2022-01-21 纽劢科技(上海)有限公司 一种基于伪标签融合的双目深度估计方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012253666A (ja) * 2011-06-06 2012-12-20 Sony Corp 画像理装置および方法、並びにプログラム

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102011054833A1 (de) * 2010-10-29 2012-05-03 Hoya Corp. Verfahren zum Messen der binokularen Sehleistung, Programm zum Messen der binokularen Sehleistung, Verfahren zum Entwerfen von Brillengläsern und Verfahren zur Herstellung von Brillengläsern
EP2509324A1 (en) * 2011-04-08 2012-10-10 Thomson Licensing Method and apparatus for analyzing stereoscopic or multi-view images
JP2013005259A (ja) * 2011-06-17 2013-01-07 Sony Corp 画像処理装置、および画像処理方法、並びにプログラム
JP5367034B2 (ja) * 2011-08-24 2013-12-11 株式会社ソニー・コンピュータエンタテインメント 画像処理装置および画像処理方法
US11074495B2 (en) * 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform
EP2774380B1 (en) * 2011-11-02 2019-05-22 Intuitive Surgical Operations, Inc. Method and system for stereo gaze tracking
CN102523464A (zh) * 2011-12-12 2012-06-27 上海大学 一种双目立体视频的深度图像估计方法
CN102609936A (zh) * 2012-01-10 2012-07-25 四川长虹电器股份有限公司 基于置信度传播的图像立体匹配方法
CN103424105B (zh) * 2012-05-16 2016-02-10 株式会社理光 对象检测方法和装置
CN104662589B (zh) * 2012-08-21 2017-08-04 派力肯影像公司 用于使用阵列照相机捕捉的图像中的视差检测和校正的系统和方法
WO2014037603A1 (en) * 2012-09-06 2014-03-13 Nokia Corporation An apparatus, a method and a computer program for image processing
JP2014078095A (ja) * 2012-10-10 2014-05-01 Sony Corp 画像処理装置、画像処理方法、及びプログラム
US9519972B2 (en) * 2013-03-13 2016-12-13 Kip Peli P1 Lp Systems and methods for synthesizing images from image data captured by an array camera using restricted depth of field depth maps in which depth estimation precision varies
CN105096300B (zh) * 2014-05-08 2018-06-12 株式会社理光 对象检测方法和设备
TWI608447B (zh) * 2015-09-25 2017-12-11 台達電子工業股份有限公司 立體影像深度圖產生裝置及方法
US10482313B2 (en) * 2015-09-30 2019-11-19 Siemens Healthcare Gmbh Method and system for classification of endoscopic images using deep decision networks
US9881234B2 (en) * 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection
JP6769477B2 (ja) * 2016-03-10 2020-10-14 株式会社リコー 画像処理装置、撮像装置、移動体機器制御システム、画像処理方法、及びプログラム
US10841491B2 (en) * 2016-03-16 2020-11-17 Analog Devices, Inc. Reducing power consumption for time-of-flight depth imaging
US10482633B2 (en) * 2016-09-12 2019-11-19 Zebra Medical Vision Ltd. Systems and methods for automated detection of an indication of malignancy in a mammographic image
WO2018057714A1 (en) * 2016-09-21 2018-03-29 The General Hospital Corporation Systems, methods and media for automatically generating a bone age assessment from a radiograph
US10003768B2 (en) * 2016-09-28 2018-06-19 Gopro, Inc. Apparatus and methods for frame interpolation based on spatial considerations
US10003787B1 (en) * 2016-12-21 2018-06-19 Canon Kabushiki Kaisha Method, system and apparatus for refining a depth map
CN106683182B (zh) * 2017-01-12 2019-09-20 南京大学 一种权衡立体匹配和视觉外形的三维重建方法
US10580131B2 (en) * 2017-02-23 2020-03-03 Zebra Medical Vision Ltd. Convolutional neural network for segmentation of medical anatomical images
US11835524B2 (en) * 2017-03-06 2023-12-05 University Of Southern California Machine learning for digital pathology
US10616482B2 (en) * 2017-03-10 2020-04-07 Gopro, Inc. Image quality assessment
CN110574050A (zh) * 2017-05-31 2019-12-13 英特尔公司 用于基于四元数的机器学习系统的基于梯度的训练引擎
WO2019024568A1 (zh) * 2017-08-02 2019-02-07 上海市第六人民医院 眼底图像处理方法、装置、计算机设备和存储介质
US10970425B2 (en) * 2017-12-26 2021-04-06 Seiko Epson Corporation Object detection and tracking
US11087130B2 (en) * 2017-12-29 2021-08-10 RetailNext, Inc. Simultaneous object localization and attribute classification using multitask deep neural networks
CN108269273B (zh) * 2018-02-12 2021-07-27 福州大学 一种全景纵向漫游中极线匹配的置信传播方法
US10956714B2 (en) * 2018-05-18 2021-03-23 Beijing Sensetime Technology Development Co., Ltd Method and apparatus for detecting living body, electronic device, and storage medium
CN110832275B (zh) * 2018-06-14 2021-05-18 北京嘀嘀无限科技发展有限公司 基于双目图像更新高分辨率地图的系统和方法
CN109191512B (zh) * 2018-07-27 2020-10-30 深圳市商汤科技有限公司 双目图像的深度估计方法及装置、设备、程序及介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012253666A (ja) * 2011-06-06 2012-12-20 Sony Corp 画像理装置および方法、並びにプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7451456B2 (ja) 2021-03-22 2024-03-18 株式会社東芝 運動推定装置及びそれを用いた運動推定方法
WO2023047562A1 (ja) * 2021-09-27 2023-03-30 日本電気株式会社 学習装置、学習方法、及び、記録媒体

Also Published As

Publication number Publication date
SG11202003899WA (en) 2020-05-28
TW202008310A (zh) 2020-02-16
WO2020019765A1 (zh) 2020-01-30
CN109191512A (zh) 2019-01-11
TWI721510B (zh) 2021-03-11
US11295466B2 (en) 2022-04-05
JP7123133B2 (ja) 2022-08-22
CN109191512B (zh) 2020-10-30
US20200258250A1 (en) 2020-08-13

Similar Documents

Publication Publication Date Title
JP2021502626A (ja) 両眼画像の深度推定方法及び装置、機器、プログラム並びに媒体
US20210150759A1 (en) Eye gaze tracking using neural networks
JP6963695B2 (ja) 単眼画像深度推定方法及び装置、機器、プログラム及び記憶媒体
CN110168560B (zh) 用于场景理解和生成的方法、系统和介质
EP3295426B1 (en) Edge-aware bilateral image processing
WO2019223382A1 (zh) 单目深度估计方法及其装置、设备和存储介质
WO2019024808A1 (zh) 语义分割模型的训练方法和装置、电子设备、存储介质
US20200175700A1 (en) Joint Training Technique for Depth Map Generation
US10970821B2 (en) Image blurring methods and apparatuses, storage media, and electronic devices
US11004221B2 (en) Depth recovery methods and apparatuses for monocular image, and computer devices
EP3182369B1 (en) Stereo matching method, controller and system
US11004179B2 (en) Image blurring methods and apparatuses, storage media, and electronic devices
JP2020523703A (ja) ダブル視野角画像較正および画像処理方法、装置、記憶媒体ならびに電子機器
US11669977B2 (en) Processing images to localize novel objects
JP2020524355A5 (ja)
US11951622B2 (en) Domain adaptation using simulation to simulation transfer
JP2016148588A (ja) デプス推定モデル生成装置及びデプス推定装置
US20220051436A1 (en) Learning template representation libraries
CN116152586A (zh) 模型训练方法、装置、电子设备及存储介质
CN109035338B (zh) 一种基于单尺度特征的点云与图片融合方法、装置及其设备
CN117392192A (zh) 图像深度预测方法、装置、可读存储介质及电子设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200422

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220809

R150 Certificate of patent or registration of utility model

Ref document number: 7123133

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150