JP2019096294A - 視差推定装置及び方法 - Google Patents

視差推定装置及び方法 Download PDF

Info

Publication number
JP2019096294A
JP2019096294A JP2018148377A JP2018148377A JP2019096294A JP 2019096294 A JP2019096294 A JP 2019096294A JP 2018148377 A JP2018148377 A JP 2018148377A JP 2018148377 A JP2018148377 A JP 2018148377A JP 2019096294 A JP2019096294 A JP 2019096294A
Authority
JP
Japan
Prior art keywords
image
disparity
residual
pixel
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018148377A
Other languages
English (en)
Other versions
JP7134012B2 (ja
Inventor
元 煕 李
Weon-Hyi Lee
元 煕 李
景 夫 鄭
Kyungboo Jung
景 夫 鄭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2019096294A publication Critical patent/JP2019096294A/ja
Application granted granted Critical
Publication of JP7134012B2 publication Critical patent/JP7134012B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Measurement Of Optical Distance (AREA)

Abstract

【課題】 視差推定装置及び方法を提供する。【解決手段】 視差推定装置は、第1イメージ及び第2イメージから初期視差に対応する第1イメージパッチ及び第2イメージパッチを抽出し、残差モデルに基づいて第1イメージパッチ及び第2イメージパッチから初期視差に対する残差を推定する。【選択図】 図1

Description

以下、視差推定装置及び方法が提供される。
ステレオマッチングは、2次元映像から深度情報を得る様々な方法のうちの1つである。ステレオマッチングは、2つ又はそれ以上の映像から互いの対応点を検出し、映像の中の物体の深度は複数の対応点に基づいて算出される。ステレオ映像には、互いに異なる視点で撮影された同じ物体が存在するが、両眼の視差の特性に応じて該当の物体がカメラから近接に位置する場合には、ステレオ映像の複数の映像の間で大きい変位差を示し、該当の物体がカメラから遠く位置する場合には小さい変位差を示す。ここで、物体の深度は、一視点の映像の中のピクセルと他の視点映像にある複数の対応点との間の距離差である視差(disparity)によって決定される。視差を求めることが可能であれば、視差に基づいて物体までの深度を算出することができる。
一実施形態に係る視差推定装置は、他の視点映像の間の初期視差に対して残差(residual)を推定することにある。
一実施形態に係るプロセッサによって実行される視差推定方法は、第1イメージから基準ピクセルを含む第1イメージパッチを抽出するステップと、第2イメージから前記基準ピクセルに対応する対象ピクセルを含む第2イメージパッチを抽出するステップと、残差モデルに基づいて、前記第1イメージパッチ及び前記第2イメージパッチから前記基準ピクセルと前記対象ピクセルとの間の初期視差に対する残差を推定するステップとを含み、前記残差は、前記基準ピクセルと前記対象ピクセルとの間の実際の視差と、前記初期視差との間で推定された差である。
視差推定方法は、前記推定された残差に基づいて前記初期視差を補正することによって、前記基準ピクセルと前記対象ピクセルとの間の最終視差を決定するステップをさらに含み得る。
視差推定方法は、前記最終視差を用いて、前記第1イメージ及び前記第2イメージの各ピクセルに対応する深度を算出するステップをさらに含み得る。
視差推定方法は、前記第1イメージの前記基準ピクセルと前記第2イメージの前記対象ピクセルとの間の前記初期視差を推定するステップをさらに含み得る。
前記初期視差を推定するステップは、前記第2イメージで検索範囲を決定するステップと、前記検索範囲に含まれるピクセルのそれぞれに対応する候補イメージパッチごとに、前記基準ピクセルを含む基準イメージパッチと比較するステップと、前記候補イメージパッチと前記基準イメージパッチとの間の比較結果に基づいて、前記第2イメージから前記対象ピクセルを決定するステップとを含み得る。
前記残差を推定するステップは、特徴モデルに基づいて、前記第1イメージパッチ及び前記第2イメージパッチから特徴データを抽出するステップと、前記残差モデルに基づいて、前記特徴データから前記残差を推定するステップとを含み得る。
視差推定方法は、偽り視差検出モデルに基づいて、前記第1イメージパッチ及び前記第2イメージパッチから前記初期視差の偽り視差情報を推定するステップをさらに含み得る。
視差推定方法は、前記推定された偽り視差情報に基づいて、前記初期視差が偽りであると判断されたことに応答して、前記初期視差を排除するステップをさらに含み得る。
視差推定方法は、前記初期視差を整数ピクセル単位で推定するステップをさらに含み、前記残差を推定するステップは、前記残差をサブピクセル単位で推定するステップを含み得る。
前記第1イメージパッチを抽出するステップは、前記第1イメージから特徴点を抽出するステップと、前記第1イメージから前記特徴点に対応するピクセルを前記基準ピクセルとして決定するステップとを含み得る。
一実施形態に係る視差推定装置は、第1イメージ及び第2イメージを取得するイメージ取得部と、前記第1イメージから基準ピクセルを含む第1イメージパッチを抽出し、第2イメージから前記基準ピクセルに対応する対象ピクセルを含む第2イメージパッチを抽出し、残差モデルに基づいて、前記第1イメージパッチ及び前記第2イメージパッチから前記基準ピクセルと前記対象ピクセルとの間の初期視差に対する残差を推定するプロセッサとを含み、前記残差は、前記基準ピクセルと前記対象ピクセルとの間の実際の視差と、前記初期視差との間で推定された差である。
前記プロセッサは、前記推定された残差に基づいて前記初期視差を補正することによって、前記基準ピクセルと前記対象ピクセルとの間の最終視差を決定し得る。
前記プロセッサは、前記最終視差を用いて、前記第1イメージ及び前記第2イメージの各ピクセルに対応する深度を算出し得る。
前記プロセッサは、前記第1イメージの前記基準ピクセルと前記第2イメージの前記対象ピクセルとの間の前記初期視差を推定し得る。
前記プロセッサは、前記第2イメージで検索範囲を決定し、前記検索範囲に含まれるピクセルのそれぞれに対応する候補イメージパッチごとに、前記基準ピクセルを含む基準イメージパッチと比較し、前記比較に基づいて、前記第2イメージから前記対象ピクセルを決定し得る。
前記プロセッサは、特徴モデルに基づいて、前記第1イメージパッチ及び前記第2イメージパッチから特徴データを抽出し、前記残差モデルに基づいて、前記特徴データから前記残差を推定し得る。
前記プロセッサは、偽り視差検出モデルに基づいて、前記第1イメージパッチ及び前記第2イメージパッチから前記初期視差の偽り視差情報を推定し得る。
前記プロセッサは、前記推定された偽り視差情報に基づいて前記初期視差が偽りであると判断されたことに応答して、前記初期視差を排除し得る。
前記プロセッサは、前記初期視差を整数ピクセル単位で推定し、前記残差をサブピクセル単位で推定し得る。
一実施形態に係るプロセッサによって実行される視差推定方法は、第1イメージの基準ピクセルと第2イメージの対象ピクセルとの間に第1解像度を有する初期視差を推定するステップであって、前記対象ピクセルは、前記基準ピクセルに対応するステップと、残差モデルを用いて、前記第1イメージ及び前記第2イメージから、前記第1解像度よりも小さい第2解像度を有する残差を推定するステップであって、前記残差は、前記基準ピクセルと前記対象ピクセルとの間の実際の視差と、前記初期視差との間で推定された差であるステップと、最終視差を取得するために前記残差に基づいて前記初期視差を補正するステップとを含む。
前記残差を推定するステップは、前記第1イメージから前記基準ピクセルを含む第1イメージパッチを抽出するステップと、前記第2イメージから前記対象ピクセルを含む第2イメージパッチを抽出するステップと、前記残差モデルを用いて前記第1イメージパッチ及び前記第2イメージパッチから前記残差を推定するステップとを含み得る。
前記第1イメージパッチを抽出するステップは、前記第1イメージパッチとして、前記第1イメージから前記基準ピクセルを中心にするイメージパッチを抽出するステップを含み、前記第2イメージパッチを抽出するステップは、前記第2イメージパッチとして、前記第2イメージから前記対象ピクセルを中心にするイメージパッチを抽出するステップを含み得る。
前記初期視差を推定するステップは、前記初期視差を単一のピクセル単位で抽出するステップを含み、前記残差を推定するステップは、前記残差をサブピクセル単位で推定するステップを含み得る。
視差推定方法は、前記第1イメージ及び前記第2イメージから前記初期視差が偽りである確率を指示する偽り視差情報を推定するステップと、前記偽り視差情報が偽り閾値レベルを超えることに応答して、前記初期視差を排除するステップと、前記偽り視差情報が前記偽り閾値レベルを超えないことに応答して、前記残差を推定するステップとを含み得る。
一実施形態に係る視差推定装置は、初期視差に対する残差を推定することによって、視差をより精密に推定することができる。
一実施形態に係る視差推定装置の概略的な構成を示すブロック図である。 一実施形態に係る視差推定装置の細部的な構成を示すブロック図である。 一実施形態に係る視差推定過程を説明する図である。 図3に示された過程に加えて、偽り視差情報を算出する過程が追加された図である。 一実施形態に係る残差モデル及び偽り視差検出モデルのトレーニング過程を説明する図である。 一実施形態に係る視差推定方法を示すフローチャートである。 一実施形態により補正された視差を用いた深度算出を説明する図である。 図7で説明された深度算出に偽り視差検出が適用されたものを説明する図である。 一実施形態に係る視差推定装置がサブピクセル単位で視差を推定することを説明する図である。
実施形態に対する特定な構造的又は機能的な説明は、単なる例示のための目的として開示されたものであり、様々な形態に変更され得る。したがって、実施形態は特定の開示形態に限定されるものではなく、本明細書の範囲は技術的な思想に含まれる変更、均等物ないし代替物を含む。
単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、1つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。
異なるように定義されない限り、技術的であるか又は科学的な用語を含め、本明細書で用いられる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈されるべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
また、添付図面を参照して説明することにおいて、同じ構成要素は、図面符号に関係なく同じ参照符号を付与し、これに対する重複する説明は省略することにする。実施形態の説明おいて、関連する公知技術に対する具体的な説明が実施形態の要旨を不要に曖昧にすると判断される場合、その詳細な説明は省略する。
本明細書において、例示の視差推定方法はプロセッサによって実行され、プロセッサのような具現される視差推定装置は、ステレオカメラによりキャプチャされるステレオイメージの2つのイメージ間のステレオマッチングを行って初期視差を推定し、2つのイメージ間の実際の視差と初期視差との間の推定された差である残差を、残差モデルを用いて推定し、2つのイメージ間の最終視差を取得するために、残差に基づいて初期視差を補正することにより、増加した正確度を有する。残差モデルは、基準イメージに対応する基準残差及び基準イメージに基づいて機械学習によりトレーニングされたニューラルネットワークであってよい。初期視差を単一のピクセル単位で推定し、残差をサブピクセル単位で推定してもよい。最終視差の正確度の増加は、基準ピクセル及び対象ピクセルに対応するステレオイメージでより正確な地点の深度の算出を可能にする。
図1は、一実施形態に係る視差推定装置の概略的な構成を示すブロック図である。
視差推定装置100は、イメージ取得部110及びプロセッサ120を含む。
イメージ取得部110は、視差推定装置100の環境についてのイメージを取得する。一実施形態によれば、イメージ取得部110は、環境の第1イメージ及び第2イメージを取得する。例えば、イメージ取得部110はステレオカメラであり、第1イメージは左側イメージであり、第2イメージは右側イメージである。ただし、イメージ取得部110、第1イメージ、及び第2イメージはこれらに限定されない。
プロセッサ120は、第1イメージ及び第2イメージ間の初期視差(initial disparity)を算出し、算出された初期視差に対する残差を推定する。
本明細書において、視差は、基準イメージの任意の一地点(例えば、基準ピクセル)とそれに対応する対象イメージの地点(例えば、対象ピクセル)との間の位置の差を示す。例えば、プロセッサ120は、基準イメージとして第1イメージを選択し、対象イメージとして第2イメージを選択する。基準ピクセルは、第1イメージで視差補正のために選択されたピクセルを示す。対象ピクセルは、第2イメージで基準ピクセルに対応するものとして選択されたピクセルを示す。
残差は、初期視差の誤差を推定した値を示す。残差は、初期視差と実際の視差との間の推定された差である。例えば、プロセッサ120は、初期視差に残差を加算することにより最終視差を算出し得る。
図2は、一実施形態に係る視差推定装置の細部的な構成を示すブロック図である。
視差推定装置200は、図1に示されるイメージ取得部110及びプロセッサ120に加えて、メモリ230をさらに含んでもよい。
イメージ取得部110は、図1を参照して説明したような動作を行う。例えば、イメージ取得部110は、第1カメラ211及び第2カメラ212を含む。第1カメラ211及び第2カメラ212は、互いに対して一定の距離だけ離隔して配置され、これはベースライン(baseline)を示し得る。第1カメラ211は、視差推定装置200の環境を撮影して第1イメージを生成し、第2カメラ212は、第1カメラ211から一定の距離又はベースラインだけ離隔した位置で環境を撮影して第2イメージを生成する。第1カメラ211及び第2カメラ212は、他の視点から第1イメージ及び第2イメージをキャプチャする。例えば、第1カメラ211及び第2カメラ212が水平軸に沿って一定の距離だけ離隔して配置された場合、第1カメラ211は左側イメージを生成し、第2カメラ212は右側イメージを生成する。ただし、これに限定されることなく、例えば、第1カメラ211及び第2カメラ212が縦軸に沿って離隔する場合、第1イメージは上側イメージ、第2イメージは下側イメージであってもよい。
プロセッサ120は、第1イメージから基準ピクセルを含む第1イメージパッチを抽出し、第2イメージから基準ピクセルに対応する対象ピクセルを含む第2イメージパッチを抽出する。例えば、プロセッサ120は、第1イメージの少なくとも一部の領域を四角形態に抽出して第1イメージパッチを生成する。また、プロセッサ120は、第2イメージの少なくとも一部の領域を四角形態に抽出して第2イメージパッチを生成する。第1イメージパッチ及び第2イメージパッチの大きさ及び解像度などは同一であり得る。
本明細書において、パッチは、全体のイメージからクロップ(crop)された部分イメージを示す。例えば、第1イメージパッチは第1イメージからクロップされた部分イメージであってもよく、第2イメージパッチは第2イメージからクロップされた部分イメージであってもよい。
また、プロセッサ120は、第1イメージ及び第2イメージから基準ピクセルと対象ピクセルとの間の初期視差を推定し、残差モデルに基づいて第1イメージパッチ及び第2イメージパッチから初期視差の残差を推定する。
本明細書において、残差モデルは、2つのイメージに対して推定された初期視差に対する誤差を出力するためのモデルを示す。例えば、残差モデルは、機械学習(ML:machine learning)によってトレーニングされたモデルであってもよい。残差モデルは、機械学習構造のパラメータを含む。機械学習構造としてニューラルネットワークが用いられる場合、残差モデルはニューラルネットワークの各ノード間の接続加重値を含み得る。
一実施形態によれば、残差モデルは、与えられた機械学習構造に対して基準イメージの対から抽出された基準イメージパッチの対から、該当の基準イメージパッチに対応する基準残差(例えば、基準イメージの対に対して推定された初期視差と基準視差との間の差)が出力されるよう、トレーニングされた機械学習構造(例えば、ニューラルネットワーク)のパラメータを含む。基準視差は、基準イメージの対の間の実際視差である。機械学習構造をトレーニングするためのトレーニングデータは、上述した基準イメージパッチの対及び基準残差を含む。基準残差は、基準イメージパッチの対に対してグラウンド・トゥルース(ground truth)として与えられる残差であり得る。ただし、残差モデルのトレーニングはこれに限定されることはない。単一の損失(loss)関数を用いて残差モデルを偽り視差検出モデルと共にトレーニングさせる過程については、下記の図5を参照して説明する。
メモリ230は、残差モデルを格納する。また、メモリ230は、残差モデルに基づいた残差推定を行うために要求されるデータを一時的に格納してもよい。
一実施形態に係る視差推定装置200は、ステレオカメラ(例えば、第1カメラ211及び第2カメラ212)から取得した第1イメージ及び第2イメージから初期視差を推定し、初期視差に対する残差を推定して残差に基づいて初期視差を補正することで、高い正確度を有する最終視差を決定することができる。視差推定装置200は、残差モデルを用いて残差を推定することで、映像の特徴を考慮せず損失曲線にフィッティングされる既存の方法よりも正確な最終視差を決定することができる。
図3は、一実施形態に係る視差推定過程を説明する図である。
まず、視差推定装置のプロセッサは、イメージ取得部から上述したように第1イメージ301及び第2イメージ302を受け取る。本明細書において、便宜上、第1イメージ301を左側イメージ、第2イメージ302を右側イメージとして説明するが、これに限定されることはない。
プロセッサは、第1イメージ301及び第2イメージ302から初期視差を推定する。第1イメージ301と第2イメージ302との間の初期視差の推定はステレオマッチング(S310)として示される。例えば、ステレオマッチングは、対応点を探すためにピクセルの強度、色などの映像情報を比較したり、ピクセルを中心にしたパッチの強度、色などの映像情報などを比較したりする動作を示す。一実施形態によれば、プロセッサは、MBM(multi−block−matching stereo)方式により、第1イメージ301と第2イメージ302との間の初期視差を推定する。例えば、プロセッサは、第1イメージ301の基準ピクセルと第2イメージ302の対象ピクセルとの間の初期視差を推定する。
まず、プロセッサは、第1イメージ301の基準ピクセルを含む第1イメージパッチ311と、第2イメージ302の検索範囲312とを比較することにより、対象ピクセルを含む第2イメージパッチ313を決定し、第1イメージパッチ311と第2イメージパッチ313との間の位置差に対応する初期視差を推定する。ここで、プロセッサは、第1イメージ301に示される少なくとも1つのオブジェクトに対応するピクセルに対して初期視差を推定する。例えば、プロセッサは、第1イメージ301から特徴点を抽出し得る。特徴点は、第1イメージ301の特徴を示す地点として、第1イメージ301に示されるオブジェクト(例えば、図3に示された車両)の一部に対応するピクセルであり得る。プロセッサは、第1イメージ301から、特徴点に対応するピクセルを基準ピクセルとして決定する。例えば、図3において、プロセッサは、第1イメージ301から検出された車両に対応するオブジェクト領域の中心点を、特徴点として抽出する。ただし、これに限定されることなく、プロセッサは、第1イメージ301からオブジェクト領域の少なくとも一部の地点又は全ての地点を特徴点として抽出してもよい。
そして、プロセッサは、第2イメージ302の検索範囲312を決定し得る。一実施形態によれば、プロセッサは、第1イメージ301の基準ピクセルを含む第1イメージパッチ311に基づいて検索範囲312を決定する。例えば、プロセッサは、第2イメージ302から第1イメージ301の第1イメージパッチ311の上部境界及び下部境界と同じ高さの上部境界及び下部境界を有する領域を、検索範囲312として決定し得る。
次に、プロセッサは、検索範囲312に含まれる候補ピクセルのそれぞれに対応する候補イメージパッチごとに、基準ピクセルを含む基準イメージパッチを比較する。例えば、候補ピクセルは、第2イメージ302の検索範囲312内で、基準ピクセルと同じ高さを有するピクセルであってもよい。図3では、第2イメージ302内で基準ピクセルと同じ高さを有する一部のピクセルが候補ピクセルとして決定されているが、基準ピクセルと同じ高さを有する全てのピクセルが候補ピクセルとして決定されてもよい。候補イメージパッチは、検索範囲312から候補ピクセルを中心地点としてクロップされたイメージを示す。ここで、基準イメージパッチと候補イメージパッチの大きさ及び解像度は同一であり得る。本明細書において、基準イメージパッチはステレオマッチング(S310)の基準となるパッチを示し、候補イメージパッチは基準イメージパッチとの比較のために選択されたパッチを示す。
そして、プロセッサは、候補イメージパッチと基準イメージパッチとの間の比較結果に基づいて、第2イメージ302から対象ピクセルを決定する。例えば、プロセッサは、各候補イメージパッチと基準イメージパッチとを比較し、比較の結果に基づいて基準イメージパッチ及び候補イメージパッチのそれぞれの類似度を算出する。プロセッサは、検索範囲312内で基準イメージパッチに対して最も高い類似度を有する候補イメージパッチに対応するピクセル(例えば、該当の候補イメージパッチの中心地点)を対象ピクセルとして決定する。
その後、プロセッサは、第1イメージ301及び第2イメージ302のそれぞれからパッチをクロップする(S320)。例えば、プロセッサは、第1イメージ301から基準ピクセルを含む第1イメージパッチ311を抽出し得る。プロセッサは、第2イメージ302から対象ピクセルを含む第2イメージパッチ313を抽出し得る。
プロセッサは、残差モデル(S330)を用いて第1イメージパッチ311及び第2イメージパッチ313から残差を推定する。プロセッサは、基準イメージパッチの対から基準残差を出力するよう、トレーニングされた残差モデル(S330)に第1イメージパッチ311及び第2イメージパッチ313を入力する。プロセッサは、第1イメージパッチ311及び第2イメージパッチ313を特徴データの形態に残差モデル(S330)に入力することで、残差モデル(S330)に基づいて特徴データから残差を推定する。プロセッサは、例えば、特徴モデルに基づいて第1イメージパッチ及び第2イメージパッチから特徴データを算出する。特徴モデルについては、下記の図5を参照して説明する。
プロセッサは、第1イメージパッチ311及び第2イメージパッチ313を該当の残差モデル(S330)に入力することにより、サブピクセル単位の残差を出力する。サブピクセル単位については、下記の図9を参照して説明する。
プロセッサは、残差を用いて初期視差を補正する(S340)。プロセッサは、推定された残差を初期視差に反映することで最終視差を決定する。例えば、プロセッサは、初期視差に残差を加算することで最終視差309を算出し得る。
図4は、図3に示された過程に加えて、偽り視差情報を算出する過程が追加された図である。
プロセッサは、図3に示すように最終視差309を算出する一方、第1イメージパッチ311及び第2イメージパッチ313を用いて偽り視差情報408を推定する。
一実施形態によれば、プロセッサは、偽り視差検出モデル(S450)に基づいて、第1イメージパッチ311及び第2イメージパッチ313から初期視差の偽り視差情報408を推定し得る。偽り視差情報408は初期視差の偽りに関する情報、例えば、初期視差が偽りである確率に関する情報であり得る。
偽り視差検出モデル(S450)は、基準イメージパッチの対から基準偽り視差情報が出力されるようにトレーニングされたモデルである。基準偽り視差情報は、予め生成された情報として、基準イメージパッチの対から算出された初期視差が偽りを示した確率を示す。
プロセッサは、推定された偽り視差情報408に基づいて初期視差が偽りと判断されたことに応答して、初期視差を排除する。
例えば、プロセッサは、推定された偽り視差情報408が偽り閾値レベルを超えることに応答して、初期視差を排除する。偽り閾値レベルは、偽りの基準となる程度であって、例えば、初期視差が偽りであるか否かを決定する基準となる確率である。
異なる例として、プロセッサは、推定された偽り視差情報408が偽り閾値レベル以下であることに応答して、初期視差に基づいた残差推定動作を継続する。
図5は、一実施形態に係る残差モデル及び偽り視差検出モデルのトレーニング過程を説明する図である。
一実施形態によれば、残差モデル(S534)及び偽り視差検出モデル(S550)は、特徴モデル(S531、S532)(例えば、特徴抽出ネットワーク)を共有するよう、次のような機械学習構造に設計され得る。
まず、プロセッサは、入力される基準イメージの対(501、502)から初期視差Dinitを推定し(S510)、初期視差Dinitに基づいて各イメージからパッチをクロップする(S520)。
プロセッサは、クロップされたパッチのそれぞれから特徴モデル(S531、S532)に基づいて特徴データを抽出し、抽出された特徴データを統合モデル(S533)(例えば、連結(concatenate)ネットワーク)に基づいて統合して統合データを生成する。例えば、特徴モデル(S531、S532)は、パッチから低レベル特徴を抽出するようにトレーニングされ得る。低レベル特徴は、例えば、点、線、テクスチャ、色などの組合せに表現される映像特徴データを示す。
プロセッサは、上述したように抽出された統合データを残差モデル(S534)及び偽り視差検出モデル(S550)に入力し、それぞれの残差Δd及び偽り視差情報lfalseを算出する。
トレーニング装置は、上述したように構成された機械学習構造をトレーニングする。例えば、トレーニング装置は、図5に示された機械学習構造に対して、第1基準イメージ501及び第2基準イメージ502(以下、基準イメージの対という。)から該当の基準イメージ501、502に対応する基準視差DGTが出力されるようにトレーニングする。トレーニング装置は、特徴モデル(S531、S532)、残差モデル(S534)及び偽り視差検出モデル(S550)を1つの損失509にトレーニングさせ得る。例えば、第1基準イメージ501からn個の特徴点が抽出された場合、トレーニング装置は、損失509Lを下記の数式(1)及び数式(2)のように示すことができる。ここで、nは1以上の整数である。
ここで、P EST=(1−Prob(LFID))は、i番目の特徴点に対して初期視差Dinitが真実(true)である確率を示す。ここで、iは1以上n以下の整数である。LFIDは偽り初期視差レーベルを示す。LFIDは、トレーニング装置が機械学習構造をトレーニングするために使用するトレーニングセットで初期視差Dinitに対して与えられる。より具体的に、LFIDは、与えられた初期視差が真実又は偽りであるかを指示する。したがって、Prob(LFID)は初期視差Dinitが偽りである確率を示し、1−Prob(LFID)は初期視差Dinitが真実である確率を示す。|| ||はLnormを示し、言い換えれば、ユークリッド・ノルム(Euclidean norm)とも示す。また、CEはLGT及びLEST間のクロスエントロピー損失を示す。αは定数である。D GTはi番目の特徴点に対する基準視差を示す。D ESTはトレーニング間の任意のサイクルでi番目の特徴点に対して初期視差Dinitが残差Δdによって補正された視差を示す。LGTは基準偽り視差情報とすることができ、LESTはトレーニング間の任意のサイクルで推定された偽り視差情報とすることができる。
初期視差Dinitが真実である確率が高い場合、トレーニング装置は上述した数式(1)の
に基づいて、基準視差D GTと、補正された視差D ESTが同一になるように、特徴モデル(S531、S532)、統合モデル(S533)、残差モデル(S534)をトレーニングさせる。また、初期視差Dinitが偽りである確率が高い場合、トレーニング装置は
に基づいて、視差D ESTをトレーニングから排除してもよい。したがって、トレーニング装置は、初期視差Dinitが真実である確率が高い場合にのみ、補正された視差D ESTをトレーニングに使用することにより、補正された視差D ESTと基準視差D GTが類似する場合の推定誤差を減少させることができる。
一方、トレーニング装置は、クロスエントロピーに対応する数式(1)のα・CE(LGT,LEST)に基づいて、初期視差Dinitが偽りである確率を出力するよう、偽り視差検出モデル(S550)をトレーニングさせる。
また、トレーニング装置は、2つの損失509、例えば、
とα・CE(LGT,LEST)との間に値の範囲が異なる点を補正するためにαを使用してもよい。
図6は、一実施形態に係る視差推定方法を示すフローチャートである。
まず、ステップS610において、プロセッサは、第1イメージから基準ピクセルを含む第1イメージパッチを抽出する。一実施形態によれば、プロセッサは、第1イメージから特徴点を抽出し、特徴点に対応するピクセルを基準ピクセルとして決定する。特徴点は、例えば、第1イメージに示されるオブジェクトに対応する領域の少なくとも一部であり得る。
そして、ステップS620において、プロセッサは、第2イメージから基準ピクセルに対応する対象ピクセルを含む第2イメージパッチを抽出する。一実施形態によれば、プロセッサは、ステレオマッチングを介して第1イメージの基準ピクセルに対応する第2イメージの対象ピクセルを決定する。また、プロセッサは、対象ピクセルに基づいて第2イメージパッチを抽出する。例えば、プロセッサは、対象ピクセルを中心地点として第2イメージパッチを抽出する。
次に、ステップS630において、プロセッサは残差モデルに基づいて、第1イメージパッチ及び第2イメージパッチから基準ピクセルと対象ピクセルとの間の初期視差に対する残差を推定する。例えば、プロセッサは、第1イメージパッチ及び第2イメージパッチから特徴データを抽出し、抽出された特徴データを残差モデルに入力することによって初期視差に対する残差を出力する。
図7は、一実施形態により補正された視差を用いた深度算出を説明する図である。
図7では、第1イメージを左側映像701、第2イメージを右側映像702として説明しているが、これに限定されることはない。視差推定装置に含まれるカメラの配列に応じて設計が変更されてもよい。
まず、ステップS710において、視差推定装置は初期視差を推定する。例えば、視差推定装置は、ステレオカメラに入力された左側映像701及び右側映像702を用いてステレオマッチングを行う。ここで、視差推定装置は、データベース705から残差モデルをロードする。
そして、ステップS720において、視差推定装置は、初期視差に基づいて左側映像701から左パッチ及び右側映像702から右パッチをクロップする。
次に、ステップS730において、視差推定装置は、残差モデルに基づいて左パッチ及び右パッチからサブピクセル単位で残差を推定する。残差モデルは、例えば、ディープニューラルネットワーク(deep neural network)構造であり得る。
そして、ステップS740において、視差推定装置は、残差を用いて初期視差を補正する。例えば、視差推定装置は、残差を初期視差に加算して最終視差を算出する。
次に、ステップS750において、視差推定装置のプロセッサは、最終視差を用いて第1イメージ及び第2イメージの各ピクセルに対応する深度709を算出する。
一実施形態によれば、視差推定装置は、左側映像701の特徴点から抽出される全てのピクセルについて、上述したステップS710〜S750を繰り返してもよい。視差推定装置は、左側映像701から抽出される全てのピクセルについて深度709を算出する。算出された深度709は、左側映像701及び右側映像702に示されたオブジェクトを3D形態にモデリングするために使用され得る。
図8は、図7を参照して説明された深度算出に偽り視差検出が適用されたものを説明する図である。
初期視差が実際の視差と類似する場合、図7において、視差推定装置は、最終視差及び深度を正確に算出することができる。ただし、初期視差が実際の視差と大きい差を示す場合、残差推定の正確度が減少する。このような正確度の減少を防止するために、視差推定装置は、初期視差と実際の視差との間の差を考慮して、初期視差に対する偽り視差情報808を算出する。
例えば、ステップS860において、視差推定装置は、偽り視差検出モデルに基づいて、左パッチ及び右パッチから偽り視差情報808を算出する。偽り視差検出モデルは、例えば、ニューラルネットワーク構造であってもよい。偽り視差情報808は、初期視差が偽りである確率を示すため、算出された深度709の信頼度に対応する。さらに、視差推定装置は、偽り視差情報808が偽り閾値レベルを超えることに応答して、推定された残差を深度算出から排除してもよい。ここで、左側映像701及び右側映像702が連続するフレームに構成される場合、プロセッサは深度算出を次のフレームに猶予し得る。
図9は、一実施形態に係る視差推定装置がサブピクセル単位で視差を推定することを説明する図である。
視差推定装置のプロセッサは、初期視差を整数ピクセル単位で推定し、残差をサブピクセル単位で推定する。本明細書において、整数ピクセル単位はピクセル1つによって定義される単位を示し、サブピクセル単位はピクセルよりも小さい単位として、例えば、任意の距離がピクセル1つに対して有する比率を指示する実数である。初期視差はピクセルの整数で表現され、残差がピクセルの実数で表現される。残差は10進数で表現されてもよく、正の数又は負の数であってもよく、1よりも小さいか、1であるか、1よりも大きくてもよい。
例えば、図9は、説明の便宜のために第1イメージ901及び第2イメージ902をそれぞれ8×8個のピクセルから構成されるものとして示す。第1イメージ901及び第2イメージ902には、それぞれオブジェクト951、952が示される。プロセッサは、ステレオマッチング910によって第1イメージ901の基準地点911と第2イメージ902の対象地点921との間の初期視差を推定し得る。図9において、基準地点911と対象地点921との間の初期視差は、整数ピクセル単位である1であってもよい。図9において、初期視差に対して推定された残差920は−0.8である。プロセッサは、初期視差に対して残差920を補正することで、最終視差を1+(−0.8)=0.2と決定できる。したがって、視差推定装置は、基準地点911に対応する第2イメージ902の最終地点922を決定し得る。上記を参照して説明した初期視差、最終視差、及び残差920の値は単に例示的な値である。
一実施形態に係る視差推定装置は、ステレオカメラを用いて深度を測定するために、左側映像及び右側映像の対応点を探すステレオマッチングを行うことができる。プロセッサは、ステレオマッチングを介して整数ピクセル単位で初期視差を推定し得る。ただし、整数ピクセル単位で推定された初期視差を用いて深度を算出する場合、深度解像度は、ステレオカメラのピクセルの物理的な大きさに依存する。視差推定装置は、残差モデルを用いてサブピクセル単位で残差を推定することで、より精密に最終視差及び深度を推定することができる。上述したように精密に推定された深度は、より精密な3D形態をモデリングするために使用され得る。
一実施形態に係る視差推定装置は、ステレオイメージの各ピクセルに対する深度を効率よく精密に推定できる。このような視差推定装置は、車両用の深度センサ及びモバイルの深度センサなどで実現できる。
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素とソフトウェア構成要素の組合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサ、又は命令(instruction)の実行に応答する異なる装置のような、1つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム(OS)及びオペレーティングシステム上で実行される1つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理及び生成する。理解の便宜のために、処理装置は1つが使用されるものとして説明する場合もあるが、当該技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含むことが分かる。例えば、処理装置は、複数のプロセッサ又は1つのプロセッサ及び1つのコントローラを含む。また、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、又はこのうちの1つ以上の組合せを含み、希望通りに動作するように処理装置を構成し、独立的又は結合的に処理装置に命令する。ソフトウェア及び/又はデータは、処理装置によって解釈され、処理装置に命令又はデータを提供するためのあらゆる類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、あるいは送信される信号波を介して永久的又は一時的に具現化される。ソフトウェアは、ネットワークに連結されたコンピュータシステム上に分散され、分散された方法で格納されるか又は実行される。ソフトウェア及びデータは1つ以上のコンピュータ読取可能な記録媒体に格納される。
本実施形態による方法は、多様なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読取可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独で又は組み合わせたものを含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
上記では、実施形態を限定された図面を参照して説明したが、当該技術分野で通常の知識を有する者であれば、前記に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順序で実行されたり、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせされたり、他の構成要素又は均等物によって代替されたり置換されても適切な結果を達成することができる。
したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲及び特許請求の範囲と均等なものなどによって定められるものである。
100:視差推定装置
110:イメージ取得部
120:プロセッサ

Claims (25)

  1. プロセッサによって実行される視差推定方法において、
    第1イメージから基準ピクセルを含む第1イメージパッチを抽出するステップと、
    第2イメージから前記基準ピクセルに対応する対象ピクセルを含む第2イメージパッチを抽出するステップと、
    残差モデルに基づいて、前記第1イメージパッチ及び前記第2イメージパッチから前記基準ピクセルと前記対象ピクセルとの間の初期視差に対する残差を推定するステップと、
    を含み、
    前記残差は、前記基準ピクセルと前記対象ピクセルとの間の実際の視差と、前記初期視差との間で推定された差である、
    視差推定方法。
  2. 前記推定された残差に基づいて前記初期視差を補正することによって、前記基準ピクセルと前記対象ピクセルとの間の最終視差を決定するステップをさらに含む、
    請求項1に記載の視差推定方法。
  3. 前記最終視差を用いて、前記第1イメージ及び前記第2イメージの各ピクセルに対応する深度を算出するステップをさらに含む、
    請求項2に記載の視差推定方法。
  4. 前記第1イメージの前記基準ピクセルと前記第2イメージの前記対象ピクセルとの間の前記初期視差を推定するステップをさらに含む、
    請求項1に記載の視差推定方法。
  5. 前記初期視差を推定するステップは、
    前記第2イメージで検索範囲を決定するステップと、
    前記検索範囲に含まれるピクセルのそれぞれに対応する候補イメージパッチごとに、前記基準ピクセルを含む基準イメージパッチと比較するステップと、
    前記候補イメージパッチと前記基準イメージパッチとの間の比較結果に基づいて、前記第2イメージから前記対象ピクセルを決定するステップと、
    を含む、請求項4に記載の視差推定方法。
  6. 前記残差を推定するステップは、
    特徴モデルに基づいて、前記第1イメージパッチ及び前記第2イメージパッチから特徴データを抽出するステップと、
    前記残差モデルに基づいて、前記特徴データから前記残差を推定するステップと、
    を含む、請求項1に記載の視差推定方法。
  7. 偽り視差検出モデルに基づいて、前記第1イメージパッチ及び前記第2イメージパッチから前記初期視差の偽り視差情報を推定するステップをさらに含む、
    請求項1に記載の視差推定方法。
  8. 前記推定された偽り視差情報に基づいて、前記初期視差が偽りであると判断されたことに応答して、前記初期視差を排除するステップをさらに含む、
    請求項7に記載の視差推定方法。
  9. 前記初期視差を整数ピクセル単位で推定するステップをさらに含み、
    前記残差を推定するステップは、前記残差をサブピクセル単位で推定するステップを含む、
    請求項1に記載の視差推定方法。
  10. 前記第1イメージパッチを抽出するステップは、
    前記第1イメージから特徴点を抽出するステップと、
    前記第1イメージから前記特徴点に対応するピクセルを前記基準ピクセルとして決定するステップと、
    を含む、請求項1に記載の視差推定方法。
  11. ハードウェアに請求項1〜10のいずれか一項に記載の方法を実行させるコンピュータプログラム。
  12. 視差推定装置において、
    第1イメージ及び第2イメージを取得するイメージ取得部と、
    前記第1イメージから基準ピクセルを含む第1イメージパッチを抽出し、第2イメージから前記基準ピクセルに対応する対象ピクセルを含む第2イメージパッチを抽出し、残差モデルに基づいて、前記第1イメージパッチ及び前記第2イメージパッチから前記基準ピクセルと前記対象ピクセルとの間の初期視差に対する残差を推定するプロセッサと、
    を含み、
    前記残差は、前記基準ピクセルと前記対象ピクセルとの間の実際の視差と、前記初期視差との間で推定される差である、
    視差推定装置。
  13. 前記プロセッサは、前記推定された残差に基づいて前記初期視差を補正することによって、前記基準ピクセルと前記対象ピクセルとの間の最終視差を決定する、
    請求項12に記載の視差推定装置。
  14. 前記プロセッサは、前記最終視差を用いて、前記第1イメージ及び前記第2イメージの各ピクセルに対応する深度を算出する、
    請求項13に記載の視差推定装置。
  15. 前記プロセッサは、前記第1イメージの前記基準ピクセルと前記第2イメージの前記対象ピクセルとの間の前記初期視差を推定する、
    請求項12に記載の視差推定装置。
  16. 前記プロセッサは、前記第2イメージで検索範囲を決定し、前記検索範囲に含まれるピクセルのそれぞれに対応する候補イメージパッチごとに、前記基準ピクセルを含む基準イメージパッチと比較し、該比較に基づいて、前記第2イメージから前記対象ピクセルを決定する、
    請求項15に記載の視差推定装置。
  17. 前記プロセッサは、特徴モデルに基づいて、前記第1イメージパッチ及び前記第2イメージパッチから特徴データを抽出し、前記残差モデルに基づいて、前記特徴データから前記残差を推定する、
    請求項12に記載の視差推定装置。
  18. 前記プロセッサは、偽り視差検出モデルに基づいて、前記第1イメージパッチ及び前記第2イメージパッチから前記初期視差の偽り視差情報を推定する、
    請求項12に記載の視差推定装置。
  19. 前記プロセッサは、前記推定された偽り視差情報に基づいて前記初期視差が偽りであると判断されたことに応答して、前記初期視差を排除する、
    請求項18に記載の視差推定装置。
  20. 前記プロセッサは、前記初期視差を整数ピクセル単位で推定し、前記残差をサブピクセル単位で推定する、
    請求項12に記載の視差推定装置。
  21. プロセッサによって実行される視差推定方法において、
    第1イメージの基準ピクセルと第2イメージの対象ピクセルとの間に第1解像度を有する初期視差を推定するステップであって、前記対象ピクセルは、前記基準ピクセルに対応するステップと、
    残差モデルを用いて、前記第1イメージ及び前記第2イメージから、前記第1解像度よりも小さい第2解像度を有する残差を推定するステップであって、前記残差は、前記基準ピクセルと前記対象ピクセルとの間の実際の視差と、前記初期視差との間で推定された差であるステップと、
    最終視差を取得するために前記残差に基づいて前記初期視差を補正するステップと、
    を含む、視差推定方法。
  22. 前記残差を推定するステップは、
    前記第1イメージから前記基準ピクセルを含む第1イメージパッチを抽出するステップと、
    前記第2イメージから前記対象ピクセルを含む第2イメージパッチを抽出するステップと、
    前記残差モデルを用いて前記第1イメージパッチ及び前記第2イメージパッチから前記残差を推定するステップと、
    を含む、請求項21に記載の視差推定方法。
  23. 前記第1イメージパッチを抽出するステップは、前記第1イメージパッチとして、前記第1イメージから前記基準ピクセルを中心にするイメージパッチを抽出するステップを含み、
    前記第2イメージパッチを抽出するステップは、前記第2イメージパッチとして、前記第2イメージから前記対象ピクセルを中心にするイメージパッチを抽出するステップを含む、
    請求項22に記載の視差推定方法。
  24. 前記初期視差を推定するステップは、前記初期視差を単一のピクセル単位で抽出するステップを含み、
    前記残差を推定するステップは、前記残差をサブピクセル単位で推定するステップを含む、
    請求項21に記載の視差推定方法。
  25. 前記第1イメージ及び前記第2イメージから前記初期視差が偽りである確率を指示する偽り視差情報を推定するステップと、
    前記偽り視差情報が偽り閾値レベルを超えることに応答して、前記初期視差を排除するステップと、
    前記偽り視差情報が前記偽り閾値レベルを超えないことに応答して、前記残差を推定するステップと、
    を含む、請求項21に記載の視差推定方法。
JP2018148377A 2017-11-23 2018-08-07 視差推定装置及び方法 Active JP7134012B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0157352 2017-11-23
KR1020170157352A KR102459853B1 (ko) 2017-11-23 2017-11-23 디스패리티 추정 장치 및 방법

Publications (2)

Publication Number Publication Date
JP2019096294A true JP2019096294A (ja) 2019-06-20
JP7134012B2 JP7134012B2 (ja) 2022-09-09

Family

ID=63293949

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018148377A Active JP7134012B2 (ja) 2017-11-23 2018-08-07 視差推定装置及び方法

Country Status (5)

Country Link
US (1) US10929998B2 (ja)
EP (1) EP3489898A1 (ja)
JP (1) JP7134012B2 (ja)
KR (1) KR102459853B1 (ja)
CN (1) CN109829875B (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021049281A1 (ja) * 2019-09-12 2021-03-18 株式会社ソニー・インタラクティブエンタテインメント 画像処理装置、ヘッドマウントディスプレイ、および空間情報取得方法
JP2021096846A (ja) * 2019-12-13 2021-06-24 ネクストヴイピーユー(シャンハイ)カンパニー リミテッドNextvpu(Shanghai)Co.,Ltd. 視差確定方法、電子機器及びコンピュータ可読記憶媒体
JP2021096850A (ja) * 2019-12-13 2021-06-24 ネクストヴイピーユー(シャンハイ)カンパニー リミテッドNextvpu(Shanghai)Co.,Ltd. 視差推定システムと方法、電子機器及びコンピュータ可読記憶媒体
US11127115B2 (en) 2019-12-13 2021-09-21 NextVPU (Shanghai) Co., Ltd. Determination of disparity

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427968B (zh) * 2019-06-28 2021-11-02 武汉大学 一种基于细节增强的双目立体匹配方法
US11694341B2 (en) * 2019-12-23 2023-07-04 Texas Instmments Incorporated Cascaded architecture for disparity and motion prediction with block matching and convolutional neural network (CNN)
CN115336269A (zh) * 2020-04-13 2022-11-11 英特尔公司 基于纹理的沉浸式视频编码
EP4244826A1 (en) * 2020-11-13 2023-09-20 Google LLC Self-supervised learning for anomaly detection and localization
CN116569548A (zh) * 2020-12-04 2023-08-08 北京达佳互联信息技术有限公司 用于视频编解码的基于网络的图像滤波
DE102021107904A1 (de) * 2021-03-29 2022-09-29 Conti Temic Microelectronic Gmbh Verfahren und System zur Bestimmung der Bodenebene mit einem künstlichen neuronalen Netz
US11966454B2 (en) * 2021-10-28 2024-04-23 Shanghai United Imaging Intelligence Co., Ltd. Self-contrastive learning for image processing
CN117611648A (zh) * 2023-12-04 2024-02-27 北京斯年智驾科技有限公司 一种图像深度估计方法、系统和存储介质
CN117576180B (zh) * 2024-01-15 2024-03-26 常熟理工学院 基于自适应多尺度窗口的多视图深度估计方法及应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016038886A (ja) * 2014-08-11 2016-03-22 ソニー株式会社 情報処理装置および情報処理方法
JP2016170163A (ja) * 2015-03-11 2016-09-23 株式会社リコー 撮像システム、画像処理システム、移動体制御システム、移動体装置、投光装置、物体検出方法、物体検出プログラム
JP2017091186A (ja) * 2015-11-10 2017-05-25 株式会社日立製作所 生体情報を用いた認証装置及び認証方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7061489B2 (en) 2003-08-15 2006-06-13 Microsoft Corporation Precomputed radiance transfer for rendering objects
JP4532171B2 (ja) 2004-06-01 2010-08-25 富士重工業株式会社 立体物認識装置
JP2008309529A (ja) 2007-06-12 2008-12-25 Panasonic Corp ナビゲーション装置、ナビゲーション方法、及びナビゲーション用プログラム
US8422766B2 (en) 2008-06-24 2013-04-16 Thomson Licensing System and method for depth extraction of images with motion compensation
JP5464129B2 (ja) * 2010-11-17 2014-04-09 コニカミノルタ株式会社 画像処理装置および視差情報生成装置
JP2012257198A (ja) * 2011-05-17 2012-12-27 Canon Inc 立体画像符号化装置、その方法、および立体画像符号化装置を有する撮像装置
JP5127973B1 (ja) 2011-10-21 2013-01-23 株式会社東芝 映像処理装置、映像処理方法および映像表示装置
CN104662589B (zh) 2012-08-21 2017-08-04 派力肯影像公司 用于使用阵列照相机捕捉的图像中的视差检测和校正的系统和方法
CN104662896B (zh) * 2012-09-06 2017-11-28 诺基亚技术有限公司 用于图像处理的装置和方法
EP2902960A4 (en) 2012-09-27 2015-09-23 Panasonic Ip Man Co Ltd STEREOSCOPIC IMAGE PROCESSING DEVICE AND STEREOSCOPIC IMAGE PROCESSING METHOD
JP2014096062A (ja) 2012-11-09 2014-05-22 Yamaguchi Univ 画像処理方法及び画像処理装置
EP2757524B1 (en) 2013-01-16 2018-12-19 Honda Research Institute Europe GmbH Depth sensing method and system for autonomous vehicles
US20140241612A1 (en) 2013-02-23 2014-08-28 Microsoft Corporation Real time stereo matching
US9183583B2 (en) 2013-05-13 2015-11-10 A9.Com, Inc. Augmented reality recommendations
US9224060B1 (en) 2013-09-17 2015-12-29 Amazon Technologies, Inc. Object tracking using depth information
US9600887B2 (en) * 2013-12-09 2017-03-21 Intel Corporation Techniques for disparity estimation using camera arrays for high dynamic range imaging
CN103702098B (zh) 2013-12-09 2015-12-30 上海交通大学 一种时空域联合约束的三视点立体视频深度提取方法
WO2016056754A1 (ko) * 2014-10-08 2016-04-14 엘지전자 주식회사 3d 비디오 부호화/복호화 방법 및 장치
KR102360424B1 (ko) * 2014-12-24 2022-02-09 삼성전자주식회사 얼굴 검출 방법, 영상 처리 방법, 얼굴 검출 장치 및 이를 포함하는 전자 시스템
CN106887018B (zh) * 2015-12-15 2021-01-05 株式会社理光 立体匹配方法、控制器和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016038886A (ja) * 2014-08-11 2016-03-22 ソニー株式会社 情報処理装置および情報処理方法
JP2016170163A (ja) * 2015-03-11 2016-09-23 株式会社リコー 撮像システム、画像処理システム、移動体制御システム、移動体装置、投光装置、物体検出方法、物体検出プログラム
JP2017091186A (ja) * 2015-11-10 2017-05-25 株式会社日立製作所 生体情報を用いた認証装置及び認証方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AKIHITO SEKI ET AL.: "Patch Based Confidence Prediction for Dense Disparity Map", PROCEEDINGS OF THE BRITISH MACHINE VISION CONFERENCE(BMVC), JPN7022002411, 22 September 2016 (2016-09-22), pages 1 - 13, XP055555959, ISSN: 0004785852, DOI: 10.5244/C.30.23 *
JIAHAO PANG ET AL.: "Cascade Residual Learning: A Two-stage Convolutional Neural Network for Stereo Matching", IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION WORKSHOPS(ICCVW), JPN6022020808, 22 October 2017 (2017-10-22), pages 878 - 886, XP033303533, ISSN: 0004785851, DOI: 10.1109/ICCVW.2017.108 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021049281A1 (ja) * 2019-09-12 2021-03-18 株式会社ソニー・インタラクティブエンタテインメント 画像処理装置、ヘッドマウントディスプレイ、および空間情報取得方法
US11847784B2 (en) 2019-09-12 2023-12-19 Sony Interactive Entertainment Inc. Image processing apparatus, head-mounted display, and method for acquiring space information
JP2021096846A (ja) * 2019-12-13 2021-06-24 ネクストヴイピーユー(シャンハイ)カンパニー リミテッドNextvpu(Shanghai)Co.,Ltd. 視差確定方法、電子機器及びコンピュータ可読記憶媒体
JP2021096850A (ja) * 2019-12-13 2021-06-24 ネクストヴイピーユー(シャンハイ)カンパニー リミテッドNextvpu(Shanghai)Co.,Ltd. 視差推定システムと方法、電子機器及びコンピュータ可読記憶媒体
US11127115B2 (en) 2019-12-13 2021-09-21 NextVPU (Shanghai) Co., Ltd. Determination of disparity
US11158077B2 (en) 2019-12-13 2021-10-26 NextVPU (Shanghai) Co., Ltd. Disparity estimation
JP7030356B2 (ja) 2019-12-13 2022-03-07 ネクストヴイピーユー(シャンハイ)カンパニー リミテッド 視差確定方法、電子機器及びコンピュータ可読記憶媒体

Also Published As

Publication number Publication date
KR102459853B1 (ko) 2022-10-27
JP7134012B2 (ja) 2022-09-09
US20190156502A1 (en) 2019-05-23
CN109829875B (zh) 2023-10-27
CN109829875A (zh) 2019-05-31
KR20190059594A (ko) 2019-05-31
US10929998B2 (en) 2021-02-23
EP3489898A1 (en) 2019-05-29

Similar Documents

Publication Publication Date Title
JP7134012B2 (ja) 視差推定装置及び方法
JP6670071B2 (ja) 車両用画像認識システム、及び対応法
US9070042B2 (en) Image processing apparatus, image processing method, and program thereof
KR102214934B1 (ko) 단항 신뢰도 및 쌍별 신뢰도 학습을 통한 스테레오 매칭 장치 및 방법
US8755630B2 (en) Object pose recognition apparatus and object pose recognition method using the same
US9558424B2 (en) On-road stereo visual odometry without explicit pose determinations
JP2016029564A (ja) 対象検出方法及び対象検出装置
JP2015181042A (ja) 移動オブジェクトの検出及び追跡
JP6782903B2 (ja) 自己運動推定システム、自己運動推定システムの制御方法及びプログラム
US10268929B2 (en) Method and device for generating binary descriptors in video frames
KR102458242B1 (ko) 스테레오 카메라로부터 획득된 이미지 페어를 처리하는 장치 및 방법
CN112200056B (zh) 人脸活体检测方法、装置、电子设备及存储介质
US10192141B2 (en) Determining scale of three dimensional information
WO2020221443A1 (en) Scale-aware monocular localization and mapping
Cvišić et al. Recalibrating the KITTI dataset camera setup for improved odometry accuracy
Jung et al. Object detection and tracking-based camera calibration for normalized human height estimation
US10242453B2 (en) Simultaneous localization and mapping initialization
US20210335010A1 (en) Calibration method and calibration apparatus
US11647152B2 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
KR102410300B1 (ko) 스테레오 카메라를 이용한 카메라 위치 측정 장치 및 방법
US20220156977A1 (en) Calibration apparatus, calibration method, and non-transitory computer readable medium storing program
JP2013104740A (ja) 画像処理装置及び画像処理方法
US20230419605A1 (en) Map generation apparatus, map generation method, and non-transitory computer-readable medium storing program
Kanuki et al. Automatic compensation of radial distortion by minimizing entropy of histogram of oriented gradients
US20220230342A1 (en) Information processing apparatus that estimates object depth, method therefor, and storage medium holding program therefor

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210331

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220823

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220830

R150 Certificate of patent or registration of utility model

Ref document number: 7134012

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150