JP2019096294A

JP2019096294A - 視差推定装置及び方法

Info

Publication number: JP2019096294A
Application number: JP2018148377A
Authority: JP
Inventors: 元煕李; Weon-Hyi Lee; 景夫鄭; Kyungboo Jung
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-11-23
Filing date: 2018-08-07
Publication date: 2019-06-20
Anticipated expiration: 2038-08-07
Also published as: KR102459853B1; JP7134012B2; US20190156502A1; CN109829875B; CN109829875A; KR20190059594A; US10929998B2; EP3489898A1

Abstract

【課題】視差推定装置及び方法を提供する。【解決手段】視差推定装置は、第１イメージ及び第２イメージから初期視差に対応する第１イメージパッチ及び第２イメージパッチを抽出し、残差モデルに基づいて第１イメージパッチ及び第２イメージパッチから初期視差に対する残差を推定する。【選択図】図１

Description

以下、視差推定装置及び方法が提供される。

ステレオマッチングは、２次元映像から深度情報を得る様々な方法のうちの１つである。ステレオマッチングは、２つ又はそれ以上の映像から互いの対応点を検出し、映像の中の物体の深度は複数の対応点に基づいて算出される。ステレオ映像には、互いに異なる視点で撮影された同じ物体が存在するが、両眼の視差の特性に応じて該当の物体がカメラから近接に位置する場合には、ステレオ映像の複数の映像の間で大きい変位差を示し、該当の物体がカメラから遠く位置する場合には小さい変位差を示す。ここで、物体の深度は、一視点の映像の中のピクセルと他の視点映像にある複数の対応点との間の距離差である視差（ｄｉｓｐａｒｉｔｙ）によって決定される。視差を求めることが可能であれば、視差に基づいて物体までの深度を算出することができる。

一実施形態に係る視差推定装置は、他の視点映像の間の初期視差に対して残差（ｒｅｓｉｄｕａｌ）を推定することにある。

一実施形態に係るプロセッサによって実行される視差推定方法は、第１イメージから基準ピクセルを含む第１イメージパッチを抽出するステップと、第２イメージから前記基準ピクセルに対応する対象ピクセルを含む第２イメージパッチを抽出するステップと、残差モデルに基づいて、前記第１イメージパッチ及び前記第２イメージパッチから前記基準ピクセルと前記対象ピクセルとの間の初期視差に対する残差を推定するステップとを含み、前記残差は、前記基準ピクセルと前記対象ピクセルとの間の実際の視差と、前記初期視差との間で推定された差である。

視差推定方法は、前記推定された残差に基づいて前記初期視差を補正することによって、前記基準ピクセルと前記対象ピクセルとの間の最終視差を決定するステップをさらに含み得る。

視差推定方法は、前記最終視差を用いて、前記第１イメージ及び前記第２イメージの各ピクセルに対応する深度を算出するステップをさらに含み得る。

視差推定方法は、前記第１イメージの前記基準ピクセルと前記第２イメージの前記対象ピクセルとの間の前記初期視差を推定するステップをさらに含み得る。

前記初期視差を推定するステップは、前記第２イメージで検索範囲を決定するステップと、前記検索範囲に含まれるピクセルのそれぞれに対応する候補イメージパッチごとに、前記基準ピクセルを含む基準イメージパッチと比較するステップと、前記候補イメージパッチと前記基準イメージパッチとの間の比較結果に基づいて、前記第２イメージから前記対象ピクセルを決定するステップとを含み得る。

前記残差を推定するステップは、特徴モデルに基づいて、前記第１イメージパッチ及び前記第２イメージパッチから特徴データを抽出するステップと、前記残差モデルに基づいて、前記特徴データから前記残差を推定するステップとを含み得る。

視差推定方法は、偽り視差検出モデルに基づいて、前記第１イメージパッチ及び前記第２イメージパッチから前記初期視差の偽り視差情報を推定するステップをさらに含み得る。

視差推定方法は、前記推定された偽り視差情報に基づいて、前記初期視差が偽りであると判断されたことに応答して、前記初期視差を排除するステップをさらに含み得る。

視差推定方法は、前記初期視差を整数ピクセル単位で推定するステップをさらに含み、前記残差を推定するステップは、前記残差をサブピクセル単位で推定するステップを含み得る。

前記第１イメージパッチを抽出するステップは、前記第１イメージから特徴点を抽出するステップと、前記第１イメージから前記特徴点に対応するピクセルを前記基準ピクセルとして決定するステップとを含み得る。

一実施形態に係る視差推定装置は、第１イメージ及び第２イメージを取得するイメージ取得部と、前記第１イメージから基準ピクセルを含む第１イメージパッチを抽出し、第２イメージから前記基準ピクセルに対応する対象ピクセルを含む第２イメージパッチを抽出し、残差モデルに基づいて、前記第１イメージパッチ及び前記第２イメージパッチから前記基準ピクセルと前記対象ピクセルとの間の初期視差に対する残差を推定するプロセッサとを含み、前記残差は、前記基準ピクセルと前記対象ピクセルとの間の実際の視差と、前記初期視差との間で推定された差である。

前記プロセッサは、前記推定された残差に基づいて前記初期視差を補正することによって、前記基準ピクセルと前記対象ピクセルとの間の最終視差を決定し得る。

前記プロセッサは、前記最終視差を用いて、前記第１イメージ及び前記第２イメージの各ピクセルに対応する深度を算出し得る。

前記プロセッサは、前記第１イメージの前記基準ピクセルと前記第２イメージの前記対象ピクセルとの間の前記初期視差を推定し得る。

前記プロセッサは、前記第２イメージで検索範囲を決定し、前記検索範囲に含まれるピクセルのそれぞれに対応する候補イメージパッチごとに、前記基準ピクセルを含む基準イメージパッチと比較し、前記比較に基づいて、前記第２イメージから前記対象ピクセルを決定し得る。

前記プロセッサは、特徴モデルに基づいて、前記第１イメージパッチ及び前記第２イメージパッチから特徴データを抽出し、前記残差モデルに基づいて、前記特徴データから前記残差を推定し得る。

前記プロセッサは、偽り視差検出モデルに基づいて、前記第１イメージパッチ及び前記第２イメージパッチから前記初期視差の偽り視差情報を推定し得る。

前記プロセッサは、前記推定された偽り視差情報に基づいて前記初期視差が偽りであると判断されたことに応答して、前記初期視差を排除し得る。

前記プロセッサは、前記初期視差を整数ピクセル単位で推定し、前記残差をサブピクセル単位で推定し得る。

一実施形態に係るプロセッサによって実行される視差推定方法は、第１イメージの基準ピクセルと第２イメージの対象ピクセルとの間に第１解像度を有する初期視差を推定するステップであって、前記対象ピクセルは、前記基準ピクセルに対応するステップと、残差モデルを用いて、前記第１イメージ及び前記第２イメージから、前記第１解像度よりも小さい第２解像度を有する残差を推定するステップであって、前記残差は、前記基準ピクセルと前記対象ピクセルとの間の実際の視差と、前記初期視差との間で推定された差であるステップと、最終視差を取得するために前記残差に基づいて前記初期視差を補正するステップとを含む。

前記残差を推定するステップは、前記第１イメージから前記基準ピクセルを含む第１イメージパッチを抽出するステップと、前記第２イメージから前記対象ピクセルを含む第２イメージパッチを抽出するステップと、前記残差モデルを用いて前記第１イメージパッチ及び前記第２イメージパッチから前記残差を推定するステップとを含み得る。

前記第１イメージパッチを抽出するステップは、前記第１イメージパッチとして、前記第１イメージから前記基準ピクセルを中心にするイメージパッチを抽出するステップを含み、前記第２イメージパッチを抽出するステップは、前記第２イメージパッチとして、前記第２イメージから前記対象ピクセルを中心にするイメージパッチを抽出するステップを含み得る。

前記初期視差を推定するステップは、前記初期視差を単一のピクセル単位で抽出するステップを含み、前記残差を推定するステップは、前記残差をサブピクセル単位で推定するステップを含み得る。

視差推定方法は、前記第１イメージ及び前記第２イメージから前記初期視差が偽りである確率を指示する偽り視差情報を推定するステップと、前記偽り視差情報が偽り閾値レベルを超えることに応答して、前記初期視差を排除するステップと、前記偽り視差情報が前記偽り閾値レベルを超えないことに応答して、前記残差を推定するステップとを含み得る。

一実施形態に係る視差推定装置は、初期視差に対する残差を推定することによって、視差をより精密に推定することができる。

一実施形態に係る視差推定装置の概略的な構成を示すブロック図である。一実施形態に係る視差推定装置の細部的な構成を示すブロック図である。一実施形態に係る視差推定過程を説明する図である。図３に示された過程に加えて、偽り視差情報を算出する過程が追加された図である。一実施形態に係る残差モデル及び偽り視差検出モデルのトレーニング過程を説明する図である。一実施形態に係る視差推定方法を示すフローチャートである。一実施形態により補正された視差を用いた深度算出を説明する図である。図７で説明された深度算出に偽り視差検出が適用されたものを説明する図である。一実施形態に係る視差推定装置がサブピクセル単位で視差を推定することを説明する図である。

実施形態に対する特定な構造的又は機能的な説明は、単なる例示のための目的として開示されたものであり、様々な形態に変更され得る。したがって、実施形態は特定の開示形態に限定されるものではなく、本明細書の範囲は技術的な思想に含まれる変更、均等物ないし代替物を含む。

単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

異なるように定義されない限り、技術的であるか又は科学的な用語を含め、本明細書で用いられる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈されるべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

また、添付図面を参照して説明することにおいて、同じ構成要素は、図面符号に関係なく同じ参照符号を付与し、これに対する重複する説明は省略することにする。実施形態の説明おいて、関連する公知技術に対する具体的な説明が実施形態の要旨を不要に曖昧にすると判断される場合、その詳細な説明は省略する。

本明細書において、例示の視差推定方法はプロセッサによって実行され、プロセッサのような具現される視差推定装置は、ステレオカメラによりキャプチャされるステレオイメージの２つのイメージ間のステレオマッチングを行って初期視差を推定し、２つのイメージ間の実際の視差と初期視差との間の推定された差である残差を、残差モデルを用いて推定し、２つのイメージ間の最終視差を取得するために、残差に基づいて初期視差を補正することにより、増加した正確度を有する。残差モデルは、基準イメージに対応する基準残差及び基準イメージに基づいて機械学習によりトレーニングされたニューラルネットワークであってよい。初期視差を単一のピクセル単位で推定し、残差をサブピクセル単位で推定してもよい。最終視差の正確度の増加は、基準ピクセル及び対象ピクセルに対応するステレオイメージでより正確な地点の深度の算出を可能にする。

図１は、一実施形態に係る視差推定装置の概略的な構成を示すブロック図である。

視差推定装置１００は、イメージ取得部１１０及びプロセッサ１２０を含む。

イメージ取得部１１０は、視差推定装置１００の環境についてのイメージを取得する。一実施形態によれば、イメージ取得部１１０は、環境の第１イメージ及び第２イメージを取得する。例えば、イメージ取得部１１０はステレオカメラであり、第１イメージは左側イメージであり、第２イメージは右側イメージである。ただし、イメージ取得部１１０、第１イメージ、及び第２イメージはこれらに限定されない。

プロセッサ１２０は、第１イメージ及び第２イメージ間の初期視差（ｉｎｉｔｉａｌｄｉｓｐａｒｉｔｙ）を算出し、算出された初期視差に対する残差を推定する。

本明細書において、視差は、基準イメージの任意の一地点（例えば、基準ピクセル）とそれに対応する対象イメージの地点（例えば、対象ピクセル）との間の位置の差を示す。例えば、プロセッサ１２０は、基準イメージとして第１イメージを選択し、対象イメージとして第２イメージを選択する。基準ピクセルは、第１イメージで視差補正のために選択されたピクセルを示す。対象ピクセルは、第２イメージで基準ピクセルに対応するものとして選択されたピクセルを示す。

残差は、初期視差の誤差を推定した値を示す。残差は、初期視差と実際の視差との間の推定された差である。例えば、プロセッサ１２０は、初期視差に残差を加算することにより最終視差を算出し得る。

図２は、一実施形態に係る視差推定装置の細部的な構成を示すブロック図である。

視差推定装置２００は、図１に示されるイメージ取得部１１０及びプロセッサ１２０に加えて、メモリ２３０をさらに含んでもよい。

イメージ取得部１１０は、図１を参照して説明したような動作を行う。例えば、イメージ取得部１１０は、第１カメラ２１１及び第２カメラ２１２を含む。第１カメラ２１１及び第２カメラ２１２は、互いに対して一定の距離だけ離隔して配置され、これはベースライン（ｂａｓｅｌｉｎｅ）を示し得る。第１カメラ２１１は、視差推定装置２００の環境を撮影して第１イメージを生成し、第２カメラ２１２は、第１カメラ２１１から一定の距離又はベースラインだけ離隔した位置で環境を撮影して第２イメージを生成する。第１カメラ２１１及び第２カメラ２１２は、他の視点から第１イメージ及び第２イメージをキャプチャする。例えば、第１カメラ２１１及び第２カメラ２１２が水平軸に沿って一定の距離だけ離隔して配置された場合、第１カメラ２１１は左側イメージを生成し、第２カメラ２１２は右側イメージを生成する。ただし、これに限定されることなく、例えば、第１カメラ２１１及び第２カメラ２１２が縦軸に沿って離隔する場合、第１イメージは上側イメージ、第２イメージは下側イメージであってもよい。

プロセッサ１２０は、第１イメージから基準ピクセルを含む第１イメージパッチを抽出し、第２イメージから基準ピクセルに対応する対象ピクセルを含む第２イメージパッチを抽出する。例えば、プロセッサ１２０は、第１イメージの少なくとも一部の領域を四角形態に抽出して第１イメージパッチを生成する。また、プロセッサ１２０は、第２イメージの少なくとも一部の領域を四角形態に抽出して第２イメージパッチを生成する。第１イメージパッチ及び第２イメージパッチの大きさ及び解像度などは同一であり得る。

本明細書において、パッチは、全体のイメージからクロップ（ｃｒｏｐ）された部分イメージを示す。例えば、第１イメージパッチは第１イメージからクロップされた部分イメージであってもよく、第２イメージパッチは第２イメージからクロップされた部分イメージであってもよい。

また、プロセッサ１２０は、第１イメージ及び第２イメージから基準ピクセルと対象ピクセルとの間の初期視差を推定し、残差モデルに基づいて第１イメージパッチ及び第２イメージパッチから初期視差の残差を推定する。

本明細書において、残差モデルは、２つのイメージに対して推定された初期視差に対する誤差を出力するためのモデルを示す。例えば、残差モデルは、機械学習（ＭＬ：ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）によってトレーニングされたモデルであってもよい。残差モデルは、機械学習構造のパラメータを含む。機械学習構造としてニューラルネットワークが用いられる場合、残差モデルはニューラルネットワークの各ノード間の接続加重値を含み得る。

一実施形態によれば、残差モデルは、与えられた機械学習構造に対して基準イメージの対から抽出された基準イメージパッチの対から、該当の基準イメージパッチに対応する基準残差（例えば、基準イメージの対に対して推定された初期視差と基準視差との間の差）が出力されるよう、トレーニングされた機械学習構造（例えば、ニューラルネットワーク）のパラメータを含む。基準視差は、基準イメージの対の間の実際視差である。機械学習構造をトレーニングするためのトレーニングデータは、上述した基準イメージパッチの対及び基準残差を含む。基準残差は、基準イメージパッチの対に対してグラウンド・トゥルース（ｇｒｏｕｎｄｔｒｕｔｈ）として与えられる残差であり得る。ただし、残差モデルのトレーニングはこれに限定されることはない。単一の損失（ｌｏｓｓ）関数を用いて残差モデルを偽り視差検出モデルと共にトレーニングさせる過程については、下記の図５を参照して説明する。

メモリ２３０は、残差モデルを格納する。また、メモリ２３０は、残差モデルに基づいた残差推定を行うために要求されるデータを一時的に格納してもよい。

一実施形態に係る視差推定装置２００は、ステレオカメラ（例えば、第１カメラ２１１及び第２カメラ２１２）から取得した第１イメージ及び第２イメージから初期視差を推定し、初期視差に対する残差を推定して残差に基づいて初期視差を補正することで、高い正確度を有する最終視差を決定することができる。視差推定装置２００は、残差モデルを用いて残差を推定することで、映像の特徴を考慮せず損失曲線にフィッティングされる既存の方法よりも正確な最終視差を決定することができる。

図３は、一実施形態に係る視差推定過程を説明する図である。

まず、視差推定装置のプロセッサは、イメージ取得部から上述したように第１イメージ３０１及び第２イメージ３０２を受け取る。本明細書において、便宜上、第１イメージ３０１を左側イメージ、第２イメージ３０２を右側イメージとして説明するが、これに限定されることはない。

プロセッサは、第１イメージ３０１及び第２イメージ３０２から初期視差を推定する。第１イメージ３０１と第２イメージ３０２との間の初期視差の推定はステレオマッチング（Ｓ３１０）として示される。例えば、ステレオマッチングは、対応点を探すためにピクセルの強度、色などの映像情報を比較したり、ピクセルを中心にしたパッチの強度、色などの映像情報などを比較したりする動作を示す。一実施形態によれば、プロセッサは、ＭＢＭ（ｍｕｌｔｉ−ｂｌｏｃｋ−ｍａｔｃｈｉｎｇｓｔｅｒｅｏ）方式により、第１イメージ３０１と第２イメージ３０２との間の初期視差を推定する。例えば、プロセッサは、第１イメージ３０１の基準ピクセルと第２イメージ３０２の対象ピクセルとの間の初期視差を推定する。

まず、プロセッサは、第１イメージ３０１の基準ピクセルを含む第１イメージパッチ３１１と、第２イメージ３０２の検索範囲３１２とを比較することにより、対象ピクセルを含む第２イメージパッチ３１３を決定し、第１イメージパッチ３１１と第２イメージパッチ３１３との間の位置差に対応する初期視差を推定する。ここで、プロセッサは、第１イメージ３０１に示される少なくとも１つのオブジェクトに対応するピクセルに対して初期視差を推定する。例えば、プロセッサは、第１イメージ３０１から特徴点を抽出し得る。特徴点は、第１イメージ３０１の特徴を示す地点として、第１イメージ３０１に示されるオブジェクト（例えば、図３に示された車両）の一部に対応するピクセルであり得る。プロセッサは、第１イメージ３０１から、特徴点に対応するピクセルを基準ピクセルとして決定する。例えば、図３において、プロセッサは、第１イメージ３０１から検出された車両に対応するオブジェクト領域の中心点を、特徴点として抽出する。ただし、これに限定されることなく、プロセッサは、第１イメージ３０１からオブジェクト領域の少なくとも一部の地点又は全ての地点を特徴点として抽出してもよい。

そして、プロセッサは、第２イメージ３０２の検索範囲３１２を決定し得る。一実施形態によれば、プロセッサは、第１イメージ３０１の基準ピクセルを含む第１イメージパッチ３１１に基づいて検索範囲３１２を決定する。例えば、プロセッサは、第２イメージ３０２から第１イメージ３０１の第１イメージパッチ３１１の上部境界及び下部境界と同じ高さの上部境界及び下部境界を有する領域を、検索範囲３１２として決定し得る。

次に、プロセッサは、検索範囲３１２に含まれる候補ピクセルのそれぞれに対応する候補イメージパッチごとに、基準ピクセルを含む基準イメージパッチを比較する。例えば、候補ピクセルは、第２イメージ３０２の検索範囲３１２内で、基準ピクセルと同じ高さを有するピクセルであってもよい。図３では、第２イメージ３０２内で基準ピクセルと同じ高さを有する一部のピクセルが候補ピクセルとして決定されているが、基準ピクセルと同じ高さを有する全てのピクセルが候補ピクセルとして決定されてもよい。候補イメージパッチは、検索範囲３１２から候補ピクセルを中心地点としてクロップされたイメージを示す。ここで、基準イメージパッチと候補イメージパッチの大きさ及び解像度は同一であり得る。本明細書において、基準イメージパッチはステレオマッチング（Ｓ３１０）の基準となるパッチを示し、候補イメージパッチは基準イメージパッチとの比較のために選択されたパッチを示す。

そして、プロセッサは、候補イメージパッチと基準イメージパッチとの間の比較結果に基づいて、第２イメージ３０２から対象ピクセルを決定する。例えば、プロセッサは、各候補イメージパッチと基準イメージパッチとを比較し、比較の結果に基づいて基準イメージパッチ及び候補イメージパッチのそれぞれの類似度を算出する。プロセッサは、検索範囲３１２内で基準イメージパッチに対して最も高い類似度を有する候補イメージパッチに対応するピクセル（例えば、該当の候補イメージパッチの中心地点）を対象ピクセルとして決定する。

その後、プロセッサは、第１イメージ３０１及び第２イメージ３０２のそれぞれからパッチをクロップする（Ｓ３２０）。例えば、プロセッサは、第１イメージ３０１から基準ピクセルを含む第１イメージパッチ３１１を抽出し得る。プロセッサは、第２イメージ３０２から対象ピクセルを含む第２イメージパッチ３１３を抽出し得る。

プロセッサは、残差モデル（Ｓ３３０）を用いて第１イメージパッチ３１１及び第２イメージパッチ３１３から残差を推定する。プロセッサは、基準イメージパッチの対から基準残差を出力するよう、トレーニングされた残差モデル（Ｓ３３０）に第１イメージパッチ３１１及び第２イメージパッチ３１３を入力する。プロセッサは、第１イメージパッチ３１１及び第２イメージパッチ３１３を特徴データの形態に残差モデル（Ｓ３３０）に入力することで、残差モデル（Ｓ３３０）に基づいて特徴データから残差を推定する。プロセッサは、例えば、特徴モデルに基づいて第１イメージパッチ及び第２イメージパッチから特徴データを算出する。特徴モデルについては、下記の図５を参照して説明する。

プロセッサは、第１イメージパッチ３１１及び第２イメージパッチ３１３を該当の残差モデル（Ｓ３３０）に入力することにより、サブピクセル単位の残差を出力する。サブピクセル単位については、下記の図９を参照して説明する。

プロセッサは、残差を用いて初期視差を補正する（Ｓ３４０）。プロセッサは、推定された残差を初期視差に反映することで最終視差を決定する。例えば、プロセッサは、初期視差に残差を加算することで最終視差３０９を算出し得る。

図４は、図３に示された過程に加えて、偽り視差情報を算出する過程が追加された図である。

プロセッサは、図３に示すように最終視差３０９を算出する一方、第１イメージパッチ３１１及び第２イメージパッチ３１３を用いて偽り視差情報４０８を推定する。

一実施形態によれば、プロセッサは、偽り視差検出モデル（Ｓ４５０）に基づいて、第１イメージパッチ３１１及び第２イメージパッチ３１３から初期視差の偽り視差情報４０８を推定し得る。偽り視差情報４０８は初期視差の偽りに関する情報、例えば、初期視差が偽りである確率に関する情報であり得る。

偽り視差検出モデル（Ｓ４５０）は、基準イメージパッチの対から基準偽り視差情報が出力されるようにトレーニングされたモデルである。基準偽り視差情報は、予め生成された情報として、基準イメージパッチの対から算出された初期視差が偽りを示した確率を示す。

プロセッサは、推定された偽り視差情報４０８に基づいて初期視差が偽りと判断されたことに応答して、初期視差を排除する。

例えば、プロセッサは、推定された偽り視差情報４０８が偽り閾値レベルを超えることに応答して、初期視差を排除する。偽り閾値レベルは、偽りの基準となる程度であって、例えば、初期視差が偽りであるか否かを決定する基準となる確率である。

異なる例として、プロセッサは、推定された偽り視差情報４０８が偽り閾値レベル以下であることに応答して、初期視差に基づいた残差推定動作を継続する。

図５は、一実施形態に係る残差モデル及び偽り視差検出モデルのトレーニング過程を説明する図である。

一実施形態によれば、残差モデル（Ｓ５３４）及び偽り視差検出モデル（Ｓ５５０）は、特徴モデル（Ｓ５３１、Ｓ５３２）（例えば、特徴抽出ネットワーク）を共有するよう、次のような機械学習構造に設計され得る。

まず、プロセッサは、入力される基準イメージの対（５０１、５０２）から初期視差Ｄ_ｉｎｉｔを推定し（Ｓ５１０）、初期視差Ｄ_ｉｎｉｔに基づいて各イメージからパッチをクロップする（Ｓ５２０）。

プロセッサは、クロップされたパッチのそれぞれから特徴モデル（Ｓ５３１、Ｓ５３２）に基づいて特徴データを抽出し、抽出された特徴データを統合モデル（Ｓ５３３）（例えば、連結（ｃｏｎｃａｔｅｎａｔｅ）ネットワーク）に基づいて統合して統合データを生成する。例えば、特徴モデル（Ｓ５３１、Ｓ５３２）は、パッチから低レベル特徴を抽出するようにトレーニングされ得る。低レベル特徴は、例えば、点、線、テクスチャ、色などの組合せに表現される映像特徴データを示す。

プロセッサは、上述したように抽出された統合データを残差モデル（Ｓ５３４）及び偽り視差検出モデル（Ｓ５５０）に入力し、それぞれの残差Δｄ及び偽り視差情報ｌ_{ｆａｌｓｅ}を算出する。

トレーニング装置は、上述したように構成された機械学習構造をトレーニングする。例えば、トレーニング装置は、図５に示された機械学習構造に対して、第１基準イメージ５０１及び第２基準イメージ５０２（以下、基準イメージの対という。）から該当の基準イメージ５０１、５０２に対応する基準視差Ｄ_ＧＴが出力されるようにトレーニングする。トレーニング装置は、特徴モデル（Ｓ５３１、Ｓ５３２）、残差モデル（Ｓ５３４）及び偽り視差検出モデル（Ｓ５５０）を１つの損失５０９にトレーニングさせ得る。例えば、第１基準イメージ５０１からｎ個の特徴点が抽出された場合、トレーニング装置は、損失５０９Ｌを下記の数式（１）及び数式（２）のように示すことができる。ここで、ｎは１以上の整数である。

ここで、Ｐ^ｉ _ＥＳＴ＝（１−Ｐｒｏｂ（Ｌ_ＦＩＤ））は、ｉ番目の特徴点に対して初期視差Ｄ_ｉｎｉｔが真実（ｔｒｕｅ）である確率を示す。ここで、ｉは１以上ｎ以下の整数である。Ｌ_ＦＩＤは偽り初期視差レーベルを示す。Ｌ_ＦＩＤは、トレーニング装置が機械学習構造をトレーニングするために使用するトレーニングセットで初期視差Ｄ_ｉｎｉｔに対して与えられる。より具体的に、Ｌ_ＦＩＤは、与えられた初期視差が真実又は偽りであるかを指示する。したがって、Ｐｒｏｂ（Ｌ_ＦＩＤ）は初期視差Ｄ_ｉｎｉｔが偽りである確率を示し、１−Ｐｒｏｂ（Ｌ_ＦＩＤ）は初期視差Ｄ_ｉｎｉｔが真実である確率を示す。｜｜｜｜^２はＬ^２ｎｏｒｍを示し、言い換えれば、ユークリッド・ノルム（Ｅｕｃｌｉｄｅａｎｎｏｒｍ）とも示す。また、ＣＥはＬ_ＧＴ及びＬ_ＥＳＴ間のクロスエントロピー損失を示す。αは定数である。Ｄ^ｉ _ＧＴはｉ番目の特徴点に対する基準視差を示す。Ｄ^ｉ _ＥＳＴはトレーニング間の任意のサイクルでｉ番目の特徴点に対して初期視差Ｄ_ｉｎｉｔが残差Δｄによって補正された視差を示す。Ｌ_ＧＴは基準偽り視差情報とすることができ、Ｌ_ＥＳＴはトレーニング間の任意のサイクルで推定された偽り視差情報とすることができる。

初期視差Ｄ_ｉｎｉｔが真実である確率が高い場合、トレーニング装置は上述した数式（１）の

に基づいて、基準視差Ｄ^ｉ _ＧＴと、補正された視差Ｄ^ｉ _ＥＳＴが同一になるように、特徴モデル（Ｓ５３１、Ｓ５３２）、統合モデル（Ｓ５３３）、残差モデル（Ｓ５３４）をトレーニングさせる。また、初期視差Ｄ_ｉｎｉｔが偽りである確率が高い場合、トレーニング装置は

に基づいて、視差Ｄ^ｉ _ＥＳＴをトレーニングから排除してもよい。したがって、トレーニング装置は、初期視差Ｄ_ｉｎｉｔが真実である確率が高い場合にのみ、補正された視差Ｄ^ｉ _ＥＳＴをトレーニングに使用することにより、補正された視差Ｄ^ｉ _ＥＳＴと基準視差Ｄ^ｉ _ＧＴが類似する場合の推定誤差を減少させることができる。

一方、トレーニング装置は、クロスエントロピーに対応する数式（１）のα・ＣＥ（Ｌ_ＧＴ，Ｌ_ＥＳＴ）に基づいて、初期視差Ｄ_ｉｎｉｔが偽りである確率を出力するよう、偽り視差検出モデル（Ｓ５５０）をトレーニングさせる。

また、トレーニング装置は、２つの損失５０９、例えば、

とα・ＣＥ（Ｌ_ＧＴ，Ｌ_ＥＳＴ）との間に値の範囲が異なる点を補正するためにαを使用してもよい。

図６は、一実施形態に係る視差推定方法を示すフローチャートである。

まず、ステップＳ６１０において、プロセッサは、第１イメージから基準ピクセルを含む第１イメージパッチを抽出する。一実施形態によれば、プロセッサは、第１イメージから特徴点を抽出し、特徴点に対応するピクセルを基準ピクセルとして決定する。特徴点は、例えば、第１イメージに示されるオブジェクトに対応する領域の少なくとも一部であり得る。

そして、ステップＳ６２０において、プロセッサは、第２イメージから基準ピクセルに対応する対象ピクセルを含む第２イメージパッチを抽出する。一実施形態によれば、プロセッサは、ステレオマッチングを介して第１イメージの基準ピクセルに対応する第２イメージの対象ピクセルを決定する。また、プロセッサは、対象ピクセルに基づいて第２イメージパッチを抽出する。例えば、プロセッサは、対象ピクセルを中心地点として第２イメージパッチを抽出する。

次に、ステップＳ６３０において、プロセッサは残差モデルに基づいて、第１イメージパッチ及び第２イメージパッチから基準ピクセルと対象ピクセルとの間の初期視差に対する残差を推定する。例えば、プロセッサは、第１イメージパッチ及び第２イメージパッチから特徴データを抽出し、抽出された特徴データを残差モデルに入力することによって初期視差に対する残差を出力する。

図７は、一実施形態により補正された視差を用いた深度算出を説明する図である。

図７では、第１イメージを左側映像７０１、第２イメージを右側映像７０２として説明しているが、これに限定されることはない。視差推定装置に含まれるカメラの配列に応じて設計が変更されてもよい。

まず、ステップＳ７１０において、視差推定装置は初期視差を推定する。例えば、視差推定装置は、ステレオカメラに入力された左側映像７０１及び右側映像７０２を用いてステレオマッチングを行う。ここで、視差推定装置は、データベース７０５から残差モデルをロードする。

そして、ステップＳ７２０において、視差推定装置は、初期視差に基づいて左側映像７０１から左パッチ及び右側映像７０２から右パッチをクロップする。

次に、ステップＳ７３０において、視差推定装置は、残差モデルに基づいて左パッチ及び右パッチからサブピクセル単位で残差を推定する。残差モデルは、例えば、ディープニューラルネットワーク（ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ）構造であり得る。

そして、ステップＳ７４０において、視差推定装置は、残差を用いて初期視差を補正する。例えば、視差推定装置は、残差を初期視差に加算して最終視差を算出する。

次に、ステップＳ７５０において、視差推定装置のプロセッサは、最終視差を用いて第１イメージ及び第２イメージの各ピクセルに対応する深度７０９を算出する。

一実施形態によれば、視差推定装置は、左側映像７０１の特徴点から抽出される全てのピクセルについて、上述したステップＳ７１０〜Ｓ７５０を繰り返してもよい。視差推定装置は、左側映像７０１から抽出される全てのピクセルについて深度７０９を算出する。算出された深度７０９は、左側映像７０１及び右側映像７０２に示されたオブジェクトを３Ｄ形態にモデリングするために使用され得る。

図８は、図７を参照して説明された深度算出に偽り視差検出が適用されたものを説明する図である。

初期視差が実際の視差と類似する場合、図７において、視差推定装置は、最終視差及び深度を正確に算出することができる。ただし、初期視差が実際の視差と大きい差を示す場合、残差推定の正確度が減少する。このような正確度の減少を防止するために、視差推定装置は、初期視差と実際の視差との間の差を考慮して、初期視差に対する偽り視差情報８０８を算出する。

例えば、ステップＳ８６０において、視差推定装置は、偽り視差検出モデルに基づいて、左パッチ及び右パッチから偽り視差情報８０８を算出する。偽り視差検出モデルは、例えば、ニューラルネットワーク構造であってもよい。偽り視差情報８０８は、初期視差が偽りである確率を示すため、算出された深度７０９の信頼度に対応する。さらに、視差推定装置は、偽り視差情報８０８が偽り閾値レベルを超えることに応答して、推定された残差を深度算出から排除してもよい。ここで、左側映像７０１及び右側映像７０２が連続するフレームに構成される場合、プロセッサは深度算出を次のフレームに猶予し得る。

図９は、一実施形態に係る視差推定装置がサブピクセル単位で視差を推定することを説明する図である。

視差推定装置のプロセッサは、初期視差を整数ピクセル単位で推定し、残差をサブピクセル単位で推定する。本明細書において、整数ピクセル単位はピクセル１つによって定義される単位を示し、サブピクセル単位はピクセルよりも小さい単位として、例えば、任意の距離がピクセル１つに対して有する比率を指示する実数である。初期視差はピクセルの整数で表現され、残差がピクセルの実数で表現される。残差は１０進数で表現されてもよく、正の数又は負の数であってもよく、１よりも小さいか、１であるか、１よりも大きくてもよい。

例えば、図９は、説明の便宜のために第１イメージ９０１及び第２イメージ９０２をそれぞれ８×８個のピクセルから構成されるものとして示す。第１イメージ９０１及び第２イメージ９０２には、それぞれオブジェクト９５１、９５２が示される。プロセッサは、ステレオマッチング９１０によって第１イメージ９０１の基準地点９１１と第２イメージ９０２の対象地点９２１との間の初期視差を推定し得る。図９において、基準地点９１１と対象地点９２１との間の初期視差は、整数ピクセル単位である１であってもよい。図９において、初期視差に対して推定された残差９２０は−０．８である。プロセッサは、初期視差に対して残差９２０を補正することで、最終視差を１＋（−０．８）＝０．２と決定できる。したがって、視差推定装置は、基準地点９１１に対応する第２イメージ９０２の最終地点９２２を決定し得る。上記を参照して説明した初期視差、最終視差、及び残差９２０の値は単に例示的な値である。

一実施形態に係る視差推定装置は、ステレオカメラを用いて深度を測定するために、左側映像及び右側映像の対応点を探すステレオマッチングを行うことができる。プロセッサは、ステレオマッチングを介して整数ピクセル単位で初期視差を推定し得る。ただし、整数ピクセル単位で推定された初期視差を用いて深度を算出する場合、深度解像度は、ステレオカメラのピクセルの物理的な大きさに依存する。視差推定装置は、残差モデルを用いてサブピクセル単位で残差を推定することで、より精密に最終視差及び深度を推定することができる。上述したように精密に推定された深度は、より精密な３Ｄ形態をモデリングするために使用され得る。

一実施形態に係る視差推定装置は、ステレオイメージの各ピクセルに対する深度を効率よく精密に推定できる。このような視差推定装置は、車両用の深度センサ及びモバイルの深度センサなどで実現できる。

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素とソフトウェア構成要素の組合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）の実行に応答する異なる装置のような、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理及び生成する。理解の便宜のために、処理装置は１つが使用されるものとして説明する場合もあるが、当該技術分野で通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含むことが分かる。例えば、処理装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含む。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、又はこのうちの１つ以上の組合せを含み、希望通りに動作するように処理装置を構成し、独立的又は結合的に処理装置に命令する。ソフトウェア及び／又はデータは、処理装置によって解釈され、処理装置に命令又はデータを提供するためのあらゆる類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、あるいは送信される信号波を介して永久的又は一時的に具現化される。ソフトウェアは、ネットワークに連結されたコンピュータシステム上に分散され、分散された方法で格納されるか又は実行される。ソフトウェア及びデータは１つ以上のコンピュータ読取可能な記録媒体に格納される。

本実施形態による方法は、多様なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読取可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独で又は組み合わせたものを含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

上記では、実施形態を限定された図面を参照して説明したが、当該技術分野で通常の知識を有する者であれば、前記に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順序で実行されたり、及び／又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせされたり、他の構成要素又は均等物によって代替されたり置換されても適切な結果を達成することができる。

したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲及び特許請求の範囲と均等なものなどによって定められるものである。

１００：視差推定装置
１１０：イメージ取得部
１２０：プロセッサ

Claims

プロセッサによって実行される視差推定方法において、
第１イメージから基準ピクセルを含む第１イメージパッチを抽出するステップと、
第２イメージから前記基準ピクセルに対応する対象ピクセルを含む第２イメージパッチを抽出するステップと、
残差モデルに基づいて、前記第１イメージパッチ及び前記第２イメージパッチから前記基準ピクセルと前記対象ピクセルとの間の初期視差に対する残差を推定するステップと、
を含み、
前記残差は、前記基準ピクセルと前記対象ピクセルとの間の実際の視差と、前記初期視差との間で推定された差である、
視差推定方法。
前記推定された残差に基づいて前記初期視差を補正することによって、前記基準ピクセルと前記対象ピクセルとの間の最終視差を決定するステップをさらに含む、
請求項１に記載の視差推定方法。
前記最終視差を用いて、前記第１イメージ及び前記第２イメージの各ピクセルに対応する深度を算出するステップをさらに含む、
請求項２に記載の視差推定方法。
前記第１イメージの前記基準ピクセルと前記第２イメージの前記対象ピクセルとの間の前記初期視差を推定するステップをさらに含む、
請求項１に記載の視差推定方法。
前記初期視差を推定するステップは、
前記第２イメージで検索範囲を決定するステップと、
前記検索範囲に含まれるピクセルのそれぞれに対応する候補イメージパッチごとに、前記基準ピクセルを含む基準イメージパッチと比較するステップと、
前記候補イメージパッチと前記基準イメージパッチとの間の比較結果に基づいて、前記第２イメージから前記対象ピクセルを決定するステップと、
を含む、請求項４に記載の視差推定方法。
前記残差を推定するステップは、
特徴モデルに基づいて、前記第１イメージパッチ及び前記第２イメージパッチから特徴データを抽出するステップと、
前記残差モデルに基づいて、前記特徴データから前記残差を推定するステップと、
を含む、請求項１に記載の視差推定方法。
偽り視差検出モデルに基づいて、前記第１イメージパッチ及び前記第２イメージパッチから前記初期視差の偽り視差情報を推定するステップをさらに含む、
請求項１に記載の視差推定方法。
前記推定された偽り視差情報に基づいて、前記初期視差が偽りであると判断されたことに応答して、前記初期視差を排除するステップをさらに含む、
請求項７に記載の視差推定方法。
前記初期視差を整数ピクセル単位で推定するステップをさらに含み、
前記残差を推定するステップは、前記残差をサブピクセル単位で推定するステップを含む、
請求項１に記載の視差推定方法。
前記第１イメージパッチを抽出するステップは、
前記第１イメージから特徴点を抽出するステップと、
前記第１イメージから前記特徴点に対応するピクセルを前記基準ピクセルとして決定するステップと、
を含む、請求項１に記載の視差推定方法。
ハードウェアに請求項１〜１０のいずれか一項に記載の方法を実行させるコンピュータプログラム。
視差推定装置において、
第１イメージ及び第２イメージを取得するイメージ取得部と、
前記第１イメージから基準ピクセルを含む第１イメージパッチを抽出し、第２イメージから前記基準ピクセルに対応する対象ピクセルを含む第２イメージパッチを抽出し、残差モデルに基づいて、前記第１イメージパッチ及び前記第２イメージパッチから前記基準ピクセルと前記対象ピクセルとの間の初期視差に対する残差を推定するプロセッサと、
を含み、
前記残差は、前記基準ピクセルと前記対象ピクセルとの間の実際の視差と、前記初期視差との間で推定される差である、
視差推定装置。
前記プロセッサは、前記推定された残差に基づいて前記初期視差を補正することによって、前記基準ピクセルと前記対象ピクセルとの間の最終視差を決定する、
請求項１２に記載の視差推定装置。
前記プロセッサは、前記最終視差を用いて、前記第１イメージ及び前記第２イメージの各ピクセルに対応する深度を算出する、
請求項１３に記載の視差推定装置。
前記プロセッサは、前記第１イメージの前記基準ピクセルと前記第２イメージの前記対象ピクセルとの間の前記初期視差を推定する、
請求項１２に記載の視差推定装置。
前記プロセッサは、前記第２イメージで検索範囲を決定し、前記検索範囲に含まれるピクセルのそれぞれに対応する候補イメージパッチごとに、前記基準ピクセルを含む基準イメージパッチと比較し、該比較に基づいて、前記第２イメージから前記対象ピクセルを決定する、
請求項１５に記載の視差推定装置。
前記プロセッサは、特徴モデルに基づいて、前記第１イメージパッチ及び前記第２イメージパッチから特徴データを抽出し、前記残差モデルに基づいて、前記特徴データから前記残差を推定する、
請求項１２に記載の視差推定装置。
前記プロセッサは、偽り視差検出モデルに基づいて、前記第１イメージパッチ及び前記第２イメージパッチから前記初期視差の偽り視差情報を推定する、
請求項１２に記載の視差推定装置。
前記プロセッサは、前記推定された偽り視差情報に基づいて前記初期視差が偽りであると判断されたことに応答して、前記初期視差を排除する、
請求項１８に記載の視差推定装置。
前記プロセッサは、前記初期視差を整数ピクセル単位で推定し、前記残差をサブピクセル単位で推定する、
請求項１２に記載の視差推定装置。
プロセッサによって実行される視差推定方法において、
第１イメージの基準ピクセルと第２イメージの対象ピクセルとの間に第１解像度を有する初期視差を推定するステップであって、前記対象ピクセルは、前記基準ピクセルに対応するステップと、
残差モデルを用いて、前記第１イメージ及び前記第２イメージから、前記第１解像度よりも小さい第２解像度を有する残差を推定するステップであって、前記残差は、前記基準ピクセルと前記対象ピクセルとの間の実際の視差と、前記初期視差との間で推定された差であるステップと、
最終視差を取得するために前記残差に基づいて前記初期視差を補正するステップと、
を含む、視差推定方法。
前記残差を推定するステップは、
前記第１イメージから前記基準ピクセルを含む第１イメージパッチを抽出するステップと、
前記第２イメージから前記対象ピクセルを含む第２イメージパッチを抽出するステップと、
前記残差モデルを用いて前記第１イメージパッチ及び前記第２イメージパッチから前記残差を推定するステップと、
を含む、請求項２１に記載の視差推定方法。
前記第１イメージパッチを抽出するステップは、前記第１イメージパッチとして、前記第１イメージから前記基準ピクセルを中心にするイメージパッチを抽出するステップを含み、
前記第２イメージパッチを抽出するステップは、前記第２イメージパッチとして、前記第２イメージから前記対象ピクセルを中心にするイメージパッチを抽出するステップを含む、
請求項２２に記載の視差推定方法。
前記初期視差を推定するステップは、前記初期視差を単一のピクセル単位で抽出するステップを含み、
前記残差を推定するステップは、前記残差をサブピクセル単位で推定するステップを含む、
請求項２１に記載の視差推定方法。
前記第１イメージ及び前記第２イメージから前記初期視差が偽りである確率を指示する偽り視差情報を推定するステップと、
前記偽り視差情報が偽り閾値レベルを超えることに応答して、前記初期視差を排除するステップと、
前記偽り視差情報が前記偽り閾値レベルを超えないことに応答して、前記残差を推定するステップと、
を含む、請求項２１に記載の視差推定方法。