JP2006285952A

JP2006285952A - 画像処理方法、画像処理装置、プログラムおよび記録媒体

Info

Publication number: JP2006285952A
Application number: JP2006016702A
Authority: JP
Inventors: Gyokuu Ryu; 玉宇劉; Ikoku Go; 偉国呉
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-03-11
Filing date: 2006-01-25
Publication date: 2006-10-19
Also published as: US7602966B2; US20060204104A1

Abstract

【課題】複数の画像データ間の視差データを高精度に生成できる画像処理方法を提供する。
【解決手段】確率密度関数ＰＤを順に更新し（ＳＴ１１）、各ＰＤにおいて、そのエネルギを最小にする対応関係ｆを特定する。最終的にエネルギーを最小にするＰＤと、対応関係ｆに対応した視差データＤＭとを特定する。
【選択図】図５

Description

本発明は、ステレオ画像の視差データを生成する画像処理方法、画像処理装置、プログラムおよび記録媒体に関する。

例えば、ステレオ・マッチングは、同じ対象を異なる位置から撮像して得られた２つの画像間の画素単位での対応関係を特定し、その対応関係から得られる視差データを基に、マシン・センシングや仮想ビューなどに要求される原画像の３次元構成が得られる。
しかしながら、実環境の曖昧さや複雑さに起因して、上記対応関係を特定することは容易ではない。
従来のステレオ・マッチングでは、例えば、２つの画像内で同じ対象についての画素データの輝度が同じであることを前提として上記対応関係を特定している。
Yuri Boykov, Olga Veksler, Ramin Zabih. Fast Approximate Energy Minimization via Graph Cuts. International Conference on Computer Vision, vol. 1, pp. 377-384, 1999. V. Kolmogorov and R. Zabih. Computing visual correspondence with occlusions using graph cuts. Journal of Confidence on Computer Vision, vol. 2, pp.508-515, 2001. Geo.rey Egnal. Mutual information as a stereo correspondence measure. Technical Report MS-CIS-00-20, University of Pennsylvania, 2000. Junhwan Kim, Vladimir Kolmogorov and Ramin Zabih. Visual Correspondence Using Energy Minimization and Mutual Information. International Conference on Computer Vision, vol.2, pp.1033-1040, 2003.

しかしながら、上述した従来の手法では、２つの画像内で同じ対象についての画素データの輝度が同じであることを前提としているが、この前提は多くの場合で満たされないため、上記対応関係を特定することが困難である。
また、これらの従来の手法では、画像内の画素データが、マッチング可能な領域の画素データおよびオクリュージョン領域の画素の何れであるかを、マッチング処理において推定していることから、誤った推定が行われ、その結果を基に誤った視差データが生成される可能性が高い。

本発明は上述した従来技術の問題点を解決するために、複数の画像データ間の視差データを高精度に生成できる画像処理方法、画像処理装置、プログラムおよび記録媒体を提供することを目的とする。

上述した従来技術の問題点を解決し、上述した目的を達成するため、第１の観点の発明の画像処理方法は、複数の画像データを構成する画素データの各々について、他の前記画像データ内に対応する画素データが存在するマッチング可能な領域の画素データと、他の前記画像データ内に対応する画素データが存在しないオクリュージョン領域の画素データとの何れであるかをそれぞれが規定した複数の確率密度関数の中から単数の前記確率密度関数を選択する第１の工程と、前記第１の工程で選択した前記確率密度関数に応じて規定される前記複数の画像データ間の対応関係を表すエネルギーを最小にする、前記複数の画像データ間の画素データ単位の対応関係を特定する第２の工程と、前記第２の工程で特定した前記対応関係を基に、前記複数の画像データ間の視差を示す視差データおよびオクリュージョン領域を更新する第３の工程と、前記第３の工程で更新された前記視差データと、オクリュージョン領域に基づき確率密度関数を更新する第４の工程とを有する。

第２の観点の発明の画像処理方法は、複数のカメラの撮像結果をそれぞれ示す複数の画像データを生成する第１の工程と、前記第１の工程で生成した前記複数の画像データを構成する画素データの各々について、他の前記画像データ内に対応する画素データが存在するマッチング可能な領域の画素データと、他の前記画像データ内に対応する画素データが存在しないオクリュージョン領域の画素データとの何れであるかをそれぞれが規定した複数の確率密度関数の中から単数の前記確率密度関数を選択する第２の工程と、前記第２の工程で選択した前記確率密度関数に応じて規定される前記複数の画像データ間のエネルギーを最小にする、前記複数の画像データ間の画素データ単位の対応関係を特定する第３の工程と、前記第３の工程で特定した前記対応関係を基に、前記複数の画像データ間の視差を示す視差データおよびオクリュージョン領域を更新する第４の工程と、前記第４の工程で更新された前記視差データと、オクリュージョン領域に基づいて確率密度関数を更新する第５の工程と、前記第１の工程で生成した前記複数の画像データと、前記第５の工程で更新した前記確立密度関数を基に、前記複数の画像データを合成した合成画像データを生成する第６の工程とを有する。

第３の観点の発明の画像処理装置は、複数の画像データを構成する画素データの各々について、他の前記画像データ内に対応する画素データが存在するマッチング可能な領域の画素データと、他の前記画像データ内に対応する画素データが存在しないオクリュージョン領域の画素データとの何れであるかをそれぞれが規定した複数の確率密度関数の中から単数の前記確率密度関数を選択する確率密度関数選択手段と、前記確率密度関数選択手段が選択した前記確率密度関数に応じて規定される前記複数の画像データ間のエネルギーを最小にする、前記複数の画像データ間の画素データ単位の対応関係を特定する対応関係特定手段と、前記対応関係特定手段で特定した前記対応関係を基に、前記複数の画像データ間の視差を示す視差データおよびオクリュージョン領域を更新する視差更新手段と、前記視差更新手段で更新された前記視差データと、オクリュージョン領域に基づき確率密度関数を更新するを確率密度更新手段とを有する。

第４の観点の発明のプログラムは、コンピュータが実行するプログラムであって、複数の画像データを構成する画素データの各々について、他の前記画像データ内に対応する画素データが存在するマッチング可能な領域の画素データと、他の前記画像データ内に対応する画素データが存在しないオクリュージョン領域の画素データとの何れであるかをそれぞれが規定した複数の確率密度関数の中から単数の前記確率密度関数を選択する第１の手順と、前記第１の手順で選択した前記確率密度関数に応じて規定される前記複数の画像データ間のエネルギーを最小にする、前記複数の画像データ間の画素データ単位の対応関係を特定する第２の手順と、前記第２の手順で特定した前記対応関係を基に、前記複数の画像データ間の視差を示す視差データおよびオクリュージョン領域を更新する第３の手順と、前記第３の手順で更新された前記視差データと、オクリュージョン領域とに基づき確率密度を更新する第４の手順とを前記コンピュータに実行させる。

第５の観点の発明の記録媒体は、コンピュータが実行するプログラムを記録する記録媒体であって、複数の画像データを構成する画素データの各々について、他の前記画像データ内に対応する画素データが存在するマッチング可能な領域の画素データと、他の前記画像データ内に対応する画素データが存在しないオクリュージョン領域の画素データとの何れであるかをそれぞれが規定した複数の確率密度関数の中から単数の前記確率密度関数を選択する第１の手順と、前記第１の手順で選択した前記確率密度関数に応じて規定される前記複数の画像データ間のエネルギーを最小にする、前記複数の画像データ間の画素データ単位の対応関係を特定する第２の手順と、前記第２の手順で特定した前記対応関係を基に、前記複数の画像データ間の視差を示す視差データおよびオクリュージョン領域を更新する第３の手順と、前記第３の手順で更新された前記視差データと、オクリュージョン領域とに基づき確率密度関数を更新する第４の手順とを前記コンピュータに実行させる。

本発明によれば、複数の画像データ間の視差データを高精度に生成できる画像処理方法、画像処理装置、プログラムおよび記録媒体を提供することができる。

以下、本発明の実施形態に係わる画像処理装置について説明する。
＜第１実施形態＞
図５に示すステップＳＴ２，ＳＴ１１が第１の発明の第１の工程、第２の発明の第２の工程の一例である。
図５に示すステップＳＴ６，ＳＴ７が、第１の発明の第２の工程、第２の発明の第３の工程の一例である。
図５に示すステップＳＴ８が、第１の発明の第３の工程、第２の発明の第４の工程の一例である。
図５に示すステップＳＴ１０が、第１の発明の第４の工程、第２の発明の第５の工程の一例である。
また、本実施形態のエネルギーＥ（ｆ）が、本発明のエネルギーの一例である。
また、本実施形態の確率密度関数ＰＤが、本発明の確率密度関数の一例である。
また、本実施形態の視差データＤＭが、本発明の視差データの一例である。
また、画像処理回路１２が図５に示すステップＳＴ２，ＳＴ１１を実行することで、第３の発明の確率密度関数選択手段の一例が実現される。
また、画像処理回路１２が図５に示すステップＳＴ６，ＳＴ７を実行することで、第３の発明の対応関係特定手段の一例が実現される。
また、画像処理回路１２が図５に示すステップＳＴ８を実行することで、第３の発明の視差更新手段の一例が実現される。
また、画像処理回路１２が図５に示すステップＳＴ１０を実行することで、第３の発明の確率密度関数更新手段の一例が実現される。
また、図１２に示すプログラムＰＲＧが、本発明のプログラムの一例である。

図１は、本発明の実施形態に係わる画像処理装置１の構成図である。
図１に示すように、画像処理装置１は、例えば、カメラ１０Ｒ、カメラ１０Ｌ、並びに画像処理回路１２を有する。
カメラ１０Ｒは、対象物ＴＡＲＧＥＴを撮像し、その撮像画像データＳ１０Ｒを画像処理回路１２に出力する。
カメラ１０Ｌは、カメラ１０Ｒと所定の距離を隔てて配設されている。
カメラ１０Ｌは、カメラ１０Ｒと同様に、対象物ＴＡＲＧＥＴを撮像し、その撮像データＳ１０Ｌを画像処理回路１２に出力する。

以下、画像処理回路１２について詳細に説明する。
画像処理回路１２は、カメラ１０Ｒ、１０Ｌから入力した撮像画像データＳ１０Ｒ，１０Ｌの間の視差データＤＭを生成する。
すなわち、画像処理回路１２は、撮像画像データＳ１０Ｒ，１０Ｌを構成する画素データの各々について、他方の撮像画像データ内に対応する画素データが存在するマッチング可能な領域の画素データと、上記他方の撮像画像データ内に対応する画素データが存在しないオクリュージョン領域の画素データとの何れであるかをそれぞれが規定した複数の確率密度関数ＰＤを順に選択する。
確率密度関数は、実値関数において、任意のある集合上でその関数を積分したとき、その確率変数が集合内に含まれる確率を与える関数である。
そして、画像処理回路１２は、上記選択した確率密度関数(Probability Densities)ＰＤに応じて規定される撮像画像データＳ１０Ｒ，Ｓ１０Ｌ間のエネルギーＥ（ｆ）を最小にする、撮像画像データ間の画素データ単位の対応関係ｆを特定する。
そして、画像処理回路１２は、上記特定した対応関係ｆを基に、撮像画像データＳ１０Ｒ、Ｓ１０Ｌ間の視差を示す視差データＤＭを更新する。
画像処理回路１２は、上記複数の確率密度関数ＰＤのうち、上記ネルギＥ（ｆ）を最小にする確率密度関数ＰＤと、当該確率密度関数ＰＤに対応して更新された視差データＤＭとを特定する。
そして、画像処理回路１２は、上記特定した視差データＤＭを基に、カメラ１０Ｒ，１０Ｌの視点位置以外の指定位置の擬似的な撮像画像データを生成する。

本実施形態において、Ｒは撮像画像データＳ１０Ｒ（右画像）を示し、Ｌは撮像画像データＳ１０Ｌ（左画像）を示す。
また、ＩＬ()とＩＲ()は左と右画像の中での画素の輝度を戻す関数である。
また、ＲＭＬとＲＭＲは左と右画像のｍａｔｃｈｅｄ領域を示す。ＲＯＬとＲＯＲは左と右画像のオクリュージョン領域を示す。
また、ＲＭＬ, ＲＭＲ, ＲＯＬ, ＲＯＲとステレオビジョンの関係は以下の図２で示される。

画像処理回路１２は、下記式（１）を基にエネルギーＥ（ｆ）を算出する。

上記式（１）において、「ｆ」は、撮像画像データＳ１０Ｒ、Ｓ１０Ｌ間での画素データの領域区別及び対応関係を示している。
また、エネルギーＥｄａｔａ（ｆ）は、下記式（２）で規定され、マッチング可能な領域の画素データペアの間での画素値の相違のコストの総和を示している。下記式（２）において、ｍ_ｆはｆの中で左と右画像のマッチペアを示す。ＤＣＭ[]は前の（前回計算した）対応関係（configuration）ｆによって計算したマッチコスト関数である。

また、エネルギーＥｏｃｃｌ（ｆ）は、下記式（３）で規定され、画素をオクリュージョンとしたことに対するペナルティの総和を示している。ｏｌｆとｏｒｆはｆの中で、左と右のオクリュージョン画素を示す。ＯＰＬ()とＯＰＲ()は前の対応関係ｆによって計算した左と右のオクリュージョンのペナルティ関数である。

また、エネルギーＥｓｍｏｏｔｈ（ｆ）は、下記式（４）で規定され、カレントの対応関係ｆにおいて、同じ画像内の隣接する画素が同様の視差値を持つようにするためのスムースネス・コストである。Ｎは二つのペアｍ’_ｆとｍ”_ｆは隣接かどうかを判断する関係である。Ｖｍ’_ｆ，Ｖｍ”_ｆはペアのsmoothnessペナルティ関数である。ｆ(ｍ)はペアｍ_ｆの視差を戻す。Ｔ[]は中の条件が本当の場合で１を戻す。他は０を戻す。

本実施形態では、上記式（２）のエネルギーＤＭＣ（ｉ_１，ｉ_２）は、下記式（５）で規定される。下記式（５）において、｜Ｍ_ｆ０｜は、対応関係ｆによって計算したマッチペアの個数である。Ｓはステレオビジョンの条件である。Ｐ_{ＭＬ，ＭＲ，ｆ0（i1,i2|S）}は、ステレオビジョンの条件Ｓにおける、前の対応関係f0によって計算したＭＬ, ＭＲの同時確率分布を示す。ｇ_ψ，２（ｉ_１，ｉ_２）はParzen estimation（ノンパラメトリックな確率密度関数推定）の二次元core関数を示す。たとえば、ガウス分布である。円で囲まれた×はconvolutionである。

また、上記式（３）のエネルギーＥｏｃｃｌ（ｆ）は、下記式（６）で規定される。｜Ｏ_ｆ０｜は前の対応関係ｆ0によって計算したオクリュージョンの個数である。Uniqueness constraintなので、左と右画像のオクリュージョンの個数は同じである。Ｐ_{ＯＬ，ｆ０}（ｉ｜Ｓ）とＰ_{ＯＲ，ｆ０}（ｉ｜Ｓ）は、ステレオビジョンの条件Ｓにおける、前の対応関係ｆ0によって計算したＯＬ及びＯＲの確率分布を示す。ｇ_ψ，１（ｉ）はParzen estimationの一次元core関数を示す。たとえば、ガウス分布である。

ここで、実際の画素値は、離散的な値であり、上記式（５）および式（６）は、画素値が取りえる値の総和に変形できる。本実施形態では、画素値が取りえる値は、２５６通りである。
離散システムでは、異なる評価についてのコア関数の総和は、コア関数と、単数インパルスの総和との間のコンボリューションとして記載できる。
これにより、上記式（５），（６）のそれぞれに対応して下記式（７），（８）を規定できる。

下記式（７）は、対応関係ｆを規定し、Ｐ_{ＭＬ，ＭＲ，ｆ}（ｉ_１，ｉ_２｜Ｓ）の計算を行う式であり、ｆはｆ０であれば、Ｐ_{ＭＬ，ＭＲ，ｆ０}（ｉ_１，ｉ_２｜Ｓ）を計算できる。ｇ_ψ，２（ｉ_１，ｉ_２）は（Parzen estimationの一次元core関数）である。たとえば、二次元のガウス分布である。
また、式（８）は、対応関係ｆを規定し、Ｐ_ＯＬ，ｆ（ｉ｜Ｓ）とＰ_ＯＲ，ｆ（ｉ｜Ｓ）の計算を行う式であり、ｆはｆ０であれば、Ｐ_{ＯＬ，ｆ０}（ｉ｜Ｓ）とＰ_{ＯＲ，ｆ０}（ｉ｜Ｓ）を計算できる。

画像処理回路１２は、上記（５）〜（８）を基に、エネルギーＥｄａｔａ（ｆ）およびエネルギーＥｓｍｏｏｔｈ（ｆ）を算出する。

以下、本実施形態において、上記式（５）、（６）を用いた理由を説明する。
本実施形態において、変数ＭＬ，ＭＲは、撮像画像データＳ１０ＲとＳ１０Ｌとの間のマッチング可能な領域の画素データの画素値（強度）を生成する変数とする。
また、変数ＯＬ，ＯＲは、撮像画像データＳ１０Ｌ，Ｓ１０Ｒのオクリュージョン領域の画素データの画素値を生成する変数とする。

本実施形態では、下記式（９），（１０）に示すように、撮像画像データＳ１０Ｒ，Ｓ１０Ｌ（ステレオ画像）の確率密度関数ＰＤは、マッチング可能な領域の画素データとオクリュージョン領域の画素データとの間で独立であり、且つ、撮像画像データＳ１０Ｒのオクリュージョン領域の画素データと撮像画像データＳ１０Ｌのオクリュージョン領域の画素データとの間でも独立であるという前提を用いる。

下記式（９）において左辺はステレオビジョンの条件Ｓにおける、ｆによって計算したＭＬ, ＯＬ, ＭＲ, ＯＲの同時確率分布を示す。右辺のＰ_{ＭＬ，ＭＲ，ｆ}（ｉ_１，ｉ_２｜Ｓ）はＭＬ, ＭＲの同時確率分布を示す。Ｐ_{ＯＬ，ＯＲ，ｆ}（ｉ_３，ｉ_４｜Ｓ）はＯＬ, ＯＲの同時確率分布を示す。

また、下記式（１０）において、Ｐ_ＯＬ，ｆ（ｉ_３｜Ｓ）とＰ_ＯＲ，ｆ（ｉ_４｜Ｓ）は、ステレオビジョンの条件Sにおける、ｆによって計算したＯＬとＯＲの確率分布を示す。

ところで、ＭＩ(Mutual Information)は、下記式（１１）で定義される。
式（１１）において左辺はステレオビジョンの条件Ｓにおける、ｆによって計算したＭＬ, ＯＬとＭＲ, ＯＲの相互情報量を示す。Ｈ_ｆ（ＭＬ，ＯＬ｜Ｓ）は、ステレオビジョンの条件Ｓにおける、ｆによって計算したＭＬとＯＬのエントロピーを示す。Ｈ_ｆ（ＭＲ，ＯＲ｜Ｓ）は、ステレオビジョンの条件Ｓにおける、ｆによって計算したＭＲとＯＲのエントロピーを示す。Ｈ_ｆ（ＭＬ，ＯＬ，ＭＲ，ＯＲ｜Ｓ）は、ステレオビジョンの条件Ｓにおける、ｆによって計算したＭＲ, ＭＬ, ＯＬ, ＯＲのエントロピーを示す。

ここで、ＭＩを最大化するような、視差データＤＭおよび確率密度関数ＰＤを求めることが目的となる。
上記式（１１）において、エントロピＨ_ｆ（ＭＬ，ＯＬ｜Ｓ）とＨ_ｆ（ＭＲ，ＯＲ｜Ｓ）とはステレオ・マッチングにおいて一定であるため、ＭＩの最大化は、エントロピーＨ_ｆ（ＭＬ，ＯＬ，ＭＲ，ＯＲ｜Ｓ）の最小化と等価である。
ここで、Ｈ_ｆ（ＭＬ，ＯＬ，ＭＲ，ＯＲ｜Ｓ）は、下記式（１２）で規定される。

上記前提により、上記式（１２）に示すＨ_ｆ（ＭＬ，ＯＬ，ＭＲ，ＯＲ｜Ｓ）は、さらに下記（１３）に示すように変形できる。

下記式（１３）においては、Ｈ_ｆ（ＭＬ，ＭＲ｜Ｓ）ステレオビジョンの条件Ｓにおける、ｆによって計算したＭＬとＭＲのエントロピーを示す。Ｈ_ｆ（ＯＬ｜Ｓ）は、ステレオビジョンの条件Ｓにおける、ｆによって計算したＯＬのエントロピーを示す。Ｈ_ｆ（ＯＲ｜Ｓ）は、ステレオビジョンの条件Ｓにおける、ｆによって計算したＯＲのエントロピーを示す。

画像処理回路１２は、グラフカット法により、上記式（１３）で示されるＨ_ｆ（ＭＬ，ＯＬ，ＭＲ，ＯＲ｜Ｓ）を最小化する。

グラフカットにより、エネルギー関数を最適化できる。ここで、最適化したいＭＩは、評価される確率密度関数ＰＤの積分である。
本実施形態では、上記非特許文献４の手法を基に、グラフカット法でＨ_ｆ（ＭＬ，ＯＬ，ＭＲ，ＯＲ｜Ｓ）を最小化する視差データＤＭおよび確率密度関数ＰＤを特定する。

ところで、Ｆ（ｘ）＝ｘｌｏｇｘに、下記式（１４）に示すように、テイラー展開を施す。

上記式（１３）の各項に、上記式（１４）のテイラー展開を施すと、下記式（１５），（１６）のようになる。

ここで、ｆ０は、前回の対応関係を示し、ｆは、最適化処理後の対応関係を示す。
本実施形態では、対応関係がｆ０からｆに変化した場合でも、確率密度関数ＰＤの評価は大きく変換しないことを前提とする。
そのため、下記式（１７）〜（２０）は１、すなわち一定であるので、上記式（１５），（１６）から省く。

これにより、上記式（１５），（１６）は、下記式（２１），（２２）のように変形できる。

上記式（２１），（２２）において、「１／｜Ｍ｜」および「１／｜Ｏ_ｋ｜」は、推定のための整形化係数である。前述した式（１）を考えると、上記式（２１）から前述した式（５）が導きだされ、上記式（２２）から前述した式（６）が導きだされる。

撮像画像データＳ１０Ｒの画素データ（ｐ，ｑ，ｒ，ｓ）と、撮像画像データＳ１０Ｌの画素データ（ｗ，ｚ，ｙ，ｚ）との間に図３に示す対応関係がある場合、画像処理回路１２は、例えば、図４に示すグラフを構築する。
ここで、図３において、点線は（現状の対応関係）を示し、実線は（α-Expansionのできる対応関係）を示す。
図４において、Ｄｏｃｃｌ（ｍ_ｆ）、Ｄｓｍｏｏｔｈ（ｍ_ｆ）は、それぞれマッチペアｍ_ｆに関するエネルギＥｏｃｃｌ（ｍ_ｆ）、Ｅｓｍｏｏｔｈ（ｍ_ｆ）を示している。

以下、図１に示す画像処理装置１において、画像処理回路１２が、カメラ１０Ｒ、１０Ｌから入力した撮像画像データＳ１０Ｒ，１０Ｌを基に、それらの間の視差データＤＭを生成する処理を説明する。
図５は、図１に示す画像処理回路１２の処理を説明するためのフローチャートである。
ステップＳＴ１：
画像処理回路１２は、視差データＤＭを初期化する。
ステップＳＴ２：
画像処理回路１２は、確率密度関数ＰＤを初期化する。

ステップＳＴ３：
画像処理回路１２は、エネルギーＥ（ｆ）を無限大に初期設定する。
ステップＳＴ４：
画像処理回路１２は、上記式（５）〜（８）に基づいて、エネルギーＥｄａｔａ（ｆ），Ｅｏｃｃｌ（ｆ）を算出する。
ここで、エネルギーＥｄａｔａ（ｆ），Ｅｏｃｃｌ（ｆ）は、視差データＤＭおよび確率密度関数ＰＤに応じて決まる。画像処理回路１２は、例えば、エネルギーＥｄａｔａ（ｆ）として上記式（５）のＤＭＣ（ｉ_１，ｉ_２｜Ｓ）を用い、エネルギーＥｏｃｃｌ（ｆ）として上記式（６）のＯＰＬ（ｉ）、ＯＰＲ（ｉ）を用いる。

具体的には、画像処理回路１２は、確率密度関数ＰＤと、カメラ１０Ｌの撮像データＳ１０Ｌと、カメラ１０Ｒの撮像データＳ１０Ｒとを基に、マッチング可能な領域の画素のヒストグラムデータＭＨＩＳ、左オクリュージョン領域の画素のヒストグラムデータＬＯＨＩＳ、右オクリュージョン領域の画素のヒストグラムデータＲＯＨＩＳとを生成する。
画像処理回路１２は、上記３つのヒストグラムデータＭＨＩＳ，ＬＯＨＩＳ，ＲＯＨＩＳに、コア関数をコンボリュートする。
そして、画像処理回路１２は、上記コンボリュートの結果を、関数Ｆ（ｘ）＝−ｌｏｇ（ｘ）でそれぞれマッピングする。
画像処理回路１２は、それぞれの結果に、コア関数を再びコンボリュートする。
これにより、画像処理回路１２は、マッチング可能な領域の画素について、２５６ｘ２５６の２Ｄのデータコストマトリックスを得て、これをエネルギーＥｄａｔａ（ｆ）とする。
また、左右のオクリュージョン画素のそれぞれについて、２５６の１Ｄのオクリュージョンペナルティマトリックスを得て、これをエネルギーＥｏｃｃｌ（ｆ）とする。
そのため、画像処理回路１２は、後に行うマッチングプロセスを、上記マトリックスを用いたテーブルサーチ処理によって高速に実現できる。
画像処理回路１２は、確率密度関数ＰＤの更新を、全てのα-expansionsが完了する度に行う。

ステップＳＴ５：
画像処理回路１２は、エネルギーＥｓｍｏｏｔｈ（ｆ）を算出する。
画像処理回路１２は、２つの隣接する画素ペアのスムースネスコストを下記式（２３）に示すように計算して、自動パラメータを決定する。

画像処理回路１２は、カメラ１０Ｌの撮像データＳ１０Ｌと、カメラ１０Ｒの撮像データＳ１０Ｒとを基に、自動パラメータ検出、λ検出を行う。
このような情報は、マッチング可能な領域の画素のデータコスト内に存在する。
従って、画像処理回路１２は、２５６ｘ２５６の全ての可能性があるデータコストについて、ソートを実行する。
そして、画像処理回路１２は、上記ソートの結果で、所定の順位に配置されたコストを選択する。
そして、画像処理回路１２は、１以下の係数と、上記コスト値とを乗じてλを算出する。
そして、画像処理回路１２は、上記式（２３）のＶ_{ｍ１，ｍ２}と、上記式（４）とを基に、エネルギーＥｓｍｏｏｔｈ（ｆ）を算出する。

ステップＳＴ６：
画像処理回路１２は、複数の視差値から、未処理の対応関係ｆを選択する。
画像処理回路１２は、選択した対応関係ｆについて、上記ステップＳＴ４，ＳＴ５で生成したエネルギーＥｄａｔａ（ｆ），Ｅｏｃｃｌ（ｆ），Ｅｓｍｏｏｔｈ（ｆ）と、上記式（１）とを基に、エネルギーＥ（ｆ）を算出する。
ここで、対応関係ｆの選択は、視差の選択と同等である。
画像処理回路１２は、上記対応関係ｆの選択において、予め決められた最大視差に対応した数のラベルと、オクリュージョンのためのラベルとを加えたＤ＋１のラベルを対象として選択を行う。

ステップＳＴ７：
画像処理回路１２は、ステップＳＴ６で今回算出したエネルギーＥ（ｆ）が、これまで算出した最小のエネルギーＥ（ｆ）より、小さいか否かを判断し、小さいと判断すると、ステップＳＴ８に進み、そうでない場合はステップＳＴ９に進む。
ステップＳＴ８：
画像処理回路１２は、最後にステップＳＴ６で選択した対応関係ｆに応じて視差データＤＭとオクリュージョン領域とを更新する。
ステップＳＴ９：
画像処理回路１２は、処理対象の確率密度関数ＰＤについて、予め規定した全ての対応関係ｆについて、ステップＳＴ６〜ＳＴ８の処理を行ったか否かを判断し、行ったと判断するとステップＳＴ１０に進み、そうでない場合にはステップＳＴ６に戻る。

ステップＳＴ１０：
画像処理回路１２は、エネルギーＥ（ｆ）を低減させる可能性のある全ての確率密度関数ＰＤを用いた処理を終了したか、あるいは、所定回数の処理を終了したかを判断し、終了したと判断すると処理を終了し、そうでない場合にはステップＳＴ１１に進む。

ステップＳＴ１１：
画像処理回路１２は、予め規定した複数の確率密度関数ＰＤのなから、未処理の確率密度関数ＰＤを処理対象として選択（更新）する。

画像処理回路１２は、上述した処理を行い、ステップＳＴ１０で処理を終了したと判断した段階で選択している確率密度関数ＰＤと、視差データＤＭとオクリュージョン領域を特定する。

画像処理装置１によれば、上述したように、式（５）で規定するエネルギーＥ（ｆ）を最小にする確率密度関数ＰＤを選択（探索）することで、２つの画像の輝度が同じであることを前提としたり、マッチング可能な領域の画素データおよびオクリュージョン領域の画素の何れであるかをマッチング処理において推定する従来の手法に比べて、撮像画像データＳ１０ＬとＳ１０Ｒとの画素単位の対応関係を高精度に検出できる。
これにより、画像処理装置１によれば、高精度な視差データＤＭを生成でき、撮像画像データＳ１０ＬとＳ１０Ｒとを組み合わせた合成画像（カメラ１０Ｌと１０Ｒとの中間から対象物ＴＲＧＥＴを見た画像）を高精度に生成できる。
また、画像処理装置１では、上記式（９），（１０）に示すように、撮像画像データＳ１０Ｒ，Ｓ１０Ｌ（ステレオ画像）の確率密度関数ＰＤは、マッチング可能な領域の画素データとオクリュージョン領域の画素データとの間で独立であり、且つ、撮像画像データＳ１０Ｒのオクリュージョン領域の画素データと撮像画像データＳ１０Ｌのオクリュージョン領域の画素データとの間でも独立であるという前提を用いる。
これにより、画像処理装置１によれば、式（１１）に示すＭＩを最大化するように、確率密度関数ＰＤおよび視差データＤＭを高精度に生成できる。

図５に示すステップＳＴ４のＤＭＣ、ＯＰＬ(ｉ)、ＯＰＲ(ｉ)の生成、並びにステップＳＴ８の視差データＤＭの更新は、例えば、図６に示すようになる。
また、画像処理装置１によって得られる視差データＤＭは、例えば、図７に示す右下（Ｄｉｓｐａｒｉｔｙｏｆｏｕｒｓ）のようになり、その左の従来の（Ｄｉｓｐａｒｉｔｙｏｆ［２］），（Ｄｉｓｐａｒｉｔｙｏｆ［４］）に比べて高品質である。

以下、本実施形態の画像処理装置１による手法の評価を説明する。
ステレオ・マッチングの標準テストに関して、画像処理装置１の手法は、非特許文献４の手法（オクリュージョンを考慮しない手法）と比べて、図８（Ａ）に示すようになる。
また、画像処理装置１の手法は、非特許文献２の手法（ＭＩを用いない手法）と比べて、図８（Ｂ）に示すようになる。図８（Ｂ）で、非特許文献２の手法では、Ｒ，Ｇ，Ｂ情報を用いているが、画像処理装置１の手法では輝度情報しか用いていない。これにも係わらず、画像処理装置１の手法は、非特許文献２の手法と近似している。グレーのマップデータについてみれば、画像処理装置１の手法は非特許文献２よりも優れている。

ロバストネスの評価を「Ｔｓｕｋｕｂａ」を比較例として選択して行う。撮像画像データＳ１０Ｌを固定にして、撮像画像データＳ１０Ｒを変換した場合の、その変換とそれらのエラーレートを図９に示す。
リサイズ変換は、低解像度カメラをシミュレートする。最初に、画像を１／４のサイズに変換し、それを元のサイズに戻す。ガウシャン・ノイズの付加変換、リサイジングにおいて、ＭＩを用いない方が用いる場合に比べて結果がよい。
これは、画像処理装置１の手法（ＭＩを用いる手法）は、１対１のマッピングにおいてＭＩの一定によってロバストネスが得られるためである。また、一方、今回のＭＩを用いない手法では、ＲＧＢ情報を採用しているためである。すなわち、カラー情報は、ノイズ効果を低減する役割を有している。

＜第２実施形態＞
本実施形態は、画像処理回路１２ａの処理のうち以下に示す処理が第１実施形態の画像処理回路１２とは異なり、それ以外は第１実施形態と同じである。
本実施形態では、図５に示すステップＳＴ４においてエネルギＥｄａｔａ（ｆ）を計算する手法が第１実施形態で説明したものと異なる。
図１０は、図５に示すステップＳＴ４においてエネルギＥｄａｔａ（ｆ）を計算する手順を説明するためのフローチャートである。
ステップＳＴ２１：
画像処理回路１２ａは、図１１（Ａ）に示すように、マッチペアｍ_ｆの撮像データＳ１０Ｒ（右画像）の画素データの周囲の所定範囲ＡＲの画素データを補間処理により生成する。すなわち、少数画素精度の画素データを生成する。補間処理は線形補間や、splineなどが用いられる。所定範囲ＡＲは、ｍ_ｆに対応する点が（ｘ，ｙ）の場合に、[x-1/2, x+1/2]と[y-1/2, y+1/2]との範囲によって規定される四角形範囲である。
また、画像処理回路１２ａは、図１１（Ｂ）に示すように、マッチペアｍ_ｆの撮像データＳ１０Ｌ（左画像）の画素データの周囲の所定範囲ＡＬの画素データを補間処理により生成する。所定範囲ＡＬは、例えば、所定範囲ＡＲと同じサイズである。

ステップＳＴ２２：
画像処理回路１２ａは、図１２に示すように、ステップＳＴ２１で生成した撮像データＳ１０Ｒの所定範囲ＡＲ内の画素データ最小値ＧＲ⁻（ｍ_ｆ）と最大値ＧＲ^＋（ｍ_ｆ）を特定する。
また、画像処理回路１２ａは、ステップＳＴ２１で生成した撮像データＳ１０Ｌの所定範囲ＡＲ内の画素データ最小値ＧＬ⁻（ｍ_ｆ）と最大値ＧＬ^＋（ｍ_ｆ）を特定する。

ステップＳＴ２３：
画像処理回路１２ａは、下記式（２４）により、ＳＩ_Ｌ−＞Ｒ［ＤＣＭ（ｉ_１，ｉ_２），ｍ_ｆ］を生成する。
すなわち、画像処理回路１２ａは、図１１（Ａ）に示す撮像データＳ１０Ｌの画素データＩＬ（ｍ_ｆ）と、撮像データＳ１０Ｒの所定範囲ＡＲ内の最小値ＧＲ⁻（ｍ_ｆ）〜最大値ＧＲ^＋（ｍ_ｆ）の画素データとの間のＤＣＭ（上記式（５）で定義）を計算し、その最小値をＳＩ_Ｌ−＞Ｒ［ＤＣＭ（ｉ_１，ｉ_２），ｍ_ｆ］とする。

画像処理回路１２ａは、下記式（２５）により、ＳＩ_Ｒ−＞Ｌ［ＤＣＭ（ｉ_１，ｉ_２），ｍ_ｆ］を生成する。
すなわち、画像処理回路１２ａは、図１１（Ｂ）に示す撮像データＳ１０Ｒの画素データＩＲ（ｍ_ｆ）と、撮像データＳ１０Ｌの所定範囲ＡＬ内の最小値ＧＬ⁻（ｍ_ｆ）〜最大値ＧＬ^＋（ｍ_ｆ）の画素データとの間のＤＣＭ（上記式（５）で定義）を計算し、その最小値をＳＩ_Ｒ−＞Ｌ［ＤＣＭ（ｉ_１，ｉ_２），ｍ_ｆ］とする。

なお、本実施形態において、コスト関数の具体的な形式に制限はなく、ＤＣＭとして、ＭＩ(Mutual Information)のようなテーブル検索のコストを用いてもよい。

ステップＳＴ２４：
画像処理回路１２ａは、下記式（２６）に示すように、ステップＳＴ２３で生成したＳＩ_Ｌ−＞Ｒ［ＤＣＭ（ｉ_１，ｉ_２），ｍ_ｆ］と、ＳＩ_Ｒ−＞Ｌ［ＤＣＭ（ｉ_１，ｉ_２），ｍ_ｆ］とのうち小さい方を選択してＳＩ［ＤＣＭ（ｉ_１，ｉ_２），ｍ_ｆ］に設定する。

そして、画像処理回路１２ａは、下記式（２７）に示すように、対応関係ｆで規定される全てのマッチペアｍ_ｆについて上記式（２６）で規定されるＳＩ［ＤＣＭ（ｉ_１，ｉ_２），ｍ_ｆ］を累積してエネルギＥｄａｔａ（ｆ）を計算する。

本実施形態によれば、図１０に示す手法でエネルギＥｄａｔａ（ｆ）を算出することで、従来のＳＩ(Sampling Insensitive)測度のように単調のクローズ・フォームのコスト関数しか扱えないという制約を無くし、使用できるコスト関数を多様化できる。
なお、本実施形態において、図１０に示す処理をコンピュータがプログラムを実行して実現してもよいし、各ステップの処理を行う専用のハードウェアを用いて実行してもよい。

本発明は上述した実施形態には限定されない。
すなわち、当業者は、本発明の技術的範囲またはその均等の範囲内において、上述した実施形態の構成要素に関し、様々な変更、コンビネーション、サブコンビネーション、並びに代替を行ってもよい。
例えば、画像処理回路１２は、図５あるいは図１０に示す全てあるいは一部のステップをそれを行う専用のハードウェアとして実現してもよい。
また、画像処理回路１２は、例えば、図１３に示すように、バス２０を介して、インタフェース２１、メモリ２２および処理回路２３を接続した構成としてもよい。
この場合には、処理回路２３は、メモリ２２からプログラムＰＲＧを読み出して、図５あるいは図１０に示す各ステップを実行する。
このとき、処理回路２３は、図５あるいは図１０に示す各ステップの処理で得られる中間データを適宜メモリ２２やその他のバッファメモリに記憶し、必要に応じて読み出して処理に用いる。
なお、メモリ２２は、半導体メモリや、光ディスク、磁気ディスク、光磁気ディスクなどの記録媒体である。

図１は、本発明の実施形態の画像処理装置の全体構成図である。図２は、左と右画像のｍａｔｃｈｅｄ領域およびオクリュージョン領域を説明するための図である。図３は、右画像と左画像との画素データ単位での対応関係の一例を説明するための図である。図４は、本発明の実施形態で規定するエネルギの概念を説明するための図である。図５は、図１に示す画像処理装置の動作例を説明するためのフローチャートである。図６は、図１に示す画像処理装置の処理に用いられるデータを説明するための図である。図７は、図１に示す画像処理装置の効果を説明するための図である。図８は、図１に示す画像処理装置の効果を説明するための図である。図９は、図１に示す画像処理装置の効果を説明するための図である。図１０は、本発明の第２実施形態の画像処理装置を説明するためのフローチャートである。図１１は、図１０に示すステップＳＴ２１の処理を説明するためのフローチャートである。図１２は、図１１に示すステップＳＴ２２の処理を説明するためのフローチャートである。図１３は、図１に示す画像処理装置の変形例を説明するための図である。

符号の説明

１…画像処理装置、１０Ｒ，１０Ｌ…カメラ、１２，１２ａ…画像処理回路、２１…インタフェース、２２…メモリ、２３…処理回路、ＰＲＧ…プログラム

Claims

複数の画像データを構成する画素データの各々について、他の前記画像データ内に対応する画素データが存在するマッチング可能な領域の画素データと、他の前記画像データ内に対応する画素データが存在しないオクリュージョン領域の画素データとの何れであるかをそれぞれが規定した複数の確率密度関数の中から単数の前記確率密度関数を選択する第１の工程と、
前記第１の工程で選択した前記確率密度関数に応じて規定される前記複数の画像データ間の対応関係を表すエネルギーを最小にする、前記複数の画像データ間の画素データ単位の対応関係を特定する第２の工程と、
前記第２の工程で特定した前記対応関係を基に、前記複数の画像データ間の視差を示す視差データおよびオクリュージョン領域を更新する第３の工程と、
前記第３の工程で更新された前記視差データと、オクリュージョン領域に基づき確率密度関数を更新する第４の工程と
を有する画像処理方法。
前記第２の工程は、
前記マッチング可能な領域の画素データ間の画素値の相違コストと、前記オクリュージョン領域の画素データとしたことに対するペナルティとを加算して前記エネルギーを算出する
請求項１に記載の画像処理方法。
前記第２の工程は、前記複数の画像データの間で対応付けられた画素データの画素値の相違を基に前記相違コストを計算する
請求項２に記載の画像処理方法。
前記第２の工程は、
第１の前記画像データの第１の前記画素データと、第２の前記画像データの第２の前記画素データとが対応付けられている場合に、
前記第１の画素データおよび前記第２の画素データの周囲の画素データを補間処理によってそれぞれ生成し、
前記第１の画素データと、前記第２の画素データおよび当該第２の画素データの前記補間処理により生成した画素データとの間の差異の最小である第１の最小値を特定し、
前記第２の画素データと、前記第１の画素データおよび当該第１の画素データの前記補間処理により生成した画素データとの間の差異の最小である第２の最小値を特定し、
前記第１の最小値と前記第２の最小値とのうち小さい方を基に前記相違コストを計算する
請求項２に記載の画像処理方法。
前記第２の工程は、
相互相関情報を規定する要素である、前記複数の画像データの前記マッチング可能な領域の画素データおよびオクリュージョン領域の画素データ相互間のエントロピーを、マッチング可能な領域の画素データとオクリュージョン領域の画素データとは相互に独立であること、並びに異なる画像データのオクリュージョン領域の画素データは相互に独立であるという前提を基に、マッチング可能な領域の画素データの第１のエントロピー計算式と、オクリュージョン領域の画素データの第２のエントロピー計算式とに分離し、
前記第１のエントロピー計算式を前記相違コストの評価方法とし、前記第２のエントロピー計算式を前記ペナルティの評価方法として用いて前記エネルギーを算出する
請求項２に記載の画像処理方法。
前記第２の工程は、
前記第１のエントロピー計算式をテイラー変換し、その結果から定数項を除いた項にノンパラメトリックな確率密度関数推定を適用した結果を基に前記相違コストの評価値を生成し、
前記第２のエントロピー計算式をテイラー変換し、その結果から定数項を除いた項にノンパラメトリックな確率密度関数推定を適用した結果を基に前記ペナルティの評価値を生成する
請求項５に記載の画像処理方法。
前記第２の工程は、前記複数の画像データの各々において隣接する画素位置の画素データ間で視差が異なることに起因したペナルティをさらに加算して前記エネルギーを算出する
請求項２に記載の画像処理方法。
複数のカメラの撮像結果をそれぞれ示す複数の画像データを生成する第１の工程と、
前記第１の工程で生成した前記複数の画像データを構成する画素データの各々について、他の前記画像データ内に対応する画素データが存在するマッチング可能な領域の画素データと、他の前記画像データ内に対応する画素データが存在しないオクリュージョン領域の画素データとの何れであるかをそれぞれが規定した複数の確率密度関数の中から単数の前記確率密度関数を選択する第２の工程と、
前記第２の工程で選択した前記確率密度関数に応じて規定される前記複数の画像データ間のエネルギーを最小にする、前記複数の画像データ間の画素データ単位の対応関係を特定する第３の工程と、
前記第３の工程で特定した前記対応関係を基に、前記複数の画像データ間の視差を示す視差データおよびオクリュージョン領域を更新する第４の工程と、
前記第４の工程で更新された前記視差データと、オクリュージョン領域に基づいて確率密度関数を更新する第５の工程と、
前記第１の工程で生成した前記複数の画像データと、前記第５の工程で更新した前記確立密度関数を基に、前記複数の画像データを合成した合成画像データを生成する第６の工程と
を有する画像処理方法。
複数の画像データを構成する画素データの各々について、他の前記画像データ内に対応する画素データが存在するマッチング可能な領域の画素データと、他の前記画像データ内に対応する画素データが存在しないオクリュージョン領域の画素データとの何れであるかをそれぞれが規定した複数の確率密度関数の中から単数の前記確率密度関数を選択する確率密度関数選択手段と、
前記確率密度関数選択手段が選択した前記確率密度関数に応じて規定される前記複数の画像データ間のエネルギーを最小にする、前記複数の画像データ間の画素データ単位の対応関係を特定する対応関係特定手段と、
前記対応関係特定手段で特定した前記対応関係を基に、前記複数の画像データ間の視差を示す視差データおよびオクリュージョン領域を更新する視差更新手段と、
前記視差更新手段で更新された前記視差データと、オクリュージョン領域に基づき確率密度関数を更新する確率密度更新手段と
を有する画像処理装置。
コンピュータが実行するプログラムであって、
複数の画像データを構成する画素データの各々について、他の前記画像データ内に対応する画素データが存在するマッチング可能な領域の画素データと、他の前記画像データ内に対応する画素データが存在しないオクリュージョン領域の画素データとの何れであるかをそれぞれが規定した複数の確率密度関数の中から単数の前記確率密度関数を選択する第１の手順と、
前記第１の手順で選択した前記確率密度関数に応じて規定される前記複数の画像データ間のエネルギーを最小にする、前記複数の画像データ間の画素データ単位の対応関係を特定する第２の手順と、
前記第２の手順で特定した前記対応関係を基に、前記複数の画像データ間の視差を示す視差データおよびオクリュージョン領域を更新する第３の手順と、
前記第３の手順で更新された前記視差データと、オクリュージョン領域とに基づき確率密度を更新する第４の手順と
を前記コンピュータに実行させるプログラム。
コンピュータが実行するプログラムを記録する記録媒体であって、
複数の画像データを構成する画素データの各々について、他の前記画像データ内に対応する画素データが存在するマッチング可能な領域の画素データと、他の前記画像データ内に対応する画素データが存在しないオクリュージョン領域の画素データとの何れであるかをそれぞれが規定した複数の確率密度関数の中から単数の前記確率密度関数を選択する第１の手順と、
前記第１の手順で選択した前記確率密度関数に応じて規定される前記複数の画像データ間のエネルギーを最小にする、前記複数の画像データ間の画素データ単位の対応関係を特定する第２の手順と、
前記第２の手順で特定した前記対応関係を基に、前記複数の画像データ間の視差を示す視差データおよびオクリュージョン領域を更新する第３の手順と、
前記第３の手順で更新された前記視差データと、オクリュージョン領域とに基づき確率密度関数を更新する第４の手順と
を前記コンピュータに実行させるプログラムを記録する記録媒体。