JP2006024142A

JP2006024142A - 画像処理装置及び方法、プログラム

Info

Publication number: JP2006024142A
Application number: JP2004203812A
Authority: JP
Inventors: Ikoku Go; 偉国呉
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-07-09
Filing date: 2004-07-09
Publication date: 2006-01-26

Abstract

【課題】各カメラから得られる画像におけるスキャンライン上にある全ての画素につき動的な対応付け（伸縮マッチング）として取り扱うことにより、画像間の対応付けをよりロバストかつ高精度に行う。
【解決手段】少なくとも２台のカメラ１１、１２により互いに異なる視点から被写体を撮像することにより得られた各画像間において、被写体と関連させつつ互いに同一の水平ライン上にある画素位置毎に対応関係を求め、一の水平ラインの画素位置毎に求めた対応関係と当該一の水平ラインの上下方向に位置する他の水平ライン上の各画素位置につき求めた対応関係とを比較し、かかる比較結果に基づいて当該一の水平ラインにつき求められた対応関係を修正する。
【選択図】図２

Description

本発明は、例えばテレビ会議システム或いはテレビ電話システム等に適用され、送受信する画像を撮像してこれをあたかも仮想カメラにより撮像した仮想視点画像に再構成する画像処理装置及び方法、プログラムに関する。

テレビ電話システムやテレビ会議システム等に代表されるように、複数のユーザが互いに離れた場所から相手の表示像を視認しながら遠隔対話するシステムが提案されている。このようなシステムでは、相手の表示像をディスプレイ上に表示するとともに、当該ディスプレイを視認するユーザを撮影対象として撮像し、得られた画像信号を公衆回線、専用回線等のネットワークを介して相手側の画像処理装置へ送信することにより、双方のユーザに対し臨場感を持たせることが可能となる。

従来におけるテレビ会議システムでは、ディスプレイの中心付近に写し出される相手の表示像を視認するユーザを、ディスプレイ上部にあるカメラにより撮像するため、ユーザが下を向いた状態の画像が相手側のディスプレイ上に表示されることになる。このため、実際にディスプレイを視認するユーザ間において視線が不一致の状態で対話がなされることになり、互いに違和感を与えてしまうという問題がある。

理想的には、相手の表示像が写し出されるディスプレイの中心付近にカメラを設置すれば、双方のユーザの視線を一致させた状態で対話を実現することができる。しかしながら、かかるディスプレイの中心付近にカメラを設置することは物理的に困難である。

このような視線不一致に関する問題点を解決すべく、従来において、ディスプレイの両側に配置された複数のカメラにより撮影された入力画像に基づいて被写体の３次元情報を抽出し、抽出した３次元情報と受信者の視点位置に関する情報に応じて被写体の出力画像を再構成し、これを相手側のディスプレイへ表示させる画像処理装置が提案されている（例えば、特許文献１参照。）。この画像処理装置では、一直線上に配置された複数のカメラ映像から生成されたエピポーラ平面画像を用いて画面中心の仮想視点カメラ映像を合成することにより、利用者の視線を一致させて臨場感の高いコミュニケーションを実現することができる。

また、ＴＶ会議で互いの視線を一致させるべく、画面の左右に設置された２台のカメラで撮影した画像に基づいて３次元位置情報を生成する画像通信装置（例えば、特許文献２参照。）も提案されている。

ところで、上述の如く被写体の出力画像を再構成する際には、少なくとも２台のカメラにより互いに異なる視点から被写体を撮像することにより得られた各画像につき、画素位置毎に対応関係を求める。これにより、被写体の形状や各カメラまでの距離を三角測量原理によって求めることが可能となり、ひいては、ディスプレイの中心付近に仮想的に設置した仮想カメラにより撮像された仮想視点画像を精度よく生成することが可能となるからである。

ここで基本的な構成として、画面の左右に設置された２台のカメラにより撮像された各画像間につきステレオ視における対応付けを行う場合について図１８を用いて説明をする。

各カメラの光学中心Ｃ１,Ｃ２により互いに異なる視点から撮影対象のＭ点へ光軸を合わせて撮像を行うと、これにより生成される画像Ｐｓ１,Ｐｓ２は、各カメラの撮像面に対して平行となる。ここで各カメラと、Ｍ点を結ぶ直線の方向は、各カメラにより撮像された各画像Ｐｓ１,Ｐｓ２の法線方向ｐ１,ｐ２に一致するが、これらは互いに異なる方向を指している。

ちなみに対応付けは、被写体としてのＰを構成する同一の箇所にある画素位置と輝度成分を画像Ｐｓ１,Ｐｓ２間で抽出して対応をとるようにする。例えば、画像Ｐｓ１のエピポーラ線Ｌ１上にある画素ｍ１の対応点については、画像Ｐｓ２のエピポーラ線Ｌ１’上に存在することとなり、そのＬ１’上を探索することにより、画素ｍ１に最も類似する画素ｍ１’を対応点として検出することができる。また、対応付けした画素ｍ１,画素ｍ１’を利用することにより三次元空間内の対象Ｐを容易に推定することができる。

具体的な対応付けの手法として、従来よりPixel-basedマッチング、Area-basedマッチング、Feature-basedマッチング等が提案されている。Pixel-basedマッチングは、一方の画像における画素の対応点を、他方の画像においてそのまま探索する方法である（例えば、非特許文献１参照。）。Area-basedマッチングは、一方の画像における画素の対応点を、他方の画像において探索する場合に、その対応点の周囲における局所的な画像パターンを参照しつつ実行する対応付けを行う（例えば、非特許文献２,３参照。）。またFeature-basedマッチングは、画像から濃淡エッジ等を抽出し、画像間の特徴部分のみを参照して対応付けを行う（例えば、非特許文献４,５参照。）。

しかしながら、これらの手法は、あくまでエピポーラ線上に位置する画素の中から類似度の高いものを対応点として特定するため、例えばユーザを被写体として撮像した場合に得られた画像Ｐｓ１,Ｐｓ２間において、図１９に示すように、繰り返しパターン（例えば、両目部分）や、輝度変化が殆ど生じないいわゆる非特徴点（例えば壁の部分）において対応付けが困難であった。

また、異なる視点から撮像することにより得られる画像Ｐｓ１,Ｐｓ２では、被写体からカメラに至るまでの距離に基づく視差により、例えば図１９に示す頬や耳の部分等において表示される内容が異なってくる。以下、このような領域をオクリュージョン領域という。かかるオクリュージョン領域では、上記視差により、一方の画像Ｐｓ１に表示されている対象物の対応点が他方の画像Ｐｓ２において隠れてしまい、対応付けを行う場合に不都合が生じる場合があった。

また、異なる視点から撮像することにより得られる画像Ｐｓ１,Ｐｓ２は、例えば窓の部分等のように見る方向によって明るさが異なる領域や、ユーザの鼻の部分等のように正反射が生じる領域において、輝度成分,色成分につき格差が生じ、対応付けが困難となる場合があった。

このため、これら画像間の対応付けをより柔軟かつロバスト的に求めるために、グローバル最適化という考えに基づいた手法が従来において提案されたおり、その中の手法の一つとして、動的な計画法による画像間マッチング方法が提案されている（例えば、非特許文献６、７参照。）。この画像間マッチング方法では、特徴点同士の対応付けや、その間の伸縮マッチングによって、テクスチャ変化の少ない被写体や、上述した繰り返しパターンの問題を解決できることが示されている。

しかしながら、かかる画像間マッチング方法では、対応付けの精度の面において改善の余地があり、全てのパターンにおいて画像間のミスマッチの低減を図ることができなかった。

特開２００１−５２１７７号公報特開２００２−３００６０２号公報 C.Lawrence Zitnick and Jon A. Webb: Multi-baseline Stereo Using Surface Extraction, Technical Report, CMU-CS-96-196, (1996) Okutomi.M and Kanade.T: A locally adaptive window for signal matching, Int. Journal of Computer Vision, 7(2), pp.143-162, (1992) 奥富、金出：複数の基線長を利用したステレオマッチング、電子情報通信学会論文誌D-II,Vol.J75-D-II,No.8, pp.1317-1327, (1992) H.Baker and T.Binford: Depth from edge and intensity based stereo, In Proc. IJCAI’81, (1981) W.E.L.Grimson: Computational experiments with a feature based stereo algorithm, IEEE Trans. PAMI, Vol.7, No.1, pp.17〜34, (1985) Ohta.Y and Kanade.T.: Stereo by intra- and inter-scanline search using dynamic programming, IEEE PAMI-7(2), 139-154, (1985) Cox I.J. et al.：A Maximum likelihood stereo algorithm, Computer Vision and Image Understanding, 63(3), 542-567,(1996)

そこで本発明は、上述した問題点に鑑みて案出されたものであり、その目的とするところは、各カメラから得られる画像におけるスキャンライン上にある全ての画素につき動的な対応付け（伸縮マッチング）として取り扱うことにより、画像間の対応付けをよりロバストかつ高精度に行うことともに、かかる対応付けのミスマッチを極力低減させることが可能な画像処理装置及び方法、プログラムを提供することにある。

本発明を適用した画像処理装置は、上述した課題を解決するために、少なくとも２台のカメラにより互いに異なる視点から被写体を撮像することにより得られた各画像間において、上記被写体と関連させつつ互いに同一の水平ライン上にある画素位置毎に対応関係を求めるマッチング手段と、上記マッチング手段により求められた対応関係を修正する修正処理手段と、上記修正処理手段により修正された対応関係に基づいて、仮想的に設置される仮想カメラにより生成すべき仮想視点画像を構成する画素位置並びにその輝度成分を求める画像生成手段とを備え、上記マッチング手段は、上記対応関係を求める各画素位置につき輝度成分及び色成分を比較することによりその類似度を計算するとともに、上記計算した類似度に応じて上記対応関係を求め、また求めた対応関係に基づいて視差を推定し、さらに一の水平ラインの画素位置毎に求めた対応関係と当該一の水平ラインの上下方向に位置する他の水平ライン上の各画素位置につき求めた対応関係とを比較し、上記修正処理手段は、上記マッチング手段による対応関係の比較結果に基づいて当該一の水平ラインにつき求められた対応関係及び／又は視差を修正する。

本発明を適用した画像処理方法は、上述した課題を解決するために、少なくとも２台のカメラにより互いに異なる視点から被写体を撮像することにより得られた各画像間において、上記被写体と関連させつつ互いに同一の水平ライン上にある画素位置毎に対応関係を求めるマッチングステップと、上記マッチングステップにおいて求めた対応関係を修正する修正処理ステップと、上記修正処理ステップにおいて修正した対応関係に基づいて、仮想的に設置される仮想カメラにより生成すべき仮想視点画像を構成する画素位置並びにその輝度成分を求める画像生成ステップとを有し、上記マッチングステップでは、上記対応関係を求める各画素位置につき輝度成分及び色成分を比較することによりその類似度を計算するとともに、上記計算した類似度に応じて上記対応関係を求め、また求めた対応関係に基づいて視差を推定し、さらに一の水平ラインの画素位置毎に求めた対応関係と当該一の水平ラインの上下方向に位置する他の水平ライン上の各画素位置につき求めた対応関係とを比較し、上記修正処理ステップでは、上記マッチングステップにおける対応関係の比較結果に基づいて当該一の水平ラインにつき求められた対応関係及び／又は視差を修正する。

本発明を適用したプログラムは、少なくとも２台のカメラにより互いに異なる視点から被写体を撮像することにより得られた各画像間において、上記被写体と関連させつつ互いに同一の水平ライン上にある画素位置毎に対応関係を求めるマッチングステップと、マッチングステップにおいて求めた対応関係を修正する修正処理ステップと、上記修正処理ステップにおいて修正した対応関係に基づいて、仮想的に設置される仮想カメラにより生成すべき仮想視点画像を構成する画素位置並びにその輝度成分を求める画像生成ステップとを有し、上記マッチングステップでは、上記対応関係を求める各画素位置につき輝度成分及び色成分を比較することによりその類似度を計算するとともに、上記計算した類似度に応じて上記対応関係を求め、求めた対応関係に基づいて視差を推定し、さらに一の水平ラインの画素位置毎に求めた対応関係と当該一の水平ラインの上下方向に位置する他の水平ライン上の各画素位置につき求めた対応関係とを比較し、上記修正処理ステップでは、上記マッチングステップにおける対応関係の比較結果に基づいて当該一の水平ラインにつき求められた対応関係及び／又は視差を修正することをコンピュータに実行させる。

本発明では、少なくとも２台のカメラにより互いに異なる視点から被写体を撮像することにより得られた各画像間において、被写体と関連させつつ互いに同一の水平ライン上にある画素位置毎に対応関係を求め、一の水平ラインの画素位置毎に求めた対応関係と当該一の水平ラインの上下方向に位置する他の水平ライン上の各画素位置につき求めた対応関係とを比較し、かかる比較結果に基づいて当該一の水平ラインにつき求められた対応関係を修正する。

これにより、各カメラから得られる画像におけるスキャンライン上にある全ての画素につき動的な対応付け（伸縮マッチング）として取り扱うことにより、画像間の対応付けをよりロバストかつ高精度に行うことともに、かかる対応付けのミスマッチを極力低減させることが可能となる。

以下、本発明を実施するための最良の形態について図面を参照しながら詳細に説明する。

本発明を適用した通信システム１は、例えば図１に示すように、Ａ地点のユーザａと、Ｂ地点のユーザｂとの間で、互いに離れた場所から相手の表示像を視認しながら遠隔対話するシステムである。

Ａ地点には、撮影対象としてのユーザａを互いに異なる視点から撮像するカメラ１１ａ、カメラ１２ａと、Ｂ地点側で撮像されたユーザｂの画像をユーザａに対して表示するためのディスプレイ５ａと、カメラ１１ａ,１２ａより撮像された各画像Ｐａ１,Ｐａ２に基づいて仮想視点画像Ｉｍａを生成し、これをネットワーク７を介してＢ地点へ送信する画像処理装置２ａが配設されている。

Ｂ地点には、撮影対象としてのユーザｂを互いに異なる視点から撮像するカメラ１１ｂ、カメラ１２ｂと、Ａ地点側で撮像されたユーザａの画像をユーザｂに対して表示するためのディスプレイ５ｂと、カメラ１１ｂ,１２ｂより撮像された各画像Ｐｂ１,Ｐｂ２に基づいて仮想視点画像Ｉｍｂを生成し、これをネットワーク７を介してＡ地点へ送信する画像処理装置２ｂが配設されている。

なお、この画像処理装置２ａ,２ｂにより生成される上記仮想視点画像Ｉｍａ,Ｉｍｂは、相手の表示像が写し出されるディスプレイ５ａ,５ｂの中心付近において仮想的に設置された仮想カメラにより撮像される画像に相当する。

カメラ１１ａ,１１ｂは、それぞれユーザａ,ｂ側から見てディスプレイ５ａ,５ｂの左側面に設置されてなり、カメラ１２a,１２ｂは、それぞれユーザａ,ｂ側から見てディスプレイの右側面に設置されてなる。このカメラ１１、１２は、撮影方向、撮影画角が固定された状態で設置されるが、各ユーザａ,ｂからの入力される情報に基づき、これらを自在に変更するようにしてもよい。ちなみに、この通信システム１では、ユーザの視線の高さに合わせて設置された２台のカメラにより撮影対象を撮像する場合を例に挙げて説明をする。

ディスプレイ５ａ,５ｂは、それぞれネットワーク７を介して相手側地点から供給される仮想視点画像Ｉｍｂ,Ｉｍａに基づく画像を、例えば液晶表示面を介して表示する。このディスプレイ５ａ,５ｂにおける液晶表示面は、多数の液晶表示素子等からなり、各仮想視点画像Ｉｍｂ,Ｉｍａに基づく出力信号に応じて液晶表示素子を光変調させてユーザに表示する画像を作り出す。

画像処理装置２ａ,２ｂは、通常、パーソナルコンピュータ（ＰＣ）等の電子機器で構成される。これらの画像処理装置２ａ,２ｂは、ネットワーク７を介して互いに通信するための機能を備え、相手側からの要求に応じて画像や音声を送信する。なお、画像処理装置２ａ,２ｂの構成については後において詳細に説明をする。

ネットワーク７は、例えば画像処理装置２と電話回線を介して接続されるインターネット網を始め、ＴＡ／モデムと接続されるＩＳＤＮ（Integrated Services Digital Network）／Ｂ（broadband）−ＩＳＤＮ等のように、情報の双方向送受信を可能とした公衆通信網である。ちなみにこの通信システム１を、一定の狭いエリア内で運用する場合には、このネットワーク７を、ＬＡＮ（Local Area Network）で構成してもよい。さらにこのネットワーク７は、動画像を送信する場合には、インターネットプロトコル（ＩＰ）に基づき、例えばＭＰＥＧ（Moving Picture Experts Group）データを始めとする動画像がある一つのチャネルから継続的に送信される。また静止画像を送信する場合には、動画像を送信するチャネルとは別のチャネルから一定時間毎に送信されることになる。なお、このネットワーク７には、さらに図示しないネットワークサーバを接続してもよい。この図示しないネットワークサーバは、例えばインターネット情報を管理し、画像処理装置２による要求を受けて、自身に格納してある所定の情報を送信する。

次に、画像処理装置２の構成について、画像処理装置２ａを例にとり説明をする。画像処理装置２ａは、図２に示すように、接続されたカメラ１１ａ,１２ａより画像Ｐａ１,Ｐａ２が供給される補正部２０と、この補正部２０にそれぞれ接続されるカメラキャリブレーション部２６並びに第１の切出処理部４１,第２の切出処理部４２と、各切出処理部４１,４２に接続されるマッチング部２９と、さらにこのマッチング部２９に接続される視差マップ修正処理部４３と、視差マップ修正処理部４３に接続される対応点修正処理部４４と、対応点修正処理部４４並びに切出処理部４１,４２に接続されてなる仮想視点画像生成部３０と、仮想視点画像生成部３０により生成された仮想視点画像Ｉｍａを相手側の端末装置２ｂへ送信するための出力制御部３１と、各カメラ１１ａ,１２ａに対するユーザａの相対的な位置関係を示す相対位置情報を生成する情報生成部３３とを備えている。

補正部２０は、カメラ１１ａ,１２ａから送信される各画像Ｐａ１,Ｐａ２につき幾何学的な画像補正を施すための幾何学的画像補正部２１,２２と、これら幾何学的画像補正部２１,２２により画像補正が施された画像を正規化するための正規化処理部２４とを備えている。

幾何学的画像補正部２１,２２は、カメラキャリブレーション部２６から送信される、上記カメラ１１ａ,１２ａの幾何学的な位置関係を含む制御情報に基づいて、各画像Ｐａ１,Ｐａ２を補正する。このカメラ１１ａ,１２ａの幾何学的な位置関係は、上述したカメラキャリブレーション部２６から送信される制御情報においてパラメータ化されていてもよい。また、各カメラ１１ａ,１２ａの撮影方向及び／又は撮影画角を変更しつつ撮像を実行する場合には、カメラキャリブレーション部２６においてこれらをパラメータ化し、画像を補正する際にこれらのパラメータを制御情報に含めるようにしてもよい。これにより、幾何学的画像補正部２１,２２は、各カメラ１１ａ,１２ａの撮影方向及び／又は撮影画角に応じてリアルタイムに画像補正することができる。

なお、このカメラキャリブレーション部２６は、同様にカメラ１１ａ,１２ａの各レンズにおける色収差や歪み、光軸のずれを、例えば特開２０００−３５０２３９号公報や、特開平１１−５３５４９号公報に示されているカメラキャリブレーション手法に基づいてパラメータ化し、これらを各補正部２０へ送信するようにしてもよい。かかる場合において補正部２０は、取得したパラメータに基づいて、カメラ１１ａ,１２ａからの画像を射影変換することにより基準となる画像へ合わせ込む。輝度成分等についても同様にカメラ１１ａ,１２ａからの画像間において輝度の誤差が最小となるような射影変換行列を用いることにより互いの調整を図る。

正規化処理部２４は、各幾何学的画像補正部２１,２２において補正された画像がそれぞれ供給され、これらにつき幾何学的正規化処理を施す。この正規化処理部２４は、各カメラにより撮像された各画像Ｐａ１,Ｐａ２の法線方向を合わせる。即ち、この正規化処理部２４は、各画像Ｐａ１,Ｐａ２の法線方向を仮想的に設定された仮想平面πの法線方向に合わせることによりこれを正規化し、それぞれ正規化画像Ｐｍ１,Ｐｍ２,を生成する。かかる場合において、正規化処理部２４は、各カメラ１１ａ,１２ａにより撮像された各画像Ｐａ１,Ｐａ２を上記仮想平面πへ射影するための射影変換行列を求め、求めた射影変換行列に基づいて上記各画像の法線方向を上記仮想平面πの法線方向に合わせる。

ちなみに、カメラキャリブレーション部２６は、カメラ１１ａ,１２ａとしていわゆる固定視点カメラを適用する場合には、予めカメラキャリブレーション部２６により画像Ｐａ１,Ｐａ２の法線方向を取得するようにしてもよい。また、各カメラ１１ａ,１２ａの撮影方向及び／又は撮影画角を変更しつつ撮像を実行する場合には、カメラキャリブレーション部２６においてこれらをパラメータ化し、画像を正規化する際にこれらのパラメータを制御情報に含めるようにしてもよい。これにより、ユーザａ,ｂの位置に応じて撮影方向等を順次変更しつつ撮像を行う場合においても柔軟に対応することができる。

また、このカメラキャリブレーション部２６において、これらのパラメータを図示しないＲＯＭやＲＡＭへ格納しておくことにより、補正部２０は、状況に応じて随時これらを参照することができ、高速な補正処理を実現することができる。またカメラキャリブレーション部２６は、上記カメラ１１ａ,１２ａから画像Ｐａ１,Ｐａ２が供給される度にこれらのパラメータを求めることにより、幾何学的画像補正部２１,２２において精度の高い補正処理を実現することができる。

第１の切出処理部４１は、正規化処理部２４により正規化された正規化画像Ｐｍ１が供給される。この第１の切出処理部４１は、この正規化画像Ｐｍ１から前景画像領域と、その背景画像とをそれぞれ分離する。ちなみにこの前景画像領域は、ユーザａを構成する顔や上半身等が含まれている画像領域を抽出したものであり、背景画像は、画像Ｐｍ１から前景画像領域を除いた画像である。なおこの背景画像は、ユーザａが存在しない場合において、同一の撮影方向,撮影画角によりカメラ１１ａを介して撮像を行った結果得られる画像に相当する。

第２の切出処理部４２は、第１の切出処理部４１と同様に、正規化処理部２４により正規化された正規化画像Ｐｍ２から前景画像領域と、その背景画像とをそれぞれ分離する。

ちなみに、各切出処理部４１,４２は、例えば各カメラ１１ａ,１２ａにより撮像された各画像の色相並びに彩度に基づいて、或いは各カメラに対する被写体の距離に基づいて、これらの前景画像領域と背景画像とを分離するようにしてもよい。

マッチング部２９は、各切出処理部４１,４２において背景画像が切り出された正規化画像Ｐｍ１,Ｐｍ２がそれぞれ供給される。このマッチング部２９は、これら正規化画像Ｐｍ１,Ｐｍ２を構成する各画素位置につき対応関係を求める。

ちなみに、この対応付けは、ユーザａの顔を構成する同一の箇所にある画素位置と輝度成分を正規化画像Ｐｍ１,Ｐｍ２間で抽出して対応をとるようにする。例えば図３に示すように、正規化画像Ｐｍ１のスキャンラインＬ１上にある画素Ｐ１１の対応点については、正規化画像Ｐｍ２のスキャンラインＬ１’上に存在することとなり、そのＬ１’上を探索することにより、最も類似する画素位置Ｐ１１’を対応点として検出することができる。ちなみにマッチング部２９は、この対応付けにつき特徴抽出した箇所のみについて実行してもよいし、正規化画像Ｐｍ１,Ｐｍ２を構成する全ての画素に対して実行してもよい。

情報生成部３３は、画素位置毎に対応関係を求める際に必要な情報を生成し、これをマッチング部２９へ供給する。情報生成部３３は、この生成すべき相対位置情報をカメラ１１ａ,１２ａから被写体としてのユーザａに至るまでの距離を識別し、これに基づく視差情報を生成するようにしてもよい。かかる距離の識別については、各カメラ１１ａ,１２ａにより生成された画像情報からDepth情報を取得することにより実行してもよい。

また、この情報生成部３３は、生成すべき相対位置情報をユーザａのディスプレイ５ａに対する視線方向に基づいて生成してもよい。かかる場合において情報生成部３０は、カメラ１１ａ,１２ａから供給される画像Ｐａ１,Ｐａ２からユーザａの視線方向を取得し、これに基づいて相対位置情報を生成する。これにより、いわば仮想カメラの撮影方向をユーザａの視線方向に合わせ込むことと同様の処理を実現することができる。

視差マップ修正処理部４３は、マッチング部２９により互いに対応付けされた画素位置並びにその輝度成分がそれぞれ入力される。この視差マップ修正処理部４３は、視差マップを修正し、かかる修正した結果を対応点修正処理部４４へ通知する。

対応点修正処理部４４は、視差マップ修正処理部４３により修正された視差マップに基づいて、マッチング部２９により求められた対応関係を修正する。この対応点修正処理部４４は、この修正した対応関係を仮想視点画像生成部３０へ通知する。

仮想視点画像生成部３０は、対応点修正処理部４４により修正された結果得られる、互いに対応付けされた画素位置並びにその輝度成分がそれぞれ入力される。また、仮想視点画像生成部３０は、互いに対応付けされた画素位置並びにその輝度成分から、情報生成部３３より生成された相対位置情報に応じて、新たに生成すべき仮想視点画像Ｉｍａを構成する画素位置並びにその輝度成分を求める。仮想視点画像生成部３０は、求めた画素位置並びにその輝度成分により構成される仮想視点画像Ｉｍａを出力制御部３１へ送信する。

出力制御部３１は、送信された仮想視点画像Ｉｍａを、ネットワーク７を介して画像処理装置２ｂへ送信するように制御する。かかる場合において、この出力制御部３１は、カメラ１１ａ,１２ａにより生成された画像Ｐａ１,Ｐａ２を単独で画像処理装置２ｂへ送信するように制御してもよい。

次に、この画像処理装置２ａにおける具体的な動作につき説明をする。

撮影対象としてのユーザａは、カメラ１１ａ,１２ａにより互いに異なる角度から撮影される。その結果、カメラ１１ａ,１２ａにより生成される画像Ｐａ１,Ｐａ２上のユーザａの視線方向、顔の向き等は、互いに異なる状態となる。このような画像Ｐａ１,Ｐａ２は、それぞれ幾何学的画像補正部２１,２２に供給され、カメラキャリブレーション部２６により予め求められた各カメラ１１ａ,１２ａのレンズ歪みや画像中心等のパラメータに基づき、画像の歪みや画像中心がずれないように補正を行う。

これら幾何学的画像補正部２１,２２において補正された各画像Ｐａ１,Ｐａ２は、正規化処理部２４へ供給されると以下に示される方法に基づいて正規化されることになる。

図４は、各カメラ１１ａ,１２ａにより撮像した画像Ｐａ１, Ｐａ２を正規化する場合につき示している。この図４に示されるように、各カメラ１１ａ,１２ａの光学中心Ｃ１,Ｃ２により互いに異なる視点から撮影対象のＭ点へ光軸を合わせて撮像を行うと、これにより生成される画像Ｐａ１,Ｐａ２は、各カメラ１１ａ,１２ａの撮像面に対して平行となる。ここで各カメラ１１ａ,１２ａと、Ｍ点を結ぶ直線の方向は、各カメラにより撮像された各画像Ｐａ１,Ｐａ２の法線方向ｋ１,ｋ２に一致するが、これらは互いに異なる方向を指している。これら各画像Ｐａ１,Ｐａ２の法線方向ｋ１,ｋ２が同一方向となるように幾何学的正規化を行うことにより、画像面が互いに平行な正規化画像Ｐｍ１,Ｐｍ２を作り出す。

この幾何学的正規化は、カメラキャリブレーション部２６により予め求められた射影行列Ｐ１,Ｐ２を用いて、カメラ内部パラメータＡ１,Ａ２、回転行列Ｒ１,Ｒ２、転移行列Ｔ１,Ｔ２を推定することにより実現する。その結果、補正後の画像撮像面の法線方向ｋ１’,ｋ２’が平行化された正規化画像Ｐｍ１,Ｐｍ２を生成することができる。

ちなみに、この幾何学的正規化を施す場合には、光学中心Ｃ１,Ｃ２を含む仮想平面πを設定しておき、この仮想平面πの法線方向に対してこれら各画像Ｐａ１,Ｐａ２の法線方向が同一方向となるように、射影行列Ｐ１,Ｐ２を用いて正規化するようにしてもよい。

正規化処理部２４において上述の如く射影変換された正規化画像Ｐｍ１,Ｐｍ２は、それぞれ第１の切出処理部４１,第２の切出処理部４２により背景画像が切り出される。各正規化画像Ｐｍ１,Ｐｍ２から背景画像を切り出した結果、図５に示すようにユーザａのみを示す画像領域が選択的に抽出された前景画像を取得することができる。これらユーザａのみを示す画像領域間で後述するマッチング処理を行うことにより、背景画像による影響を軽減させた、より効率的なマッチング処理を行うことができ、ひいては仮想視点画像Ｉｍａを精度よく作成することができる。

ちなみに、この第１の切出処理部４１,第２の切出処理部４２により背景画像が切り出された各正規化画像Ｐｍ１,Ｐｍ２は、マッチング部２９において撮影対象と関連させつつ、画素位置毎に対応付けされる。本発明においては、マッチング部２９の前段にある正規化処理部２４において予め正規化され、エピポーラ線が平行化されているため、画素探索のロバスト性を向上させることができる。

これら正規化画像Ｐｍ１とＰｍ２につき、このマッチング部２９において対応付けを行う場合において、図４に示すように正規化画像Ｐｍ１のスキャンラインＬ１上にある画素Ｐ１１の対応点については、正規化画像Ｐｍ２のスキャンラインＬ１’上に存在することとなり、そのＬ１’上を探索することにより、対応点としての画素Ｐ１１’を検出することができる。

例えば図６(a)に示すように、被写体としてのユーザａがそれぞれ写し出された正規化画像Ｐｍ１におけるスキャンラインＬ１上の画素と、正規化画像Ｐｍ２におけるスキャンラインＬ１’上の画素とを対応付けする場合に、スキャンラインＬ１上の特徴点の点列Ｒ１を左から順に｛ａ１,ａ２,ａ３,ａ４,ａ５｝とし、またスキャンラインＬ１’の特徴点の点列Ｒ２を左から順に｛ｂ１,ｂ２,ｂ３,ｂ４,ｂ５｝とする。ここで、互いのスキャンラインＬ１,Ｌ１’上にある特徴点Ｒ１,Ｒ２を被写体との関係において対応付けるとき、先ず、ａ１に対してＬ１’上の特徴点はｂ１が該当し１：１で対応することとなるが、ユーザａの右耳を構成する特徴点ａ２,ａ３に対してＬ１’上の特徴点はｂ２が該当し、２：１で対応することとなる。同様に、ユーザａの左耳を構成する特徴点ａ４に対してＬ１’上の特徴点はｂ３,ｂ４が該当し、１：２で対応することとなる。なお、ａ５に対してＬ１’上の特徴点はｂ５が該当し１：１で対応することとなる。

このように、異なる視点から撮像することにより得られる正規化画像Ｐｍ１,Ｐｍ２では、被写体からカメラに至るまでの距離に基づく視差により、ユーザａの耳の部分等において表示される内容が異なってくる。以下、このような領域をオクリュージョン領域という。かかるオクリュージョン領域では、上記視差により、一方の正規化画像に表示されている被写体の対応点が他方の正規化画像にて隠れてしまうため、従来と同様に、｛（ａ１, ｂ１）、（ａ２, ｂ２）、（ａ３, ｂ３）、（ａ４, ｂ４）、（ａ５, ｂ５）｝と対応付けてしまうと、誤差が生じることになる。

このため、本発明を適用した画像処理装置２ａにおけるマッチング部２９では、かかる視差を識別することにより、図６(a)に示される正規化画像の特徴点の点列Ｒ１,Ｒ２を、結果的に図６(b)に示されるように｛（ａ１, ｂ１）、（ａ２, ｂ２）、（ａ３, ｂ２）、（ａ４, ｂ３）、（ａ４, ｂ４）、（ａ５, ｂ５）｝と対応付けられるように制御する。

具体的には、各正規化画像Ｐｍ１,Ｐｍ２におけるスキャンライン上にある全ての画素につき、図６(c)に示すようなDynamic Programming（ＤＰ：最短経路探索）を利用した動的な対応付けを行う。

この図６(c)におけるｘ軸にスキャンラインＬ１上の特徴点の点列Ｒ１｛ａ１,ａ２,ａ３,ａ４,ａ５｝を配列し、またｙ軸をスキャンラインＬ１’上の特徴点の点列Ｒ２｛ｂ１,ｂ２,ｂ３,ｂ４,ｂ５｝とするとき、図６(b)に示される対応関係をこのグラフにあてはめると、図６(c)に示される太線で示される経路をとることになる。以下、この太線で示される対応点を結ぶ直線を最適経路という。

この最適経路において右上に線形増加する場合には、スキャンラインＬ１,Ｌ１’上を左から右へシフトさせて対応付けする際に、互いの特徴点を１：１で順次シフトさせて対応させることを示している。右上に線形増加する最適経路の例として、スキャンラインＬ１,Ｌ１’上の特徴点（ａ１, ｂ１）から左から右へそれぞれ一つずつシフトさせることにより特徴点（ａ２, ｂ２）を正確に対応付けすることができる。

また、この最適経路において水平方向にシフトする場合には、正規化画像Ｐｍ１,Ｐｍ２間において視差が生じた結果、正規化画像Ｐｍ１において示されている特徴点が正規化画像Ｐｍ２において隠れてしまったことを示唆している。かかる場合には、正規化画像Ｐｍ２上にある１の特徴点に対して、正規化画像Ｐｍ１上にある複数の特徴点を対応付ける。この水平方向にシフトする最適経路の例として、スキャンラインＬ１,Ｌ１’上の特徴点（ａ２, ｂ２）においてユーザａの右耳を示すｂ２は、上述した視差により更にａ３とも対応するため、ｂ２をそのまま維持しつつこれにａ３を対応付ける。

また、この最適経路において垂直方向へシフトする場合には、正規化画像Ｐｍ１,Ｐｍ２間において視差が生じた結果、正規化画像Ｐｍ２において示されている特徴点が正規化画像Ｐｍ１において隠れてしまったことを示唆している。かかる場合には、正規化画像Ｐｍ１上にある１の特徴点に対して、正規化画像Ｐｍ２上にある複数の特徴点を対応付ける。この垂直方向にシフトする最適経路の例として、スキャンラインＬ１,Ｌ１’上の特徴点（ａ４, ｂ３）においてユーザａの左耳を示すａ４は、上述した視差により更にｂ４とも対応するため、ａ４をそのまま維持しつつこれにｂ４を対応付ける。

マッチング部２９は、これら対応付けを、互いの正規化画像Ｐｍ１,Ｐｍ２を構成する全てを構成する、或いは一部を構成するスキャンラインＬ１,Ｌ１’間において実行する。そしてスキャンラインＬ１,Ｌ１’毎に上述した最適経路を求めることにより、特徴点の点列Ｒ１,Ｒ２間における対応付けを行う。

図７は、スキャンラインＬ１,Ｌ１’上の任意の特徴点（ｘ,ｙ）に至るまでの最適経路を求める場合につき示している。

この特徴点（ｘ,ｙ）に至る最適経路は、特徴点（ｘ−１,ｙ−１）から左から右へそれぞれ一つずつシフトさせることにより図７に示されるグラフにおいて右上に線形増加し、或いは特徴点（ｘ−１,ｙ）においてｙをそのまま維持しつつ水平方向に１シフトさせることにより図７に示されるグラフにおいて特徴点（ｘ−１,ｙ）から水平方向へ移動する。さらに、この特徴点（ｘ,ｙ）に至る最適経路は、特徴点（ｘ,ｙ−１）においてｘをそのまま維持しつつ垂直方向へ１シフトさせることにより図７に示されるグラフにおいて特徴点（ｘ,ｙ−１）から垂直方向へ移動することになる。

即ち、特徴点（ｘ,ｙ）を通る最適経路は、図７に示すグラフにおいて、その左,左下,下に位置する特徴点（ｘ−１,ｙ）,（ｘ−１,ｙ−１）,（ｘ,ｙ−１）の何れかを経ることになる。本発明マッチング部２９は、何れの特徴点（ｘ−１,ｙ）,（ｘ−１,ｙ−１）,（ｘ,ｙ−１）を経て特徴点（ｘ,ｙ）へ至るのかにつき、以下に説明する関数を順次求めてゆくことにより決定する。

マッチング部２９は、以下に示すマッチングコスト関数ｄ（ｘ,ｙ）と、動的なオクリュージョンコスト関数ｄｘ（ｘ,ｙ）,ｄｙ（ｘ,ｙ）を求め、求めた各関数に応じて上述した最適経路を求める。マッチングコスト関数ｄ（ｘ,ｙ）は、対応関係を求める各画素位置間における輝度成分及び色成分の類似度を示す関数であり、またオクリュージョンコスト関数ｄｘ（ｘ,ｙ）は、正規化画像Ｐｍ１の正規化画像Ｐｍ２に対する被写体画像の隠れ度合いを示す関数であり、またオクリュージョンコスト関数ｄｙ（ｘ,ｙ）は、正規化画像Ｐｍ２の正規化画像Ｐｍ１に対する被写体画像の隠れ度合いを示す関数である。これらオクリュージョンコスト関数ｄｘ（ｘ,ｙ）,ｄｙ（ｘ,ｙ）は、被写体の各画像間における視差が反映される形となる。

先ず、マッチングコスト関数ｄ（ｘ,ｙ）を求める方法につき説明をする。

ｄ（ｘ,ｙ）につき、比較する輝度成分又は色成分のうち何れに重み付けをするか決定する。この重み付けは、重み付け係数αを用いて、以下の式（１）に基づいて行う。
ｄ_ｋ（ｓ,ｔ）＝α×ｄＹ_ｋ（ｓ,ｔ）＋（１−α）ｄＣ_ｋ（ｓ,ｔ）・・・・・（１）
ここで（ｓ,ｔ）は、特徴点（ｘ,ｙ）に対応する正規化画像Ｐｍ１、正規化画像Ｐｍ２における画素位置を表している。またｋは、正規化画像Ｐｍ１、正規化画像Ｐｍ２の何行目に該当するかを示している（つまりｋ＝ｙ）。この式（１）においてｄＹ_ｋ（ｓ,ｔ）は、正規化画像Ｐｍ１と正規化画像Ｐｍ２との座標（ｓ,ｔ）間における輝度成分の差分絶対値を表し、以下の（２）式で定義される。
ｄＹ_ｋ（ｓ,ｔ）＝｜Ｙ１_ｋ（ｓ,ｔ）−Ｙ２_ｋ（ｓ,ｔ）｜・・・・・（２）
また、この式（１）においてｄＣ_ｋ（ｓ,ｔ）は、正規化画像Ｐｍ１と正規化画像Ｐｍ２との間における色成分の差分絶対値を表し、以下の（３）式で定義される。
ｄＣ_ｋ（ｓ,ｔ）＝｜Ｃ１_ｋ（ｓ,ｔ）−Ｃ２_ｋ（ｓ,ｔ）｜・・・・・（３）
即ち、上記式（１）においてαをより高く設定することにより、求めるｄ_ｋ（ｓ,ｔ）につき、輝度成分の差分絶対値ｄＹ_ｋ（ｓ,ｔ）の成分をより反映させることができる。また上記式（１）においてαをより小さく設定することにより、求めるｄ_ｋ（ｓ,ｔ）につき、色成分の差分絶対値ｄＣ_ｋ（ｓ,ｔ）の成分をより反映させることができる。ちなみに、このαについては、色成分のマッチングコストと、輝度成分のマッチングコストとの平均値を割り当てるようにしてもよい。

ｄ（ｘ,ｙ）は、（１）式により求められるｄ_ｋ（ｓ,ｔ）に基づいて、更に以下の（４）式により求められる。
ｄ（ｘ,ｙ）＝（Σｄ_ｋ（ｓ,ｔ））／２Ｋｋ＝−Ｋ，・・，Ｋ−１
・・・・・・・・・（４）
この（４）式は、スキャンラインの上下に位置する各画素との間で平均をとることにより、ｄ（ｘ,ｙ）を求めることができることを意味している。この（４）式により、求めるｄ（ｘ,ｙ）につきスキャンラインの上下に位置する各画素との相関関係を反映させることができる。これにより対応付け精度の向上を大幅に図ることが可能となる。

即ち、上述の方法により求められるマッチングコストｄ（ｘ,ｙ）は、正規化画像Ｐｍ１と正規化画像Ｐｍ２の画素位置（ｓ,ｔ）における輝度成分、或いは色成分の差分絶対値が大きくなるにつれて増加する。換言すれば、正規化画像Ｐｍ２と正規化画像Ｐｍ１の画素位置（ｓ,ｔ）における輝度成分、或いは色成分の差異が大きくなるにつれて増加し、またこれらが類似するにつれて小さくなる。即ち、このマッチングコストｄ（ｘ,ｙ）により、正規化画像Ｐｍ１と正規化画像Ｐｍ２の画素位置（ｓ,ｔ）における輝度成分、或いは色成分の類似度を識別することが可能となる。

次にオクリュージョンコスト関数ｄｘ（ｘ,ｙ）,ｄｙ（ｘ,ｙ）を求める方法につき説明をする。

これら各オクリュージョンコスト関数ｄｘ（ｘ,ｙ）,ｄｙ（ｘ,ｙ）は、情報生成部３３におより生成される視差情報に基づいて生成される。カメラ１１ａ,１２ａから被写体としてのユーザａに至るまでの距離が小さくなるにつれて（視差が大きくなるにつれて）、オクリュージョン領域の発生する確率が高くなる。かかる場合において、マッチング部２９は、オクリュージョンコスト関数ｄｘ（ｘ,ｙ）,ｄｙ（ｘ,ｙ）を下げることにより対応する。一方、カメラ１１ａ,１２ａから被写体としてのユーザａに至るまでの距離が長くなるにつれて（視差が小さくなるにつれて）、オクリュージョン領域の発生する確率が小さくなる。かかる場合において、マッチング部２９は、オクリュージョンコスト関数ｄｘ（ｘ,ｙ）,ｄｙ（ｘ,ｙ）を上げることにより対応する。

各オクリュージョンコスト関数ｄｘ（ｘ,ｙ）,ｄｙ（ｘ,ｙ）は、以下の式（５）、（６）に基づいて求めることができる。
ｄｘ（ｘ,ｙ）＝β×ｄ（ｘ,ｙ）＋Ｔ０・・・・・・・・（５）
ｄｙ（ｘ,ｙ）＝γ×ｄ（ｘ,ｙ）＋Ｔ１・・・・・・・・（６）
ここで、ｄ（ｘ,ｙ）は、マッチングコストであり、左画像と右画像の輝度値、色合いのばらつきを解消させるべく、オクリュージョンコストを動的に調整するものである。β、γは、ｄｐ（ｘ,ｙ）の変化率を表しており、予め実験的に求めることができる。またＴ０、Ｔ１は、初期オクリュージョンコスト定数であり、これについても予め実験的に求めることができる。

マッチング部２９は、これら各関数ｄｘ（ｘ,ｙ）,ｄ（ｘ,ｙ）,ｄｙ（ｘ,ｙ）を求めた後、それぞれ以下の式（７）〜式（９）に基づいて累積マッチングコストＣ（ｘ−１,ｙ）,Ｃ（ｘ−１,ｙ−１）,Ｃ（ｘ,ｙ−１）を加算し、総コストｋ１,ｋ２,ｋ３を算出する。
ｋ１＝Ｃ（ｘ−１,ｙ）＋ｄｘ（ｘ,ｙ）・・・・・・・・（７）
ｋ２＝Ｃ（ｘ−１,ｙ−１）＋ｄ（ｘ,ｙ）・・・・・・・（８）
ｋ３＝Ｃ（ｘ,ｙ−１）＋ｄｙ（ｘ,ｙ）・・・・・・・・（９）
ここでＣ（ｘ−１,ｙ）,Ｃ（ｘ−１,ｙ−１）,Ｃ（ｘ,ｙ−１）は、それぞれ特徴点（ｘ−１,ｙ）,（ｘ−１,ｙ−１）,（ｘ,ｙ−１）において求められた累積マッチングコストを示している。ちなみに、特徴点（ｘ,ｙ）における累積マッチングコストＣ（ｘ,ｙ）は、以下の式（１０）に示すように、求めたｋ１,ｋ２,ｋ３の中から最小となるものが割り当てられる。
Ｃ（ｘ,ｙ）＝ｍｉｎ｛ｋ１,ｋ２,ｋ３｝・・・・・・・（１０）
マッチング部２９は、求めた総コストｋ１,ｋ２,ｋ３の中から最小となるものを選択することにより最適経路を求める。

ここで、ｋ１が最小となる場合には、視差が大きくなることにより、正規化画像Ｐｍ１において示されている特徴点が正規化画像Ｐｍ２において遮蔽されたことを意味している。かかる場合には、図７矢印Ｊ１に示すように特徴点（ｘ−１,ｙ）から水平方向にシフトさせることにより特徴点（ｘ,ｙ）に至るように最適経路が求められることになる。

またｋ３が最小となる場合には、視差が大きくなることにより、正規化画像Ｐｍ２において示されている特徴点が正規化画像Ｐｍ１において遮蔽されたことを意味している。かかる場合には、図７矢印Ｊ３に示すように、特徴点（ｘ,ｙ−１）から垂直方向にシフトさせることにより特徴点（ｘ,ｙ）に至るように最適経路が求められることになる。

更に、ｋ２が最小となる場合には、正規化画像Ｐｍ１と正規化画像Ｐｍ２の画素位置（ｓ,ｔ）における輝度成分、或いは色成分の類似度が高いことを意味している。かかる場合には、図７矢印Ｊ２に示すように特徴点（ｘ−１,ｙ−１）から水平、垂直方向に一つずつシフトさせることにより特徴点（ｘ,ｙ）に至るように最適経路が求められることになる。

図８(b)は、図８(a)に示される正規化画像Ｐｍ１と正規化画像Ｐｍ２におけるスキャンラインＬ１,Ｌ１’上にある各特徴点の画素成分（輝度又は色成分）の対応関係を示している。

この図８(a)に示す正規化画像Ｐｍ１において、ユーザａの両側に示される壁の凹部Ｌ２,Ｌ３、並びに正規化画像Ｐｍ２において、ユーザａの両側に示される壁の凹部Ｌ２’,Ｌ３’は、図８(b)において画素成分の差分としてライン状に明確に現れている。同様に、ユーザａを構成する画素成分については、図８(b)の中心付近において画素成分の差分として明確に現れている。

この図８(b)において、最適経路が、スキャンラインＬ１,Ｌ１’上にある各特徴点において同一の画素成分の交点を通過している場合には、ｋ２が最小となる結果、当該画素位置（ｓ,ｔ）における輝度成分、或いは色成分の類似度が高いことが優先されたことを意味している。これに対して、最適経路が、スキャンラインＬ１,Ｌ１’上にある各特徴点において同一の画素成分の交点以外を通過している場合には、ｋ１又はｋ３が最小となる結果、視差により何れかの画像Ｐｍ１,Ｐｍ２が遮蔽されたことを意味している。

このようにして特徴点（ｘ−１,ｙ）,（ｘ−１,ｙ−１）,（ｘ,ｙ−１）の何れかから特徴点（ｘ,ｙ）に至るまでの最適経路が求められることになる。この最適経路が求められるということは、輝度成分及び色成分の類似度と、正規化画像Ｐｍ１,Ｐｍ２間の視差に応じて最適な対応関係が求められていることを意味しており、上記（１０）式より得られるＣ（ｘ,ｙ）についても、画素位置毎に対応関係を求める上での最適な累積マッチングコストとして定義されることになる。これら累積マッチングコストＣ（ｘ,ｙ）を、上記グラフにおいて上、右上、右に位置する特徴点に至るまでの最適経路を求める際に累積的に参酌することができるため、対応付けの精度をより向上させることができる。

また、マッチング部２９では、各関数ｄｘ（ｘ,ｙ）,ｄ（ｘ,ｙ）,ｄｙ（ｘ,ｙ）を全く異なるコンセプトに基づいて算出するため、得られた総コストｋ１,ｋ２,ｋ３を式（１０）に基づいて単純に比較する場合に、撮影環境や被写体に応じて誤差が生じる場合もある。かかる場合には、式（５）,（６）におけるβ,γ,Ｔ０,Ｔ１を撮影環境や被写体に応じて予め最適化しておくことにより、各関数ｄｘ（ｘ,ｙ）,ｄ（ｘ,ｙ）,ｄｙ（ｘ,ｙ）間の格差を解消することができる。

このように本発明を適用した画像処理装置２ａにおけるマッチング部２９では、上記各正規化画像Ｐｍ１,Ｐｍ２間における対応関係を求める際に、識別した類似度及び視差のうち何れを優先させるか決定し、類似度を優先させる場合には、水平ライン上にある同一画素位置間において対応付け、視差を優先させる場合には、一の画素位置に対し同一の水平ライン上にある複数の画素位置を対応付ける。これにより、オクリュージョン領域が存在する場合においてもより正確な対応付けを行うことができる。また、上述の手法に基づいて対応付けを行うことにより、例えば両目部分等の繰り返しパターンや、輝度変化が殆ど生じないいわゆる非特徴点（例えば壁の部分）においても対応付けの精度を向上させることができる。更に、例えば窓の部分等のように見る方向によって明るさが異なる領域や、ユーザの鼻の部分等のように正反射が生じる領域においても、輝度成分,色成分の格差に支配されることが少なく、比較的に容易に対応付けを行うことができる。

なお、本発明を適用した画像処理装置２ａにおけるマッチング部２９では、あくまで上記類似度と上記視差を識別し、識別した類似度及び視差に応じて上記対応関係が求められていれば、上述の効果を得ることができることは勿論である。

なお、このマッチング部２９において求められた対応関係において僅かながら非対応な画像位置同士で対応付けがなされる場合がある（以下、これをミスマッチという。）。かかるミスマッチが生じた場合には、スキャンライン上の複数の対応点が纏った形でくずれてしまい、かかるスキャンライン上においてカメラ１１ａまたは１２ａから同じ距離を示す画素が連続して推定されることになる。

このため本発明では、かかるミスマッチに応じたエラー特性に着目し、人物領域内の距離連続性拘束により、上下に亘って配列することになるスキャンライン間の対応関係が大きく異なる場合にマッチング部２９、視差マップ修正処理部４３、さらには対応点修正処理部４４において以下に示す修正処理を行う。

先ず、マッチング部２９により各スキャンライン上の画素位置毎に求めた対応関係に基づいた図９に示すような視差マップを作成する。この視差マップは、マッチング部２９において求められた対応関係を画素毎に輝度で表示したものである。例えばスキャンラインＬにおいてミスマッチが生じた場合には、図９に示す視差マップにおいて輝度の差としてこれが現れることになる。

次に、このようなラインＷが入るスキャンラインＬの対応点の信頼性を評価する。実際にこの信頼性の評価は、かかるスキャンラインＬの上下に位置する他のスキャンラインの対応点との差異を検出する。

具体的には、図１０に示すようにスキャンラインＬにおける画素位置（ｘ,ｙ）につき求めた対応関係から得られた視差値Ｄ（ｘ,ｙ）に対し、その上下に位置する画素位置（ｘ,ｙ−ｋ）｛ｋ＝±１,・・・・・・,±Ｎ｝につき求めた対応関係から得られた視差値Ｄ（ｘ,ｙ−ｋ）｛ｋ＝±１,・・・・・・,±Ｎ｝を比較する。この視差値Ｄ（ｘ,ｙ）は、視差であり、左画像内のある画素ｍ1(x1,y1)と右画像内のある画素ｍ2(x2,y2)との対応関係が得られた場合、そのx1とx2との差（x1−x2）を視差とするものである。計算上の便宜のため、一般的に（x1−x2）の絶対値を視差としている。ちなみに、本実施の形態において、カメラ補正（平行化）が行われた結果、同一の水平ライン上での対応付け処理を行っているため、y1＝y2となっている。

実際には、これらの視差の差異を表す関数ＥＤ（ｘ,ｙ）を求める。この関数ＥＤ（ｘ,ｙ）は、以下の（１１）式で表される。
ＥＤ（ｘ,ｙ）＝｜Ｄ（ｘ,ｙ）−Ｄ（ｘ,ｙ−ｋ）｜｛ｋ＝±１,・・・・・・,±Ｎ｝・・・・・（１１）
この（１１）式に基づいて求めたＥＤ（ｘ,ｙ）が第１の閾値以下の場合には、かかる画素位置につき求めた視差値Ｄ（ｘ,ｙ）は正規化画像Ｐｍ１,Ｐｍ２間において正確な対応点を表していることが分かる。これに対して、求めたＥＤ（ｘ,ｙ）が第１の閾値を超えている場合には、かかる画素位置につき求めた視差値Ｄ（ｘ,ｙ）は正規化画像Ｐｍ１,Ｐｍ２間において正確な対応点を表していないことが分かる。このような画素位置について求めた視差値Ｄ（ｘ,ｙ）については、当該画素位置と関連させてマークを付ける。

図１１は、かかるマークが付された画素位置を示している。上述の処理をスキャンライン毎に全て画素位置につき実行することにより、全ての画素位置毎に求めた対応関係につき、その上下方向に位置する他の水平ライン上の各画素位置との間で信頼性を確認することができ、正確な対応点を表していない、いわゆる相異度の高い画素位置のみにつき選択的にマークを付けることができる。

次に、このようなマークが付された画素位置が連続している個数をカウントする。その結果、かかる個数が第２の閾値を超えている場合に、かかる連続してマークが付された画素位置につきミスマッチが生じているものであると判断することができる。

視差マップ修正処理部４３は、かかるミスマッチが生じた画素位置からなる画像領域につき、正確な対応付けを再度行うことによりミスマッチを解消する。具体的には、ミスマッチが生じた画像領域を含む一のスキャンラインの上下に位置する他のスキャンラインにつき求めた対応関係をそのまま用いることによりミスマッチを解消する。かかる場合には、当該他のスキャンラインにつき求められている視差値Ｄ（ｘ,ｙ−ｋ）をそのまま一のスキャンラインに適用することにより、これを実現することが可能となる。

図１２は、視差マップ修正処理部４３においてかかるミスマッチを解消させた結果得られる視差マップを示している。ミスマッチが生じていた領域につき正確な対応付けがなされた結果、ラインＷが解消されているのが分かる。

また、対応点修正処理部４４では、視差マップ修正処理部４３において修正された対応関係に基づいて仮想視点画像Ｉｍａの各画素位置並びにその輝度成分を求め、これを仮想視点画像生成部３０へ送信する。

仮想視点画像生成部３０では、上述の如くマッチング部２９において求められた対応関係に基づいて、仮想視点画像Ｉｍａを生成する。例えばマッチング部２９において、正規化画像Ｐｍ１における画素位置Ｐ１１に対して、正規化画像Ｐｍ２における画素位置Ｐ１１’がその対応点として特定されていた場合に、かかる画素位置Ｐ１１の座標を図１３に示すように（ｘ１,ｙ１）とし、また画素位置Ｐ１１’の座標を（ｘ２,ｙ２）とする。仮想視点画像生成部３１は、かかる画素位置Ｐ１１、Ｐ１１’に対応する仮想視点画像Ｉｍａ上の画素位置の座標（ｘｔ,ｙｔ）を、相対位置情報としてのｍ（≦１）に基づいて以下の式（１１）により決定することができる。
（ｘｔ,ｙｔ）＝（１−ｍ）×（ｘ１,ｙ１）＋ｍ×（ｘ２,ｙ２）・・・（１１）
また画素位置Ｐ１１、Ｐ１１’における輝度成分をそれぞれＪ１１, Ｊ１１’としたときに、かかる仮想視点画像Ｉｍａ上の画素位置Ｐｈにおける輝度成分Ｐｔを以下の式（１２）により決定することができる。

Ｐｔ＝（１−ｍ）×Ｊ１１＋ｍ×Ｊ１１’ ・・・（１２）
このように仮想視点画像生成部３１は、仮想視点画像Ｉｍａを構成する各画素の座標並びにその輝度成分につき、相対位置情報としてのｍに応じて決定することができる。ここでｍは、仮想カメラにおける仮想視点がカメラ１１ａに近くなるにつれて小さくなり、また仮想視点がカメラ１２ａに近くなるにつれて大きくなる。

このため、式（１１）に基づいて決定される座標（ｘｔ,ｙｔ）は、仮想視点がカメラ１１ａに近づくにつれて画素位置Ｐ１１の座標（ｘ１,ｙ１）に近づき、また仮想視点がカメラ１２ａに近づくにつれて画素位置Ｐ１２の座標（ｘ２,ｙ２）に近づくことになる。即ち、座標（ｘｔ,ｙｔ）を、仮想カメラの位置に応じて自在に決定することができるため、仮想視点画像Ｉｍａ上に表示させるユーザａの位置を自在に変化させることができる。

また、式（１２）に基づいて決定される輝度成分Ｐｔは、仮想視点がカメラ１１ａに近づくにつれて画素位置Ｐ１１の輝度成分Ｊ１１に近づき、仮想視点がカメラ１２ａに近づくにつれて画素位置Ｐ１１’の輝度成分Ｊ１１’に近づくことになる。即ち、仮想カメラの位置に応じて、仮想視点画像Ｉｍａ上のユーザａを構成する画素を輝度成分Ｊ１１、又は輝度成分Ｊ１１’に近づけることができる。

特に、カメラ１１ａとカメラ１２ａは互いに撮影方向が異なるため、正規化画像Ｐｍ１上にある画素位置Ｐ１１と、これに対応する正規化画像Ｐｍ２上にある画素位置Ｐ１１’との間では、輝度成分が互いに異なる。この互いに異なる輝度成分の何れか一方を最小値とし、他方が最大値となるようにして、相対位置情報としてのｍに応じて輝度成分Ｐｔを線形に増減させることにより、仮想カメラの位置に応じて仮想視点画像Ｉｍａ上に表示させるユーザａを構成する画素の輝度成分を決定することが可能となる。また、この生成される仮想支点画像Ｉｍａは、上述したマッチング部２９において対応付けられた関係に基づいて生成されるため、得られる画像の画質劣化をより減少させることができる。

上述のようにして画素位置Ｐｈにおける座標（ｘｔ,ｙｔ）並びにその輝度成分Ｐｔを順次決定することにより、生成した仮想視点画像Ｉｍａは、表示されるユーザａの視線方向、顔の向き等は互いに異なっていた正規化画像Ｐｍ１,Ｐｍ２に対して、常時正面を向いている状態となる。

生成された仮想視点画像Ｉｍａは、出力制御部３１による制御の下、ネットワーク７へ送出される。そして相手側の画像処理装置２ｂへ送信された仮想視点画像Ｉｍａは、画像処理装置２ｂにおける制御の下、ディスプレイ５ｂ上へ表示されることになる。ユーザｂは、ディスプレイ５ｂに表示される仮想視点画像Ｉｍａ上のユーザａを視認しつつ対話をすることになるが、ユーザａの顔、視線方向は正面を向いている状態にあるため、あたかも画面中央付近に設置された仮想カメラで撮像されたような画像を視認しているような感覚を味わうことができる。ユーザａについても同様にディスプレイ５ａに表示される仮想視点画像Ｉｍｂ上のユーザｂを視認しつつ対話をすることになるが、正面を向いているユーザｂを視認することができる。即ち、この通信システム１では、いわば対話するユーザ間において常時視線を一致させたビジュアルコミュニケーションを実現することができ、よりリアルで臨場感のある遠隔対話を実現することができる。

特にこの通信システム１では、少なくとも２台のカメラ１１,１２をディスプレイ５
の両側に配設すれば足り、また被写体の３次元情報をその都度抽出する必要もなくなるため、システム全体が複雑化することがなくなるという利点もある。

また、この通信システム１では、ハーフミラーやホログラムスクリーン、更にはプロジェクタ等のような特殊装置を用いる必要もなく、簡易で安価なシステムを構成することができる。

なお、本発明を適用した通信システムは、上述した実施の形態に限定されるものではなく、例えば図１４に示すように、得られた画像につき複眼立体視を可能とすべく処理を施すための撮像システム７に適用してもよい。この撮像システム７において上述した通信システム１と同一の構成については、当該同一の番号を付して説明を省略する。

この撮像システム７は、互いに異なる視点から同一の撮影対象５を撮像する８台のカメラ７１＿１〜７１＿８と、接続された各カメラ７１＿１〜７１＿８より撮像された画像が供給される画像補正部７２＿１〜７２＿８と、各画像補正部７２＿１〜７２＿８における画像補正に必要なパラメータを供給するためのカメラキャリブレーション部２６と、接続された各画像補正部７２＿１〜７２＿８から供給される各画像につき互いに対応付けをとるためのマッチング部２９と、このマッチング部２９に接続される視差マップ修正処理部４３と、視差マップ修正処理部４３に接続される対応点修正処理部４４と、立体視ディスプレイ８０を視認するユーザの頭部位置を検出し、これに基づいてユーザの相対的な視点位置を推定するための両眼位置推定部７５と、両眼位置推定部７５により推定されたユーザの視点位置に応じて、立体視ディスプレイ８０に対するユーザの視点位置における相対的な位置関係を示す相対位置情報を生成する情報生成部７６と、対応点修正処理部４４並びに情報生成部７６にそれぞれ接続されてなり、ユーザの左眼により視認される左眼用視差画像と、ユーザの右眼により視認される右眼用視差画像とを生成する仮想視点画像生成部３０と、仮想視点画像生成部３０により生成された左眼用視差画像と右眼用視差画像とを、接続された立体視ディスプレイ８０上へ表示させるための表示制御部７９とを備えている。

カメラ７１＿１〜７１＿８は、撮像した撮影対象の光学像を、そのままＣＣＤへ入射させることにより、これを電気信号に変換する。このカメラ７１＿１〜７１＿８は、変換した電気信号により表される画像をそれぞれ画像補正部７２＿１〜７２＿８へ供給する。

画像補正部７２＿１〜７２＿８は、上記幾何学的画像補正部２１,２２と同様の役割を担う部分であり、カメラ７１＿１〜７１＿８間の幾何学的な位置関係を含む制御情報に基づいて、得られた画像を補正する。

マッチング部２９は、互いに隣接するカメラにより撮像された画像間において、上述した手法を利用することにより、撮影対象５と関連させつつ、画素位置毎に対応付けを行う。ちなみに、マッチング部２９に入力される画像は、背景画像を除去された形であってもよい。

両眼位置推定部７５は、立体視ディスプレイ８０を視認するユーザの頭部における３次元的な位置やサイズを、当該立体視ディスプレイ８０との間で相対的に検出する。この両眼位置推定部７５は、例えばステレオ視方式やレンジファインダ方式に基づいてリアルタイムな位置検出を行う距離計測装置等により適用される。この両眼位置推定部７５は、検出したユーザの頭部における３次元的な位置やサイズに基づき、三次元空間座標の下、ユーザの左眼位置並びに右眼位置を推定する。この両眼位置の推定については、例えば、人間の頭部と両眼の相対的な位置関係に関する統計的な計測データを参照しつつリアルタイムに実行するようにしてもよい。

情報生成部７６は、両眼位置推定部７５において推定された、ユーザの左眼位置並びに右眼位置をパラメータ化した相対位置情報を生成し、これを仮想視点画像生成部３０へ送信する。

仮想視点画像生成部３０は、マッチング部２９により互いに対応付けされた画素位置並びにその輝度成分がそれぞれ入力される。また、仮想視点画像生成部３０は、互いに対応付けされた画素位置並びにその輝度成分から、情報生成部７６より生成された相対位置情報に応じて、上記仮想視点画像Ｉｍａの代替として、左眼用視差画像並びに右眼用視差画像を生成する。

表示制御部７９は、仮想視点画像生成部３０により生成された左眼用視差画像と右眼用視差画像につき、立体視ディスプレイ８０における表示方法に応じて、各画素位置における輝度レベル（ＲＧＢ）を割り当てる。

立体視ディスプレイ８０は、液晶パネル上に光学素子を組み合わせ、互いに異なる左眼用視差画像と右眼用視差画像を表示させる表示面であり、ユーザに対して専用眼鏡の着用を義務付ける必要がない点において優れている。

図１５(a)は、点線で示される撮影対象５に対する各カメラ７１の相対的な位置関係を、実線で示される立体視ディスプレイ８０に対するユーザの視点の位置関係にそのまま重ね合わせて表示したものである。立体視ディスプレイ８０では、この撮影対象５に対する各カメラ７１の光学中心の相対的な位置関係が、立体視ディスプレイ８０を視認するユーザの左眼、右眼の視点位置の位置関係に合致する場合のみ立体視が実現されることになる。

ここで、座標（０,０,０）上に位置する撮影対象５のＭ点へカメラ７１＿１〜７１＿８の光軸を合わせて撮像を行う場合に、これに立体視ディスプレイ８０の中心を重ね合わせることにより、その中心の座標が原点（０,０,０）に位置するように設定する。また両眼位置推定部７５により計測されたユーザの頭部位置の座標（ｘｎ,ｙｎ,ｚｎ）をこの原点座標（０,０,０）に基づき特定する。ちなみにユーザの頭部位置をいかに定義するかについては、撮像システム７側において任意に決定することができるが、例えば、ユーザの眉間中心を頭部位置として定義するようにしてもよい。

仮にユーザの頭部が位置Ａにあるとき、両眼位置推定部７５はその座標（ｘａ,ｙａ,ｚａ）を特定する。またユーザの頭部が位置Ｂにあるとき、両眼位置推定部７５はその座標（ｘｂ,ｙｂ,ｚｂ）を特定する。またユーザの頭部が位置Ｃにあるとき、両眼位置推定部７５はその座標（ｘｃ,ｙｃ,ｚｃ）をそれぞれ特定する。ちなみに両眼位置推定部７５は、かかる座標の特定と同時に、ユーザの頭部のサイズを同時に識別する。

両眼位置推定部７５は、これら特定したユーザの頭部位置（ｘｎ,ｙｎ,ｚｎ）の座標に基づき、ユーザの左眼位置並びに右眼位置を推定する。この推定は、例えば頭部位置Ａにつき特定した座標（ｘａ,ｙａ,ｚａ）と、識別したユーザ頭部のサイズに基づき、統計的な計測データを参照しつつ、図１５(b)に示すように、ユーザの左眼位置の座標（ｘａＬ,ｙａＬ,ｚａＬ）並びに右眼位置の座標（ｘａＲ,ｙａＲ,ｚａＲ）を推定する。これにより、立体視ディスプレイ２０の中心座標（０,０,０）に基づいた左眼位置の座標（ｘａＬ,ｙａＬ,ｚａＬ）並びに右眼位置の座標（ｘａＲ,ｙａＲ,ｚａＲ）を相対的に求めることが可能となる。

ちなみに、推定した左眼位置の座標（ｘａＬ,ｙａＬ,ｚａＬ）と、右眼位置の座標（ｘａＲ,ｙａＲ,ｚａＲ）が、それぞれ図１５(a)の点線で示されるカメラ７１＿１〜７１＿８の光学中心に位置している場合には、かかるカメラから取得される画像をそのまま左眼用視差画像と右眼用視差画像とすれば立体視が実現されることになる。しかし、それ以外の場合には、撮影対象５に対する各カメラ７１の相対的な位置関係から外れることになり、ユーザによる立体視の実現が困難となる。

ここで、推定した左眼位置の座標（ｘａＬ,ｙａＬ,ｚａＬ）と、右眼位置の座標（ｘａＲ,ｙａＲ,ｚａＲ）が、カメラ７１＿１〜７１＿８の光学中心以外に位置している場合であって、かつ図１０(a)に示すカメラ７１間の光学中心を結ぶラインＬｃ上に位置している場合には、左眼用視差画像（右眼用視差画像）を構成することのみで、かかる位置関係の調整を図る。

例えば図１６に示すように、ユーザの頭部が位置Ｄにあり、また推定した左眼位置,右眼位置がそれぞれＶｃＬ１,ＶｃＲ１にあるとき、このＶｃＬ１,ＶｃＲ１に仮想的にカメラを設置して撮影対象５のＭ点（立体視ディスプレイ２０の中心座標（０,０,０）に相当する）を撮像した結果得られる画像が左眼用視差画像（右眼用視差画像）となるように調整する。

かかる場合において、情報生成部７６は、上述の如く両眼位置推定部７５により推定された左眼位置ＶｃＬ１,右眼位置ＶｃＲ１をそれぞれ取得する。そして、この取得した左眼位置ＶｃＬ１を仮想的にカメラを設置する仮想位置ＷＬ１とし、これを実際に撮影対象５との間で相対的な位置関係を保ちつつ設置されているカメラ７１＿１〜カメラ７１＿８の位置関係に当てはめる。同様にして、取得した右眼位置ＶｃＲ１を仮想的にカメラを設置する仮想位置ＷＲ１とし、これを実際に撮影対象５との間で相対的な位置関係を保ちつつ設置されているカメラ７１＿１〜カメラ７１＿８の位置関係に当てはめる。

例えば図１６に示すように、左眼位置ＶｃＬ１,右眼位置ＶｃＲ１の双方がカメラ７１＿４、７１＿５の間にある場合に、情報生成部７６は、カメラ７１＿４、７１＿５に対する左眼位置ＶｃＬ１並びに右眼位置ＶｃＲ１の位置関係を相対的に識別し、これに応じた相対位置情報としてｋ_Ｌ１、ｋ_Ｒ１をそれぞれ生成する。この相対位置情報としてのｋ_Ｌ１は、仮想位置ＷＬ１が、カメラ７１＿４から７１＿５にかけてｋ_Ｌ１：１−ｋ_Ｌ１の位置にあることを意味している。同様に、この相対位置情報としてのｋ_Ｒ１は、仮想位置ＷＲ１が、カメラ７１＿４から７１＿５にかけてｋ_Ｒ１：１−ｋ_Ｒ１の位置にあることを意味している。即ち、この相対位置情報としてのｋ_Ｌ１、ｋ_Ｒ１が小さくなるにつれて、仮想位置ＷＬ１,仮想位置ＷＲ１はカメラ７１＿４に近づき、またこの相対位置情報としてのｋ_Ｌ１、ｋ_Ｒ１が大きくなるにつれて仮想位置ＷＬ１,仮想位置ＷＲ１はカメラ７１＿５に近づくことになる。

このため仮想視点画像生成部１８において、式（１１）に基づいて決定される左眼用視差画像（右眼用視差画像）上の画素ｍｖ’の座標（ｘｔ,ｙｔ）は、仮想位置ＷＬ１（仮想位置ＷＲ１）がカメラ７１＿４に近づくにつれて（ｘ１,ｙ１）に近づき、また仮想位置ＷＬ１（仮想位置ＷＲ１）がカメラ７１＿５に近づくにつれて（ｘ２,ｙ２）に近づくことになる。

また、式（１２）に基づいて決定される左眼用視差画像（右眼用視差画像）上の画素ｍｖ’における輝度成分Ｐｔは、仮想位置ＷＬ１（仮想位置ＷＲ１）がカメラ７１＿４に近づくにつれてＪ１１’に近づき、また仮想位置ＷＬ１（仮想位置ＷＲ１）がカメラ７１＿５に近づくにつれてＪ１２’に近づくことになる。

得られた左眼用視差画像（右眼用視差画像）は、ＶｃＬ１（ＶｃＲ１）に仮想的にカメラを設置した結果得られる画像に相当する。これらを表示制御部７９を介して立体視ディスプレイ８０へ表示させることにより、推定した左眼位置,右眼位置ＶｃＬ１,ＶｃＲ１にカメラを設置した結果得られる画像を左眼用視差画像,右眼用視差画像として出力することができる。

図１７は、これら左眼用視差画像（右眼用視差画像）の構成例につき示している。仮に撮影対象５が人物の顔である場合において、カメラ７１＿４,７１＿５においてこれを撮影する。かかる場合にカメラ７１＿４は、撮影範囲の右端付近において捉えた撮影対象５としての人物を撮像し、またカメラ７１＿５は、撮影範囲の左端付近において捉えた撮影対象５としての人物を、カメラ７１＿４と異なる視点から撮像することになる。その結果、カメラ７１＿４により撮像される画像は、図１７に示すように右端付近において右側を向いている人物が示されている状態となり、またカメラ７１＿５により撮像される画像は、左端付近において左側を向いている人物が示されている状態となる。

相対位置情報としてのｋが小さい場合（ｋ１の場合）において、仮想位置ＷＬ１a（仮想位置ＷＲ１a）は、カメラ７１＿４により近くなる。またこの仮想位置ＷＬ１aにつき、上記（１１）,（１２）式から求められる左眼用視差画像（右眼用視差画像）は、カメラ７１＿４に近い内容となる。

また相対位置情報がｋ２からｋ４へと徐々に大きくなるにつれて、仮想位置は、ＷＬ１b（仮想位置ＷＲ１b）からＷＬ１d（仮想位置ＷＲ１d）へと、徐々にカメラ７１＿５へ近くなる。これに伴って、左眼用視差画像（右眼用視差画像）に示される画像は、右端付近から左端付近へ徐々に移り、また人物が向いている方向も右から左へ徐々に変化することになる。

なお、推定した左眼位置の座標（ｘａＬ,ｙａＬ,ｚａＬ）と、右眼位置の座標（ｘａＲ,ｙａＲ,ｚａＲ）が、ラインＬｃ上に位置していない場合には、構成した左眼用視差画像（右眼用視差画像）の視野を拡大又は縮小することにより位置関係の調整を図るようにしてもよい。

このような立体視を実現する撮像システム７において、視差によるオクリュージョン領域が発生する場合であっても、マッチング部２９により精度良く対応付けを行うことができる。このため、立体視ディスプレイ８０を視認するユーザの視点位置に支配されることなく、視差のズレを高精度かつスムーズに解消することができ、ユーザに対してより自然な立体画像を常時提供することが可能となる。

また、上述したカメラ中心を結ぶ線上での任意の仮想視点画像生成を利用することにより、視差のズレ等を解消させたホログラム立体写真を作成することも可能となる。

本発明を適用した通信システムの概略を示す図である。画像処理装置の構成につき説明するための図である。マッチング部における対応付けにつき説明するための図である。各画像Ｐａ１,Ｐａ２の法線方向を合わせる正規化につき説明するための図である。正規化画像から前景画像領域を切り出す場合につき説明するための図である。ＤＰを利用した対応付けにつき説明するための図である。スキャンラインＬ１,Ｌ１’上の任意の特徴点（ｘ,ｙ）に至るまでの最適経路を求める場合につき示す図である。正規化画像Ｐｍ１と正規化画像Ｐｍ２におけるスキャンラインＬ１,Ｌ１’上にある各特徴点の画素成分（輝度又は色成分）の対応関係を示す図である。各スキャンライン上の画素位置毎に求めた対応関係に基づいた視差マップを示す図である。スキャンラインの信頼性を確認する方法につき説明するための図である。視差マップ上にマークをつける例につき説明するための図である。視差マップに修正を加えた図である。仮想視点画像を作成する方法につき説明するための図である。３Ｄ画像を生成する撮像システムにおける構成につき示す図である。立体視を実現する例につき説明するための図である。ユーザの視点位置に応じて仮想的にカメラを設置する例につき説明するための図である。左眼用視差画像（右眼用視差画像）の構成例につき説明するための図である。画面の左右に設置された２台のカメラにより撮像された各画像間につきステレオ視における対応付けを行う場合について説明するための図である。従来技術の問題点について説明するための図である。

符号の説明

１通信システム、２画像処理装置、５ディスプレイ、７ネットワーク、１１,１２カメラ、２０補正部、２９マッチング部、３０仮想視点画像生成部、３１出力制御部、３３情報生成部、４３視差マップ修正処理部、４４対応点修正処理部

Claims

少なくとも２台のカメラにより互いに異なる視点から被写体を撮像することにより得られた各画像間において、上記被写体と関連させつつ互いに同一の水平ライン上にある画素位置毎に対応関係を求めるマッチング手段と、
上記マッチング手段により求められた対応関係を修正する修正処理手段と、
上記修正処理手段により修正された対応関係に基づいて、仮想的に設置される仮想カメラにより生成すべき仮想視点画像を構成する画素位置並びにその輝度成分を求める画像生成手段とを備え、
上記マッチング手段は、上記対応関係を求める各画素位置につき輝度成分及び色成分を比較することによりその類似度を計算するとともに、上記計算した類似度に応じて上記対応関係を求め、また求めた対応関係に基づいて視差を推定し、さらに一の水平ラインの画素位置毎に求めた対応関係と当該一の水平ラインの上下方向に位置する他の水平ライン上の各画素位置につき求めた対応関係とを比較し、
上記修正処理手段は、上記マッチング手段による対応関係の比較結果に基づいて当該一の水平ラインにつき求められた対応関係及び／又は視差を修正すること
を特徴とする画像処理装置。
上記マッチング手段は、一の水平ラインの画素位置毎に求めた対応関係又は視差と上記他の水平ライン上の各画素位置につき求めた対応関係又は視差とを比較することによりその相異度を識別し、上記一の水平ライン上の画素位置のうち相異度が連続して第１の閾値を超えている個数を判別し、
上記修正処理手段は、上記マッチング手段により判別された上記個数が第２の閾値を超えている場合に、当該一の水平ラインにつき求めた対応関係を修正すること
を特徴とする請求項１記載の画像処理装置。
上記修正処理手段は、上記他の水平ライン上の各画素位置につき求めた対応関係を用いて、当該一の水平ラインにつき求めた対応関係を修正すること
を特徴とする請求項１記載の画像処理装置。
上記各カメラにより撮像された各画像から、上記被写体を含む前景画像領域とその背景画像とをそれぞれ分離する画像分離手段をさらに備え、
上記マッチング手段は、上記画像分離手段により分離された各前景画像領域間において上記対応関係を求めること
を特徴とする請求項１記載の画像処理装置。
上記仮想カメラにおける光学中心の上記各カメラに対する相対的な位置関係を示す相対位置情報を生成する情報生成手段をさらに備え、
上記画像生成手段は、上記情報生成手段により生成された相対位置情報に基づいて、上記仮想視点画像を構成する画素位置並びにその輝度成分を求めること
を特徴とする請求項１記載の画像処理装置。
上記マッチング手段は、上記各画像間における対応関係を求める際に、上記計算した類似度及び視差のうち何れを優先させるか決定し、類似度を優先させる場合には、上記水平ライン上にある同一画素位置間において対応付け、視差を優先させる場合には、一の画素位置に対し同一の水平ライン上にある複数の画素位置を対応付けること
を特徴とする請求項１記載の画像処理装置。
上記マッチング手段は、上記類似度を計算する際に比較する輝度成分又は色成分のうち何れかに重み付けをすること
を特徴とする請求項１記載の画像処理装置。
上記マッチング手段は、上記水平ラインの上下に位置する各画素位置における輝度成分及び色成分との相関関係を反映させつつ、上記類似度を計算すること
を特徴とする請求項１記載の画像処理装置。
上記マッチング手段は、上記各カメラから上記被写体までの距離に基づいて上記視差を識別すること
を特徴とする請求項１記載の画像処理装置。
上記画像補正手段は、上記各カメラにより撮像された各画像の法線方向を仮想的に設定された仮想平面の法線方向に合わせること
を特徴とする請求項１記載の画像処理装置。
上記画像補正手段は、上記各カメラにより撮像された各画像を上記仮想平面へ射影するための射影変換行列を求め、求めた射影変換行列に基づいて上記各画像の法線方向を上記仮想平面の法線方向に合わせること
を特徴とする請求項１０記載の画像処理装置。
少なくとも２台のカメラにより互いに異なる視点から被写体を撮像することにより得られた各画像間において、上記被写体と関連させつつ互いに同一の水平ライン上にある画素位置毎に対応関係を求めるマッチングステップと、
上記マッチングステップにおいて求めた対応関係を修正する修正処理ステップと、
上記修正処理ステップにおいて修正した対応関係に基づいて、仮想的に設置される仮想カメラにより生成すべき仮想視点画像を構成する画素位置並びにその輝度成分を求める画像生成ステップとを有し、
上記マッチングステップでは、上記対応関係を求める各画素位置につき輝度成分及び色成分を比較することによりその類似度を計算するとともに、上記計算した類似度に応じて上記対応関係を求め、また求めた対応関係に基づいて視差を推定し、さらに一の水平ラインの画素位置毎に求めた対応関係と当該一の水平ラインの上下方向に位置する他の水平ライン上の各画素位置につき求めた対応関係とを比較し、
上記修正処理ステップでは、上記マッチングステップにおける対応関係の比較結果に基づいて当該一の水平ラインにつき求められた対応関係及び／又は視差を修正すること
を特徴とする画像処理方法。
少なくとも２台のカメラにより互いに異なる視点から被写体を撮像することにより得られた各画像間において、上記被写体と関連させつつ互いに同一の水平ライン上にある画素位置毎に対応関係を求めるマッチングステップと、
上記マッチングステップにおいて求めた対応関係を修正する修正処理ステップと、
上記修正処理ステップにおいて修正した対応関係に基づいて、仮想的に設置される仮想カメラにより生成すべき仮想視点画像を構成する画素位置並びにその輝度成分を求める画像生成ステップとを有し、
上記マッチングステップでは、上記対応関係を求める各画素位置につき輝度成分及び色成分を比較することによりその類似度を計算するとともに、上記計算した類似度に応じて上記対応関係を求め、求めた対応関係に基づいて視差を推定し、さらに一の水平ラインの画素位置毎に求めた対応関係と当該一の水平ラインの上下方向に位置する他の水平ライン上の各画素位置につき求めた対応関係とを比較し、
上記修正処理ステップでは、上記マッチングステップにおける対応関係の比較結果に基づいて当該一の水平ラインにつき求められた対応関係及び／又は視差を修正することをコンピュータに実行させるためのプログラム。