JP2006024141A

JP2006024141A - 画像処理装置及び方法、プログラム

Info

Publication number: JP2006024141A
Application number: JP2004203811A
Authority: JP
Inventors: Ikoku Go; 偉国呉; Takayuki Ashigahara; 隆之芦ヶ原
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-07-09
Filing date: 2004-07-09
Publication date: 2006-01-26

Abstract

【課題】各カメラから得られる画像におけるスキャンライン上にある全ての画素につき動的な対応付け（伸縮マッチング）として取り扱うことにより、画像間の対応付けをよりロバストかつ高精度に行い、仮想視点映像を生成する。
【解決手段】少なくとも２台のカメラ１１，１２により互いに異なる視点から被写体を撮像することにより得られた各画像間において、上記被写体と関連させつつ互いに同一の水平ライン上にある画素位置毎に対応関係を求め、求めた対応関係に基づき、上記撮像された各画像間において互いに非対応な画像領域としてのオクリュージョン領域を、上記仮想視点画像から画素単位で検出し、検出したオクリュージョン領域に対して画像平滑化処理を施す。また、対応付けした画素位置並びにその輝度成分から、仮想的に設置される仮想カメラにより生成すべき仮想視点画像を構成する画素位置並びにその輝度成分を求める。
【選択図】図２

Description

本発明は、例えばテレビ会議システム或いはテレビ電話システム等に適用され、送受信する画像を撮像してこれをあたかも仮想カメラにより撮像した仮想視点画像に再構成する画像処理装置及び方法、プログラムに関する。

テレビ電話システムやテレビ会議システム等に代表されるように、複数のユーザが互いに離れた場所から相手の表示像を視認しながら遠隔対話するシステムが提案されている。このようなシステムでは、相手の表示像をディスプレイ上に表示するとともに、当該ディスプレイを視認するユーザを撮影対象として撮像し、得られた画像信号を公衆回線、専用回線等のネットワークを介して相手側の画像処理装置へ送信することにより、双方のユーザに対し臨場感を持たせることが可能となる。

従来におけるテレビ会議システムでは、ディスプレイの中心付近に写し出される相手の表示像を視認するユーザを、ディスプレイ上部にあるカメラにより撮像するため、ユーザが下を向いた状態の画像が相手側のディスプレイ上に表示されることになる。このため、実際にディスプレイを視認するユーザ間において視線が不一致の状態で対話がなされることになり、互いに違和感を与えてしまうという問題がある。

理想的には、相手の表示像が写し出されるディスプレイの中心付近にカメラを設置すれば、双方のユーザの視線を一致させた状態で対話を実現することができる。しかしながら、かかるディスプレイの中心付近にカメラを設置することは物理的に困難である。

このような視線不一致に関する問題点を解決すべく、従来において、ディスプレイの両側に配置された複数のカメラにより撮影された入力画像に基づいて被写体の３次元情報を抽出し、抽出した３次元情報と受信者の視点位置に関する情報に応じて被写体の出力画像を再構成し、これを相手側のディスプレイへ表示させる画像処理装置が提案されている（例えば、特許文献１参照。）。この画像処理装置では、一直線上に配置された複数のカメラ映像から生成されたエピポーラ平面画像を用いて画面中心の仮想視点カメラ映像を合成することにより、利用者の視線を一致させて臨場感の高いコミュニケーションを実現することができる。

また、ＴＶ会議で互いの視線を一致させるべく、画面の左右に設置された２台のカメラで撮影した画像に基づいて３次元位置情報を生成する画像通信装置（例えば、特許文献２参照。）も提案されている。

ところで、上述の如く被写体の出力画像を再構成する際には、少なくとも２台のカメラにより互いに異なる視点から被写体を撮像することにより得られた各画像につき、画素位置毎に対応関係を求める。これにより、被写体の形状や各カメラまでの距離を三角測量原理によって求めることが可能となり、ひいては、ディスプレイの中心付近に仮想的に設置した仮想カメラにより撮像された仮想視点画像を精度よく生成することが可能となるからである。

ここで基本的な構成として、画面の左右に設置された２台のカメラにより撮像された各画像間につきステレオ視における対応付けを行う場合について図１１を用いて説明をする。

各カメラの光学中心Ｃ１,Ｃ２により互いに異なる視点から撮影対象のＭ点へ光軸を合わせて撮像を行うと、これにより生成される画像Ｐｓ１,Ｐｓ２は、各カメラの撮像面に対して平行となる。ここで各カメラと、Ｍ点を結ぶ直線の方向は、各カメラにより撮像された各画像Ｐｓ１,Ｐｓ２の法線方向ｐ１,ｐ２に一致するが、これらは互いに異なる方向を指している。

ちなみに対応付けは、被写体としてのＰを構成する同一の箇所にある画素位置と輝度成分を画像Ｐｓ１,Ｐｓ２間で抽出して対応をとるようにする。例えば、画像Ｐｓ１のエピポーラ線Ｌ１上にある画素ｍ１の対応点については、画像Ｐｓ２のエピポーラ線Ｌ１’上に存在することとなり、そのＬ１’上を探索することにより、画素ｍ１に最も類似する画素ｍ１’を対応点として検出することができる。また、対応付けした画素ｍ１,画素ｍ１’を利用することにより三次元空間内の対象Ｐを容易に推定することができる。

具体的な対応付けの手法として、従来よりPixel-basedマッチング、Area-basedマッチング、Feature-basedマッチング等が提案されている。Pixel-basedマッチングは、一方の画像における画素の対応点を、他方の画像においてそのまま探索する方法である（例えば、非特許文献１参照。）。Area-basedマッチングは、一方の画像における画素の対応点を、他方の画像において探索する場合に、その対応点の周囲における局所的な画像パターンを参照しつつ実行する対応付けを行う（例えば、非特許文献２,３参照。）。またFeature-basedマッチングは、画像から濃淡エッジ等を抽出し、画像間の特徴部分のみを参照して対応付けを行う（例えば、非特許文献４,５参照。）。

しかしながら、これらの手法は、あくまでエピポーラ線上に位置する画素の中から類似度の高いものを対応点として特定するため、例えばユーザを被写体として撮像した場合に得られた画像Ｐｓ１,Ｐｓ２間において、図１２に示すように、繰り返しパターン（例えば、両目部分）や、輝度変化が殆ど生じないいわゆる非特徴点（例えば壁の部分）において対応付けが困難であった。

また、異なる視点から撮像することにより得られる画像Ｐｓ１,Ｐｓ２では、被写体からカメラに至るまでの距離に基づく視差により、例えば図１２に示す頬や耳の部分等において表示される内容が異なってくる。以下、このような領域をオクリュージョン領域という。かかるオクリュージョン領域では、上記視差により、一方の画像Ｐｓ１に表示されている対象物の対応点が他方の画像Ｐｓ２において隠れてしまい、対応付けを行う場合に不都合が生じる場合があった。

また、異なる視点から撮像することにより得られる画像Ｐｓ１,Ｐｓ２は、例えば窓の部分等のように見る方向によって明るさが異なる領域や、ユーザの鼻の部分等のように正反射が生じる領域において、輝度成分,色成分につき格差が生じ、対応付けが困難となる場合があった。

このため、これら画像間の対応付けをより柔軟かつロバスト的に求めるために、グローバル最適化という考えに基づいた手法が従来において提案されたおり、その中の手法の一つとして、動的な計画法による画像間マッチング方法が提案されている（例えば、非特許文献６、７参照。）。この画像間マッチング方法では、特徴点同士の対応付けや、その間の伸縮マッチングによって、テクスチャ変化の少ない被写体や、上述した繰り返しパターンの問題を解決できることが示されている。

しかしながら、かかる画像間マッチング方法では、対応付けの精度の面において改善の余地があり、全てのパターンにおいて画像間のミスマッチの低減を図ることができなかった。

特開２００１−５２１７７号公報特開２００２−３００６０２号公報 C.Lawrence Zitnick and Jon A. Webb: Multi-baseline Stereo Using Surface Extraction, Technical Report, CMU-CS-96-196, (1996) Okutomi.M and Kanade.T: A locally adaptive window for signal matching, Int. Journal of Computer Vision, 7(2), pp.143-162, (1992) 奥富、金出：複数の基線長を利用したステレオマッチング、電子情報通信学会論文誌D-II,Vol.J75-D-II,No.8, pp.1317-1327, (1992) H.Baker and T.Binford: Depth from edge and intensity based stereo, In Proc. IJCAI’81, (1981) W.E.L.Grimson: Computational experiments with a feature based stereo algorithm, IEEE Trans. PAMI, Vol.7, No.1, pp.17〜34, (1985) Ohta.Y and Kanade.T.: Stereo by intra- and inter-scanline search using dynamic programming, IEEE PAMI-7(2), 139-154, (1985) Cox I.J. et al.：A Maximum likelihood stereo algorithm, Computer Vision and Image Understanding, 63(3), 542-567,(1996)

そこで本発明は、上述した問題点に鑑みて案出されたものであり、その目的とするところは、各カメラから得られる画像におけるスキャンライン上にある全ての画素につき動的な対応付け（伸縮マッチング）として取り扱うことにより、画像間の対応付けをよりロバストかつ高精度に行うことにより、高画質な仮想視点画像を生成することが可能な画像処理装置及び方法、プログラムを提供することにある。

本発明に係る画像処理装置は、上述した課題を解決するために、少なくとも２台のカメラにより互いに異なる視点から被写体を撮像することにより得られた各画像間において、被写体と関連させつつ互いに同一の水平ライン上にある画素位置毎に対応関係を求めるマッチング手段と、マッチング手段により互いに対応付けされた画素位置並びにその輝度成分から、仮想的に設置される仮想カメラにより生成すべき仮想視点画像を構成する画素位置並びにその輝度成分を求める画像生成手段と、マッチング手段により求められた対応関係に基づき、撮像された各画像間において互いに非対応な画像領域としてのオクリュージョン領域を、仮想視点画像から画素単位で検出する領域検出手段と、領域検出手段により検出されたオクリュージョン領域に対して画像平滑化処理を施す画像処理手段とを備え、マッチング手段は、対応関係を求める各画素位置につき輝度成分及び色成分を比較することによりその類似度を計算するとともに、計算した類似度に応じて対応関係を求め、被写体の各画像間における視差を識別する。

本発明に係る画像処理方法は、上述した課題を解決するために、少なくとも２台のカメラにより互いに異なる視点から被写体を撮像することにより得られた各画像間において、被写体と関連させつつ互いに同一の水平ライン上にある画素位置毎に対応関係を求めるマッチングステップと、マッチングステップにおいて互いに対応付けした画素位置並びにその輝度成分から、仮想的に設置される仮想カメラにより生成すべき仮想視点画像を構成する画素位置並びにその輝度成分を求める画像生成ステップと、マッチングステップにおいて求めた対応関係に基づき、撮像された各画像間において互いに非対応な画像領域としてのオクリュージョン領域を、仮想視点画像から画素単位で検出する領域検出ステップと、領域検出ステップにおいて検出したオクリュージョン領域に対して画像平滑化処理を施す画像処理ステップとを有し、マッチングステップでは、対応関係を求める各画素位置につき輝度成分及び色成分を比較することによりその類似度を計算するとともに、計算した類似度に応じて対応関係を求め、被写体の各画像間における視差を識別する。

本発明に係るプログラムは、上述した課題を解決するために、少なくとも２台のカメラにより互いに異なる視点から被写体を撮像することにより得られた各画像間において、被写体と関連させつつ互いに同一の水平ライン上にある画素位置毎に対応関係を求めるマッチングステップと、マッチングステップにおいて互いに対応付けした画素位置並びにその輝度成分から、仮想的に設置される仮想カメラにより生成すべき仮想視点画像を構成する画素位置並びにその輝度成分を求める画像生成ステップと、マッチングステップにおいて求めた対応関係に基づき、撮像された各画像間において互いに非対応な画像領域としてのオクリュージョン領域を、仮想視点画像から画素単位で検出する領域検出ステップと、領域検出ステップにおいて検出したオクリュージョン領域に対して画像平滑化処理を施す画像処理ステップとを有し、マッチングステップでは、対応関係を求める各画素位置につき輝度成分及び色成分を比較することによりその類似度を計算するとともに、計算した類似度に応じて対応関係を求め、被写体の各画像間における視差を識別することをコンピュータに実行させる。

求めたオクリュージョン領域につき選択的にノイズを除去していくことにより、オクリュージョン領域と非オクリュージョン領域間の輝度成分や色成分の格差により生じるノイズをより効率よく除去することができ、高画質な仮想視点画像を生成することが可能となる。

以下、本発明を実施するための最良の形態について図面を参照しながら詳細に説明する。

本発明を適用した通信システム１は、例えば図１に示すように、Ａ地点のユーザａと、Ｂ地点のユーザｂとの間で、互いに離れた場所から相手の表示像を視認しながら遠隔対話するシステムである。

Ａ地点には、撮影対象としてのユーザａを互いに異なる視点から撮像するカメラ１１ａ、カメラ１２ａと、Ｂ地点側で撮像されたユーザｂの画像をユーザａに対して表示するためのディスプレイ５ａと、カメラ１１ａ,１２ａより撮像された各画像Ｐａ１,Ｐａ２に基づいて仮想視点画像Ｉｍａを生成し、これをネットワーク７を介してＢ地点へ送信する画像処理装置２ａが配設されている。

Ｂ地点には、撮影対象としてのユーザｂを互いに異なる視点から撮像するカメラ１１ｂ、カメラ１２ｂと、Ａ地点側で撮像されたユーザａの画像をユーザｂに対して表示するためのディスプレイ５ｂと、カメラ１１ｂ,１２ｂより撮像された各画像Ｐｂ１,Ｐｂ２に基づいて仮想視点画像Ｉｍｂを生成し、これをネットワーク７を介してＡ地点へ送信する画像処理装置２ｂが配設されている。

なお、この画像処理装置２ａ,２ｂにより生成される上記仮想視点画像Ｉｍａ,Ｉｍｂは、相手の表示像が写し出されるディスプレイ５ａ,５ｂの中心付近において仮想的に設置された仮想カメラにより撮像される画像に相当する。

カメラ１１ａ,１１ｂは、それぞれユーザａ,ｂ側から見てディスプレイ５ａ,５ｂの左側面に設置されてなり、カメラ１２a,１２ｂは、それぞれユーザａ,ｂ側から見てディスプレイの右側面に設置されてなる。このカメラ１１、１２は、撮影方向、撮影画角が固定された状態で設置されるが、各ユーザａ,ｂからの入力される情報に基づき、これらを自在に変更するようにしてもよい。ちなみに、この通信システム１では、ユーザの視線の高さに合わせて設置された２台のカメラにより撮影対象を撮像する場合を例に挙げて説明をする。

ディスプレイ５ａ,５ｂは、それぞれネットワーク７を介して相手側地点から供給される仮想視点画像Ｉｍｂ,Ｉｍａに基づく画像を、例えば液晶表示面を介して表示する。このディスプレイ５ａ,５ｂにおける液晶表示面は、多数の液晶表示素子等からなり、各仮想視点画像Ｉｍｂ,Ｉｍａに基づく出力信号に応じて液晶表示素子を光変調させてユーザに表示する画像を作り出す。

画像処理装置２ａ,２ｂは、通常、パーソナルコンピュータ（ＰＣ）等の電子機器で構成される。これらの画像処理装置２ａ,２ｂは、ネットワーク７を介して互いに通信するための機能を備え、相手側からの要求に応じて画像や音声を送信する。なお、画像処理装置２ａ,２ｂの構成については後において詳細に説明をする。

ネットワーク７は、例えば画像処理装置２と電話回線を介して接続されるインターネット網を始め、ＴＡ／モデムと接続されるＩＳＤＮ（Integrated Services Digital Network）／Ｂ（broadband）−ＩＳＤＮ等のように、情報の双方向送受信を可能とした公衆通信網である。ちなみにこの通信システム１を、一定の狭いエリア内で運用する場合には、このネットワーク７を、ＬＡＮ（Local Area Network）で構成してもよい。さらにこのネットワーク７は、動画像を送信する場合には、インターネットプロトコル（ＩＰ）に基づき、例えばＭＰＥＧ（Moving Picture Experts Group）データを始めとする動画像がある一つのチャネルから継続的に送信される。また静止画像を送信する場合には、動画像を送信するチャネルとは別のチャネルから一定時間毎に送信されることになる。なお、このネットワーク７には、さらに図示しないネットワークサーバを接続してもよい。この図示しないネットワークサーバは、例えばインターネット情報を管理し、画像処理装置２による要求を受けて、自身に格納してある所定の情報を送信する。

次に、画像処理装置２の構成について、画像処理装置２ａを例にとり説明をする。画像処理装置２ａは、図２に示すように、接続されたカメラ１１ａ,１２ａより画像Ｐａ１,Ｐａ２が供給される補正部２０と、この補正部２０にそれぞれ接続されるカメラキャリブレーション部２６並びに第１の切出処理部４１,第２の切出処理部４２と、各切出処理部４１,４２に接続されるマッチング部２９と、さらにこのマッチング部２９に接続される仮想視点画像生成部３０並びにパス検出部４５と、仮想視点画像生成部３０により生成された仮想視点画像Ｉｍａにつき画像平滑化処理を施すフィルタ処理部４３と、このフィルタ処理部４３により処理された仮想視点画像Ｉｍａを相手側の端末装置２ｂへ送信するための出力制御部３１と、各カメラ１１ａ,１２ａに対するユーザａの相対的な位置関係を示す相対位置情報を生成する情報生成部３３とを備えている。

補正部２０は、カメラ１１ａ,１２ａから送信される各画像Ｐａ１,Ｐａ２につき幾何学的な画像補正を施すための幾何学的画像補正部２１,２２と、これら幾何学的画像補正部２１,２２により画像補正が施された画像を正規化するための正規化処理部２４とを備えている。

幾何学的画像補正部２１,２２は、カメラキャリブレーション部２６から送信される、上記カメラ１１ａ,１２ａの幾何学的な位置関係を含む制御情報に基づいて、各画像Ｐａ１,Ｐａ２を補正する。このカメラ１１ａ,１２ａの幾何学的な位置関係は、上述したカメラキャリブレーション部２６から送信される制御情報においてパラメータ化されていてもよい。また、各カメラ１１ａ,１２ａの撮影方向及び／又は撮影画角を変更しつつ撮像を実行する場合には、カメラキャリブレーション部２６においてこれらをパラメータ化し、画像を補正する際にこれらのパラメータを制御情報に含めるようにしてもよい。これにより、幾何学的画像補正部２１,２２は、各カメラ１１ａ,１２ａの撮影方向及び／又は撮影画角に応じてリアルタイムに画像補正することができる。

なお、このカメラキャリブレーション部２６は、同様にカメラ１１ａ,１２ａの各レンズにおける色収差や歪み、光軸のずれを、例えば特開２０００−３５０２３９号公報や、特開平１１−５３５４９号公報に示されているカメラキャリブレーション手法に基づいてパラメータ化し、これらを各補正部２０へ送信するようにしてもよい。かかる場合において補正部２０は、取得したパラメータに基づいて、カメラ１１ａ,１２ａからの画像を射影変換することにより基準となる画像へ合わせ込む。輝度成分等についても同様にカメラ１１ａ,１２ａからの画像間において輝度の誤差が最小となるような射影変換行列を用いることにより互いの調整を図る。

正規化処理部２４は、各幾何学的画像補正部２１,２２において補正された画像がそれぞれ供給され、これらにつき幾何学的正規化処理を施す。この正規化処理部２４は、各カメラにより撮像された各画像Ｐａ１,Ｐａ２の法線方向を合わせる。即ち、この正規化処理部２４は、各画像Ｐａ１,Ｐａ２の法線方向を仮想的に設定された仮想平面πの法線方向に合わせることによりこれを正規化し、それぞれ正規化画像Ｐｍ１,Ｐｍ２,を生成する。かかる場合において、正規化処理部２４は、各カメラ１１ａ,１２ａにより撮像された各画像Ｐａ１,Ｐａ２を上記仮想平面πへ射影するための射影変換行列を求め、求めた射影変換行列に基づいて上記各画像の法線方向を上記仮想平面πの法線方向に合わせる。

ちなみに、カメラキャリブレーション部２６は、カメラ１１ａ,１２ａとしていわゆる固定視点カメラを適用する場合には、予めカメラキャリブレーション部２６により画像Ｐａ１,Ｐａ２の法線方向を取得するようにしてもよい。また、各カメラ１１ａ,１２ａの撮影方向及び／又は撮影画角を変更しつつ撮像を実行する場合には、カメラキャリブレーション部２６においてこれらをパラメータ化し、画像を正規化する際にこれらのパラメータを制御情報に含めるようにしてもよい。これにより、ユーザａ,ｂの位置に応じて撮影方向等を順次変更しつつ撮像を行う場合においても柔軟に対応することができる。

また、このカメラキャリブレーション部２６において、これらのパラメータを図示しないＲＯＭやＲＡＭへ格納しておくことにより、補正部２０は、状況に応じて随時これらを参照することができ、高速な補正処理を実現することができる。またカメラキャリブレーション部２６は、上記カメラ１１ａ,１２ａから画像Ｐａ１,Ｐａ２が供給される度にこれらのパラメータを求めることにより、幾何学的画像補正部２１,２２において精度の高い補正処理を実現することができる。

第１の切出処理部４１は、正規化処理部２４により正規化された正規化画像Ｐｍ１が供給される。この第１の切出処理部４１は、この正規化画像Ｐｍ１から前景画像領域と、その背景画像とをそれぞれ分離する。ちなみにこの前景画像領域は、ユーザａを構成する顔や上半身等が含まれている画像領域を抽出したものであり、背景画像は、画像Ｐｍ１から前景画像領域を除いた画像である。なおこの背景画像は、ユーザａが存在しない場合において、同一の撮影方向,撮影画角によりカメラ１１ａを介して撮像を行った結果得られる画像に相当する。

第２の切出処理部４２は、第１の切出処理部４１と同様に、正規化処理部２４により正規化された正規化画像Ｐｍ２から前景画像領域と、その背景画像とをそれぞれ分離する。

ちなみに、各切出処理部４１,４２は、例えば各カメラ１１ａ,１２ａにより撮像された各画像の色相並びに彩度に基づいて、或いは各カメラに対する被写体の距離に基づいて、これらの前景画像領域と背景画像とを分離するようにしてもよい。

マッチング部２９は、各切出処理部４１,４２において背景画像が切り出された正規化画像Ｐｍ１,Ｐｍ２がそれぞれ供給される。このマッチング部２９は、これら正規化画像Ｐｍ１,Ｐｍ２を構成する各画素位置につき対応関係を求める。

ちなみに、この対応付けは、ユーザａの顔を構成する同一の箇所にある画素位置と輝度成分を正規化画像Ｐｍ１,Ｐｍ２間で抽出して対応をとるようにする。例えば図３に示すように、正規化画像Ｐｍ１のスキャンラインＬ１上にある画素Ｐ１１の対応点については、正規化画像Ｐｍ２のスキャンラインＬ１’上に存在することとなり、そのＬ１’上を探索することにより、最も類似する画素位置Ｐ１１’を対応点として検出することができる。ちなみにマッチング部２９は、この対応付けにつき特徴抽出した箇所のみについて実行してもよいし、正規化画像Ｐｍ１,Ｐｍ２を構成する全ての画素に対して実行してもよい。

情報生成部３３は、画素位置毎に対応関係を求める際に必要な情報を生成し、これをマッチング部２９へ供給する。情報生成部３３は、この生成すべき相対位置情報をカメラ１１ａ,１２ａから被写体としてのユーザａに至るまでの距離を識別し、これに基づく視差情報を生成するようにしてもよい。かかる距離の識別については、各カメラ１１ａ,１２ａにより生成された画像情報からDepth情報を取得することにより実行してもよい。

また、この情報生成部３３は、生成すべき相対位置情報をユーザａのディスプレイ５ａに対する視線方向に基づいて生成してもよい。かかる場合において情報生成部３０は、カメラ１１ａ,１２ａから供給される画像Ｐａ１,Ｐａ２からユーザａの視線方向を取得し、これに基づいて相対位置情報を生成する。これにより、いわば仮想カメラの撮影方向をユーザａの視線方向に合わせ込むことと同様の処理を実現することができる。

仮想視点画像生成部３０は、マッチング部２９により互いに対応付けされた画素位置並びにその輝度成分がそれぞれ入力される。また、仮想視点画像生成部３０は、互いに対応付けされた画素位置並びにその輝度成分から、情報生成部３３より生成された相対位置情報に応じて、新たに生成すべき仮想視点画像Ｉｍａを構成する画素位置並びにその輝度成分を求める。仮想視点画像生成部３０は、求めた画素位置並びにその輝度成分により構成される仮想視点画像Ｉｍａをフィルタ処理部４３へ供給する。

パス検出部４５は、マッチング部２９により求められた対応関係に基づき、撮像された各画像Ｐａ１,Ｐａ２間において互いに非対応な画像領域としての後述するオクリュージョン領域を仮想視点画像から検出する。このパス検出部４５は、仮想視点画像を構成する各画素につきオクリュージョン領域を構成するか否か識別することにより、いわばオクリュージョン領域を画素単位で検出することができる。このパス検出部４５は、検出したオクリュージョン領域をフィルタ処理部４３へ通知する。

フィルタ処理部４３は、仮想視点画像生成部３０において生成された仮想視点画像Ｉｍａにつき、パス検出部４５から通知されたオクリュージョン領域に対して画像平滑化処理を施す。このフィルタ処理部４３により施される画像平坦化処理では、横方向のメディアフィルタリング処理等を行うことにより、仮想視点画像全体のテクスチャ（輝度値と色）の連続性を改善し、突発的なノイズを除去する。

出力制御部３１は、フィルタ処理部４３において生成された仮想視点画像Ｉｍａを、ネットワーク７を介して画像処理装置２ｂへ送信するように制御する。かかる場合において、この出力制御部３１は、カメラ１１ａ,１２ａにより生成された画像Ｐａ１,Ｐａ２を単独で画像処理装置２ｂへ送信するように制御してもよい。

次に、この画像処理装置２ａにおける具体的な動作につき説明をする。

撮影対象としてのユーザａは、カメラ１１ａ,１２ａにより互いに異なる角度から撮影される。その結果、カメラ１１ａ,１２ａにより生成される画像Ｐａ１,Ｐａ２上のユーザａの視線方向、顔の向き等は、互いに異なる状態となる。このような画像Ｐａ１,Ｐａ２は、それぞれ幾何学的画像補正部２１,２２に供給され、カメラキャリブレーション部２６により予め求められた各カメラ１１ａ,１２ａのレンズ歪みや画像中心等のパラメータに基づき、画像の歪みや画像中心がずれないように補正を行う。

これら幾何学的画像補正部２１,２２において補正された各画像Ｐａ１,Ｐａ２は、正規化処理部２４へ供給されると以下に示される方法に基づいて正規化されることになる。

図４は、各カメラ１１ａ,１２ａにより撮像した画像Ｐａ１, Ｐａ２を正規化する場合につき示している。この図４に示されるように、各カメラ１１ａ,１２ａの光学中心Ｃ１,Ｃ２により互いに異なる視点から撮影対象のＭ点へ光軸を合わせて撮像を行うと、これにより生成される画像Ｐａ１,Ｐａ２は、各カメラ１１ａ,１２ａの撮像面に対して平行となる。ここで各カメラ１１ａ,１２ａと、Ｍ点を結ぶ直線の方向は、各カメラにより撮像された各画像Ｐａ１,Ｐａ２の法線方向ｋ１,ｋ２に一致するが、これらは互いに異なる方向を指している。これら各画像Ｐａ１,Ｐａ２の法線方向ｋ１,ｋ２が同一方向となるように幾何学的正規化を行うことにより、画像面が互いに平行な正規化画像Ｐｍ１,Ｐｍ２を作り出す。

この幾何学的正規化は、カメラキャリブレーション部２６により予め求められた射影行列Ｐ１,Ｐ２を用いて、カメラ内部パラメータＡ１,Ａ２、回転行列Ｒ１,Ｒ２、転移行列Ｔ１,Ｔ２を推定することにより実現する。その結果、補正後の画像撮像面の法線方向ｋ１’,ｋ２’が平行化された正規化画像Ｐｍ１,Ｐｍ２を生成することができる。

ちなみに、この幾何学的正規化を施す場合には、光学中心Ｃ１,Ｃ２を含む仮想平面πを設定しておき、この仮想平面πの法線方向に対してこれら各画像Ｐａ１,Ｐａ２の法線方向が同一方向となるように、射影行列Ｐ１,Ｐ２を用いて正規化するようにしてもよい。

正規化処理部２４において上述の如く射影変換された正規化画像Ｐｍ１,Ｐｍ２は、それぞれ第１の切出処理部４１,第２の切出処理部４２により背景画像が切り出される。各正規化画像Ｐｍ１,Ｐｍ２から背景画像を切り出した結果、図５に示すようにユーザａのみを示す画像領域が選択的に抽出された前景画像を取得することができる。これらユーザａのみを示す画像領域間で後述するマッチング処理を行うことにより、背景画像による影響を軽減させた、より効率的なマッチング処理を行うことができ、ひいては仮想視点画像Ｉｍａを精度よく作成することができる。

ちなみに、この第１の切出処理部４１,第２の切出処理部４２により背景画像が切り出された各正規化画像Ｐｍ１,Ｐｍ２は、マッチング部２９において撮影対象と関連させつつ、画素位置毎に対応付けされる。本発明においては、マッチング部２９の前段にある正規化処理部２４において予め正規化され、エピポーラ線が平行化されているため、画素探索のロバスト性を向上させることができる。

これら正規化画像Ｐｍ１とＰｍ２につき、このマッチング部２９において対応付けを行う場合において、図４に示すように正規化画像Ｐｍ１のスキャンラインＬ１上にある画素Ｐ１１の対応点については、正規化画像Ｐｍ２のスキャンラインＬ１’上に存在することとなり、そのＬ１’上を探索することにより、対応点としての画素Ｐ１１’を検出することができる。

例えば図６(a)に示すように、被写体としてのユーザａがそれぞれ写し出された正規化画像Ｐｍ１におけるスキャンラインＬ１上の画素と、正規化画像Ｐｍ２におけるスキャンラインＬ１’上の画素とを対応付けする場合に、スキャンラインＬ１上の特徴点の点列Ｒ１を左から順に｛ａ１,ａ２,ａ３,ａ４,ａ５｝とし、またスキャンラインＬ１’の特徴点の点列Ｒ２を左から順に｛ｂ１,ｂ２,ｂ３,ｂ４,ｂ５｝とする。ここで、互いのスキャンラインＬ１,Ｌ１’上にある特徴点Ｒ１,Ｒ２を被写体との関係において対応付けるとき、先ず、ａ１に対してＬ１’上の特徴点はｂ１が該当し１：１で対応することとなるが、ユーザａの右耳を構成する特徴点ａ２,ａ３に対してＬ１’上の特徴点はｂ２が該当し、２：１で対応することとなる。同様に、ユーザａの左耳を構成する特徴点ａ４に対してＬ１’上の特徴点はｂ３,ｂ４が該当し、１：２で対応することとなる。なお、ａ５に対してＬ１’上の特徴点はｂ５が該当し１：１で対応することとなる。

このように、異なる視点から撮像することにより得られる正規化画像Ｐｍ１,Ｐｍ２では、被写体からカメラに至るまでの距離に基づく視差により、ユーザａの耳の部分等において表示される内容が異なってくる。以下、このような領域をオクリュージョン領域という。かかるオクリュージョン領域では、上記視差により、一方の正規化画像に表示されている被写体の対応点が他方の正規化画像にて隠れてしまうため、従来と同様に、｛（ａ１, ｂ１）、（ａ２, ｂ２）、（ａ３, ｂ３）、（ａ４, ｂ４）、（ａ５, ｂ５）｝と対応付けてしまうと、誤差が生じることになる。

このため、本発明を適用した画像処理装置２ａにおけるマッチング部２９では、かかる視差を識別することにより、図６(a)に示される正規化画像の特徴点の点列Ｒ１,Ｒ２を、結果的に図６(b)に示されるように｛（ａ１, ｂ１）、（ａ２, ｂ２）、（ａ３, ｂ２）、（ａ４, ｂ３）、（ａ４, ｂ４）、（ａ５, ｂ５）｝と対応付けられるように制御する。

具体的には、各正規化画像Ｐｍ１,Ｐｍ２におけるスキャンライン上にある全ての画素につき、図６(c)に示すようなDynamic Programming（ＤＰ：最短経路探索）を利用した動的な対応付けを行う。

この図６(c)におけるｘ軸にスキャンラインＬ１上の特徴点の点列Ｒ１｛ａ１,ａ２,ａ３,ａ４,ａ５｝を配列し、またｙ軸をスキャンラインＬ１’上の特徴点の点列Ｒ２｛ｂ１,ｂ２,ｂ３,ｂ４,ｂ５｝とするとき、図６(b)に示される対応関係をこのグラフにあてはめると、図６(c)に示される太線で示される経路をとることになる。以下、この太線で示される対応点を結ぶ直線を最適経路という。

この最適経路において右上に線形増加する場合には、スキャンラインＬ１,Ｌ１’上を左から右へシフトさせて対応付けする際に、互いの特徴点を１：１で順次シフトさせて対応させることを示している。右上に線形増加する最適経路の例として、スキャンラインＬ１,Ｌ１’上の特徴点（ａ１, ｂ１）から左から右へそれぞれ一つずつシフトさせることにより特徴点（ａ２, ｂ２）を正確に対応付けすることができる。

また、この最適経路において水平方向にシフトする場合には、正規化画像Ｐｍ１,Ｐｍ２間において視差が生じた結果、正規化画像Ｐｍ１において示されている特徴点が正規化画像Ｐｍ２において隠れてしまったことを示唆している。かかる場合には、正規化画像Ｐｍ２上にある１の特徴点に対して、正規化画像Ｐｍ１上にある複数の特徴点を対応付ける。この水平方向にシフトする最適経路の例として、スキャンラインＬ１,Ｌ１’上の特徴点（ａ２, ｂ２）においてユーザａの右耳を示すｂ２は、上述した視差により更にａ３とも対応するため、ｂ２をそのまま維持しつつこれにａ３を対応付ける。

また、この最適経路において垂直方向へシフトする場合には、正規化画像Ｐｍ１,Ｐｍ２間において視差が生じた結果、正規化画像Ｐｍ２において示されている特徴点が正規化画像Ｐｍ１において隠れてしまったことを示唆している。かかる場合には、正規化画像Ｐｍ１上にある１の特徴点に対して、正規化画像Ｐｍ２上にある複数の特徴点を対応付ける。この垂直方向にシフトする最適経路の例として、スキャンラインＬ１,Ｌ１’上の特徴点（ａ４, ｂ３）においてユーザａの左耳を示すａ４は、上述した視差により更にｂ４とも対応するため、ａ４をそのまま維持しつつこれにｂ４を対応付ける。

マッチング部２９は、これら対応付けを、互いの正規化画像Ｐｍ１,Ｐｍ２を構成する全てを構成する、或いは一部を構成するスキャンラインＬ１,Ｌ１’間において実行する。そしてスキャンラインＬ１,Ｌ１’毎に上述した最適経路を求めることにより、特徴点の点列Ｒ１,Ｒ２間における対応付けを行う。

図７は、スキャンラインＬ１,Ｌ１’上の任意の特徴点（ｘ,ｙ）に至るまでの最適経路を求める場合につき示している。

この特徴点（ｘ,ｙ）に至る最適経路は、特徴点（ｘ−１,ｙ−１）から左から右へそれぞれ一つずつシフトさせることにより図７に示されるグラフにおいて右上に線形増加し、或いは特徴点（ｘ−１,ｙ）においてｙをそのまま維持しつつ水平方向に１シフトさせることにより図７に示されるグラフにおいて特徴点（ｘ−１,ｙ）から水平方向へ移動する。さらに、この特徴点（ｘ,ｙ）に至る最適経路は、特徴点（ｘ,ｙ−１）においてｘをそのまま維持しつつ垂直方向へ１シフトさせることにより図７に示されるグラフにおいて特徴点（ｘ,ｙ−１）から垂直方向へ移動することになる。

即ち、特徴点（ｘ,ｙ）を通る最適経路は、図７に示すグラフにおいて、その左,左下,下に位置する特徴点（ｘ−１,ｙ）,（ｘ−１,ｙ−１）,（ｘ,ｙ−１）の何れかを経ることになる。本発明マッチング部２９は、何れの特徴点（ｘ−１,ｙ）,（ｘ−１,ｙ−１）,（ｘ,ｙ−１）を経て特徴点（ｘ,ｙ）へ至るのかにつき、以下に説明する関数を順次求めてゆくことにより決定する。

マッチング部２９は、以下に示すマッチングコスト関数ｄ（ｘ,ｙ）と、動的なオクリュージョンコスト関数ｄｘ（ｘ,ｙ）,ｄｙ（ｘ,ｙ）を求め、求めた各関数に応じて上述した最適経路を求める。マッチングコスト関数ｄ（ｘ,ｙ）は、対応関係を求める各画素位置間における輝度成分及び色成分の類似度を示す関数であり、またオクリュージョンコスト関数ｄｘ（ｘ,ｙ）は、正規化画像Ｐｍ１の正規化画像Ｐｍ２に対する被写体画像の隠れ度合いを示す関数であり、またオクリュージョンコスト関数ｄｙ（ｘ,ｙ）は、正規化画像Ｐｍ２の正規化画像Ｐｍ１に対する被写体画像の隠れ度合いを示す関数である。これらオクリュージョンコスト関数ｄｘ（ｘ,ｙ）,ｄｙ（ｘ,ｙ）は、被写体の各画像間における視差が反映される形となる。

先ず、マッチングコスト関数ｄ（ｘ,ｙ）を求める方法につき説明をする。

ｄ（ｘ,ｙ）につき、比較する輝度成分又は色成分のうち何れに重み付けをするか決定する。この重み付けは、重み付け係数αを用いて、以下の式（１）に基づいて行う。
ｄ_ｋ（ｓ,ｔ）＝α×ｄＹ_ｋ（ｓ,ｔ）＋（１−α）ｄＣ_ｋ（ｓ,ｔ）・・・・・（１）
ここで（ｓ,ｔ）は、特徴点（ｘ,ｙ）に対応する正規化画像Ｐｍ１、正規化画像Ｐｍ２における画素位置を表している。またｋは、正規化画像Ｐｍ１、正規化画像Ｐｍ２の何行目に該当するかを示している（つまりｋ＝ｙ）。この式（１）においてｄＹ_ｋ（ｓ,ｔ）は、正規化画像Ｐｍ１と正規化画像Ｐｍ２との座標（ｓ,ｔ）間における輝度成分の差分絶対値を表し、以下の（２）式で定義される。
ｄＹ_ｋ（ｓ,ｔ）＝｜Ｙ１_ｋ（ｓ,ｔ）−Ｙ２_ｋ（ｓ,ｔ）｜・・・・・（２）
また、この式（１）においてｄＣ_ｋ（ｓ,ｔ）は、正規化画像Ｐｍ１と正規化画像Ｐｍ２との間における色成分の差分絶対値を表し、以下の（３）式で定義される。
ｄＣ_ｋ（ｓ,ｔ）＝｜Ｃ１_ｋ（ｓ,ｔ）−Ｃ２_ｋ（ｓ,ｔ）｜・・・・・（３）
即ち、上記式（１）においてαをより高く設定することにより、求めるｄ_ｋ（ｓ,ｔ）につき、輝度成分の差分絶対値ｄＹ_ｋ（ｓ,ｔ）の成分をより反映させることができる。また上記式（１）においてαをより小さく設定することにより、求めるｄ_ｋ（ｓ,ｔ）につき、色成分の差分絶対値ｄＣ_ｋ（ｓ,ｔ）の成分をより反映させることができる。ちなみに、このαについては、色成分のマッチングコストと、輝度成分のマッチングコストとの平均値を割り当てるようにしてもよい。

ｄ（ｘ,ｙ）は、（１）式により求められるｄ_ｋ（ｓ,ｔ）に基づいて、更に以下の（４）式により求められる。
ｄ（ｘ,ｙ）＝（Σｄ_ｋ（ｓ,ｔ））／２Ｋｋ＝−Ｋ，・・，Ｋ−１
・・・・・・・・・（４）
この（４）式は、スキャンラインの上下に位置する各画素との間で平均をとることにより、ｄ（ｘ,ｙ）を求めることができることを意味している。この（４）式により、求めるｄ（ｘ,ｙ）につきスキャンラインの上下に位置する各画素との相関関係を反映させることができる。これにより対応付け精度の向上を大幅に図ることが可能となる。

即ち、上述の方法により求められるマッチングコストｄ（ｘ,ｙ）は、正規化画像Ｐｍ１と正規化画像Ｐｍ２の画素位置（ｓ,ｔ）における輝度成分、或いは色成分の差分絶対値が大きくなるにつれて増加する。換言すれば、正規化画像Ｐｍ２と正規化画像Ｐｍ１の画素位置（ｓ,ｔ）における輝度成分、或いは色成分の差異が大きくなるにつれて増加し、またこれらが類似するにつれて小さくなる。即ち、このマッチングコストｄ（ｘ,ｙ）により、正規化画像Ｐｍ１と正規化画像Ｐｍ２の画素位置（ｓ,ｔ）における輝度成分、或いは色成分の類似度を計算することが可能となる。

次にオクリュージョンコスト関数ｄｘ（ｘ,ｙ）,ｄｙ（ｘ,ｙ）を求める方法につき説明をする。

これら各オクリュージョンコスト関数ｄｘ（ｘ,ｙ）,ｄｙ（ｘ,ｙ）は、情報生成部３３におより生成される視差情報に基づいて生成される。カメラ１１ａ,１２ａから被写体としてのユーザａに至るまでの距離が小さくなるにつれて（視差が大きくなるにつれて）、オクリュージョン領域の発生する確率が高くなる。かかる場合において、マッチング部２９は、オクリュージョンコスト関数ｄｘ（ｘ,ｙ）,ｄｙ（ｘ,ｙ）を下げることにより対応する。一方、カメラ１１ａ,１２ａから被写体としてのユーザａに至るまでの距離が長くなるにつれて（視差が小さくなるにつれて）、オクリュージョン領域の発生する確率が小さくなる。かかる場合において、マッチング部２９は、オクリュージョンコスト関数ｄｘ（ｘ,ｙ）,ｄｙ（ｘ,ｙ）を上げることにより対応する。

各オクリュージョンコスト関数ｄｘ（ｘ,ｙ）,ｄｙ（ｘ,ｙ）は、以下の式（５）、（６）に基づいて求めることができる。
ｄｘ（ｘ,ｙ）＝β×ｄ（ｘ,ｙ）＋Ｔ０・・・・・・・・（５）
ｄｙ（ｘ,ｙ）＝γ×ｄ（ｘ,ｙ）＋Ｔ１・・・・・・・・（６）
ここで、ｄ（ｘ,ｙ）は、マッチングコストであり、左画像と右画像の輝度値、色合いのばらつきを解消させるべく、オクリュージョンコストを動的に調整するものである。β、γは、ｄ（ｘ,ｙ）の変化率を表しており、予め実験的に求めることができる。またＴ０、Ｔ１は、初期オクリュージョンコスト定数であり、これについても予め実験的に求めることができる。

マッチング部２９は、これら各関数ｄｘ（ｘ,ｙ）,ｄ（ｘ,ｙ）,ｄｙ（ｘ,ｙ）を求めた後、それぞれ以下の式（７）〜式（９）に基づいて累積マッチングコストＣ（ｘ−１,ｙ）,Ｃ（ｘ−１,ｙ−１）,Ｃ（ｘ,ｙ−１）を加算し、総コストｋ１,ｋ２,ｋ３を算出する。
ｋ１＝Ｃ（ｘ−１,ｙ）＋ｄｘ（ｘ,ｙ）・・・・・・・・（７）
ｋ２＝Ｃ（ｘ−１,ｙ−１）＋ｄ（ｘ,ｙ）・・・・・・・（８）
ｋ３＝Ｃ（ｘ,ｙ−１）＋ｄｙ（ｘ,ｙ）・・・・・・・・（９）
ここでＣ（ｘ−１,ｙ）,Ｃ（ｘ−１,ｙ−１）,Ｃ（ｘ,ｙ−１）は、それぞれ特徴点（ｘ−１,ｙ）,（ｘ−１,ｙ−１）,（ｘ,ｙ−１）において求められた累積マッチングコストを示している。ちなみに、特徴点（ｘ,ｙ）における累積マッチングコストＣ（ｘ,ｙ）は、以下の式（１０）に示すように、求めたｋ１,ｋ２,ｋ３の中から最小となるものが割り当てられる。
Ｃ（ｘ,ｙ）＝ｍｉｎ｛ｋ１,ｋ２,ｋ３｝・・・・・・・（１０）
マッチング部２９は、求めた総コストｋ１,ｋ２,ｋ３の中から最小となるものを選択することにより最適経路を求める。

ここで、ｋ１が最小となる場合には、視差が大きくなることにより、正規化画像Ｐｍ１において示されている特徴点が正規化画像Ｐｍ２において遮蔽されたことを意味している。かかる場合には、図７矢印Ｊ１に示すように特徴点（ｘ−１,ｙ）から水平方向にシフトさせることにより特徴点（ｘ,ｙ）に至るように最適経路が求められることになる。

またｋ３が最小となる場合には、視差が大きくなることにより、正規化画像Ｐｍ２において示されている特徴点が正規化画像Ｐｍ１において遮蔽されたことを意味している。かかる場合には、図７矢印Ｊ３に示すように、特徴点（ｘ,ｙ−１）から垂直方向にシフトさせることにより特徴点（ｘ,ｙ）に至るように最適経路が求められることになる。

更に、ｋ２が最小となる場合には、正規化画像Ｐｍ１と正規化画像Ｐｍ２の画素位置（ｓ,ｔ）における輝度成分、或いは色成分の類似度が高いことを意味している。かかる場合には、図７矢印Ｊ２に示すように特徴点（ｘ−１,ｙ−１）から水平、垂直方向に一つずつシフトさせることにより特徴点（ｘ,ｙ）に至るように最適経路が求められることになる。

図８(b)は、図８(a)に示される正規化画像Ｐｍ１と正規化画像Ｐｍ２におけるスキャンラインＬ１,Ｌ１’上にある各特徴点の画素成分（輝度又は色成分）の対応関係を示している。

この図８(a)に示す正規化画像Ｐｍ１において、ユーザａの両側に示される壁の凹部Ｌ２,Ｌ３、並びに正規化画像Ｐｍ２において、ユーザａの両側に示される壁の凹部Ｌ２’,Ｌ３’は、図８(b)において画素成分の差分としてライン状に明確に現れている。同様に、ユーザａを構成する画素成分については、図８(b)の中心付近において画素成分の差分として明確に現れている。

この図８(b)において、最適経路が、スキャンラインＬ１,Ｌ１’上にある各特徴点において同一の画素成分の交点を通過している場合には、ｋ２が最小となる結果、当該画素位置（ｓ,ｔ）における輝度成分、或いは色成分の類似度が高いことが優先されたことを意味している。これに対して、最適経路が、スキャンラインＬ１,Ｌ１’上にある各特徴点において同一の画素成分の交点以外を通過している場合には、ｋ１又はｋ３が最小となる結果、視差により何れかの画像Ｐｍ１,Ｐｍ２が遮蔽されたことを意味している。

このようにして特徴点（ｘ−１,ｙ）,（ｘ−１,ｙ−１）,（ｘ,ｙ−１）の何れかから特徴点（ｘ,ｙ）に至るまでの最適経路が求められることになる。この最適経路が求められるということは、輝度成分及び色成分の類似度と、正規化画像Ｐｍ１,Ｐｍ２間の視差に応じて最適な対応関係が求められていることを意味しており、上記（１０）式より得られるＣ（ｘ,ｙ）についても、画素位置毎に対応関係を求める上での最適な累積マッチングコストとして定義されることになる。これら累積マッチングコストＣ（ｘ,ｙ）を、上記グラフにおいて上、右上、右に位置する特徴点に至るまでの最適経路を求める際に累積的に参酌することができるため、対応付けの精度をより向上させることができる。

また、マッチング部２９では、各関数ｄｘ（ｘ,ｙ）,ｄ（ｘ,ｙ）,ｄｙ（ｘ,ｙ）を全く異なるコンセプトに基づいて算出するため、得られた総コストｋ１,ｋ２,ｋ３を式（１０）に基づいて単純に比較する場合に、撮影環境や被写体に応じて誤差が生じる場合もある。かかる場合には、式（５）,（６）におけるβ,γ,Ｔ０,Ｔ１を撮影環境や被写体に応じて予め最適化しておくことにより、各関数ｄｘ（ｘ,ｙ）,ｄ（ｘ,ｙ）,ｄｙ（ｘ,ｙ）間の格差を解消することができる。

このように本発明を適用した画像処理装置２ａにおけるマッチング部２９では、上記各正規化画像Ｐｍ１,Ｐｍ２間における対応関係を求める際に、識別した類似度及び視差のうち何れを優先させるか決定し、類似度を優先させる場合には、水平ライン上にある同一画素位置間において対応付け、視差を優先させる場合には、一の画素位置に対し同一の水平ライン上にある複数の画素位置を対応付ける。これにより、オクリュージョン領域が存在する場合においてもより正確な対応付けを行うことができる。また、上述の手法に基づいて対応付けを行うことにより、例えば両目部分等の繰り返しパターンや、輝度変化が殆ど生じないいわゆる非特徴点（例えば壁の部分）においても対応付けの精度を向上させることができる。更に、例えば窓の部分等のように見る方向によって明るさが異なる領域や、ユーザの鼻の部分等のように正反射が生じる領域においても、輝度成分,色成分の格差に支配されることが少なく、比較的に容易に対応付けを行うことができる。

なお、本発明を適用した画像処理装置２ａにおけるマッチング部２９では、あくまで上記類似度を計算し、計算した類似度に応じて上記対応関係が求められていれば、上述の効果を得ることができることは勿論である。

仮想視点画像生成部３０では、上述の如くマッチング部２９において求められた対応関係に基づいて、仮想視点画像Ｉｍａを生成する。例えばマッチング部２９において、正規化画像Ｐｍ１における画素位置Ｐ１１に対して、正規化画像Ｐｍ２における画素位置Ｐ１１’がその対応点として特定されていた場合に、かかる画素位置Ｐ１１の座標を図９に示すように（ｘ１,ｙ１）とし、また画素位置Ｐ１１’の座標を（ｘ２,ｙ２）とする。仮想視点画像生成部３１は、かかる画素位置Ｐ１１、Ｐ１１’に対応する仮想視点画像Ｉｍａ上の画素位置の座標（ｘｔ,ｙｔ）を、相対位置情報としてのｍ（≦１）に基づいて以下の式（１１）により決定することができる。
（ｘｔ,ｙｔ）＝（１−ｍ）×（ｘ１,ｙ１）＋ｍ×（ｘ２,ｙ２）・・・（１１）
また画素位置Ｐ１１、Ｐ１１’における輝度成分をそれぞれＪ１１, Ｊ１１’としたときに、かかる仮想視点画像Ｉｍａ上の画素位置Ｐｈにおける輝度成分Ｐｔを以下の式（１２）により決定することができる。

Ｐｔ＝（１−ｍ）×Ｊ１１＋ｍ×Ｊ１１’ ・・・（１２）
このように仮想視点画像生成部３１は、仮想視点画像Ｉｍａを構成する各画素の座標並びにその輝度成分につき、相対位置情報としてのｍに応じて決定することができる。ここでｍは、仮想カメラにおける仮想視点がカメラ１１ａに近くなるにつれて小さくなり、また仮想視点がカメラ１２ａに近くなるにつれて大きくなる。

このため、式（１１）に基づいて決定される座標（ｘｔ,ｙｔ）は、仮想視点がカメラ１１ａに近づくにつれて画素位置Ｐ１１の座標（ｘ１,ｙ１）に近づき、また仮想視点がカメラ１２ａに近づくにつれて画素位置Ｐ１２の座標（ｘ２,ｙ２）に近づくことになる。即ち、座標（ｘｔ,ｙｔ）を、仮想カメラの位置に応じて自在に決定することができるため、仮想視点画像Ｉｍａ上に表示させるユーザａの位置を自在に変化させることができる。

また、式（１２）に基づいて決定される輝度成分Ｐｔは、仮想視点がカメラ１１ａに近づくにつれて画素位置Ｐ１１の輝度成分Ｊ１１に近づき、仮想視点がカメラ１２ａに近づくにつれて画素位置Ｐ１１’の輝度成分Ｊ１１’に近づくことになる。即ち、仮想カメラの位置に応じて、仮想視点画像Ｉｍａ上のユーザａを構成する画素を輝度成分Ｊ１１、又は輝度成分Ｊ１１’に近づけることができる。

特に、カメラ１１ａとカメラ１２ａは互いに撮影方向が異なるため、正規化画像Ｐｍ１上にある画素位置Ｐ１１と、これに対応する正規化画像Ｐｍ２上にある画素位置Ｐ１１’との間では、輝度成分が互いに異なる。この互いに異なる輝度成分の何れか一方を最小値とし、他方が最大値となるようにして、相対位置情報としてのｍに応じて輝度成分Ｐｔを線形に増減させることにより、仮想カメラの位置に応じて仮想視点画像Ｉｍａ上に表示させるユーザａを構成する画素の輝度成分を決定することが可能となる。また、この生成される仮想支点画像Ｉｍａは、上述したマッチング部２９において対応付けられた関係に基づいて生成されるため、得られる画像の画質劣化をより減少させることができる。

上述のようにして画素位置Ｐｈにおける座標（ｘｔ,ｙｔ）並びにその輝度成分Ｐｔを順次決定することにより、生成した仮想視点画像Ｉｍａは、表示されるユーザａの視線方向、顔の向き等は互いに異なっていた正規化画像Ｐｍ１,Ｐｍ２に対して、常時正面を向いている状態となる。

なお、この仮想視点画像生成部３０は、カメラ１１ａ、１２ａの何れか一方のみからしか視認することができないオクリュージョン領域は、互いに対応する画像領域が存在しないため、正規化画像Ｐｍ１,Ｐｍ２間において対応付けすることができない。このため、仮想視点画像Ｉｍａを作る際には、正規化画像Ｐｍ１,Ｐｍ２のうち何れか一方の画像のみを用いることになる。

例えば、スキャンラインＬ１,Ｌ１’上のオクリュージョン領域は、図１０(a)に示す正規化画像Ｐｍ１,Ｐｍ２において、ユーザａの右耳を示す（ａ２, ｂ２）、（ａ３, ｂ２）と対応付けられる領域、並びにユーザｂの左耳を示す（ａ４, ｂ３）、（ａ４, ｂ４）と対応付けられる領域である。このオクリュージョン領域は、正規化画像Ｐｍ１,Ｐｍ２に基づいて生成される図１０(b)に示す仮想視点画像Ｉｍａ上において、斜線で示す領域Ｖ１、Ｖ３に合成されることになる。ちなみに、この仮想視点画像Ｉｍａ上のオクリュージョン領域Ｖ１は、ユーザａの右耳が全て写し出されている正規化画像Ｐｍ１の領域Ｌ１のみにより合成され、また仮想視点画像Ｉｍａ上のオクリュージョン領域Ｖ３は、ユーザａの左耳が全て写し出されている正規化画像Ｐｍ３の領域Ｒ２のみにより合成される。

なお、このスキャンラインＬ１,Ｌ１’上の非オクリュージョン領域Ｖ２は、正規化画像Ｐｍ１の領域Ｌ２と正規化画像Ｐｍ２の領域Ｒ１と互いに対応するため、これら双方に基づいて合成することができる。

即ち、オクリュージョン領域は、正規化画像Ｐｍ１,Ｐｍ２のうち何れか一方のみを用いて生成されるのに対して、非オクリュージョン領域は、正規化画像Ｐｍ１,Ｐｍ２の双方を所定の割合で混ぜ合わせて合成するものであるため、両者間において輝度成分や色成分の格差が生じることがある。その結果、得られる仮想視点画像全体においてテクスチャの連続性を保つことが困難となり、これが画面上のノイズとなって現れてしまうため、相手方のユーザｂに対して違和感を与えることになる。

このため、生成された仮想視点画像Ｉｍａのオクリュージョン領域につき、フィルタ処理部４３において画像平滑化処理を施すことにより、かかる画面上に現れるノイズを除去する。実際にこのフィルタ処理部４３においてフィルタ処理を施すオクリュージョン領域は、パス検出部４５より通知される。このパス検出部４５は、このオクリュージョン領域は、図６(b)に示す経路において、水平方向、又は垂直方向へのシフトを検出することにより容易に識別することができる。

全てのスキャンラインＬ１,Ｌ１’につきオクリュージョン領域を検出すると、当該領域は、図１０(c)に示すような複数の画素で構成される画像領域で表されることになる。スキャンラインは全て画素単位で構成されていてもよいことから、かかるスキャンライン毎に検出されるオクリュージョン領域を画素単位で精度よく求めることも可能となる。

このようにして求められたオクリュージョン領域につき選択的にノイズを除去していくことにより、オクリュージョン領域と非オクリュージョン領域間の輝度成分や色成分の格差により生じるノイズをより効率よく除去することができる。非オクリュージョン領域に対しても同様なノイズ除去が施されると、画像全体、特にユーザの顔領域において画質の劣化が著しくなるが、本発明では、高精度にオクリュージョン領域を抽出することができることから、ノイズ除去に伴う画質の劣化を抑えることが可能となり、ひいてはオクリュージョン領域と非オクリュージョン領域とのテクスチャ連続性を改善することが可能となる。

なお、ノイズ除去処理が施された仮想視点画像Ｉｍａは、出力制御部３１による制御の下、ネットワーク７へ送出される。そして相手側の画像処理装置２ｂへ送信された仮想視点画像Ｉｍａは、画像処理装置２ｂにおける制御の下、ディスプレイ５ｂ上へ表示されることになる。ユーザｂは、ディスプレイ５ｂに表示される仮想視点画像Ｉｍａ上のユーザａを視認しつつ対話をすることになるが、ユーザａの顔、視線方向は正面を向いている状態にあるため、あたかも画面中央付近に設置された仮想カメラで撮像されたような画像を視認しているような感覚を味わうことができる。ユーザａについても同様にディスプレイ５ａに表示される仮想視点画像Ｉｍｂ上のユーザｂを視認しつつ対話をすることになるが、正面を向いているユーザｂを視認することができる。即ち、この通信システム１では、いわば対話するユーザ間において常時視線を一致させたビジュアルコミュニケーションを実現することができ、よりリアルで臨場感のある遠隔対話を実現することができる。

特にこの通信システム１では、少なくとも２台のカメラ１１,１２をディスプレイ５
の両側に配設すれば足り、また被写体の３次元情報をその都度抽出する必要もなくなるため、システム全体が複雑化することがなくなるという利点もある。

また、この通信システム１では、ハーフミラーやホログラムスクリーン、更にはプロジェクタ等のような特殊装置を用いる必要もなく、簡易で安価なシステムを構成することができる。

本発明を適用した通信システムの概略を示す図である。画像処理装置の構成につき説明するための図である。マッチング部における対応付けにつき説明するための図である。各画像Ｐａ１,Ｐａ２の法線方向を合わせる正規化につき説明するための図である。背景画像から前景画像を切り出す場合につき説明するための図である。ＤＰを利用した対応付けにつき説明するための図である。スキャンラインＬ１,Ｌ１’上の任意の特徴点（ｘ,ｙ）に至るまでの最適経路を求める場合につき示す図である。正規化画像Ｐｍ１と正規化画像Ｐｍ２におけるスキャンラインＬ１,Ｌ１’上にある各特徴点の画素成分（輝度又は色成分）の対応関係を示す図である。仮想視点画像を作成する方法につき説明するための図である。オクリュージョン領域についてノイズ除去処理を施す方法につき説明するための図である。画面の左右に設置された２台のカメラにより撮像された各画像間につきステレオ視における対応付けを行う場合について説明するための図である。従来技術の問題点について説明するための図である。

符号の説明

１通信システム、２画像処理装置、５ディスプレイ、７ネットワーク、１１,１２カメラ、２０補正部、２９マッチング部、３０仮想視点画像生成部、３１出力制御部、３３情報生成部

Claims

少なくとも２台のカメラにより互いに異なる視点から被写体を撮像することにより得られた各画像間において、上記被写体と関連させつつ互いに同一の水平ライン上にある画素位置毎に対応関係を求めるマッチング手段と、
上記マッチング手段により互いに対応付けされた画素位置並びにその輝度成分から、仮想的に設置される仮想カメラにより生成すべき仮想視点画像を構成する画素位置並びにその輝度成分を求める画像生成手段と、
上記マッチング手段により求められた対応関係に基づき、上記撮像された各画像間において互いに非対応な画像領域としてのオクリュージョン領域を、上記仮想視点画像から上記画素単位で検出する領域検出手段と、
上記領域検出手段により検出されたオクリュージョン領域に対して画像平滑化処理を施す画像処理手段とを備え、
上記マッチング手段は、上記対応関係を求める各画素位置につき輝度成分及び色成分を比較することによりその類似度を計算するとともに、上記計算した類似度に応じて上記対応関係を求め、上記被写体の各画像間における視差を識別すること
を特徴とする画像処理装置。
上記各カメラにより撮像された各画像から、上記被写体を含む前景画像領域とその背景画像とをそれぞれ分離する画像分離手段をさらに備え、
上記マッチング手段は、上記画像分離手段により分離された各前景画像領域間において上記対応関係を求めること
を特徴とする請求項１記載の画像処理装置。
上記仮想カメラにおける光学中心の上記各カメラに対する相対的な位置関係を示す相対位置情報を生成する情報生成手段をさらに備え、
上記画像生成手段は、上記情報生成手段により生成された相対位置情報に基づいて、上記仮想視点画像を構成する画素位置並びにその輝度成分を求めること
を特徴とする請求項１記載の画像処理装置。
上記マッチング手段は、上記各画像間における対応関係を求める際に、上記計算した類似度及び視差のうち何れを優先させるか決定し、類似度を優先させる場合には、上記水平ライン上にある同一画素位置間において対応付け、視差を優先させる場合には、一の画素位置に対し同一の水平ライン上にある複数の画素位置を対応付けること
を特徴とする請求項１記載の画像処理装置。
上記マッチング手段は、上記類似度を計算する際に比較する輝度成分又は色成分のうち何れかに重み付けをすること
を特徴とする請求項１記載の画像処理装置。
上記マッチング手段は、上記水平ラインの上下に位置する各画素位置における輝度成分及び色成分との相関関係を反映させつつ、上記類似度を計算すること
を特徴とする請求項１記載の画像処理装置。
上記マッチング手段は、上記各カメラから上記被写体までの距離に基づいて上記視差を推定すること
を特徴とする請求項１記載の画像処理装置。
上記画像補正手段は、上記各カメラにより撮像された各画像の法線方向を仮想的に設定された仮想平面の法線方向に合わせること
を特徴とする請求項１記載の画像処理装置。
上記画像補正手段は、上記各カメラにより撮像された各画像を上記仮想平面へ射影するための射影変換行列を求め、求めた射影変換行列に基づいて上記各画像の法線方向を上記仮想平面の法線方向に合わせること
を特徴とする請求項８記載の画像処理装置。
少なくとも２台のカメラにより互いに異なる視点から被写体を撮像することにより得られた各画像間において、上記被写体と関連させつつ互いに同一の水平ライン上にある画素位置毎に対応関係を求めるマッチングステップと、
上記マッチングステップにおいて互いに対応付けした画素位置並びにその輝度成分から、仮想的に設置される仮想カメラにより生成すべき仮想視点画像を構成する画素位置並びにその輝度成分を求める画像生成ステップと、
上記マッチングステップにおいて求めた対応関係に基づき、上記撮像された各画像間において互いに非対応な画像領域としてのオクリュージョン領域を、上記仮想視点画像から上記画素単位で検出する領域検出ステップと、
上記領域検出ステップにおいて検出したオクリュージョン領域に対して画像平滑化処理を施す画像処理ステップとを有し、
上記マッチングステップでは、上記対応関係を求める各画素位置につき輝度成分及び色成分を比較することによりその類似度を計算するとともに、上記計算した類似度に応じて上記対応関係を求め、上記被写体の各画像間における視差を識別すること
を特徴とする画像処理方法。
少なくとも２台のカメラにより互いに異なる視点から被写体を撮像することにより得られた各画像間において、上記被写体と関連させつつ互いに同一の水平ライン上にある画素位置毎に対応関係を求めるマッチングステップと、
上記マッチングステップにおいて互いに対応付けした画素位置並びにその輝度成分から、仮想的に設置される仮想カメラにより生成すべき仮想視点画像を構成する画素位置並びにその輝度成分を求める画像生成ステップと、
上記マッチングステップにおいて求めた対応関係に基づき、上記撮像された各画像間において互いに非対応な画像領域としてのオクリュージョン領域を、上記仮想視点画像から上記画素単位で検出する領域検出ステップと、
上記領域検出ステップにおいて検出したオクリュージョン領域に対して画像平滑化処理を施す画像処理ステップとを有し、
上記マッチングステップでは、上記対応関係を求める各画素位置につき輝度成分及び色成分を比較することによりその類似度を計算するとともに、上記計算した類似度に応じて上記対応関係を求め、上記被写体の各画像間における視差を識別することをコンピュータに実行させるためのプログラム。